Comment assurer une réelle gouvernance des données pour optimiser l’utilisation de la data ?
Entreprises, collectivités, les organisations, de manière générale, génèrent désormais d’immenses quantités de données.
La finalité est de rendre cette donnée disponible, exposable et exploitable pour alimenter les usages métiers. Qu’il s’agisse d’automatiser un processus ou encore de soutenir une prise de décision, la donnée occupe une place centrale.
Mais, avant cela, il faut transformer la donnée brute en donnée utilisable pour les métiers.
Partie immergée de l’iceberg, le traitement de la donnée est au cœur de tous les processus basés sur la data. C’est ce traitement qui permet de croiser et standardiser les données pour les rendre non seulement utilisables, mais aussi fiables et pertinentes.
Cependant, pour assurer les usages métiers, toutes les données ne sont pas utiles à tout le monde.
Comment faire en sorte que chacun puisse avoir facilement accès aux données nécessaires et suffisantes dans le cadre de ses missions ? Comment assurer la disponibilité, l'exploitabilité, l'intégrité et de la sécurité des données utilisées dans une entreprise ?
La réponse se trouve dans la gouvernance des données.
Dans cet article, nous faisons le point sur les enjeux de la Data Gouvernance. Et nous vous expliquons en quoi l’infrastructure Loamics, avec son approche data, permet d’assurer une gouvernance réelle et opérationnelle des données.
Quels sont les enjeux de la gouvernance des données ?
Répondre à une situation de massification des données
Dans les organisations, le volume de données disponibles est plus important que jamais. Prenons l’exemple d’une entreprise. Chaque service génère à lui seul une quantité de données sans précédent : données marketing et commerciales, données comptables et financières, gestion du personnel, exploitation, achats, …
L’accroissement de la masse de données est l’une des conséquences de la transformation digitale. Désormais, la data est le carburant qui permet de digitaliser et automatiser certains process ou de soutenir les prises de décision. Cet accroissement est aussi rendu possible par la démocratisation de nouvelles technologies qui facilitent le recueil des données.
A l’ère du Big Data, la question n’est plus tant de recueillir des données. C’est surtout de savoir comment tirer le meilleur profit des données collectées.
Or, entre le recueil des données et les usages métiers, le traitement de la donnée est un chaînon indispensable. Il s’agit à ce stade de standardiser et d’homogénéiser les données pour rendre la data accessible, fiable, exploitable, rentable et sécurisée.
La gouvernance des données préside justement à cette « régulation » des données. Elle se situe au carrefour entre plusieurs enjeux : techniques, réglementaires, organisationnels, économiques.
Surmonter les écueils du traitement de données
Le traitement de données massives et hétérogènes présentent plusieurs écueils :
- Les doublons de données : plusieurs sources de données reprennent la même donnée mais sous une forme différente
- La nature variée des données liée aux divers domaines fonctionnels : certaines données sont attachées à plusieurs domaines fonctionnels de l’entreprise
- Des données de référence (nomenclature) non homogènes et propres à chaque service : chaque service a développé des règles spécifiques pour le traitement des données qui le concerne
- Des échelles de temps, des mesures et des unités différentes
Les processus ETL ont justement vocation à prendre les données brutes, extraire l'information nécessaire à l'analyse, la transformer en un format capable de répondre aux besoins opérationnels et l’entreposer dans un Data Warehouse.
Cependant, les ETL classiques fonctionnent selon une approche « système et processus ». Les règles business de chaque service conditionnent donc le traitement de la donnée. Et, donc, les écueils du traitement de données persistent.
Une vraie approche data consiste à se baser non plus sur la théorie mais sur les faits en décorrélant les ETL des cas d’usage. Dans cette approche, qui est celle de Loamics, les ETL sont reliés au catalogue de données, permettant ainsi une interopérabilité réelle et efficace.
Les bénéfices d’une Data Gouvernance réelle et opérationnelle
La gouvernance des données est un facteur-clé de succès de la démarche data dans les organisations. Ses bénéfices sont multiples.
En premier lieu, elle permet de travailler sur la donnée de façon optimale. Elle contribue à rendre la donnée disponible, exposable et exploitable pour les usages métiers, en particulier pour les profils-métiers non-IT.
Elle facilite aussi la « ventilation » des données nécessaires et suffisantes aux utilisateurs finaux dans leurs usages. Avec une gouvernance des données efficace, vous pouvez créer des « données en self-service » et gérer des droits d’accès pour les différentes catégories d’utilisateurs.
La Data Gouvernance participe à renforcer le niveau de qualité réel de la donnée, mais aussi sa sécurisation. Elle permet de s’affranchir de l’origine de la donnée, de sa source, de son hétérogénéité et de sa complexité et de faciliter l’analyse et les usages-métiers grâce à des données pertinentes, fiabilisées et sûres.
Comment assurer une Data Gouvernance optimale ?
Traiter les données primaires et les métadonnées
Pour travailler efficacement sur la data, il faut pouvoir prendre en compte toutes les valeurs de la donnée :
- La donnée primaire : par exemple, une température
- Les métadonnées : ce sont les données qui permettent de contextualiser la donnée primaire. Dans le cas d’une température, les métadonnées peuvent être une unité (degrés Celsius ou Fahrenheit), un lieu, une date et une heure, la position du message (par exemple, le 14ème sur 24), …
Toutes ces valeurs de la donnée existent mais elles ne sont pas toutes également utiles pour alimenter les usages-métiers. En fonction des usages, seules certaines valeurs seront nécessaires.
La gouvernance des données consiste justement à sélectionner les valeurs qu’on veut envoyer et uniquement celles-ci. Les profils-métiers ne reçoivent alors que les données nécessaires et suffisantes à la réalisation de leur tâche. Par exemple, on peut très bien choisir de n’envoyer que les valeurs secondaires sans la donnée primaire.
Mettre en place un Data Catalog
Le Data Catalog est l’outil parfait pour définir une donnée, ainsi que sa structure, sa source, sa qualité, son utilisation. C’est aussi un outil collaboratif qui garantit la bonne utilisation de la data.
Un Data Catalog peut être assimilé à un inventaire, un dictionnaire des données d’une entreprise. Intelligent et pratique, il facilite la gestion de la data tout en définissant et organisant toutes les valeurs de la donnée qui sont mises sur le même plan, de la donnée primaire à toutes les métadonnées.
Vous obtenez ainsi un ensemble de données uniformisées, fiables, et facilement actionnables pour en tirer une valeur business.
Le catalogue de données répond à plusieurs enjeux soulevés par la data :
- Où stocker toutes les données accumulées ?
- Comment construire des gisements de données intelligibles ?
- Comment éviter les doublons entre les différentes bases de données ?
- Comment structurer l’ensemble des informations pour répondre aux besoins de tous les métiers de l’entreprise ?
Concrètement, pour mettre en place un catalogue de données, il faut d’abord faire l’inventaire de toutes les valeurs (données primaires et métadonnées), puis tagger toutes ces valeurs. C’est le rôle du data steward. Grâce aux tags, vous pourrez établir des règles et des droits d’accès et définir quelles valeurs doivent sortir et pour qui.
Comment Loamics optimise la gouvernance des données
La solution Loamics répond aux enjeux de gouvernance de données car elle s’appuie justement sur une approche data et non sur une approche systémique comme d’autres solutions. Au lieu de partir des processus et de travailler sur des silos de données, parfois doublonnées d’un service à l’autre, Loamics offre une approche bottom-up basée sur les faits.
En amont, l’infrastructure est capable de collecter l’ensemble des données et métadonnées qui transitent dans l’organisation, de les inventorier, de les taguer et de les rendre disponibles aux utilisateurs métiers au sein d’un Data Catalog.
La data virtualisation est un autre atout de Loamics. Elle permet aux entreprises d’accéder à des données issues de sources disparates et de fournir une visibilité unifiée sur les données plus rapidement, à moindre coût et en utilisant moins de ressources que les approches traditionnelles d’intégration des données.
La virtualisation des données offre deux grands avantages :
- réduire les délais de livraison par rapport aux processus d’extraction, de transformation et de chargement (ETL)
- permettre aux entreprises d’intégrer et de gérer efficacement leurs données là où elles se trouvent, sans les répliquer, et aux utilisateurs techniques et non techniques de répondre rapidement aux questions clés de l’entreprise en utilisant une approche fondée sur les données.
Vous souhaitez faciliter la disponibilité, la fiabilité et l’accessibilité de la donnée pour les utilisateurs métiers ?
Avec son approche data, l’infrastructure Loamics ne préjuge pas des usages qui seront faits de la donnée. Elle facilite la gouvernance de la donnée au service des usages métiers dans une approche ouverte qui favorise l’exploitation des données, la maîtrise des coûts et des temps de traitement ainsi que la création de datasets spécifiques.