La gestion des données de référence (Master Data Management) par rapport à l’intégration des données
La gestion des données de référence (MDM ou Master Data Management en anglais) et l’intégration des données ou les outils d’extraction, de transformation et de chargement (DI ou ETL) font tous partie d’une architecture complète de gestion des informations d’entreprise (EIM).
Mais il y a un certain niveau de confusion ou de désaccord sur la façon dont ils sont exactement liés les uns aux autres.
Lors d’une récente discussion, on m’a affirmé : « Nous n’avons pas besoin d’un MDM, nous pouvons faire le rapprochement dont nous avons besoin dans nos jobs ETL ». Cette affirmation passe à côté de l’essentiel. Examinons comment on peut comparer ces différentes technologies et comment MDM et ETL se complètent.
ETL et MDM pour en finir avec les soucis liés à la gestion des données
Les outils ETL résolvent les problèmes de données. Les solutions MDM résolvent les problèmes de données.
En ce sens, il s’agit de technologies similaires. L’informatique utilise l’ETL pour déplacer les données d’un endroit ou d’un format à un autre.
« Les solutions MDM résolvent les problèmes commerciaux résultant de données inexactes ou incomplètes. L’entreprise utilise le MDM pour obtenir une vue unique des clients ou des produits, tandis qu’un débat classique entre ELT vs. MDM subsiste souvent face à ces solutions complémentaires.Oui, ce sont tous deux des outils et des technologies qui traitent des données.
Mais ils ne répondent pas à des problèmes identiques et n’abordent pas les problèmes dans la même direction.
Centré sur l’informatique (IT) ou sur le métier (Business)
Les outils ETL sont axés sur le déplacement des données. Le déplacement et la transformation des données restent bien souvent des étapes techniques dont la tâche est déléguée aux équipes informatiques.
Le déploiement d’un entrepôt de données (data warehouse) fournit un exemple type pour illustrer l’utilité des ETL.
Certains problèmes business stratégiques peuvent être définis aux niveaux les plus élevés d’une organisation.
Pour certains problèmes, la solution est un entrepôt de données d’entreprise (EDW). Après avoir défini cet objectif, l’équipe d’architecture détermine les technologies nécessaires pour le réaliser. Il peut s’agir d’une base de données relationnelle SGBD (peut-être une base de données Hadoop à l’échelle du pétaoctet, orientée colonnes, sans partage, MPP, à échelle horizontale). Il y a peut-être un outil de business intelligence (peut-être avec un moteur de visualisation basé sur le cloud, robuste, dynamique, interactif et incitant à la réflexion). Il y a sûrement un outil d’intégration de données (peut-être ETL, ou ELT, ou basé sur SOA).
Toutes ces décisions d’architecture sont gérées par la direction informatique. Les équipes métier ne s’intéressent pas directement à la base de données, à l’outil de BI ou à l’outil ETL. Ils se soucient de l’entrepôt de données global qui leur donne accès aux données dont ils ont besoin pour répondre à certaines questions importantes et obtenir des informations avisées sur leur activité.
Les solutions MDM, d’autre part, sont davantage axées pour résoudre des problèmes métiers. Obtenir une vue plus complète de ses clients est souvent un exemple typique. Nous savons que notre équipe support pourrait mieux aider les utilisateurs s’il disposait d’une vue plus précise / exhaustive et complète du client. Pour ce problème, la gestion des données de référence peut apporter la solution. Bien entendu, une base de données, quelques tableaux de bord et un peu d’intégration de données s’avèrent parfois impliqués pour le projet.
L’équipe métier ne s’intéresse pas directement à la base de données, à la technologie des tableaux de bord ou à l’outil ETL.
Mais elle s’intéresse certainement à la définition précise d’un client et à la manière de remonter ou de descendre dans les hiérarchies.
En d’autres termes, un outil ETL s’adresse à un développeur. Un outil MDM s’adresse à un data steward.
Différents niveaux dans la Stack
Une solution MDM s’appuie presque toujours sur des technologies ETL pour charger ou extraire des données.
Un outil ETL pourrait vivre une vie heureuse sans jamais toucher un projet MDM. Il pourrait être utilisé pour la migration des données, il pourrait synchroniser les données entre les systèmes, il pourrait effectuer des recherches et des transformations.
Les outils ETL ont des fonctionnalités comme celles-ci :
- Attendre un fichier
- Exécuter une requête SQL
- Trouver une valeur dans une table de consultation
Les outils MDM ont des fonctionnalités comme celles-ci :
- Suivre et retracer l’historique d’un golden record (à quoi correspondent les Golden Data ?)
- Modifier les enregistrements pour remplacer les systèmes sources
- Définir des règles de survie
Construire sa propre brique MDM ou acheter / investir dans une solution « Best of Breed »
Lorsque le problème de l’entreprise tourne autour de la consolidation, de la mise en correspondance et du nettoyage des données, l’équipe ETL peut être amenée à penser : « Super ! Notre outil ETL peut rassembler les données. Il peut transformer et nettoyer les données. C’est la solution au problème ».
L’équipe MDM dira, « Super ! Notre technologie MDM peut rassembler les données. Le MDM peut nettoyer et enrichir les données. C’est la solution au problème. »
Mais alors qui a raison ?
Dans de nombreux cas, cela conduit à une discussion classique entre développer sa propre solution et investir dans un nouveau logiciel.
Peut-être ^que dans certains cas, votre technologie ETL existante peut être utilisée pour construire une solution MDM.
Si vos règles de correspondance (matching rules) et vos spécificités pour nettoyer / dédoublonner vos données sont vraiment spécifiques et différentes des standards du marché pour une raison quelconque, alors peut-être que vous devriez construire votre propre plateforme.
Si votre définition d’un client est relativement similaire à la définition qu’en ont l’ensemble des autres acteurs de votre industrie, alors vous devriez penser à investir dans une solution développée et maintenue dans le temps par l’éditeur. La plupart des entreprises ont tendance à acheter leurs solutions MDM plutôt que de les construire.
Il y a quelques exigences communes que beaucoup de clients souhaitent accomplir avec leur master data.
Un bon outil MDM a des choses comme celles-ci pré-construites et pré-testées :
- Cartographie des données (data lineage)- quelles sources ont contribué à cet enregistrement ?
- Version des données (Data versioning) – à quoi ressemblait ce produit l’année dernière ?
- Hiérarchies d’entreprise – de quelle entité mère dépend cette organisation ?
- Interface utilisateur générée automatiquement pour permettre aux utilisateurs non techniques de gérer les données.
- Workflows pour examiner et confirmer les correspondances identifiées par le système.
Avec suffisamment de temps, vous pourriez construire vos propres fonctionnalités à partir de votre outil ETL, mais comme il est souvent préférable de se concentrer sur son cœur d’activité et s’éviter des nuits blanches à coder, nous vous conseillons de les acheter auprès d’un fournisseur MDM.
ETL et MDM, des technologies complémentaires
En fin de compte, c’est une fausse dichotomie dans le sens où chaque entreprise aura à la fois des technologies d’intégration de données de type ETL ou ELT et des solutions de master data management MDM. Elles ne choisissent certainement pas simplement l’une ou l’autre.
Les solutions MDM définissent des règles pour le nettoyage des données, la correspondance et la fusion des enregistrements, l’enrichissement des données, etc. Lorsqu’une anomalie se produit, le MDM achemine les enregistrements incriminés vers un responsable des données pour une intervention manuelle et une approbation. Le responsable des données (data steward), plutôt que le service informatique, possède l’expertise du domaine sur les données de l’entreprise. Le niveau du seuil de confiance détermine le moment où le nettoyage automatisé cède la place à une intervention manuelle. Les data steward sont des experts en la matière qui résident dans l’entreprise. Ils interagissent directement avec le MDM par le biais de son interface utilisateur, ce qui lie la responsabilité de la qualité des données à l’entreprise. Le résultat est une approche de gestion des données beaucoup plus agile.
Mais comment les données arrivent-elles dans le MDM ? Comment font-elles l’aller-retour pour revenir aux systèmes sources ? Les outils ETL fournissent cette partie de la solution.
Ainsi, lorsque votre environnement de gestion de l’information est prêt à gérer vos données de référence, réfléchissez à l’outil MDM à ajouter à votre stack existante, système d’exploitation, bases de données et outils ETL.