A l’heure du Big Data, il est nécessaire de bien comprendre quels sont les différents types de données utilisées dans les organisations. Toutes les entreprises sont aujourd’hui confrontées à la gestion et l’utilisation des données.
Données Transactionnelles, Master Data, Golden Data ou Données de Référence etc. autant de termes que nous clarifions ici.
Dans cet article nous vous livrons tous les éléments pour comprendre les fondamentaux data : quels sont les différents types de données lorsqu’on parle de Data Management (gestion des données) et quel est leur rôle au sein de l’entreprise.
La gestion des données est simple … une fois que vous avez une vue d’ensemble !
Dans la première partie nous vous proposons un aperçu de la classification des données et une description des principales catégories de données :
- données maîtres ;
- données de référence ;
- données de reporting;
- données transactionnelles
- métadonnées.
Puis vous découvrirez pourquoi les données maîtres et les données de référence sont des données de première importance dans toute organisation. Si vous étudiez les possibilités offertes par une solution MDM, reportez-vous aussi à notre guide : qu’est-ce que le Master Data Management (MDM) ?
Quelles sont les différentes types de données ?
Avec la multiplication des données récoltées, comprendre la typologie des données devient crucial pour leur classification et organisation efficace.
Aujourd’hui la classification suivante est la référence commune dans le domaine de la gestion des données. Cette organisation a été présentée dans le passé sous la forme d’une pile, d’une pyramide, ou même d’un diamant comme dans schéma ci-contre ; quelle que soit la forme, la liste des éléments reste la même.
Entrons maintenant dans le détail des différentes catégories de données.
Données transactionnelles
Les données transactionnelles concernent toutes les données acquises au cours d’un processus commercial : elles décrivent des « événements commerciaux ». Une donnée transactionnelle ne sera pas forcément la même pour chaque organisation : elle dépend de la typologie de ses clients (B2B, B2C), de son modèle de vente etc.
Ces données sont fonction du Business Model de l’entreprise ; c’est souvent le plus grand volume de données à traiter.
Voici quelques exemples de ce que nous nommons « événements commerciaux » :
- L’achat de produits auprès de fournisseurs,
- La vente de produits aux clients,
- L’expédition d’articles aux sites des clients,
- L’embauche d’employés, la gestion de leurs vacances ou la modification de leur poste,
Vous utilisez et gérez des données transactionnelles tous les jours ! Elles sont au cœur du fonctionnement de l’entreprise.
Les données transactionnelles sont généralement traitées dans des applications opérationnelles, connues sous les acronymes CRM (Customer Relationship Management), ERP (Enterprise Resource Planning), SCM (Supply Chain Management), SIRH (Système d’information de gestion des ressources humaines), etc
Master Data
Les données de référence ou également nommées données maîtres et plus connu sous la terminologie anglaise de master data sont les données de base et correspondent aux informations commerciales clés qui servent à qualifier des transactions toujours selon le Business modèle de l’organisation.
Les données de base décrivent les clients, produits, pièces, employés, matériaux, fournisseurs, sites, etc. impliqués dans une ou plusieurs transactions.
Elles font souvent référence à :
- des Emplacements : lieux, espaces, situation géographique, sites de production etc.
- des Parties : pour décrire les différentes parties prenantes impliquées : personnes, clients, fournisseurs, employés, etc.
- des Objets : produits, articles, matériaux, véhicules, etc.
Les Master Data sont des « données historiques » : ce sont des données connues et déjà utilisées de façon opérationnelle, afin d’aider à la prise de décision. On rencontre cependant quelques problèmes qui portent principalement sur la qualification de ces données dans les systèmes de gestions :
- Faible qualité des données ;
- Données dispersées voire dupliquées dans différents services ;
- Données qui ne sont pas réellement gérées.
Les Master Data ou données de base sont créées « au fil de l’eau », c’est-à-dire qu’elles sont le produit d’opérations courantes, dans le cadre des activités et des processus opérationnels existants.
Pourtant on observe souvent que ces processus opérationnels sont adaptés à un cas d’utilisation applicatif spécifique de ces données de référence. Elles sont par conséquent le fruit d’une « exception » et ne répondent donc pas aux exigences globales de gestion et d’utilisation dans l’entreprise.
Aujourd’hui les entreprises ont besoin d’avoir des données de référence normalisées qui répondent à des normes de qualité précises. C’est à ce prix que l’entreprise peut s’appuyer sur un socle de données commun afin d’utiliser les mêmes données dans toutes les applications pour une gouvernance data commune.
Données de référence
Il s’agit de données qui sont référencées et partagées par un certain nombre de systèmes à l’œuvre dans les organisations.
La plupart des données de référence font référence à des informations qui ont un impact sur les processus métier – par exemple, le statut d’une commande (CRÉÉE | APPROUVÉE | REJETÉE etc.) – ou sont utilisées comme une sémantique standardisée supplémentaire qui clarifie l’interprétation d’un enregistrement de données – par exemple, le poste d’un employé (JUNIOR | SENIOR | VP | etc.).
Certaines des données de référence peuvent être universelles et/ou normalisées (par exemple, norme internationale de codification des pays ISO 3166-1). D’autres données de référence peuvent être définies par l’entreprise en fonction de son Business model (statut du client) ou dans un domaine d’activité donné (classifications de produits).
Les données de référence sont souvent considérées comme un sous-ensemble des données de base.
Le nom complet de cette catégorie de données est Données de référence de base.
Données de reporting
Les données de reporting sont (définition très courte) des données organisées à des fins de reporting et de business intelligence (BI – informatique décisionnelle). Les données pour le reporting opérationnel ainsi que les données pour le reporting d’entreprise (hautement agrégé) appartiennent à cette catégorie.
Typiquement un tableau de bord qui présente des Indicateurs de performance (KPI) est constitué de données de reporting.
Les données de reporting sont créées à partir de données transactionnelles, de données de base et de données de référence.
Métadonnées ou metadata
Les métadonnées sont des données qui décrivent d’autres données ; elles constituent la définition ou la description sous-jacente des données.Parmi les exemples de métadonnées, citons les propriétés d’un fichier multimédia : sa taille, son type, sa résolution, son auteur et sa date de création.
Les applications logicielles, les documents, les feuilles de calcul et les pages Web sont autant d’exemples de données auxquelles sont généralement associées des métadonnées.
Les données de base, les données de référence et les données de journal ont toutes des métadonnées associées.
Big Data
Le terme « Big Data » a de nombreuses définitions différentes, mais la plus courante est celle de Doug Laney, de Gartner.
Il définit le « big data » à travers les 3 V :
- Volume,
- Variété,
- Vélocité.
De par sa nature même, le big data ne peut être géré efficacement par les technologies traditionnelles. Il s’agit tout simplement de la combinaison des quatre types de données précédents :
- les fichiers journaux ou logs,
- les données transactionnelles,
- les données de référence,
- les données de base.
Données non structurées
Les données non structurées sont des données qui n’ont pas de structure prédéfinie.
Ce type de données fait principalement référence aux données textuelles. Par exemple, un document PDF entre dans cette catégorie. Des domaines tels que le Text Mining peuvent extraire des données pertinentes et structurées à partir de documents non structurés.
Alors, quel est le problème avec les Master Data (ou données de base) ?
Comme nous l’avons vu, ces données sont au cœur des systèmes opérationnels, mais elles ne sont pas toujours suffisamment précises et complètes pour répondre à tous les besoins.
Examinons rapidement deux exemples concrets : l’un ou une transaction d’achat se fait via un téléphone mobile (smartphone) ou à partir d’une application et de l’autre un processus effectué par un formulaire depuis un ordinateur.
Dans le premier cas le processus de commande via téléphone ne devrait pas se contenter de recueillir uniquement les données relatives à la commande. Les adresses de facturation et d’expédition de la partie (entreprise, personne) qui passe la commande doivent également être fournies. Pourtant l’adresse E-mail, puisqu’elle n’est pas nécessaire dans ce processus, ne sera peut-être pas recueillie.
A contrario le même achat effectué en ligne se concentrera sur la qualité de l’adresse électronique, mais ne garantirait pas l’exactitude du numéro de téléphone, etc.
Les données saisies dans ces applications sont en effet adaptées à chaque scénario et usage spécifique à l’application. Mais au niveau de l’entreprise, ces données de base sur les clients devraient inclure des adresses de facturation/expédition précises ainsi qu’une adresse électronique et un numéro de téléphone valides.
Dans tout système de gestion des données, les données transactionnelles et de reporting reposent sur des données de base (et de référence). Par conséquent, si les données de base sont de mauvaise qualité, les informations recueillies ne peuvent pas être exploitées correctement : l’aide à la prise de décision est faussée.
Golden Data (ou également « points de vérité »)
Maintenant, imaginez une base de données hébergeant des enregistrements de clients (ou de produits, d’employés, de sites) avec :
- Toutes les informations pertinentes (agrégées à partir des différentes sources opérationnelles),
- Seulement des informations valides (pas d’adresses incorrectes ou de bounces emails, NPAI),
- Aucun doublon.
Cette base de données sera appelée Golden Data.
Les Golden Data sont une version nettoyée, dédoublonnée, consolidée et validée des données de base originales.
C’est ce que l’on appelle la « Vue à 360° du client » ou « l’unique Vérité » (« Single Version of The Truth ») !
Comme vous pouvez l’imaginer, ces Golden Data / points de vérité ont une valeur énorme pour les applications (BI, opérationnelles, ou autres). Elles révèlent également d’autres défis, qui seront abordés dans les prochains billets.
Réunissez tout au sein d’un Data Hub : grâce à une plateforme de données unifiée
Les plateformes de Master Data Management permettent de rassembler les informations qui vivent à travers les applications afin qu’elles puissent être gouvernées, maîtrisées et gérées d’une manière centralisée et non intrusive.
Pour en savoir plus sur la façon dont une plateforme de données unifiée comme celle proposée par Semarchy permet de résoudre les problèmes de gouvernance des master data, de référence et données collaboratives en entreprise, téléchargez notre eBook pour faire passer le MDM au niveau supérieur.