Master Data Management : Enregistrements de Référence et Résolution d'Entités
#data-governance#mdm#data-quality#enterprise
Qu'est-ce que la Donnée de Référence ?
La donnée de référence (master data) représente les entités métier fondamentales partagées au sein d'une organisation : clients, produits, fournisseurs, employés, lieux. C'est la donnée que chaque système référence mais qu'aucun système ne possède seul.
Quand la donnée de référence est incohérente, les problèmes se propagent :
- Le même client apparaît trois fois avec des adresses différentes
- Les hiérarchies produit sont en conflit entre l'ERP et le e-commerce
- Le reporting financier ne peut pas réconcilier entre les unités
Concepts Fondamentaux du MDM
| Concept | Définition |
|---|---|
| Golden Record | La version unique et faisant autorité d'une entité de référence |
| Résolution d'Entités | Mise en correspondance et fusion d'enregistrements représentant la même entité |
| Déduplication | Suppression des enregistrements redondants en préservant la complétude |
| Règles de Survie | Logique déterminant quelle valeur "gagne" lors de la fusion |
| Gestion des Hiérarchies | Maintien des relations parent-enfant |
Styles d'Implémentation MDM
| Style | Description | Idéal Pour | Complexité |
|---|---|---|---|
| Registre | Le MDM stocke des liens vers les enregistrements source | Disruption faible, gains rapides | Faible |
| Consolidation | Le MDM crée des golden records depuis les sources, hub lecture seule | Analytics et reporting | Moyenne |
| Coexistence | Le MDM crée des golden records et synchronise vers les sources | Cohérence opérationnelle | Élevée |
| Transaction | Le MDM est le système de référence | Contrôle maximal | Très élevée |
La plupart des organisations commencent par la consolidation et évoluent vers la coexistence.
Résolution d'Entités : Le Problème Difficile
La résolution d'entités détermine si deux enregistrements représentent la même entité. C'est plus difficile qu'il n'y paraît :
- "Jean Dupont" au "123 rue Principale" et "J. Dupont" au "123 Rue Principale" -- même personne ?
- "Acme SARL" et "ACME S.A.R.L." et "Acme Société" -- même entreprise ?
Approches :
- Correspondance déterministe : correspondance exacte sur des clés définies (email, SIRET)
- Correspondance probabiliste : scoring basé sur plusieurs attributs flous
- Correspondance ML : modèles entraînés qui apprennent les patterns de correspondance
Décisions clés :
- Seuil de correspondance : trop bas = faux positifs, trop haut = faux négatifs
- Workflow de revue humaine pour les correspondances incertaines
- Correspondance continue (les nouveaux enregistrements doivent être traités en continu)
Quand le MDM Est Rentable
- Intégration M&A : fusion des bases clients d'entreprises acquises
- Conformité réglementaire : vue client unique pour KYC/AML
- Expérience client : profil cohérent à travers les canaux
- Consolidation financière : hiérarchie unique produit et client pour le reporting
Quand le MDM Échoue
| Pattern | Raison de l'Échec |
|---|---|
| Approche big bang | Vouloir maîtriser toutes les entités d'un coup |
| Technologie d'abord | Acheter un outil sans définir les processus de gouvernance |
| Pas de stewardship | Les golden records se dégradent sans revue humaine continue |
| Ignorer les sources | Corriger les données de référence sans corriger la saisie à la source |
Feuille de Route
- Choisir un domaine d'entité : commencer par client ou produit
- Profiler les données : comprendre les taux de duplication, complétude, cohérence
- Définir les règles de survie : quelle source gagne pour quel attribut
- Implémenter la correspondance : commencer déterministe, ajouter probabiliste si nécessaire
- Établir le stewardship : assigner des data stewards pour la gestion des exceptions
- Mesurer et itérer : suivre le taux de doublons, la couverture des golden records