Patterns d'Architecture de Données : Lambda, Kappa, Medallion, Mesh & Fabric
Le choix d'un pattern d'architecture de données impacte tout en aval : structure d'équipe, outillage, coût et vitesse à laquelle les insights atteignent les décideurs. Chaque pattern a émergé de contraintes spécifiques. Comprendre ces contraintes évite d'adopter le mauvais pattern par mimétisme.
Comparaison des patterns
| Dimension | Lambda | Kappa | Medallion | Data Mesh | Data Fabric |
|---|---|---|---|---|---|
| Idée centrale | Couches batch + stream | Stream uniquement | Couches Bronze/Silver/Gold | Propriété par domaine | Intégration par métadonnées |
| Complexité | Haute (double pipeline) | Moyenne | Moyenne | Haute (organisationnelle) | Haute (couche métadonnées) |
| Latence | Batch: heures, Stream: secondes | Secondes | Dépend de la couche | Varie par domaine | Variable |
| Modèle d'équipe | Équipe data centralisée | Équipe data centralisée | Centralisé ou plateforme | Équipes domaine fédérées | Centralisé + fédéré |
| Idéal pour | Besoins mixtes batch/temps réel | Streaming pur | Lakehouse / analytique | Grandes orgs, nombreux domaines | Entreprises multi-sources |
| Risque clé | Duplication de code, dérive | Retraitement à l'échelle | Goulot couche Gold | Fragmentation gouvernance | Complexité métadonnées |
Arbre de décision
Début
│
├─ Besoin de traitement temps réel ET batch ?
│ ├─ Oui → Unifiable en un seul flux ?
│ │ ├─ Oui → KAPPA
│ │ └─ Non → LAMBDA
│ └─ Non → Principalement analytique/BI ?
│ ├─ Oui → MEDALLION (Lakehouse)
│ └─ Non → Plusieurs domaines autonomes ?
│ ├─ Oui → DATA MESH
│ └─ Non → Nombreuses sources hétérogènes ?
│ ├─ Oui → DATA FABRIC
│ └─ Non → Commencer simple (warehouse + ELT)
Matrice d'adéquation organisationnelle
| Facteur | Lambda | Kappa | Medallion | Data Mesh | Data Fabric |
|---|---|---|---|---|---|
| Taille org | Moyenne-Grande | Toute | Toute | Grande (50+ ingénieurs) | Entreprise |
| Maturité équipe data | Haute | Moyenne | Faible-Moyenne | Haute | Haute |
| Nombre de domaines | Peu | Peu | Peu-Beaucoup | Nombreux (4+) | Nombreux |
| Besoins réglementaires | Moyen | Moyen | Haut (lignage) | Haut (contrats) | Haut (catalogue) |
| Stratégie cloud | Toute | Streaming-heavy | Vendeur lakehouse | Multi-plateforme | Multi-cloud |
Conseils pratiques
Commencez par Medallion si vous construisez une nouvelle plateforme analytique. Le layering Bronze/Silver/Gold est intuitif et bien outillé (Delta Lake, Apache Iceberg).
Adoptez les principes Data Mesh graduellement. Commencez par un catalogue de données et la propriété de datasets clés par domaine. Ne réorganisez pas les équipes avant d'avoir validé le modèle de gouvernance avec 2-3 domaines.
Lambda est legacy dans la plupart des cas. Si vous opérez Lambda aujourd'hui, évaluez si Kappa ou Medallion peut remplacer la complexité du double pipeline.