Data Lakehouse: The Best of Both Worlds?

La Séparation Historique

Pendant deux décennies, les organisations ont choisi entre deux paradigmes :

Data Warehouse : structuré, schema-on-write, SQL rapide, stockage coûteux, gouverné
Data Lake : semi/non structuré, schema-on-read, stockage économique, flexible, souvent chaotique

Le pattern lakehouse a émergé pour unifier les deux : apporter la structure et la performance du warehouse au stockage à l'échelle du lake.

Un lakehouse ajoute une couche de métadonnées et de transactions au-dessus du stockage objet (S3, GCS, ADLS). Les capacités clés :

Capacité	Fonctionnement
Transactions ACID	Les logs de métadonnées tracent les commits, permettant rollback et cohérence
Application du Schéma	Schema-on-write appliqué au niveau de la table
Évolution du Schéma	Ajout/renommage de colonnes sans réécriture des données
Time Travel	Requêter des snapshots historiques de n'importe quelle table
Batch & Streaming Unifiés	Les mêmes tables supportent écriture batch et upserts streaming
Formats Ouverts	Données stockées en Parquet/ORC, lisibles par tout moteur

Caractéristique	Delta Lake	Apache Iceberg	Apache Hudi
Origine	Databricks	Netflix	Uber
Gouvernance	Linux Foundation	Apache Foundation	Apache Foundation
Support Moteurs	Fort Spark, croissant autres	Le plus large multi-moteur	Fort Spark/Flink
Évolution Partition	Limitée	Native (partitions cachées)	Limitée
Dynamique Communauté (2026)	Très forte	Très forte	Modérée

Dimension	Data Lake	Data Warehouse	Lakehouse
Coût stockage	Faible	Élevé	Faible
Performance requêtes	Variable	Élevée	Élevée (avec optimisation)
Application schema	Aucune	Stricte	Configurable
Types de données	Tous	Structuré uniquement	Tous
Transactions ACID	Non	Oui	Oui
Lock-in fournisseur	Faible	Élevé	Faible-Moyen

Choisir un warehouse quand :

Choisir un lakehouse quand :

Format de table : Iceberg a le support moteur le plus large ; Delta a l'intégration Spark la plus profonde
Moteur de calcul : Spark, Trino, DuckDB, Snowflake (avec Iceberg), Athena
Catalogue : AWS Glue, Hive Metastore, Nessie, Unity Catalog, Polaris
Stratégie de compaction : automatisée vs manuelle, fréquence vs coût