tadata
Retour à l'accueil

ETL vs ELT : Choisir le Bon Pattern de Pipeline de Données

#data-engineering#etl#elt#data-pipelines#cloud

Le passage d'ETL (Extract-Transform-Load) à ELT (Extract-Load-Transform) reflète la façon dont les entrepôts cloud modernes ont changé l'économie du traitement de données. Comprendre quand utiliser chaque pattern — ou un hybride — est essentiel pour des architectures de données scalables.

La Différence Fondamentale

DimensionETLELT
Lieu de transformationServeur intermédiaire / cluster SparkDans l'entrepôt cible
Coût de calculCompute séparé (Spark, Dataflow)Compute de l'entrepôt (BigQuery, Snowflake, Redshift)
Données brutes dans l'entrepôtNon — seules les données transformées arriventOui — les données brutes arrivent d'abord
FlexibilitéLe schéma doit être défini à l'avanceSchema-on-read, itération libre
LatencePlus élevée (la transformation est un goulot)Plus faible (charger d'abord, transformer ensuite)
Idéal pourTransformations complexes, systèmes legacyAnalytics, stacks cloud-native

Quand l'ETL Reste Pertinent

  • Contrôle qualité à l'ingestion — rejeter les mauvaises données avant qu'elles n'entrent dans l'entrepôt
  • Suppression des données personnelles — les données sensibles ne doivent jamais arriver brutes dans l'entrepôt
  • Enrichissement complexe — jointures avec des APIs externes ou des flux temps réel pendant le traitement
  • Contrôle des coûts — le compute de l'entrepôt est cher ; Spark sur des instances spot peut être 5–10x moins cher pour les transformations lourdes

Quand l'ELT Est le Standard Moderne

  • Entrepôt cloud avec compute élastique — BigQuery, Snowflake, Databricks scalent le compute à la demande
  • Analytics exploratoire — conserver les données brutes, transformer plus tard selon l'évolution des questions métier
  • Workflows dbt — transformation SQL dans l'entrepôt, versionné, testé
  • Délai de mise en valeur réduit — données disponibles en heures, pas en semaines

La Stack ELT Moderne

Sources → Ingestion (Fivetran/Airbyte) → Entrepôt (Snowflake/BigQuery) → Transform (dbt) → BI (Looker/Metabase)
CoucheOutilsRôle
Extract & LoadFivetran, Airbyte, Stitch, AWS DMSDéplacer les données brutes vers l'entrepôt
Transformdbt, Dataform, SQLMeshModélisation SQL dans l'entrepôt
OrchestrationAirflow, Dagster, PrefectPlanifier et surveiller les pipelines
Qualitédbt tests, Great Expectations, SodaValider les données transformées

Approches Hybrides

La plupart des architectures réelles sont hybrides : ELT pour les pipelines analytiques, ETL pour les pipelines opérationnels/conformité.

PatternCas d'usage
ELT + streaming ETLAnalytics batch via ELT ; features temps réel via Kafka + Flink
ETL pour l'ingestion, ELT pour la modélisationSupprimer les données personnelles à l'extraction, modéliser dans l'entrepôt
Reverse ETLPousser les données transformées de l'entrepôt vers les systèmes opérationnels (CRM, marketing)

Cadre de Décision

QuestionSi oui →Si non →
Votre cible est un entrepôt cloud ?ELTEnvisager ETL
Besoin de transformations temps réel ?Streaming ETLELT batch
Les données personnelles doivent être supprimées avant le chargement ?ETL (ou hybride)ELT
Votre équipe est SQL-first ?ELT + dbtETL avec Spark/Python
Les questions métier changent souvent ?ELT (conserver les données brutes)ETL (schéma fixé OK)

Ressources

:::

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.