Data Engineering en 2026 : outils, plateformes et feuille de route
Taxonomy inspired by the MAD 2025 Landscape by Matt Turck / FirstMark. Interactive — pan and zoom to explore.
Le data engineering a évolué bien au-delà des jobs ETL batch pour englober le streaming temps réel, les architectures lakehouse et les couches de transformation déclaratives. Le choix du bon stack dépend de l'échelle, de l'expertise de l'équipe et de la stratégie cloud.
Vue d'ensemble
| Catégorie | AWS | GCP | Azure | Open Source |
|---|---|---|---|---|
| Orchestration | Step Functions, MWAA | Cloud Composer, Workflows | Data Factory, Logic Apps | Airflow, Dagster, Prefect |
| Traitement | Glue, EMR, Athena | Dataflow, BigQuery | Synapse, Databricks | Spark, dbt, Flink, DuckDB |
| Stockage / Lakehouse | S3 + Lake Formation, Redshift | BigQuery, BigLake | OneLake / Fabric | Iceberg, Delta Lake, Hudi |
| Qualité | Glue Data Quality | Dataplex | Purview | Great Expectations, Soda |
| Catalogue | Glue Catalog, DataZone | Dataplex Catalog | Purview | OpenMetadata, DataHub |
Orchestration des données
L'orchestration est la colonne vertébrale de toute plateforme data. Elle définit comment, quand et dans quel ordre les jobs s'exécutent.
AWS propose Step Functions pour l'orchestration serverless et Managed Workflows for Apache Airflow (MWAA) pour les équipes déjà investies dans l'écosystème Airflow.
GCP fournit Cloud Composer (également basé sur Airflow) et Cloud Workflows pour les pipelines légers et event-driven.
Azure s'articule autour d'Azure Data Factory (ADF), qui combine orchestration et déplacement de données dans une interface visuelle unique, plus Logic Apps pour les déclencheurs événementiels.
Open source reste dominé par Apache Airflow, mais de nouveaux entrants comme Dagster et Prefect ont gagné en traction. Le modèle d'assets définis par le code de Dagster apporte une approche déclarative à la conception de pipelines, tandis que Prefect mise sur l'expérience développeur avec une API Python-native. Mage est un autre concurrent en croissance axé sur la simplicité.
Traitement et transformation des données
La couche de traitement est celle où les données brutes deviennent exploitables pour l'analytique.
AWS Glue offre du Spark serverless avec un catalogue de données intégré, tandis qu'Amazon EMR offre plus de contrôle sur les clusters Spark, Hive et Presto. Amazon Athena gère les requêtes SQL ad-hoc directement sur S3.
GCP Dataflow est un runner Apache Beam entièrement géré supportant batch et streaming. BigQuery sert à la fois d'entrepôt et de moteur de traitement avec sa puissante couche SQL.
Azure Synapse Analytics unifie l'entreposage de données, le big data et l'intégration. Azure Databricks (développé conjointement avec Databricks) apporte le paradigme lakehouse à Azure.
Open source : Apache Spark reste le standard pour le traitement à grande échelle. dbt (data build tool) est devenu incontournable pour les transformations SQL avec tests et documentation intégrés. Apache Flink domine le traitement de flux, tandis que DuckDB a émergé comme moteur analytique rapide et embarquable pour les charges locales et moyennes.
Stockage et lakehouse
Le pattern lakehouse — combinant la flexibilité des data lakes avec la fiabilité des entrepôts — est désormais l'architecture par défaut.
AWS repose sur S3 comme fondation, avec Lake Formation pour la gouvernance et Redshift Spectrum pour interroger les données du lac.
GCP BigQuery supporte nativement le modèle lakehouse avec des tables externes sur GCS, et BigLake fournit une gouvernance unifiée.
Azure propose OneLake via Microsoft Fabric, unifiant les données à travers tout le stack analytique.
Open source : les formats de table ouverts sont les vrais catalyseurs — Apache Iceberg (soutenu par Apple, Netflix, et désormais standard de l'industrie), Delta Lake (de Databricks) et Apache Hudi. Apache Iceberg s'est imposé comme le format dominant avec un large support écosystème sur les trois clouds.
Qualité et observabilité des données
Garantir la fiabilité des données n'est plus optionnel.
AWS intègre Glue Data Quality pour la validation basée sur des règles. GCP offre les tâches de qualité Dataplex. Azure fournit les fonctionnalités de qualité de Microsoft Purview.
Open source : Great Expectations reste le framework le plus adopté pour la validation de données. Soda propose une approche YAML plus accessible. Monte Carlo et Bigeye mènent le marché commercial de l'observabilité, tandis que des alternatives open source comme Elementary (pour dbt) et OpenMetadata fournissent lignage et monitoring de qualité.
Considérations pour la feuille de route
Lors de la construction d'un stack data engineering en 2026, considérez :
- Commencez par l'orchestration : choisissez entre Airflow (éprouvé, large écosystème) ou Dagster (moderne, centré sur les assets)
- Adoptez un format lakehouse tôt : Apache Iceberg est le choix le plus sûr pour l'interopérabilité à long terme
- Investissez dans la qualité des données dès le premier jour : ajouter des contrôles qualité après coup est bien plus difficile
- Évaluez managé vs. auto-hébergé : les services managés réduisent la charge opérationnelle mais augmentent le verrouillage cloud
- Planifiez pour le temps réel : même si vous commencez en batch, concevez votre architecture pour accueillir le streaming
La tendance est claire : le stack data moderne se consolide autour de formats ouverts, de transformation déclarative et de gouvernance unifiée. Les fournisseurs cloud rivalisent sur les services managés, mais les fondations open source garantissent la portabilité.
Références
- MAD 2025 Landscape — Matt Turck / FirstMark : cartographie complète de l'écosystème ML, IA & Data
- CNCF Landscape — paysage interactif de la Cloud Native Computing Foundation
- AWS Analytics — services data lake et analytics AWS
- GCP Data Analytics — portfolio analytics Google Cloud
- Azure Analytics — services analytics Microsoft Azure
- dbt Developer Hub — documentation du framework de transformation dbt
- Apache Iceberg — spécification et écosystème du format de table ouvert
- Dagster — plateforme moderne d'orchestration de données
- Great Expectations — framework open source de qualité des données
Comparatif tarifaire
Calcul — Usage général
| Fournisseur | Service / SKU | Specs | Prix | Unité | Région |
|---|---|---|---|---|---|
| Scaleway | DEV1-M | vcpu: 3 · memory: 4 GiB | €0.022 | /1 Hour | PAR1 (Paris, FR) |
| OVHcloud | b3-8 | vcpu: 2 · memory: 8 GiB | €0.038 | /1 Hour | GRA (Gravelines, FR) |
| OVHcloud | b3-16 | vcpu: 4 · memory: 16 GiB | €0.077 | /1 Hour | GRA (Gravelines, FR) |
| Scaleway | GP1-S | vcpu: 8 · memory: 32 GiB | €0.084 | /1 Hour | PAR1 (Paris, FR) |
| GCP | n2-standard-4 | vcpu: 4 · memory: 16 GiB | $0.194 | /h | europe-west1 |
| AWS | m7i.xlarge | vcpu: 4 · memory: 16 GiB | $0.202 | /Hrs | eu-west-3 |
| Azure | Standard_D4s_v5 | vcpu: 4 · memory: 16 GiB | $0.230 | /1 Hour | westeurope |
| GCP | n2-standard-8 | vcpu: 8 · memory: 32 GiB | $0.389 | /h | europe-west1 |
| AWS | m7i.2xlarge | vcpu: 8 · memory: 32 GiB | $0.403 | /Hrs | eu-west-3 |
| Azure | Standard_D4s_v5 | vcpu: 4 · memory: 16 GiB | $0.414 | /1 Hour | westeurope |
| Azure | Standard_D8s_v5 | vcpu: 8 · memory: 32 GiB | $0.460 | /1 Hour | westeurope |
| Azure | Standard_D8s_v5 | vcpu: 8 · memory: 32 GiB | $0.828 | /1 Hour | westeurope |
Stockage objet
| Fournisseur | Service / SKU | Specs | Prix | Unité | Région |
|---|---|---|---|---|---|
| Scaleway | Standard | tier: Standard · redundancy: 3x replication | €0.010 | /1 GB/Month | PAR (Paris, FR) |
| OVHcloud | Standard | tier: Standard · redundancy: 3x replication | €0.011 | /1 GB/Month | GRA (Gravelines, FR) |
| Azure | Hot LRS | tier: Hot · redundancy: LRS | $0.019 | /1 GB/Month | westeurope |
| Azure | Hot LRS | tier: Hot · redundancy: LRS | $0.020 | /1 GB/Month | westeurope |
| GCP | Standard | tier: Standard · redundancy: Multi-region available | $0.020 | /GiBy.mo | europe-west1 |
| AWS | S3-Standard | tier: Standard · redundancy: 3 AZ | $0.023 | /GB-Mo | eu-west-3 |
PostgreSQL géré
| Fournisseur | Service / SKU | Specs | Prix | Unité | Région |
|---|---|---|---|---|---|
| Scaleway | DB-DEV-M | vcpu: 2 · memory: 4 GiB · engine: PostgreSQL | €0.069 | /1 Hour | PAR (Paris, FR) |
| OVHcloud | db2-7 | vcpu: 2 · memory: 7 GiB · engine: PostgreSQL | €0.105 | /1 Hour | GRA (Gravelines, FR) |
| GCP | db-custom-4-16384 | vcpu: 4 · memory: 16 GiB · engine: PostgreSQL | $0.348 | /h | europe-west1 |
| AWS | db.m7g.xlarge | vcpu: 4 · memory: 16 GiB · engine: PostgreSQL | $0.371 | /Hrs | eu-west-3 |
| Azure | Standard_D4ds_v5 | vcpu: 4 · memory: 16 GiB · engine: PostgreSQL Flexible | $0.424 | /1 Hour | westeurope |
Égress réseau
| Fournisseur | Service / SKU | Specs | Prix | Unité | Région |
|---|---|---|---|---|---|
| OVHcloud | Egress-Included | direction: Egress · tier: Included (generous free tier) | Free | /1 GB/Month | GRA (Gravelines, FR) |
| Scaleway | Egress-Standard | direction: Egress · tier: 75 GB free, then per GB | €0.010 | /1 GB/Month | PAR (Paris, FR) |
| GCP | Internet-Egress-EU | direction: Egress · tier: First 10 TB | $0.085 | /GiBy | europe-west1 |
| AWS | Data-Out-Internet | direction: Egress · tier: First 10 TB | $0.090 | /GB | eu-west-3 |
Dernière mise à jour : 2 avril 2026 · Prix indicatifs on-demand, hors taxes. Consultez les sites officiels pour les tarifs en vigueur.