ML Engineering vs ML Research: Bridging Two Worlds

Les organisations de machine learning confondent souvent deux rôles fondamentalement différents : le chercheur ML qui repousse les limites du possible, et l'ingénieur ML qui rend les modèles fiables, scalables et prets pour la production. Mal comprendre la distinction mene a des recrutements desalignes, des équipes frustrees et des modèles qui ne sont jamais déployés.

Matrice de Comparaison des Rôles

Dimension	Chercheur ML	Ingenieur ML	Data Scientist
Objectif principal	Ameliorer la performance du modèle	Livrer des systèmes ML fiables	Générer des insights business
Métrique de succes	SOTA sur benchmarks, publications	Uptime modèle, latence p99	Impact revenu, qualité des decisions
Horizon temporel	Semaines a mois par expérience	Heures a jours par déploiement	Jours a semaines par analyse
Qualité du code	Niveau notebook, exploratoire	Production, testé, révisé	Analytique, reproductible
Competence cle	Theorie statistique, lecture articles	Conception systèmes, calcul distribué	Expertise domaine, communication
Background typique	Doctorat, laboratoire de recherche	Ingénierie logicielle + ML	Statistiques, expertise domaine

Comparaison des Workflows

Workflow Chercheur ML                 Workflow Ingenieur ML
┌──────────────────┐                  ┌──────────────────┐
│ Lire articles,   │                  │ Recevoir artefact│
│ identifier gaps  │                  │ modèle + spec    │
├──────────────────┤                  ├──────────────────┤
│ Concevoir        │                  │ Valider la       │
│ experiences      │                  │ reproductibilite │
├──────────────────┤                  ├──────────────────┤
│ Entrainer        │                  │ Optimiser pour   │
│ modèles (GPU)    │                  │ l'inference      │
├──────────────────┤                  ├──────────────────┤
│ Evaluer sur      │                  │ Construire infra │
│ benchmarks       │                  │ de serving       │
├──────────────────┤                  ├──────────────────┤
│ Iterer sur       │                  │ Deployer,        │
│ l'architecture   │                  │ monitorer, A/B   │
└──────────────────┘                  └──────────────────┘
         │                                      │
         └────────── ZONE DE PASSAGE ───────────┘
              Model registry, experiment
              tracker, suite d'eval partagee

Paysage d'Outils par Role

Categorie	Chercheur ML	Ingenieur ML	Partage
Calcul	Clusters GPU, Jupyter	Kubernetes, inférence serverless	Cloud provider
Suivi expériences	W&B, MLflow (logging)	MLflow (registre, déploiement)	MLflow, W&B
Entraînement	PyTorch, JAX, boucles custom	Pipelines (Kubeflow, SageMaker)	Agnostique
Serving	Flask/FastAPI (prototype)	Triton, TF Serving, Seldon	Contrat API
Monitoring	TensorBoard, notebooks eval	Prometheus, Grafana, Evidently	Dashboards partagés

Options de Modèle Organisationnel

Modèle	Structure	Avantages	Inconvenients	Ideal Pour
Équipe ML centralisee	Une équipe fait recherché + engineering	Contexte complet, boucle serrée	Goulet, deséquilibre competences	Petites orgs (< 20 personnes ML)
Recherche et engineering séparés	Deux équipes distinctes	Specialisation profonde	Friction de passage, objectifs desalignes	Grandes orgs avec mandat recherché
Engineers intégrés	Ingenieurs ML dans les équipes produit	Proche du produit, iteration rapide	Isolation, pratiqués inconsistantes	ML orienté produit
Plateforme + consommateurs	Équipe plateforme ML sert recherché et produit	Infra reutilisable	Équipe plateforme devient goulet	Orgs avec nombreux cas d'usage ML
Pods hybrides	Pods cross-fonctionnels (chercheur + ingénieur + PM)	Meilleur alignement	Couteux, culture mature requise	Produits ML a forte valeur

Taxonomie des Patterns de Passage

Patterns de Passage (Recherche → Engineering)
│
├── Pattern 1 : "Par-dessus le mur"
│   └── Risque : Perte d'information, cycle long
│
├── Pattern 2 : "Registre de modèles partage"
│   └── Risque : Registre devient obsolete
│
├── Pattern 3 : "Pair programming"
│   └── Risque : Temps chercheur sur problèmes infra
│
├── Pattern 4 : "Pipeline template"
│   └── Risque : Contraintes limitent l'innovation
│
└── Pattern 5 : "Contrat d'abord" (Recommande)
    ├── Definir contrat entree/sortie + SLOs en amont
    ├── Chercheur optimise dans les limites du contrat
    └── Ingenieur construit le serving selon la spec

Ressources

Machine Learning Engineering (Andriy Burkov) -- guide pratiqué d'ingénierie ML
Designing Machine Learning Systems (Chip Huyen) -- conception de systèmes ML de bout en bout
MLOps: Continuous Delivery for ML (Google) -- architecture de référence
Rules of Machine Learning (Google) -- 43 règles tirées de l'expérience Google :::