Tests d'Hypothèses : p-Values, Significativité Statistique & Idées Reçues
Les tests d'hypothèses permettent de prendre des décisions à partir de données tout en contrôlant le risqué de se tromper. C'est le fondement des tests A/B, des essais cliniques et des décisions produit data-driven — pourtant c'est l'un des concepts les plus mal compris en statistiques.
L'Idée Centrale
Vous avez une question : « Est-ce que cette nouvelle fonctionnalité augmente la conversion ? » Vous observez des données. Mais le hasard existe — peut-être que la conversion a augmenté par pur hasard. Le test d'hypothèse vous donne un cadre pour décider : ce résultat est-il réel, ou du bruit ?
Étape 1 — Définir Deux Hypothèses
| Hypothèse | Ce qu'elle dit | Exemple |
|---|---|---|
| H0 (hypothèse nulle) | Rien ne s'est passé. Pas d'effet. Statu quo. | « Le nouveau bouton NE change PAS le taux de conversion » |
| H1 (hypothèse alternative) | Quelque chose s'est passé. Il Y A un effet. | « Le nouveau bouton CHANGE le taux de conversion » |
H0 est l'hypothèse par défaut. On supposé que rien ne se passé tant que les données ne nous convainquent pas du contraire. C'est comme la « présomption d'innocence » — H0 est l'innocence, les données sont les preuves.
Étape 2 — Collecter les Données & Calculer une Statistique de Test
Vous lancez votre expérience et calculez une statistique de test — un nombre qui résume à quel point votre résultat observé s'éloigne de ce que H0 prédirait.
Exemple : Vous testez un nouveau bouton de paiement sur 1 000 utilisateurs par groupe.
| Groupe | Utilisateurs | Conversions | Taux de conversion |
|---|---|---|---|
| Contrôle (ancien bouton) | 1 000 | 100 | 10,0 % |
| Traitement (nouveau bouton) | 1 000 | 125 | 12,5 % |
La différence observée est de +2,5 points de pourcentage. Mais cela pourrait-il arriver par hasard si le bouton n'a aucun effet réel ?
Étape 3 — La p-Value
p-value = la probabilité d'observer un résultat au moins aussi extrême que le vôtre, en supposant que H0 est vraie.
Dans notre exemple : « Si le nouveau bouton n'a véritablement AUCUN effet sur la conversion (H0 est vraie), quelle est la probabilité de voir une différence de +2,5 pp (ou plus) juste par hasard ? »
La p-value répond : « À quel point ces données sont-elles surprenantes SI rien n'a changé ? »
H0 est vraie (pas d'effet)
↓
À quoi ressembleraient des données aléatoires ?
↓
À quel point MES données sont-elles extrêmes par rapport à ça ?
↓
p-value = probabilité d'être aussi extrême ou plus
Ce que la p-value EST
- La probabilité des données (ou plus extrêmes) étant donné H0
- Une mesure de l'incompatibilité de vos données avec l'hypothèse nulle
- S'écrit : P(données | H0)
Ce que la p-value N'EST PAS
| Idée reçue | Pourquoi c'est faux |
|---|---|
| « p = 0,03 signifie 3 % de chance que H0 soit vraie » | La p-value concerne les DONNÉES, pas H0. C'est P(données|H0), pas P(H0|données) |
| « p = 0,03 signifie 97 % de chance que H1 soit vraie » | Même erreur inversée. La p-value ne dit rien sur la probabilité de H1 |
| « p < 0,05 signifie que l'effet est réel » | Cela signifie « improbable sous H0 » — pas « H1 est vraie ». Les faux positifs existent |
| « p = 0,05 est significatif, p = 0,06 ne l'est pas » | Il n'y a pas de seuil magique. 0,049 et 0,051 sont pratiquement identiques |
| « Petite p-value = grand effet » | Un effet minuscule peut donner p < 0,001 avec assez de données. p-value ≠ taillé d'effet |
Pensez-y comme une alarme incendie. La p-value vous dit « cette alarme se déclencherait par accident seulement 3 % du temps. » Elle NE vous dit PAS « il y a 97 % de chance qu'il y ait un feu. »
Étape 4 — Règle de Décision (seuil α)
Avant de regarder les données, vous choisissez un niveau de significativité α (typiquement 0,05) :
| Si... | Décision | Ce que ça signifie |
|---|---|---|
| p ≤ α | Rejeter H0 | Les données sont suffisamment improbables sous H0 pour conclure que quelque chose se passé |
| p > α | Ne pas rejeter H0 | Pas assez de preuves pour conclure qu'un effet existe |
« Ne pas rejeter H0 » N'EST PAS « H0 est vraie. » Cela signifie : nous n'avons pas assez de preuves pour dire le contraire.
Types d'Erreurs
| H0 est en fait vraie | H0 est en fait fausse | |
|---|---|---|
| Rejeter H0 | Erreur de type I (faux positif) — probabilité = α | Correct ! (vrai positif) — probabilité = puissance |
| Ne pas rejeter H0 | Correct ! (vrai négatif) | Erreur de type II (faux négatif) — probabilité = β |
| Type d'erreur | En termes de test A/B | Comment la contrôler |
|---|---|---|
| Type I (α) | « On a lancé une fonctionnalité qui ne fait rien » | Baisser α (ex. 0,01 au lieu de 0,05) |
| Type II (β) | « On a tué une fonctionnalité qui marchait » | Augmenter la taille d'échantillon ou la durée |
| Puissance (1 - β) | « Capacité à détecter un vrai effet » | Viser 80 % de puissance minimum |
Puissance Statistique & Taille d'Échantillon
Puissance = probabilité de détecter correctement un effet réel.
| Facteur | Effet sur la taille d'échantillon requise |
|---|---|
| Plus petit effet à détecter | ↑ Plus de données nécessaires |
| Plus haute puissance (β plus bas) | ↑ Plus de données nécessaires |
| α plus bas (significativité plus stricte) | ↑ Plus de données nécessaires |
| Variance de base plus élevée | ↑ Plus de données nécessaires |
Ordre de grandeur pour les tests A/B :
| Effet minimum détectable | Conversion de base | Échantillon approx. par groupe |
|---|---|---|
| +2 pp (10 % → 12 %) | 10 % | ~2 000 |
| +1 pp (10 % → 11 %) | 10 % | ~8 000 |
| +0,5 pp (10 % → 10,5 %) | 10 % | ~32 000 |
| +0,1 pp (10 % → 10,1 %) | 10 % | ~800 000 |
Détecter de petits effets requiert des échantillons énormes. C'est pourquoi il faut toujours définir l'effet minimum qui compte avant de lancer une expérience.
Intervalles de Confiance > p-Values
Un intervalle de confiance à 95 % vous dit plus qu'une p-value :
| Ce qu'il donne | Exemple |
|---|---|
| Effet estimé | La conversion a augmenté de +2,5 pp |
| Précision | IC 95 % : [+0,5 pp, +4,5 pp] |
| Significativité | Si l'IC ne contient pas 0 → significatif à α = 0,05 |
| Significativité pratiqué | La borne basse (+0,5 pp) est-elle suffisante pour agir ? |
Alternative Bayésienne
Le test d'hypothèse bayésien donne ce que la plupart des gens veulent vraiment : la probabilité que le traitement soit meilleur.
| Fréquentiste | Bayésien |
|---|---|
| P(données | H0) | P(H1 | données) ← ce qui vous intéresse vraiment |
| « p = 0,03 » | « 95 % de probabilité que B est meilleur que A » |
| Nécessite une taille d'échantillon fixé | Peut s'arrêter tôt, met à jour les croyances en continu |
| Seuil de significativité (α) | Distribution a priori + distribution a posteriori |
Le test A/B bayésien est de plus en plus adopté (Statsig, GrowthBook, VWO) car les résultats sont plus faciles à interpréter et à communiquer.
Aide-Mémoire des Pièges Courants
| Piège | Problème | Solution |
|---|---|---|
| Consultation prématurée | Vérifier les résultats répétitivement gonfle les faux positifs | Utiliser le test séquentiel ou s'engager sur une analyse fixé |
| Comparaisons multiples | Tester 20 métriques → une sera « significative » par hasard | Correction de Bonferroni ou Benjamini-Hochberg |
| Tests sous-puissants | Ne peut pas détecter les vrais effets → tout semble « non significatif » | Calculer la taille d'échantillon avant de commencer |
| p-hacking | Ajuster l'analyse jusqu'à p < 0,05 | Pré-enregistrer les hypothèses et le plan d'analyse |
| Ignorer la taille d'effet | Statistiquement significatif ≠ pratiquement important | Toujours rapporter les intervalles de confiance |
| Confondre corrélation et causalité | Les données observationnelles ne prouvent pas la causalité | Utiliser des expériences randomisées |
Cadre de Décision
Est-ce une expérience randomisée ?
/ \
Oui Non
| |
Utiliser un test d'hypothèse Utiliser l'inférence causale
(t-test, chi-carré, etc.) (diff-en-diff, VI, etc.)
|
Votre échantillon est-il assez grand ?
(puissance ≥ 80 %)
/ \
Oui Non
| |
Lancer le test, Augmenter l'échantillon
interpréter ou accepter
avec IC une puissance moindre
Ressources
- Seeing Theory — Visualisation interactive des probabilités et statistiques
- [Statistics Done Wrong](�0� — Erreurs statistiques courantes (livre en ligne gratuit)
- [Trustworthy Online Controlled Experiments](�0� — Kohavi, Tang & Xu (la bible du test A/B)
- Bayesian Methods for Hackers — Stats bayésiennes pratiqués
- Khan Academy — Tests d'hypothèses — Fondamentaux pas à pas
:::