Hypothesis Testing: p-Values, Statistical Significance & Common Misconceptions

Les tests d'hypothèses permettent de prendre des décisions à partir de données tout en contrôlant le risqué de se tromper. C'est le fondement des tests A/B, des essais cliniques et des décisions produit data-driven — pourtant c'est l'un des concepts les plus mal compris en statistiques.

L'Idée Centrale

Vous avez une question : « Est-ce que cette nouvelle fonctionnalité augmente la conversion ? » Vous observez des données. Mais le hasard existe — peut-être que la conversion a augmenté par pur hasard. Le test d'hypothèse vous donne un cadre pour décider : ce résultat est-il réel, ou du bruit ?

Étape 1 — Définir Deux Hypothèses

Hypothèse	Ce qu'elle dit	Exemple
H0 (hypothèse nulle)	Rien ne s'est passé. Pas d'effet. Statu quo.	« Le nouveau bouton NE change PAS le taux de conversion »
H1 (hypothèse alternative)	Quelque chose s'est passé. Il Y A un effet.	« Le nouveau bouton CHANGE le taux de conversion »

H0 est l'hypothèse par défaut. On supposé que rien ne se passé tant que les données ne nous convainquent pas du contraire. C'est comme la « présomption d'innocence » — H0 est l'innocence, les données sont les preuves.

Étape 2 — Collecter les Données & Calculer une Statistique de Test

Vous lancez votre expérience et calculez une statistique de test — un nombre qui résume à quel point votre résultat observé s'éloigne de ce que H0 prédirait.

Exemple : Vous testez un nouveau bouton de paiement sur 1 000 utilisateurs par groupe.

Groupe	Utilisateurs	Conversions	Taux de conversion
Contrôle (ancien bouton)	1 000	100	10,0 %
Traitement (nouveau bouton)	1 000	125	12,5 %

La différence observée est de +2,5 points de pourcentage. Mais cela pourrait-il arriver par hasard si le bouton n'a aucun effet réel ?

Étape 3 — La p-Value

p-value = la probabilité d'observer un résultat au moins aussi extrême que le vôtre, en supposant que H0 est vraie.

Dans notre exemple : « Si le nouveau bouton n'a véritablement AUCUN effet sur la conversion (H0 est vraie), quelle est la probabilité de voir une différence de +2,5 pp (ou plus) juste par hasard ? »

La p-value répond : « À quel point ces données sont-elles surprenantes SI rien n'a changé ? »

     H0 est vraie (pas d'effet)
     ↓
     À quoi ressembleraient des données aléatoires ?
     ↓
     À quel point MES données sont-elles extrêmes par rapport à ça ?
     ↓
     p-value = probabilité d'être aussi extrême ou plus

Ce que la p-value EST

La probabilité des données (ou plus extrêmes) étant donné H0
Une mesure de l'incompatibilité de vos données avec l'hypothèse nulle
S'écrit : P(données | H0)

Ce que la p-value N'EST PAS

Idée reçue	Pourquoi c'est faux
« p = 0,03 signifie 3 % de chance que H0 soit vraie »	La p-value concerne les DONNÉES, pas H0. C'est P(données\|H0), pas P(H0\|données)
« p = 0,03 signifie 97 % de chance que H1 soit vraie »	Même erreur inversée. La p-value ne dit rien sur la probabilité de H1
« p < 0,05 signifie que l'effet est réel »	Cela signifie « improbable sous H0 » — pas « H1 est vraie ». Les faux positifs existent
« p = 0,05 est significatif, p = 0,06 ne l'est pas »	Il n'y a pas de seuil magique. 0,049 et 0,051 sont pratiquement identiques
« Petite p-value = grand effet »	Un effet minuscule peut donner p < 0,001 avec assez de données. p-value ≠ taillé d'effet

Pensez-y comme une alarme incendie. La p-value vous dit « cette alarme se déclencherait par accident seulement 3 % du temps. » Elle NE vous dit PAS « il y a 97 % de chance qu'il y ait un feu. »

Étape 4 — Règle de Décision (seuil α)

Avant de regarder les données, vous choisissez un niveau de significativité α (typiquement 0,05) :

Si...	Décision	Ce que ça signifie
p ≤ α	Rejeter H0	Les données sont suffisamment improbables sous H0 pour conclure que quelque chose se passé
p > α	Ne pas rejeter H0	Pas assez de preuves pour conclure qu'un effet existe

« Ne pas rejeter H0 » N'EST PAS « H0 est vraie. » Cela signifie : nous n'avons pas assez de preuves pour dire le contraire.

Types d'Erreurs

	H0 est en fait vraie	H0 est en fait fausse
Rejeter H0	Erreur de type I (faux positif) — probabilité = α	Correct ! (vrai positif) — probabilité = puissance
Ne pas rejeter H0	Correct ! (vrai négatif)	Erreur de type II (faux négatif) — probabilité = β

Type d'erreur	En termes de test A/B	Comment la contrôler
Type I (α)	« On a lancé une fonctionnalité qui ne fait rien »	Baisser α (ex. 0,01 au lieu de 0,05)
Type II (β)	« On a tué une fonctionnalité qui marchait »	Augmenter la taille d'échantillon ou la durée
Puissance (1 - β)	« Capacité à détecter un vrai effet »	Viser 80 % de puissance minimum

Puissance Statistique & Taille d'Échantillon

Puissance = probabilité de détecter correctement un effet réel.

Facteur	Effet sur la taille d'échantillon requise
Plus petit effet à détecter	↑ Plus de données nécessaires
Plus haute puissance (β plus bas)	↑ Plus de données nécessaires
α plus bas (significativité plus stricte)	↑ Plus de données nécessaires
Variance de base plus élevée	↑ Plus de données nécessaires

Ordre de grandeur pour les tests A/B :

Effet minimum détectable	Conversion de base	Échantillon approx. par groupe
+2 pp (10 % → 12 %)	10 %	~2 000
+1 pp (10 % → 11 %)	10 %	~8 000
+0,5 pp (10 % → 10,5 %)	10 %	~32 000
+0,1 pp (10 % → 10,1 %)	10 %	~800 000

Détecter de petits effets requiert des échantillons énormes. C'est pourquoi il faut toujours définir l'effet minimum qui compte avant de lancer une expérience.

Intervalles de Confiance > p-Values

Un intervalle de confiance à 95 % vous dit plus qu'une p-value :

Ce qu'il donne	Exemple
Effet estimé	La conversion a augmenté de +2,5 pp
Précision	IC 95 % : [+0,5 pp, +4,5 pp]
Significativité	Si l'IC ne contient pas 0 → significatif à α = 0,05
Significativité pratiqué	La borne basse (+0,5 pp) est-elle suffisante pour agir ?

Alternative Bayésienne

Le test d'hypothèse bayésien donne ce que la plupart des gens veulent vraiment : la probabilité que le traitement soit meilleur.

Fréquentiste	Bayésien
P(données \| H0)	P(H1 \| données) ← ce qui vous intéresse vraiment
« p = 0,03 »	« 95 % de probabilité que B est meilleur que A »
Nécessite une taille d'échantillon fixé	Peut s'arrêter tôt, met à jour les croyances en continu
Seuil de significativité (α)	Distribution a priori + distribution a posteriori

Le test A/B bayésien est de plus en plus adopté (Statsig, GrowthBook, VWO) car les résultats sont plus faciles à interpréter et à communiquer.

Aide-Mémoire des Pièges Courants

Piège	Problème	Solution
Consultation prématurée	Vérifier les résultats répétitivement gonfle les faux positifs	Utiliser le test séquentiel ou s'engager sur une analyse fixé
Comparaisons multiples	Tester 20 métriques → une sera « significative » par hasard	Correction de Bonferroni ou Benjamini-Hochberg
Tests sous-puissants	Ne peut pas détecter les vrais effets → tout semble « non significatif »	Calculer la taille d'échantillon avant de commencer
p-hacking	Ajuster l'analyse jusqu'à p < 0,05	Pré-enregistrer les hypothèses et le plan d'analyse
Ignorer la taille d'effet	Statistiquement significatif ≠ pratiquement important	Toujours rapporter les intervalles de confiance
Confondre corrélation et causalité	Les données observationnelles ne prouvent pas la causalité	Utiliser des expériences randomisées

Cadre de Décision

         Est-ce une expérience randomisée ?
         /                              \
       Oui                               Non
        |                                 |
  Utiliser un test d'hypothèse    Utiliser l'inférence causale
  (t-test, chi-carré, etc.)      (diff-en-diff, VI, etc.)
        |
  Votre échantillon est-il assez grand ?
  (puissance ≥ 80 %)
  /              \
Oui               Non
 |                 |
Lancer le test,  Augmenter l'échantillon
interpréter        ou accepter
avec IC            une puissance moindre

Ressources

Seeing Theory — Visualisation interactive des probabilités et statistiques
[Statistics Done Wrong](�0� — Erreurs statistiques courantes (livre en ligne gratuit)
[Trustworthy Online Controlled Experiments](�0� — Kohavi, Tang & Xu (la bible du test A/B)
Bayesian Methods for Hackers — Stats bayésiennes pratiqués
Khan Academy — Tests d'hypothèses — Fondamentaux pas à pas

:::