Valeur P (P-value)

Dans les tests de signification d'hypothèse nulle, la valeur p est la probabilité d'obtenir des résultats de test au moins aussi extrêmes que le résultat réellement observé, sous…

Dans le contexte des tests de signification d'hypothèse nulle, la valeur p représente la probabilité d'observer des résultats de test qui sont au moins aussi extrêmes que le résultat réel, en supposant que l'hypothèse nulle est vraie. Une valeur p particulièrement faible indique qu'un résultat observé aussi extrême serait hautement improbable sous l'hypothèse nulle. Malgré la pratique répandue consistant à rapporter les valeurs p dans les publications universitaires de nombreuses disciplines quantitatives, leur mauvaise interprétation et leur mauvaise utilisation sont répandues, constituant un sujet de discussion important dans les mathématiques et les métasciences.

En 2016, l'American Statistical Association (ASA) a officiellement déclaré que « les valeurs p ne quantifient pas la probabilité que l'hypothèse étudiée soit exacte, ni la probabilité que les données proviennent uniquement du hasard. » Ils ont en outre déclaré qu'« une valeur p, ou signification statistique, n'évalue pas l'ampleur d'un effet ou l'importance d'une constatation » et « n'offre pas une mesure solide de preuves concernant un modèle ou une hypothèse » en l'absence de « contexte ou de preuves supplémentaires ». Néanmoins, un groupe de travail de l'ASA de 2019 a par la suite publié une déclaration sur la signification statistique et la reproductibilité, affirmant que « les valeurs p et les tests de signification, lorsqu'ils sont utilisés et compris de manière appropriée, améliorent la rigueur des conclusions dérivées des données. »

Concepts fondamentaux

Dans les statistiques, toute proposition concernant la distribution de probabilité inconnue d'un ensemble de variables aléatoires, qui représentent les données observées $X$ dans une étude donnée, est appelée une hypothèse statistique. Lorsqu'une seule hypothèse est posée et que l'objectif du test statistique est de vérifier sa soutenabilité plutôt que d'explorer d'autres hypothèses spécifiques, la procédure est appelée test d'hypothèse nulle.

Étant donné qu'une hypothèse statistique définit intrinsèquement une propriété d'une distribution, l'hypothèse nulle sert d'hypothèse par défaut lorsque cette propriété est absente. En règle générale, l'hypothèse nulle postule qu'un paramètre spécifique (par exemple, une corrélation ou une différence entre les moyennes) au sein des populations étudiées est nul. Une hypothèse peut délimiter avec précision la distribution de probabilité de $X$ , ou il peut simplement indiquer son appartenance à une classe particulière de distributions. Souvent, les données sont condensées en une seule statistique numérique, telle que $T$ , dont la distribution de probabilité marginale est intimement liée à une question de recherche principale.

La valeur p sert dans les tests d'hypothèse nulle pour quantifier la signification statistique d'un résultat, en particulier la valeur observée de la statistique sélectionnée $T$ . Une valeur p inférieure correspond à une probabilité réduite d'obtenir un tel résultat si l'hypothèse nulle était effectivement correcte. Un résultat est considéré comme statistiquement significatif s'il fournit des raisons suffisantes pour rejeter l'hypothèse nulle. Ceteris paribus, des valeurs p plus petites sont interprétées comme des preuves plus convaincantes contre l'hypothèse nulle.

D'une manière générale, le rejet de l'hypothèse nulle suggère la présence de preuves adéquates la contredisant.

Par exemple, considérons une hypothèse nulle affirmant qu'une statistique récapitulative spécifique, notée $T$ , adhère à la distribution normale standard ${\mathcal {N}}(0,1),$ 31§ , §3435§ ) , {\displaystyle {\mathcal {N}}(0,1),> . Dans un tel scénario, le rejet de cette hypothèse nulle pourrait impliquer l'une des trois conditions suivantes : (i) la moyenne de $T$ s'écarte de 0 ; (ii) la variance de $T$ n'est pas 1 ; ou (iii) $T$ ne suit pas une distribution normale. Des tests statistiques distincts pour une hypothèse nulle identique présentent des sensibilités variables aux différentes hypothèses alternatives. Néanmoins, même si l’hypothèse nulle est rejetée avec succès pour les trois alternatives, et en supposant que la distribution est normale avec une variance de 1, le test d’hypothèse nulle lui-même n’indique pas quelles valeurs moyennes non nulles sont les plus probables. Un nombre accru d'observations indépendantes tirées de la même distribution de probabilité améliore l'exactitude du test et améliore la précision avec laquelle la valeur moyenne peut être déterminée et démontrée comme étant différente de zéro. Parallèlement, cela nécessite une évaluation plus rigoureuse de la signification réelle ou scientifique de tout écart observé.

Définition et interprétation

Définition

La valeur p représente la probabilité, en supposant que l'hypothèse nulle est vraie, d'observer une statistique de test au moins aussi extrême que celle réellement obtenue. Étant donné une statistique de test observée $t$ dérivé d'une distribution inconnue $T$ , la valeur p, notée $p$ , quantifie la probabilité a priori d'observer une valeur statistique de test au moins aussi « extrême » que $t$ , en supposant l'hypothèse nulle $H_{0}$ 79§ {\displaystyle H_{0}> est valide. Exprimé formellement :

$p=\Pr(T\geq t\mid H_{0})$ 29§ ) {\displaystyle p=\Pr(T\geq t\mid H_{0})> s'applique à un sens unilatéral, distribution statistique de test à droite.
$p=\Pr(T\leq t\mid H_{0})$ 29§ ) {\displaystyle p=\Pr(T\leq t\mid H_{0})> est utilisé pour un sens unilatéral, distribution statistique de test à gauche.
Pour une distribution statistique de test bilatérale, la valeur p est définie par la formule : $p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ 35§ ) , Pr ( T ≤ t ∣ H §6061§ ) } {\displaystyle p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}} . Si la distribution de la statistique du test $T$ est symétrique par rapport à zéro, la valeur p peut être alternativement exprimée comme : $p=\Pr(|T|\geq |t|\mid H_{0}).$ 137§ ) . {\displaystyle p=\Pr(|T|\geq |t|\mid H_{0}).}

Interprétations

L'erreur qu'un statisticien en exercice juge la plus cruciale d'éviter, un jugement intrinsèquement subjectif, est désignée comme une erreur de type I. L'exigence fondamentale de la théorie mathématique est de formuler des critères de test garantissant que la probabilité de commettre une erreur de type I sera égale, approximativement égale ou ne dépassera pas une valeur numérique prédéfinie, α, telle que 0,05 ou 0,01. Cette valeur spécifique est appelée niveau de signification.

Dans un test de signification, l'hypothèse nulle, notée $H_{0}$ 11§ {\displaystyle H_{0}} , est rejeté si la valeur p est inférieure à une valeur seuil prédéfinie, $\alpha$ , également connu sous le nom de niveau alpha ou niveau de signification. Il est important de noter que $\alpha$ n'est pas dérivé des données empiriques mais est plutôt établi par le chercheur avant l'examen des données. Tandis que $\alpha$ est généralement fixé à 0,05, ce qui représente une chance sur 20, des niveaux alpha inférieurs sont parfois utilisés. Cette norme de 0,05 a été initialement proposée par Ronald Fisher en 1925 dans son ouvrage fondateur, "Méthodes statistiques pour les chercheurs".

Des valeurs p distinctes dérivées d'ensembles de données indépendants peuvent être combinées, par exemple, grâce à l'application du test de probabilité combiné de Fisher.

Distribution

La valeur p, étant fonction de la statistique de test sélectionnée $T$ , constitue intrinsèquement une variable aléatoire. L'hypothèse nulle devrait-elle définir précisément la distribution de probabilité de $T$ (par exemple, $H_{0}:\theta =\theta _{0},$ 45§ : θ = θ §6061§ , {\displaystyle H_{0} :\theta =\theta _{0},> , où $\theta$ représente le seul paramètre), et si cette distribution est continue, alors à condition que l'hypothèse nulle soit vraie, la valeur p présentera une distribution uniforme allant de 0 à 1. Indépendamment de la validité de $H_{0}$ 104§ {\displaystyle H_{0}} , la valeur p reste inchangée ; effectuer le test identique indépendamment avec de nouveaux ensembles de données produira généralement une valeur p distincte pour chaque répétition.

En règle générale, seule une valeur p singulière associée à une hypothèse spécifique est observée, conduisant à son interprétation via un test de signification sans tenter d'estimer sa distribution sous-jacente. Lorsque plusieurs valeurs p sont accessibles, par exemple à partir d'une compilation d'études traitant du même sujet, la distribution résultante des valeurs p significatives est parfois appelée courbe p. La courbe p sert d'outil pour évaluer la fiabilité de la littérature scientifique, facilitant l'identification de problèmes tels que le biais de publication ou le p-piratage.

La distribution des hypothèses composites

Dans le contexte des tests d'hypothèses paramétriques, une hypothèse simple ou ponctuelle postule que la valeur d'un paramètre est un nombre singulier et spécifique. A l'inverse, une hypothèse composite définit la valeur du paramètre comme appartenant à un ensemble de nombres. Si l'hypothèse nulle est composite (ou si la distribution de la statistique est discrète), alors, en supposant que l'hypothèse nulle est vraie, la probabilité d'observer une valeur p inférieure ou égale à tout nombre donné entre 0 et 1 reste inférieure ou égale à ce nombre. Cela implique que des valeurs p extrêmement petites sont comparativement improbables lorsque l'hypothèse nulle est vraie, et un test de signification au niveau $\alpha$ le niveau est effectué en rejetant l'hypothèse nulle si la valeur p est inférieure ou égale à ${\displaystyle \alpha >$ .

Considérons un scénario dans lequel l'hypothèse nulle postule une distribution normale avec une moyenne inférieure ou égale à zéro, tandis que l'hypothèse alternative suggère une moyenne supérieure à zéro ( $H_{0}:\mu \leq 0$ 11§ : μ ≤ §2223§ {\displaystyle H_{0}:\mu \leq 0} , avec variance connue). Dans ces conditions, l’hypothèse nulle ne définit pas précisément la distribution de probabilité pour la statistique de test concernée. Dans ce cas spécifique, la statistique appropriée serait la statistique Z, qui est utilisée dans un test Z unilatéral et à un échantillon. Surtout, la statistique du test Z présente une distribution de probabilité distincte pour chaque valeur potentielle de la moyenne théorique. Par conséquent, la valeur p est déterminée en considérant le cas le moins favorable sous l'hypothèse nulle, généralement situé à la frontière entre les hypothèses nulle et alternative. Cette approche méthodologique garantit la relation complémentaire entre les valeurs p et les niveaux alpha. Par exemple, un niveau alpha de $\alpha =0.05$ implique que l'hypothèse nulle n'est rejetée que si la valeur p est inférieure ou égale à $0.05$ , garantissant ainsi que le test d'hypothèse maintient un taux d'erreur maximal de type I de ${\displaystyle 0,05>$ .

Utilisation

La valeur p sert de mesure fondamentale dans les tests d'hypothèses statistiques, en particulier dans le cadre des tests de signification des hypothèses nulles. Cette méthodologie impose la sélection initiale d'un modèle statistique, représentant l'hypothèse nulle, et un niveau alpha α (généralement fixé à 0,05) avant la collecte des données. Suite à l'analyse des données, si la valeur p calculée tombe en dessous de α, ce résultat est interprété comme une preuve suffisante que les données observées sont incohérentes avec l'hypothèse nulle, conduisant à son rejet. Il est cependant crucial de noter qu’un tel rejet n’établit pas définitivement la fausseté de l’hypothèse nulle. La valeur p, en elle-même, ne quantifie pas les probabilités des hypothèses ; au lieu de cela, il fonctionne comme un instrument pour déterminer s'il faut rejeter l'hypothèse nulle.

Mauvaise utilisation

L'American Statistical Association (ASA) reconnaît un large consensus concernant l'utilisation abusive et la mauvaise interprétation fréquente des valeurs p. Une pratique particulièrement critiquée implique l'acceptation de l'hypothèse alternative uniquement basée sur une valeur p nominalement inférieure à 0,05, en l'absence de preuves corroborantes. Bien que les valeurs p soient utiles pour évaluer le degré d'incompatibilité entre les données observées et un modèle statistique spécifié, il est impératif d'intégrer des éléments contextuels. Ces facteurs contextuels comprennent, sans s'y limiter, « la conception d'une étude, la qualité des mesures, les preuves externes du phénomène étudié et la validité des hypothèses qui sous-tendent l'analyse des données ». De plus, une idée fausse courante est que la valeur p représente la probabilité que l'hypothèse nulle soit vraie. Il est également important de reconnaître que les valeurs p et les tests de signification ne fournissent pas d'informations sur la généralisabilité des résultats d'un échantillon à une population plus large.

Certains statisticiens préconisent l'abandon des valeurs p, proposant à la place de mettre davantage l'accent sur des statistiques inférentielles alternatives, telles que les intervalles de confiance, les rapports de vraisemblance ou les facteurs de Bayes. Cependant, l’aspect pratique de ces alternatives proposées reste un sujet d’intense débat scientifique. Une autre perspective suggère l'élimination des seuils de signification rigides, favorisant l'interprétation des valeurs p comme des indicateurs continus reflétant la force des preuves contre l'hypothèse nulle. Une autre proposition implique de rapporter les valeurs p en même temps que la probabilité préalable d'un effet réel, ce qui serait nécessaire pour obtenir un risque de faux positif (défini comme la probabilité d'un effet nul réel) inférieur à un seuil prédéterminé (par exemple, 5 %).

En 2019, un groupe de travail créé par l'ASA s'est réuni pour évaluer l'application des méthodologies statistiques dans la recherche scientifique, en particulier les tests d'hypothèses et les valeurs p, ainsi que leur relation avec la réplicabilité de la recherche. Le groupe de travail a affirmé que « différentes mesures de l'incertitude peuvent se compléter ; aucune mesure seule ne sert à tous les objectifs », identifiant la valeur p comme l'une de ces mesures. En outre, il a été souligné que les valeurs p offrent des informations significatives à la fois lorsqu'elles sont évaluées individuellement et lorsqu'elles sont comparées à un seuil prédéfini. Collectivement, le rapport souligne que « les valeurs p et les tests de signification, lorsqu'ils sont correctement appliqués et interprétés, augmentent la rigueur des conclusions tirées des données ». Cette perspective a été corroborée par un commentaire publié dans Nature Human Behaviour, qui, en réponse aux propositions plaidant pour une redéfinition de la signification statistique à P ≤ 0,005, suggérait que « les chercheurs devraient rendre compte et justifier de manière transparente tous les choix qu'ils font lors de la conception d'une étude, y compris le niveau alpha ».

Calcul

Habituellement, $T$ représente une statistique de test. Une statistique de test est définie comme la sortie scalaire dérivée d'une fonction appliquée à tous les points de données observés. Cette statistique donne une valeur numérique singulière, illustrée par une statistique t ou une statistique F. Par conséquent, la statistique de test adhère à une distribution spécifique, qui est dictée à la fois par la fonction utilisée dans sa définition et par la distribution sous-jacente des données d'observation d'entrée.

Dans le scénario significatif où les données sont posées comme un échantillon aléatoire tiré d'une distribution normale, divers tests d'hypothèse nulle ont été formulés, en fonction des caractéristiques de la statistique de test et des hypothèses spécifiques concernant sa distribution. Des exemples de ces tests incluent le test z, utilisé pour les hypothèses relatives à la moyenne d'une distribution normale avec une variance connue ; le test t, qui s'appuie sur la distribution t de Student d'une statistique appropriée pour les hypothèses concernant la moyenne d'une distribution normale lorsque la variance est inconnue ; et le test F, dérivé de la distribution F d'une statistique distincte pour les hypothèses liées à la variance. Pour d'autres types de données, tels que les données catégorielles (discrètes), des statistiques de test peuvent être conçues dans lesquelles la distribution de l'hypothèse nulle repose sur des approximations normales de statistiques appropriées, obtenues en appliquant le théorème central limite à de grands échantillons, comme l'illustre le test du Chi carré de Pearson.

Par conséquent, le calcul d'une valeur p nécessite une hypothèse nulle, une statistique de test (ainsi que la détermination de savoir si une un test unilatéral ou bilatéral est en cours) et les données observées. Bien que le calcul de la statistique de test à partir des données fournies puisse être simple, déterminer la distribution d'échantillonnage sous l'hypothèse nulle et calculer ensuite sa fonction de distribution cumulative (CDF) présente souvent un défi considérable. Actuellement, ces calculs sont effectués à l’aide de logiciels statistiques spécialisés, employant généralement des méthodes numériques plutôt que des formules analytiques exactes. Cependant, du début au milieu du 20e siècle, ces calculs reposaient sur des tableaux de valeurs, à partir desquels les valeurs p étaient interpolées ou extrapolées. Au lieu de consulter un tableau de valeurs p, Fisher a choisi d'inverser le CDF, publiant ainsi une compilation de valeurs statistiques de test correspondant à des valeurs p prédéterminées ; cette méthodologie équivaut au calcul de la fonction quantile (CDF inverse).

Exemple

Test de l'équité d'une pièce

Pour illustrer un test statistique, considérons une expérience menée pour déterminer si un tirage au sort est équitable (impliquant une probabilité égale d'atterrir sur pile ou face) ou présente un biais injuste (où un résultat est plus probable que l'autre).

Prenons un scénario expérimental dans lequel une pièce donne face dans 14 lancers sur 20 au total. L'ensemble de données complet $X$

Le calcul de probabilité se présente comme suit :

{\begin{aligned}&\Pr(14{\text{heads}})+\Pr(15{\text{heads}})+\cdots +\Pr(20{\text{heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0,058.\end{aligned}}

72§ §74

{\begin{aligned}&\Pr(14{\text{heads}})+\Pr(15{\text{heads}})+\cdots +\Pr(20{\text{heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0,058.\end{aligned}}

[ ( §9495§ §9697§ ) + ( §114115§ §116117§ ) + ⋯ + ( §139140§ §141142§ ) ] = §159160§ 460 §167168§ 048 576 ≈ 0,058. {\displaystyle {\begin{aligned}&\Pr(14{\text{heads}})+\Pr(15{\text{heads}})+\cdots +\Pr(20{\text{heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\environ 0,058.\end{aligned}}}

Cette probabilité constitue la valeur p, dérivée en considérant exclusivement les résultats extrêmes qui favorisent les faces, une méthodologie connue sous le nom de test unilatéral. Cependant, les chercheurs peuvent également s’intéresser aux écarts dans les deux sens, englobant des résultats favorables soit à pile, soit à face. Dans de tels cas, la valeur p bilatérale, qui prend en compte les écarts dans les deux sens, peut être calculée. Étant donné la symétrie inhérente de la distribution binomiale d'une pièce non biaisée, la valeur p bilatérale est simplement le double de la valeur p unilatérale précédemment déterminée, ce qui donne une valeur p bilatérale de 0,115.

Pour le scénario illustratif présenté précédemment :

L'hypothèse nulle (H§23§) postule que la pièce est impartiale, la probabilité que face (Pr(face)) soit de 0,5.
La statistique de test désignée pour cette analyse est le nombre total de têtes observées.
Le seuil de signification prédéterminé, ou niveau alpha, a été fixé à 0,05.
Le résultat observé, noté O, consistait en 14 faces sur un total de 20 tirages au sort.
La valeur p bilatérale pour l'observation O, en supposant l'hypothèse nulle H§67§, a été calculée comme étant 2 × min(Pr(nombre de têtes ≥ 14), Pr(nombre de têtes ≤ 14)), ce qui donne 2 × min(0,058, 0,978) = 2 × 0,058 = 0,115.

La probabilité d'obtenir 14 têtes ou moins, Pr(nombre de têtes ≤ 14), a été déterminée comme étant 1 − Pr(nombre de têtes ≥ 14) + Pr(nombre de têtes = 14) = 1 − 0,058 + 0,036 = 0,978. Néanmoins, en raison de la symétrie inhérente à cette distribution binomiale, le calcul de la plus petite des deux probabilités rend directement ce calcul spécifique redondant. Dans ce cas, la valeur p calculée dépasse 0,05, ce qui indique que les données observées correspondent aux résultats attendus dans 95 % des essais si la pièce était impartiale. Par conséquent, l'hypothèse nulle n'est pas rejetée au niveau de signification de 0,05.

À l'inverse, si une tête supplémentaire avait été observée, la valeur p bilatérale correspondante aurait été de 0,0414 (4,14 %), conduisant au rejet de l'hypothèse nulle au niveau de signification de 0,05.

Arrêt facultatif

La distinction entre les deux interprétations du terme « extrême » devient évidente lorsque des tests d'hypothèses séquentiels, également appelés arrêts facultatifs, sont appliqués pour évaluer l'équité des pièces. Généralement, l'arrêt facultatif modifie la méthodologie de calcul de la valeur p. Considérez le modèle expérimental suivant :

La pièce est lancée deux fois. Si les deux résultats sont pile ou face, l'expérience se termine.
Sinon, la pièce est lancée quatre fois supplémentaires.

Cette conception expérimentale produit sept types de résultats distincts, dont 2 faces, 2 faces, 5 faces et 1 queue, et ainsi de suite, jusqu'à 1 face et 5 queues. La valeur p pour le résultat spécifique de "3 têtes et 3 queues" sera maintenant calculée.

La statistique du test devrait-elle être # ${\displaystyle {\text{heads}}/{\text{tails}}>$ être employé, puis sous l'hypothèse nulle (plus précisément, # ${\text{heads}}\leq 3$ ), la valeur p bilatérale est précisément égale à 1. De plus, la queue gauche unilatérale La valeur p et la valeur p unilatérale droite sont exactement $19/32$ .

Si tous les résultats avec une probabilité égale ou inférieure à celle de « 3 pile et 3 pile » sont classés comme « au moins aussi extrêmes », alors la valeur p est précisément ${\displaystyle 1/2.>$ .

À l'inverse, si la conception expérimentale avait stipulé un nombre fixe de six lancers de pièces, quels que soient les résultats intermédiaires, la définition alternative de la valeur p donnerait une valeur p d'exactement 1 pour le résultat « 3 pile et 3 queues ».

Par conséquent, la définition « au moins aussi extrême » de la valeur p est fortement dépendant du contexte, dépend de la méthodologie planifiée de l'expérimentateur, englobant même des scénarios qui ne se sont pas concrétisés.

Historique

Le calcul des valeurs P est né dans les années 1700 et a été initialement appliqué au sex-ratio humain à la naissance afin de déterminer la signification statistique par rapport à une hypothèse nulle d'égalité des probabilités pour les naissances masculines et féminines. John Arbuthnot a étudié ce phénomène en 1710, analysant les registres de naissance de Londres couvrant 82 ans, de 1629 à 1710. De manière constante, le nombre de naissances d'hommes à Londres dépassait celui des femmes chaque année. En supposant une probabilité égale qu'il y ait plus de naissances chez les garçons ou chez les filles, la probabilité de ce résultat observé était de 1/2⁸², soit environ 1 sur 4,836 × 1024, ce qui, en termes contemporains, représente la valeur p. Cette probabilité extrêmement faible a conduit Arbuthnot à conclure que le déséquilibre observé n'était pas une coïncidence mais plutôt attribuable à la providence divine, déclarant : « D'où il s'ensuit que c'est l'art, et non le hasard, qui gouverne ». Dans le langage statistique moderne, il a effectivement rejeté l'hypothèse nulle de naissances masculines et féminines également probables au niveau de signification p = 1/2⁸². Les contributions d'Arbuthnot, y compris ce travail, sont reconnues comme «… la première utilisation de tests de signification…», l'instance inaugurale de raisonnement concernant la signification statistique, et «… peut-être le premier rapport publié d'un test non paramétrique…», en particulier le test de signe.

Par la suite, Pierre-Simon Laplace a abordé la question identique, en utilisant un test paramétrique qui modélisait le nombre de naissances masculines à l'aide d'une distribution binomiale.

Au cours des années 1770, Laplace a analysé les statistiques de naissance de près d'un demi-million de cas. Ces données révèlent un excès de naissances masculines par rapport aux naissances féminines. Grâce à des calculs de p-value, il a conclu que cet excès observé représentait un effet réel, quoique inexpliqué.

La valeur p a été formellement introduite par Karl Pearson dans son test du chi carré de Pearson, en utilisant la distribution du chi carré et initialement désignée par un P majuscule. Les valeurs p pour la distribution du chi carré, correspondant à diverses valeurs de χ§45§ et degrés de liberté, et maintenant notées P, ont été calculées dans (Elderton 1902) et ensuite compilés dans (Pearson 1914, pp. xxxi–xxxiii, 26–28, Tableau XII).

Ronald Fisher a joué un rôle central dans la formalisation et la vulgarisation de l'application de la valeur p dans les statistiques, en l'intégrant comme élément central de son cadre méthodologique. Dans sa publication très influente, Méthodes statistiques pour les chercheurs (1925), Fisher a proposé un niveau de signification de p = 0,05, ce qui représente une probabilité de 1 sur 20 d'être dépassé par hasard. Il a appliqué ce critère à une distribution normale comme un test bilatéral, établissant ainsi la règle des deux écarts types pour la signification statistique au sein d'une distribution normale.

Fisher a ensuite développé un tableau de valeurs, conceptuellement similaire à celui d'Elderton, mais en inversant de manière critique les rôles de χ² et p. Au lieu de calculer p pour diverses valeurs χ§67§ (et degrés de liberté n), il a calculé les valeurs χ§1011§ qui correspondaient à des valeurs spécifiques. Valeurs p, notamment 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 et 0,01. Cette approche innovante a permis de comparer les valeurs calculées de χ§1415§ avec des seuils prédéterminés, favorisant l'adoption de valeurs p spécifiques (notamment 0,05, 0,02 et 0,01) comme seuils, plutôt que d'exiger le calcul et la communication de valeurs p précises. La compilation de tableaux similaires dans (Fisher & Yates 1938) a encore solidifié cette approche méthodologique.

Pour illustrer l'application pratique des valeurs p dans la conception et l'interprétation des expériences, Fisher a présenté « l'expérience de dégustation de thé » dans son livre ultérieur, The Design of Experiments (1935), qui est devenu l'exemple archétypal de la Utilitaire de p-value.

Dans une expérience visant à évaluer la capacité de Muriel Bristol à discerner la méthode de préparation du thé (plus précisément, si du lait ou du thé a été ajouté en premier), on lui a présenté huit tasses. Quatre tasses ont été préparées selon une méthode et quatre selon l'autre. Sa tâche consistait à identifier la méthode de préparation de chaque tasse, en connaissant au préalable la répartition égale des méthodes. Pour ce scénario, l’hypothèse nulle postulait qu’elle ne possédait aucune capacité particulière à différencier les préparations de thé. Le test exact de Fisher a été utilisé, donnant une valeur p de ${\displaystyle 1/{\binom {8}{4}}=1/70\environ 0,014,>$ Par conséquent, Fisher a indiqué sa volonté de rejeter l'hypothèse nulle, interprétant une classification parfaite comme un résultat hautement improbable qui se produirait par hasard. Notamment, dans l'expérience réelle, Bristol a identifié avec précision les huit tasses.

Fisher a ensuite réaffirmé le seuil p = 0,05, élucidant sa justification sous-jacente en déclarant :

Les expérimentateurs adoptent couramment et commodément 5 % comme niveau de signification standard, ce qui implique une volonté d'ignorer tout résultat qui ne répond pas à ce critère. Cette approche sert à filtrer en grande partie les fluctuations aléatoires introduites par hasard dans leurs résultats expérimentaux, rationalisant ainsi les analyses ultérieures.

Fisher a étendu l'application de ce seuil à la conception expérimentale, observant que si seulement six tasses avaient été présentées (trois de chaque type), une classification parfaite aurait abouti à une valeur p de $1/{\binom {6}{3}}=1/20=0.05,$ 24§ ) = §3435§ / §4041§ = 0,05 , {\displaystyle 1/{\binom {6}{3}}=1/20=0.05,} Ce résultat n'aurait pas satisfait au niveau de signification établi. De plus, Fisher a souligné que p devrait être interprété comme la proportion à long terme de valeurs qui sont au moins aussi extrêmes que les données observées, en supposant que l'hypothèse nulle est valide.

Dans des publications ultérieures, Fisher a explicitement différencié l'application de la valeur p pour l'inférence statistique scientifique de la méthode Neyman-Pearson, qu'il a désignée comme « procédures d'acceptation ». Fisher a souligné que bien que des seuils prédéterminés tels que 5 %, 2 % et 1 % soient pratiques, la valeur p précise est également utilisable et la force probante est sujette à révision par des expérimentations supplémentaires. À l'inverse, il a soutenu que les procédures de décision nécessitent un choix définitif, conduisant à des actions irréversibles, et sont fondées sur des coûts d'erreur, qu'il juge inadaptés à la recherche scientifique.

Métriques associées

Le terme E-value englobe deux concepts distincts, tous deux intrinsèquement liés à la valeur p et pertinents dans le contexte de tests multiples. Initialement, il désigne une alternative généralisée et plus résiliente à la valeur p, capable de s'adapter à la poursuite facultative des expériences. Deuxièmement, il sert d'abréviation pour « valeur attendue », représentant la fréquence anticipée d'observation d'une statistique de test au moins aussi extrême que celle obtenue, dans l'hypothèse où l'hypothèse nulle est vraie. Cette valeur attendue est calculée comme le produit du nombre total de tests et de la valeur p correspondante.

La valeur q fonctionne comme l'analogue de la valeur p concernant le taux de fausses découvertes positives. Son application dans les tests d'hypothèses multiples vise à préserver la puissance statistique tout en réduisant simultanément le taux de faux positifs.

La probabilité de direction (pd) sert de contrepartie numérique bayésienne à la valeur p. Cette métrique quantifie la proportion de la distribution postérieure qui s'aligne sur le signe de la médiane, allant généralement de 50 % à 100 %, indiquant ainsi la certitude quant à la nature positive ou négative d'un effet.

Les valeurs p de deuxième génération font progresser le concept traditionnel de valeur p en excluant les tailles d'effet extrêmement petites, pratiquement insignifiantes, d'être considérées comme statistiquement significatives.

La valeur S, également appelée valeur surprise, est formellement définie. comme transformation logarithmique de la valeur p : valeur S = - log₂ (valeur p). Cette transformation vise à améliorer l'interprétabilité des valeurs p grâce à une échelle logarithmique plus intuitive, qui quantifie le degré de « surprise » associé à un résultat observé.

Test t de Student

Test de Student
Correction Bonferroni
Contre-null
Méthode de Fisher pour combiner les valeurs p
Valeur pgénéralisée
Moyenne harmonique valeur p
Méthode Holm-Bonferroni
Problème de comparaisons multiples
p-rep
erreur de valeur p

Remarques

Références

Comprendre les valeurs p, y compris une applet Java qui illustre comment les valeurs numériques des valeurs p peuvent donner des impressions assez trompeuses sur la vérité ou la fausseté de l'hypothèse testée.
StatQuest : Pièges liés à la valeur P et calculs de puissance sur YouTube
La science n'est pas brisée – Article expliquant comment les valeurs p peuvent être manipulées et un outil interactif pour les visualiser.

Valeur P (P-value)

Valeur P (P-value)

Concepts fondamentaux

Définition et interprétation

Définition

Interprétations

Distribution

La distribution des hypothèses composites

Utilisation

Mauvaise utilisation

Calcul

Exemple

Test de l'équité d'une pièce

Arrêt facultatif

Historique

Métriques associées

Test t de Student

Remarques

Références

Informations sur Valeur P

Étiquettes de sujet

Recherches fréquentes sur ce sujet

Torima Akademi Neverok : Archive Science