Nos campos da teoria das probabilidades e estatística, uma distribuição normal, também conhecida como distribuição gaussiana, representa uma distribuição de probabilidade contínua aplicável a uma variável aleatória de valor real. Sua função de densidade de probabilidade é geralmente expressa como: f ( x ) = 1 2 π σ 2 experiência ( - ( x - μ ) 2 2 σ 2 ) . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.} O parâmetro μ {\ displaystyle \ mu} denota a média ou expectativa da distribuição, que também corresponde à sua mediana e moda. Por outro lado, σ 2 {\textstyle\sigma ^{2}} significa a variação. O desvio padrão desta distribuição é representado pelo valor positivo σ { displaystyle sigma} (sigma). Uma variável aleatória em conformidade com uma distribuição gaussiana é denominada distribuição normal e é chamada de desvio normal.
Na teoria de probabilidade e estatística, uma distribuição normal ou distribuição gaussiana é um tipo de distribuição de probabilidade contínua para uma variável aleatória de valor real. A forma geral de sua função de densidade de probabilidade é O parâmetro é a média ou expectativa da distribuição (e também sua mediana e moda), enquanto o parâmetro é a variação. O desvio padrão da distribuição é o valor positivo (sigma). Diz-se que uma variável aleatória com distribuição gaussiana é normalmente distribuída e é chamada de desvio normal.
As distribuições normais têm uma importância significativa nas estatísticas e são frequentemente empregadas nas ciências naturais e sociais para modelar variáveis aleatórias com valor real quando suas distribuições subjacentes são desconhecidas. Sua proeminência é parcialmente atribuível ao teorema do limite central. Este teorema postula que a média de numerosas amostras estatisticamente independentes (observações) de uma variável aleatória que possui média e variância finitas constitui ela própria uma variável aleatória, cuja distribuição se aproxima progressivamente de uma distribuição normal à medida que o tamanho da amostra aumenta. Conseqüentemente, as quantidades físicas que se prevê resultarem da soma de múltiplos processos independentes, como erros de medição, frequentemente exibem distribuições que são aproximadamente normais. Além disso, as distribuições gaussianas possuem propriedades distintas que se mostram inestimáveis em investigações analíticas. Por exemplo, uma combinação linear formada a partir de um conjunto fixo de desvios normais independentes será ela própria um desvio normal. Numerosos resultados analíticos e metodologias, incluindo a propagação da incerteza e ajuste de parâmetros de mínimos quadrados, podem ser derivados explicitamente quando as variáveis pertinentes aderem a uma distribuição normal.
Uma distribuição normal é ocasionalmente chamada informalmente de "curva em sino". No entanto, inúmeras outras distribuições também exibem uma característica em forma de sino, incluindo Cauchy, t de Student e distribuições logísticas.
A distribuição de probabilidade univariada se estende a vetores dentro da distribuição normal multivariada e a matrizes dentro da distribuição normal de matriz.
Definições
Distribuição Normal Padrão
A instância mais direta de uma distribuição normal é designada como a distribuição normal padrão ou, alternativamente, a distribuição normal unitária. Este cenário específico ocorre quando
Embora a densidade acima mencionada seja amplamente reconhecida como a distribuição normal padrão, alguns estudiosos aplicaram esta designação a formas alternativas da distribuição normal. Por exemplo, Carl Friedrich Gauss certa vez definiu o padrão normal como que exibe um variação de . Da mesma forma, Stephen Stigler propôs uma definição normal padrão como caracterizado por uma forma funcional mais simples e uma variação de
Distribuição Normal Geral
Se representa um desvio normal padrão, então a variável seguirá uma distribuição normal com um valor esperado de e um desvio padrão de . Isso implica que a distribuição normal padrão pode ser dimensionado por um fator de e posteriormente deslocado por para gerar uma distribuição normal distinta, denotada como .
Por outro lado, se representa um desvio normal caracterizado pelos parâmetros e , sua distribuição pode ser transformada na distribuição normal padrão por meio de reescalonamento e deslocamento, usando a fórmula . Essa variável resultante é comumente chamada de forma padronizada de .
Especificamente, a função de densidade de probabilidade para pode ser expresso usando a distribuição normal padrão, denotada como , que possui média zero e variância unitária: Para garantir que a integral da densidade de probabilidade permaneça igual a 1, ela deve ser escalonada pelo fator .
Notação Matemática
A função de densidade de probabilidade da distribuição gaussiana padrão, também conhecida como distribuição normal padrão (caracterizada por uma média zero e variância unitária), é frequentemente simbolizada pela letra grega (phi). Além disso, a forma alternativa da letra grega phi, , também é comumente empregado.
A distribuição normal é frequentemente denotada como ou
Parametrizações Alternativas
Alguns pesquisadores propõem o emprego da precisão, denotada como
Afirma-se que essa parametrização alternativa oferece benefícios em cálculos numéricos, especialmente quando
Como alternativa, o inverso do desvio padrão, denotado como
Stigler postula que esta formulação específica oferece vantagens devido à sua expressão matemática significativamente mais simples e memorável, juntamente com fórmulas aproximadas diretas para os quantis da distribuição.
Distribuições normais são classificadas como uma família exponencial, caracterizada por parâmetros naturais
Função de distribuição cumulativa
A função de distribuição cumulativa (CDF) da distribuição normal padrão, normalmente indicada pela letra grega maiúscula
A função de erro associada, representada como
Essas integrais não podem ser expressas usando funções elementares e, consequentemente, são categorizadas como funções especiais. No entanto, numerosas aproximações numéricas para eles foram desenvolvidas.
Essas duas funções apresentam uma relação estreita, que pode ser expressa pela seguinte fórmula:
Para uma distribuição normal geral caracterizada por uma função de densidade
Consequentemente, a probabilidade de x estar dentro do intervalo definido por a e b, onde a < b, é expresso da seguinte forma:
A função Q, freqüentemente encontrada na literatura de engenharia, representa o complemento da função de distribuição cumulativa normal padrão, denotada como
Aqui,
Representação da Série Taylor
A série de Taylor para a distribuição normal, simbolizada por
A série de Taylor para a função de distribuição cumulativa pode ser derivada integrando esta série termo por termo:
Ambas as séries representam funções inteiras, exibindo convergência entre todos os valores reais e complexos de
Computação recursiva com série de Taylor
A relação de recorrência que rege os polinômios de Hermite, especificamente Hen(x), facilita a derivação eficiente de sua expansão em série de Taylor em torno de um ponto arbitrário x§1112§:
Desvio padrão e cobertura de dados
Para uma distribuição normal, aproximadamente 68% dos pontos de dados estão dentro de um desvio padrão σ da média. Além disso, cerca de 95% dos valores estão contidos dentro de dois desvios padrão e aproximadamente 99,7% estão dentro de três desvios padrão. Este princípio é comumente referido como regra 68–95–99,7 (empírica) ou regra dos 3 sigma.
Mais precisamente, a probabilidade de um desvio normal cair dentro do intervalo definido por
Para valores substanciais de
Função Quantílica
A função quantílica de uma distribuição é definida como o inverso de sua função de distribuição cumulativa. Para a distribuição normal padrão, esta função é especificamente denominada função probit e pode ser expressa usando a função de erro inverso:
A tabela subsequente apresenta o quantil
Para valores diminutos de
O cálculo da função quantílica pode ser alcançado por meio de algoritmos de localização de raiz.
Para determinar o valor
Propriedades
A distribuição normal possui diversas propriedades distintas. É caracterizada exclusivamente como a única distribuição onde todos os cumulantes além dos dois primeiros (a média e a variância) são zero. Além disso, entre todas as distribuições contínuas com uma determinada média e variância, apresenta a entropia máxima. Geary demonstrou que, sob a suposição de média e variância finitas, a distribuição normal é a única distribuição para a qual a média e a variância, derivadas de um conjunto de observações independentes, são independentes.
Classificada como uma subclasse de distribuições elípticas, a distribuição normal é caracterizada por sua simetria em torno de sua média e sua densidade de probabilidade diferente de zero em toda a reta numérica real. Consequentemente, pode não ser um modelo apropriado para variáveis que são intrinsecamente positivas ou que apresentam assimetria significativa, exemplos dos quais incluem o peso humano ou os preços das ações. Para tais variáveis, distribuições alternativas como a distribuição log-normal ou a distribuição de Pareto geralmente fornecem uma representação mais precisa.
A função de densidade normal se aproxima de zero quando a variável
A distribuição gaussiana é um membro da família de distribuições estáveis, que servem como atratores para somas de variáveis aleatórias independentes e distribuídas de forma idêntica, independentemente de sua média ou variância ser finita. Com exceção da distribuição gaussiana, que representa um caso limite, todas as outras distribuições estáveis apresentam caudas pesadas e variância infinita. A distribuição gaussiana é notável como uma das poucas distribuições estáveis cujas funções de densidade de probabilidade podem ser expressas analiticamente, juntamente com as distribuições de Cauchy e Lévy.
Simetrias e propriedades derivadas
Uma distribuição normal, caracterizada por sua função de densidade de probabilidade
- A distribuição exibe simetria em torno do ponto
, que representa simultaneamente a moda, a mediana e a média da distribuição. x =μ , {\textstyle x=\mu ,} - A distribuição é unimodal: sua primeira derivada é positiva quando
, negativo quando x <μ , {\textstyle x<\mu ,} , e precisamente zero emx > μ , {\textstyle x>\mu ,} .x = μ . {\textstyle x=\mu .} - A área total delimitada pela curva e pelo
-eixo é igual a um.x {\displaystyle x} - A primeira derivada da função é dada por
(f ′ x ) = − x .− μ σ §3435§ f )( x {\textstyle f'(x)=-{\frac {x-\mu }{\sigma ^{2}}}f(x).}. - A segunda derivada da função é dada pela expressão:
f ″ ( x ) = ( x − μ ) §37 38§ − σ §49 50§ σ §59 60§ f ( x ) . {\textstyle f''(x)={\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{4}}}f(x).} - A função de densidade exibe dois pontos de inflexão, definidos como locais onde a segunda derivada de
é zero e sofre uma mudança de sinal. Esses pontos estão situados a um desvio padrão da média, especificamente emf {\displaystyle f} ex = μ − σ {\textstyle x=\mu -\sigma } x = μ + σ . {\textstyle x=\mu +\sigma .} - A função de densidade é caracterizada pela concavidade logarítmica.
- A função densidade é infinitamente diferenciável, possuindo a propriedade de ser superlisa de ordem 2.
Além disso, a função de densidade
- A primeira derivada é expressa como:
φ ′ ( x ) = − x φ ( x ) . {\textstyle \varphi '(x)=-x\varphi (x).} - A segunda derivada é dada por:
φ ″ ( x ) = ( x §27 28§ − §3435§) φ ( x ) {\textstyle \varphi ''(x)=(x^{2}-1)\varphi (x)} - Mais geralmente, sua nésima derivada é expressa como:
35§φ ( n ) ( x ) = ( − §34) n Ele n ( x ) φ ( x ) , {\textstyle \varphi ^{(n)}(x)=(-1)^{n}\operatorname {He} _{n}(x)\varphi (x),} onde denota o nésimo (probabilista) polinômio de Hermite.Ele n ( x ) {\textstyle \operatorname {He} _{n}(x)} - A probabilidade de que uma variável normalmente distribuída
, com uma média conhecida X {\displaystyle X} e variaçãoμ {\displaystyle \mu } , cai dentro de um conjunto específico pode ser calculado se a fração padronizadaσ §4849§ {\textstyle \sigma ^{2}} segue uma distribuição normal padrão.Z = ( X − μ ) / σ {\textstyle Z=(X-\mu )/\sigma }
Momentos
Para uma variável
Quando uma variável aleatória
Embora os momentos absolutos centrais se alinhem com os momentos simples para todas as ordens pares, eles exibem valores diferentes de zero para ordens ímpares. Para qualquer número inteiro não negativo
A validade dessas expressões persiste mesmo quando
A expectativa condicional de
Transformada de Fourier e função característica
A transformada de Fourier para uma função de densidade de probabilidade normal
A transformada de Fourier de uma função de densidade de probabilidade normal é expressa como:
Aqui,
Na teoria da probabilidade, a transformada de Fourier de uma variável aleatória de valor real
Os componentes reais e imaginários de
Em uma linha semelhante, as seguintes expressões são observadas:
Quando essas fórmulas são avaliadas com
Funções de geração de momento e cumulante
A função geradora de momento (MGF) para uma variável aleatória real
A função geradora de cumulante é definida como o logaritmo natural da função geradora de momento, especificamente:
Embora os coeficientes desta série de potências exponenciais estabeleçam os cumulantes, sua forma polinomial quadrática em
Alternativamente, alguns pesquisadores optam por utilizar a função característica, definida como E[eitX] = eiμt - σ§1415§t§1819§/2, e seu logaritmo, ln E[eitX] = iμt - §3334§/§3738§σ§4344§t§4748§.
Operador e classe Stein
No método de Stein, para uma variável aleatória
Limite de variação zero
Quando a variação
Entropia máxima
Entre todas as distribuições de probabilidade definidas sobre os números reais que possuem uma média finita especificada
No ponto de entropia máxima, uma variação infinitesimal
Considerando que esta condição deve ser satisfeita para qualquer variação infinitesimal
As restrições de Lagrange, que garantem que a função
Outras propriedades
Distribuições relacionadas
Teorema do limite central
O Teorema do Limite Central (CLT) postula que, sob um conjunto de condições amplamente aplicáveis, a soma agregada de numerosas variáveis aleatórias se aproximará de uma distribuição normal. Especificamente, se
Este teorema é generalizável para abranger variáveis
Em aplicações práticas, inúmeras estatísticas de testes, pontuações e estimadores são formulados como somas de variáveis aleatórias; além disso, estimadores adicionais podem ser conceituados como tais somas através da aplicação de funções de influência. Consequentemente, o Teorema do Limite Central determina que esses parâmetros estatísticos exibirão distribuições assintoticamente normais.
O Teorema do Limite Central indica ainda que várias distribuições são passíveis de aproximação pela distribuição normal, incluindo:
- A distribuição binomial, denotada como
, aproxima uma distribuição normal com uma média deB ( n , p ) {\textstyle B(n,p)} e uma variação den p {\textstyle np} , desde que n p ( §5657§− p ) {\textstyle np(1-p)} é suficientemente grande e n {\displaystyle n} não está excessivamente próximo de 0 ou 1.p {\displaystyle p} - A distribuição de Poisson, caracterizada pelo parâmetro
, pode ser aproximado por uma distribuição normal com uma média de λ {\displaystyle \lambda } e uma variação de λ {\displaystyle \lambda } , especialmente quando λ {\displaystyle \lambda } é grande.λ {\displaystyle \lambda } - A distribuição qui-quadrado, representada como
, aproxima-se de uma distribuição normal com uma média de χ §11 12§ ( k ) {\textstyle \chi ^{2}(k)} e uma variação dek {\displaystyle k} , especialmente quando §53 54§ k {\textstyle 2k} é grande.k {\displaystyle k} - A distribuição t de Student, denotada como
, aproxima uma distribuição normal padrão (média 0, variância 1) como os graus de liberdade t ( ν ) {\textstyle t(\nu )} aumenta.ν {\displaystyle \nu }
A adequação dessas aproximações depende da aplicação pretendida e da taxa na qual elas convergem para a distribuição normal. Geralmente, essas aproximações apresentam precisão reduzida nas extremidades da distribuição.
O teorema de Berry-Esseen fornece um limite superior geral para o erro de aproximação associado ao teorema do limite central, enquanto as expansões de Edgeworth oferecem refinamentos para essa aproximação.
Este teorema fornece adicionalmente uma base teórica para modelar o agregado de numerosas fontes de ruído uniformes como ruído gaussiano.
Operações e funções envolvendo variáveis normais
Operações em uma única variável normal
Se a variável aleatória
- Uma transformação linear
, para quaisquer números reais a X + b {\textstyle aX+b} e a {\displaystyle a} , de uma variável normalmente distribuída, também é normalmente distribuída, com médiab {\displaystyle b} e variaçãoa μ + b {\textstyle a\mu +b} . Esta propriedade indica que a família de distribuições normais é fechada sob transformações lineares.a §91 92§ σ §99 100§ {\textstyle a^{2}\sigma ^{2}} - Quando
é normalmente distribuído, é exponencial,X {\displaystyle X} , segue uma distribuição log-normal.e X ∼ ln ( N ( μ , σ §5657§ ) ) {\textstyle e^{X}\sim \ln(N(\mu ,\sigma ^{2}))} - A função sigmóide padrão aplicada a uma variável normalmente distribuída
resulta em uma distribuição logit-normal, expressa comoX {\displaystyle X} .σ ( X ) ∼ P ( N ( μ , σ §6061§ ) ) {\textstyle \sigma (X)\sim P({\mathcal {N}}(\mu ,\,\sigma ^{2}))} - O valor absoluto de uma variável normalmente distribuída
segue uma distribuição normal dobrada, representada comoX {\displaystyle X} . Especificamente, se| X | ∼ N f ( μ , σ §5657§ ) {\textstyle {\left|X\right|\sim N_{f}(\mu ,\sigma ^{2})}} , esta distribuição é chamada de distribuição semi-normal.μ = §8283§{\textstyle \mu =0} - O valor absoluto dos resíduos normalizados, expresso como
, está em conformidade com uma distribuição chi com um único grau de liberdade:| X − μ | / σ {\textstyle |X-\mu |/\sigma } .| X − μ | / σ ∼ χ §7475§ {\textstyle |X-\mu |/\sigma \sim \chi _{1}} - O valor ao quadrado de
exibe uma distribuição qui-quadrado não central com um grau de liberdade:X / σ {\textstyle X/\sigma } . QuandoX §33 34§ / σ §46 47§ ∼ χ §5859§ §62 63§ ( μ §73 74§ / )σ §86 87§ {\textstyle X^{2}/\sigma ^{2}\sim \chi _{1}^{2}(\mu ^{2}/\sigma ^{2})} , esta distribuição simplifica para a distribuição qui-quadrado padrão.μ = §111112§{\textstyle \mu =0} - A probabilidade de log para uma variável normal, denotada como
, corresponde diretamente ao logaritmo de sua função de densidade de probabilidade:x {\displaystyle x} Dado que esta expressão representa um quadrado escalonado e deslocado de uma variável normal padrão, sua distribuição é, consequentemente, uma variável qui-quadrado escalonada e deslocada.ln p ( x ) = − §4445§ §4647§ §7475§( x − μ σ ) − ln .( )σ §9697§ π {\displaystyle \ln p(x)=-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}-\ln \left(\sigma {\sqrt {2\pi }}\right).} - Quando a variável
é restrito a um intervalo específico, comoX {\displaystyle X} , sua distribuição resultante é chamada de distribuição normal truncada.[ a , b ] {\textstyle [a,b]} - A expressão
segue uma distribuição de Lévy, caracterizada por um parâmetro de localização de 0 e um parâmetro de escala de( X − μ ) − §2324§ {\textstyle (X-\mu )^{-2}} .σ − §4950§ {\textstyle \sigma ^{-2}}
Operações envolvendo duas variáveis normais independentes
- Se
eX §1011§ {\textstyle X_{1}} representam duas variáveis aleatórias normais independentes, possuindo respectivas médias deX §32 33§ {\textstyle X_{2}} eμ §5556§ {\textstyle \mu _{1}} e variações deμ §78 79§ {\textstyle \mu _{2}} eσ §101102§ §105 106§ {\textstyle \sigma _{1}^{2}} , então sua soma,σ §128 129§ §132 133§ {\textstyle \sigma _{2}^{2}} , também será distribuído normalmente[prova].Essa distribuição resultante terá uma média deX §154155§ + X §164 165§ {\textstyle X_{1}+X_{2}} e uma variação deμ §189190§ + μ §200 201§ {\textstyle \mu _{1}+\mu _{2}} .σ §223224§ §227 228§ + σ §238 239§ §242 243§ {\textstyle \sigma _{1}^{2}+\sigma _{2}^{2}} - Especificamente, se
- Se
eX §1011§ {\textstyle X_{1}} são dois desvios normais independentes, cada um caracterizado por uma média de X §32 33§ {\textstyle X_{2}} e uma variação deμ {\displaystyle \mu } , e se σ §74 75§ {\textstyle \sigma ^{2}} e a {\displaystyle a} representam números reais arbitrários, então a variávelb {\displaystyle b} também é normalmente distribuído, mantendo a mesma média X §132 133§ = a X §147148§ + b X §159 160§ − ( a + b ) μ a §185 186§ + b §195 196§ + μ {\displaystyle X_{3}={\frac {aX_{1}+bX_{2}-(a+b)\mu }{\sqrt {a^{2}+b^{2}}}}+\mu } e variaçãoμ {\displaystyle \mu } .Isso demonstra a estabilidade da distribuição normal, especificamente com um expoente deσ §245 246§ {\textstyle \sigma ^{2}} .α = §268269§ {\textstyle \alpha =2} - Se houver duas distribuições, denotadas como
, são caracterizadas como distribuições normais paraX k ∼ N ( m k , σ k §44 45§ ) {\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})} , então sua média geométrica normalizada, representada pela expressãok ∈ { §7172§, §7576§} {\textstyle k\in \{0,1\}} , também constitui uma distribuição normal (§9596§ §141142§−∫ R n (X §119120§ α x ) X §137138§ α x ) d x X §173174§ α X §186187§ §190191§ − α {\textstyle {\frac {1}{\int _{\mathbb {R} ^{n}}X_{0}^{\alpha }(x)X_{1}^{1-\alpha }(x)\,{\text{d}}x}}X_{0}^{\alpha }X_{1}^{1-\alpha }} .Os parâmetros para esta distribuição resultante são definidos da seguinte forma:N ( m α , σ α §243 244§ ) {\textstyle {\mathcal {N}}(m_{\alpha },\sigma _{\alpha }^{2})} em α = α m §284285§ σ §293294§ §297 298§ + ( §305306§− α ) m §319320§ σ §328329§ §332 333§ α σ §346347§ §350 351§ + ( §358359§− α ) σ §373374§ §377 378§ {\textstyle m_{\alpha }={\frac {\alpha m_{0}\sigma _{1}^{2}+(1-\alpha )m_{1}\sigma _{0}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}} .σ α §408 409§ = §438σ §422423§ §426 427§ σ §434435§ 439§ α §456σ §452453§ 457§+ ( §464465§− α ) σ §479480§§483 484§ {\textstyle \sigma _{\alpha }^{2}={\frac {\sigma _{0}^{2}\sigma _{1}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}}
Operações envolvendo duas variáveis normais padrão independentes
Dadas duas variáveis aleatórias normais padrão independentes,
- A soma e a diferença dessas variáveis,
, são normalmente distribuídos com média zero e variância de dois.X §1011§ ± X §21 22§ ∼ N ( §3637§, §4041§ ) {\textstyle X_{1}\pm X_{2}\sim {\mathcal {N}}(0,2)} - O produto dessas variáveis, denotado como
, adere a uma distribuição de produto caracterizada pela função de densidadeZ = X §1415§ X §2122§ {\textstyle Z=X_{1}X_{2}} , ondef Z ( z ) = π − §6465§K §7273§ ( | z | ) {\textstyle f_{Z}(z)=\pi ^{-1}K_{0}(|z|)} representa a função de Bessel modificada do segundo tipo. Esta distribuição exibe simetria em torno de zero, é ilimitada emK §108109§ {\textstyle K_{0}} , e possui a função característicaz = §130131§{\textstyle z=0} .ϕ Z ( t ) = ( §165166§+ t §173 174§ ) − §184185§ §190/ 191§ {\textstyle \phi _{Z}(t)=(1+t^{2})^{-1/2}} - A proporção dessas variáveis,
, segue a distribuição padrão de Cauchy.X §1011§ / X §2122§ ∼ Cauchy ( §3637§, §4041§) {\textstyle X_{1}/X_{2}\sim \operatorname {Cauchy} (0,1)} - A norma euclidiana, especificamente
, é caracterizado pela distribuição Rayleigh.X §1213§ §16 17§ + X §26 27§ §30 31§ {\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}}
Cálculos envolvendo múltiplas variáveis normais independentes
- Uma combinação linear de desvios normais independentes produz consistentemente um desvio normal.
- Se for um conjunto de variáveis, especificamente
, representa variáveis aleatórias normais padrão independentes, então a soma de seus quadrados segue uma distribuição qui-quadrada com X §1011§ , X §20 21§ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} graus de liberdade, conforme expresso porn {\displaystyle n} .X §7576§ §7879§ + ⋯ + X n §98 99§ ∼ χ n §114 115§ . {\displaystyle X_{1}^{2}+\cdots +X_{n}^{2}\sim \chi _{n}^{2}.} - Quando
representam variáveis aleatórias independentes e normalmente distribuídas, cada uma possuindo uma média de X §1011§ , X §20 21§ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} e uma variação deμ {\displaystyle \mu } , segue-se que sua média amostral é estatisticamente independente de seu desvio padrão amostral. Esta independência pode ser rigorosamente estabelecida através da aplicação do teorema de Basu ou do teorema de Cochran.Consequentemente, a razão derivada dessas duas quantidades adere à distribuição t de Student, caracterizada porσ §77 78§ {\textstyle \sigma ^{2}} graus de liberdade, conforme expresso pela seguinte fórmula:n − §100101§{\textstyle n-1} t = X ¯ − μ S / n = §162163§ n ( X §174175§ + ⋯ + X n ) − μ §205206§ n ( n − §217218§) [ ]( X §234235§ − X ¯ ) §254 255§ + ⋯ + ( X n − X ¯ ) §291 292§ ∼ t n − §314315§. {\displaystyle t={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}={\frac {{\frac {1}{n}}(X_{1}+\cdots +X_{n})-\mu }{\sqrt {{\frac {1}{n(n-1)}}\left[(X_{1}-{\overline {X}})^{2}+\cdots +(X_{n}-{\overline {X}})^{2}\right]}}}\sim t_{n-1}.} - Se
eX §1011§ , X §20 21§ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} são variáveis aleatórias normais padrão independentes, então a proporção de suas somas de quadrados normalizadas exibirá uma distribuição F com (n, m) graus de liberdade. Esta relação é expressa como:Y §5758§ , Y §67 68§ , … , Y m {\textstyle Y_{1},Y_{2},\ldots ,Y_{m}} F = ( X §121122§ §125 126§ + X §135 136§ §139 140§ + ⋯ + X n §158 159§ ) / n ( Y §182183§ §186 187§ + Y §196 197§ §200 201§ + ⋯ + Y m §219 220§ ) / m ∼ F n , m . {\displaystyle F={\frac {\left(X_{1}^{2}+X_{2}^{2}+\cdots +X_{n}^{2}\right)/n}{\left(Y_{1}^{2}+Y_{2}^{2}+\cdots +Y_{m}^{2}\right)/m}}\sim F_{n,m}.}
Operações estatísticas envolvendo múltiplas variáveis normais correlacionadas
- Uma forma quadrática envolvendo vetores normais, especificamente uma função quadrática
derivado de múltiplas variáveis normais independentes ou correlacionadas, constitui uma variável qui-quadrado generalizada.q = ∑ x eu §21 22§ + ∑ x j + c {\textstyle q=\sum x_{i}^{2}+\sum x_{j}+c}
Operações na função de densidade
A distribuição normal dividida é caracterizada principalmente pela concatenação de segmentos em escala das funções de densidade de distribuições normais distintas, seguida por uma renormalização da densidade combinada para garantir que ela se integre à unidade. Em contraste, a distribuição normal truncada é derivada do redimensionamento de um segmento específico de uma função de densidade singular.
Divisibilidade infinita e teorema de Cramér
Dado qualquer número inteiro positivo n, qualquer distribuição normal caracterizada por uma média de
Inversamente, se
Essa descoberta é formalmente reconhecida como o teorema da decomposição de Cramér, que postula que a convolução de duas distribuições produz uma distribuição normal exclusivamente quando ambas as distribuições constituintes são normais. Consequentemente, o teorema de Cramér indica que uma combinação linear de variáveis independentes não-Gaussianas nunca exibirá precisamente uma distribuição normal, mesmo que possa convergir para ela com proximidade arbitrária.
O Teorema de Kac–Bernstein
O teorema de Kac–Bernstein postula que se houver duas variáveis aleatórias,
De forma mais ampla, if
Extensões
Como conceito fundamental na teoria das probabilidades, a distribuição normal foi significativamente estendida além de sua estrutura convencional univariada (unidimensional) (Caso 1). Essas distribuições expandidas são frequentemente chamadas de leis normais ou gaussianas, o que introduz alguma ambiguidade terminológica.
- A distribuição normal multivariada caracteriza a lei gaussiana dentro do espaço euclidiano k-dimensional. Um vetor X ∈ Rk exibe uma distribuição normal multivariada se qualquer combinação linear de seus componentes constituintes Σk
j=1aj Xj segue uma distribuição normal univariada. A variância de X é representada por uma matriz simétrica definida positiva k × k V. A distribuição normal multivariada constitui um exemplo específico de distribuições elípticas. Consequentemente, seus contornos de isodensidade se manifestam como elipses quando k = 2 e como elipsóides para qualquer valor arbitrário de k. - A distribuição gaussiana retificada é uma versão retificada da distribuição normal, em que todos os elementos negativos são definidos como zero.
- A distribuição normal complexa aborda vetores normais complexos. Um vetor complexo X ∈ Ck é definido como normal se seus componentes reais e imaginários exibem coletivamente uma distribuição normal multivariada §1011§k-dimensional. A estrutura de variância-covariância de X é caracterizada por duas matrizes distintas: a matriz de variância Γ e a matriz de relação C.
- A distribuição normal da matriz refere-se a instâncias de matrizes que seguem uma distribuição normal.
- Os processos gaussianos representam processos estocásticos que exibem distribuição normal. Estes podem ser conceituados como elementos dentro de um espaço de Hilbert de dimensão infinita H, servindo assim como análogos a vetores normais multivariados quando k = ∞. Um elemento aleatório h ∈ H é definido como normal se, para qualquer constante a ∈ H, o produto escalar (a, h) segue uma distribuição normal univariada. A estrutura de variância de tal elemento aleatório gaussiano pode ser caracterizada pelo operador de covariância K linear: H → H. Vários processos gaussianos ganharam destaque suficiente para serem nomeados individualmente:
- Movimento browniano;
- Ponte Browniana; e
- Processo Ornstein–Uhlenbeck.
- A distribuição q gaussiana constitui uma construção matemática abstrata que serve como um análogo q para a distribuição normal.
- O q-Gaussiano funciona como um análogo da distribuição Gaussiana em virtude de maximizar a entropia de Tsallis e é categorizado como um tipo de distribuição de Tsallis. Notavelmente, esta distribuição é distinta da distribuição q gaussiana mencionada acima.
- A distribuição Kaniadakis κ-Gaussiana representa uma generalização da distribuição Gaussiana, originada das estatísticas Kaniadakis, e é classificada como uma distribuição Kaniadakis.
Uma variável aleatória X é definida por uma distribuição normal de duas partes quando sua função de densidade de probabilidade é expressa como:
A distribuição gaussiana é frequentemente empregada para modelar as distribuições empíricas de inúmeras variáveis aleatórias observadas em aplicações práticas. Para aumentar a precisão do ajuste de dados empíricos, uma extensão potencial envolve a utilização de uma família mais abrangente de distribuições com mais de dois parâmetros. Exemplos dessas extensões incluem:
- A distribuição de Pearson, uma família de quatro parâmetros de distribuições de probabilidade, estende a distribuição normal para acomodar vários graus de assimetria e curtose.
- A distribuição normal generalizada, também conhecida como distribuição de potência exponencial, permite modelar caudas de distribuição com comportamentos assintóticos mais espessos ou mais finos.
Inferência Estatística
Estimativa de parâmetros
Frequentemente, os parâmetros de uma distribuição normal são desconhecidos e requerem estimativa. Especificamente, dada uma amostra
A expressão para
Média da amostra
Estimador
No âmbito da teoria assintótica, o estimador
Variação da amostra
O estimador
De acordo com a teoria assintótica, ambos os estimadores, especificamente
Intervalos de confiança
De acordo com o teorema de Cochran, para distribuições normais, a média amostral
Fórmulas aproximadas podem ser derivadas das distribuições assintóticas dos estimadores
Testes de normalidade
Os testes de normalidade avaliam a probabilidade de um conjunto de dados especificado {x§34§, ..., xn} originar-se de uma distribuição normal. A hipótese nula convencional H§1516§ postula que as observações seguem uma distribuição normal com uma média não especificada μ e variância σ§2324§, enquanto a hipótese alternativa Ha sugere uma distribuição arbitrária. Mais de 40 testes distintos foram desenvolvidos para enfrentar esse desafio estatístico. Os mais notáveis deles são detalhados posteriormente.
Os gráficos de diagnóstico oferecem apelo intuitivo, mas envolvem inerentemente a subjetividade, já que sua interpretação para aceitar ou rejeitar a hipótese nula depende do julgamento humano informal.
- O gráfico Q–Q, também conhecido como gráfico de probabilidade normal ou gráfico de classificação, exibe graficamente os valores classificados de um conjunto de dados em relação aos quantis esperados derivados de uma distribuição normal padrão. Especificamente, ele plota pontos no formato (Φ−1(pk), x(k)), onde os pontos de plotagem pk são definidos como pk = (k − α)/(n + 1 − 2α), e α representa uma constante ajustável que varia de 0 a 1. Sob a suposição de uma hipótese nula verdadeira, espera-se que esses pontos plotados se aproximem de uma linha reta.
- O gráfico P – P, embora conceitualmente semelhante ao gráfico Q – Q, é empregado com muito menos frequência. Esta técnica envolve plotar pontos na forma (Φ(z(k)), pk), onde
. Para dados normalmente distribuídos, espera-se que este gráfico forme uma linha reta conectando (0, 0) e (1, 1).z ( ok ) = ( x ( ok ) − μ ^ ) / σ ^ {\textstyle \textstyle z_{(k)}=(x_{(k)}-{\hat {\mu }})/{\hat {\sigma }}}
Testes de adequação:
Testes baseados em momentos:
- Teste K-quadrado de D'Agostino
- Teste Jarque-Bera
- O teste de Shapiro–Wilk é baseado na linha do gráfico Q–Q exibindo uma inclinação de σ. Este teste avalia a estimativa dos mínimos quadrados dessa inclinação em relação à variância da amostra. A hipótese nula é rejeitada se existir uma discrepância significativa entre esses dois valores.
Testes baseados na função de distribuição empírica:
- Teste Anderson-Darling
- Teste de Lilliefors (uma adaptação do teste de Kolmogorov–Smirnov)
Análise bayesiana da distribuição normal
A análise bayesiana de dados normalmente distribuídos apresenta complexidades devido às inúmeras considerações potenciais:
- A média, a variância ou ambas podem ser tratadas como parâmetros fixos.
- Se a variância for desconhecida, a análise pode prosseguir diretamente usando a variância ou empregando precisão, que é a recíproca da variância. A formulação de equações em termos de precisão muitas vezes simplifica o processo analítico para a maioria dos cenários.
- Cenários univariados e multivariados exigem consideração.
- Variáveis desconhecidas podem receber distribuições anteriores conjugadas ou impróprias.
- Outros casos surgem na regressão linear Bayesiana, onde o modelo fundamental assume dados normalmente distribuídos e atribui antecedentes normais aos coeficientes de regressão. A análise subsequente reflete a de cenários básicos de dados independentes e distribuídos de forma idêntica.
As fórmulas pertinentes aos casos de regressão não linear estão resumidas no artigo sobre anteriores conjugados.
Soma de duas quadráticas
Forma escalar
A fórmula auxiliar subsequente facilita a simplificação das equações de atualização posteriores, que de outra forma apresentariam uma complexidade computacional considerável.
Esta equação reformula a soma de duas expressões quadráticas envolvendo x expandindo os quadrados, agrupando os termos contendo x e completando o quadrado. Os intrincados fatores constantes associados a termos específicos merecem atenção especial:
- O fator
representa uma média ponderada de y e z.uma s + b z uma + b {\textstyle {\frac {ay+bz}{a+b}}} Este fator pode ser conceituado como decorrente de um cenário onde o os recíprocos das quantidades a e b são somados diretamente. Consequentemente, para combinar a e b, deve-se realizar uma sequência de operações: reciprocidade, adição e, em seguida, uma reciprocidade final para restaurar as unidades originais. Esta sequência operacional reflete precisamente o cálculo da média harmônica, portanto segue logicamente quea b a + b = §2829§ §3334§ a + §4344§ b = ( a − §6364§+ b − §7677§ .) − §8788§{\textstyle {\frac {ab}{a+b}}={\frac {1}{{\frac {1}{a}}+{\frac {1}{b}}}}=(a^{-1}+b^{-1})^{-1}.} representa metade da média harmônica de a e b.a b a + b {\textstyle {\frac {ab}{a+b}}}
Formulário vetorial
Uma fórmula comparável pode ser formulada para a soma de dois vetores quadráticos. Supondo que x, y e z denotam vetores de comprimento k, e que A e B são matrizes simétricas e invertíveis de dimensão
A expressão x′ A x é formalmente definida como uma forma quadrática, produzindo um valor escalar. Este formulário pode ser expandido como:
Soma dos desvios da média
Uma fórmula adicional valiosa é apresentada abaixo:
Dada uma variação conhecida,
Para uma coleção de pontos de dados normalmente distribuídos X independentes e distribuídos de forma idêntica (i.i.d.), compreendendo n observações, onde cada ponto de dados individual x adere à distribuição
Esta relação pode ser mais facilmente demonstrada reexpressando a variância como precisão, especificamente empregando τ = 1/σ§56§. Consequentemente, se
A função de verossimilhança é inicialmente formulada aplicando a expressão para a soma das diferenças quadradas da média:
A derivação subsequente procede da seguinte forma:
A derivação anterior utilizou a fórmula para a soma de duas expressões quadráticas, removendo sistematicamente todos os fatores constantes que não envolviam μ. Este processo produz o núcleo de uma distribuição normal, caracterizada por uma média de
Essas relações podem ser expressas como uma série de equações de atualização Bayesianas, que definem os parâmetros posteriores com base em suas contrapartes anteriores:
Especificamente, ao combinar n pontos de dados, caracterizados por uma precisão total de nτ (ou uma variância total equivalente de n/σ§1112§) e um valor médio de
Esta fórmula demonstra as vantagens analíticas de conduzir análises bayesianas para antecedentes conjugados dentro de uma estrutura de distribuição normal usando precisão. A precisão posterior é derivada da soma das precisões anteriores e de verossimilhança, enquanto a média posterior é calculada por meio de uma média ponderada de precisão, conforme detalhado anteriormente. Alternativamente, essas fórmulas podem ser expressas usando variância, invertendo todos os termos de precisão, resultando em expressões mais complexas.
Dada uma média conhecida
Para um conjunto de dados X que consiste em n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.), onde cada ponto individual x segue uma distribuição normal
A função de verossimilhança definida anteriormente, expressa em termos de sua variância, é apresentada a seguir:
Posteriormente, a derivação produz:
Esta formulação também representa uma distribuição qui-quadrado inversa em escala, caracterizada pelos seguintes parâmetros:
Ao reparametrizar usando uma distribuição gama inversa, as expressões resultantes são:
Caso: média desconhecida e variância desconhecida
Considere um conjunto de dados X compreendendo n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.) normalmente distribuídos, onde cada ponto individual x adere à distribuição
- A análise do caso envolvendo uma média desconhecida, mas uma variância conhecida, revela que as equações de atualização incorporam estatísticas suficientes derivadas dos dados. Essas estatísticas incluem a média amostral e a variância total dos pontos de dados, que é calculada a partir da variância conhecida dividida pelo número de pontos de dados.
- Da mesma forma, o exame do caso com uma variância desconhecida, mas com média conhecida, indica que as equações de atualização utilizam estatísticas suficientes relativas aos dados, especificamente o número de pontos de dados e a soma dos desvios quadrados.
- É crucial reconhecer que os valores de atualização posterior funcionam como a distribuição anterior quando os dados subsequentes são processados. Consequentemente, é lógico conceituar os anteriores em termos das estatísticas suficientes acima mencionadas, mantendo uma interpretação semântica consistente sempre que possível.
- Quando a média e a variância são desconhecidas, antecedentes independentes podem ser estabelecidos para cada uma, utilizando estimativas fixas para a média média, a variância total, o número de pontos de dados que contribuem para a variância a priori e a soma dos desvios quadrados. No entanto, é crucial reconhecer que a variância total da média é inerentemente dependente da variância desconhecida. Além disso, a soma dos desvios quadrados, que informa a variância anterior, parece depender da média desconhecida. Na prática, esta última dependência é muitas vezes negligenciável porque uma mudança na média real resulta numa mudança equivalente nos pontos de dados gerados, mantendo assim os desvios quadráticos médios. Por outro lado, esta estabilidade não se aplica à variância total da média; à medida que a variância desconhecida aumenta, a variância total da média aumenta proporcionalmente, uma relação que idealmente deveria ser levada em consideração.
- Essa observação leva à formulação de uma prioridade condicional para a média, dependente da variância desconhecida. Este anterior incorpora um hiperparâmetro que define a média das pseudo-observações associadas e um parâmetro separado que indica a quantidade dessas pseudo-observações. Esta contagem funciona como um parâmetro de escala para a variância, permitindo a regulação da variância global da média em relação ao parâmetro de variância real. Da mesma forma, a variância anterior inclui dois hiperparâmetros: um que especifica a soma dos desvios quadrados para suas pseudo-observações associadas e outro que novamente denota o número de pseudo-observações. Ambos os anteriores incorporam um hiperparâmetro que define o número de pseudo-observações, que, em cada caso, governa a variância relativa daquele anterior específico. Eles são fornecidos como hiperparâmetros distintos para permitir controle independente sobre a variação (ou confiança) dos dois anteriores.
- Essa abordagem resulta diretamente na distribuição gama normal-inversa, que é o produto das duas distribuições definidas anteriormente. Ele emprega antecedentes conjugados - especificamente, uma distribuição gama inversa para a variância e uma distribuição normal para a média (que é condicional à variância) - e utiliza os mesmos quatro parâmetros estabelecidos anteriormente.
As distribuições anteriores normalmente são especificadas da seguinte maneira:
As equações de atualização são deriváveis e são apresentadas a seguir:
Ocorrência e aplicações
A presença da distribuição normal em cenários práticos pode ser amplamente categorizada em quatro tipos:
- Distribuições precisamente normais;
- Distribuições aproximadamente normais, como aquelas em que a aproximação é fundamentada pelo teorema do limite central; e
- Distribuições modeladas como normais, onde a distribuição normal representa a distribuição máxima de entropia para média e variância especificadas.
- Problemas de regressão, nos quais a distribuição normal emerge uma vez que os efeitos sistemáticos tenham sido modelados adequadamente.
Normalidade precisa
A distribuição normal se manifesta em diversas teorias físicas:
- A distribuição de velocidade de esferas perfeitamente elásticas e em movimento independente, derivada da Teoria Dinâmica dos Gases de Maxwell, Parte I (1860).
- A função de onda do estado fundamental dentro do espaço de posição do oscilador harmônico quântico.
- A posição de uma partícula em difusão. Se a partícula está inicialmente situada em um ponto específico (ou seja, sua distribuição de probabilidade é a função delta de Dirac), então após o tempo t, sua localização é caracterizada por uma distribuição normal com variância t, que segue a equação de difusão
41§ §4243§∂ ∂ t f ( x , t ) = §40 ∂ §5354§ ∂ x §6566§ f ( x , t ) {\textstyle {\frac {\partial }{\partial t}}f(x,t)={\frac {1}{2}}{\frac {\partial ^{2}}{\partial x^{2}}}f(x,t)} . A localização inicial deve ser definida por uma função de densidade específica , então a densidade no tempo t é a convolução de g e a função de densidade de probabilidade normal.g ( x ) {\textstyle g(x)}
Normalidade aproximada
Distribuiçõesaproximadamente surgem em vários contextos, conforme elucidado pelo teorema do limite central. Quando um resultado resulta de uma multiplicidade de pequenos efeitos que operam aditivamente e independentemente, a sua distribuição aproximar-se-á de uma distribuição normal. No entanto, esta aproximação normal torna-se inválida se os efeitos operarem multiplicativamente (em vez de aditivamente) ou se uma influência externa singular possuir uma magnitude significativamente maior do que os outros efeitos.
- Em problemas de contagem, onde o teorema do limite central incorpora uma aproximação discreta para contínua e envolve distribuições infinitamente divisíveis e decomponíveis, os exemplos incluem:
- Variáveis aleatórias binomiais, que estão associadas a variáveis de resposta binária;
- Variáveis aleatórias de Poisson, que estão ligadas a eventos raros;
- A radiação térmica exibe uma distribuição de Bose-Einstein em escalas de tempo muito curtas, transitando para uma distribuição normal em escalas de tempo mais longas como consequência do teorema do limite central.
Normalidade presumida
A curva normal, também conhecida como curva laplaciana de erros, é considerada um fenômeno altamente anômalo. Embora seja aproximadamente aproximado em certas distribuições, a sua simplicidade inerente e utilidade teórica podem justificar a sua utilização como uma aproximação preliminar, particularmente em investigações teóricas.
Existem métodos estatísticos para testar empiricamente essa suposição.
- Em contextos biológicos, o logaritmo de numerosas variáveis exibe frequentemente uma distribuição normal, o que significa que tendem a seguir uma distribuição log-normal (após a segregação em subpopulações masculinas e femininas). Os exemplos incluem:
- Medidas relativas ao tamanho do tecido vivo (por exemplo, comprimento, altura, área da pele, peso);
- O comprimento dos apêndices biológicos inertes, como cabelos, garras, unhas e dentes, medido na direção do crescimento, é frequentemente considerado como seguindo esta distribuição. Presume-se também que a espessura da casca da árvore se enquadra nesta categoria.
- Certas medidas fisiológicas, incluindo a pressão arterial de humanos adultos, apresentam esta distribuição.
- No âmbito das finanças, particularmente no modelo Black-Scholes, assume-se normalmente que as alterações no logaritmo das taxas de câmbio, dos índices de preços e dos índices do mercado de ações seguem uma distribuição normal. Esta suposição decorre do comportamento destas variáveis de forma multiplicativa, semelhante aos juros compostos, em vez de aditivamente como os juros simples. No entanto, matemáticos como Benoit Mandelbrot afirmaram que as distribuições log-Lévy, caracterizadas por caudas pesadas, podem oferecer um modelo mais adequado, especialmente para analisar quebras do mercado de ações. Nassim Nicholas Taleb também criticou a confiança em suposições de distribuição normal em modelos financeiros em suas publicações.
- Os erros de medição encontrados em experimentos físicos são frequentemente modelados usando uma distribuição normal. Esta aplicação não implica necessariamente uma suposição de que os próprios erros sejam normalmente distribuídos; em vez disso, seu uso produz as previsões mais conservadoras possíveis quando apenas a média e a variância dos erros são conhecidas.
- Em testes padronizados, os resultados podem ser normalizados para se aproximarem de uma distribuição normal, selecionando cuidadosamente o número e a dificuldade das perguntas, como exemplificado pelos testes de QI, ou transformando as pontuações brutas dos testes em pontuações de saída, ajustando-as a uma distribuição normal. Por exemplo, a faixa de pontuação tradicional de 200 a 800 do SAT é baseada em uma distribuição normal com média de 500 e desvio padrão de 100.
- Várias métricas de pontuação são derivadas da distribuição normal, abrangendo classificações percentuais (percentis ou quantis), equivalentes de curvas normais, estaninas, pontuações z e pontuações T. Além disso, vários procedimentos estatísticos comportamentais, como testes t e ANOVAs, pressupõem que as pontuações sejam normalmente distribuídas. Os sistemas de classificação por curva Bell alocam notas relativas com base em uma distribuição normal de pontuações.
- Em hidrologia, a distribuição da vazão fluvial ou da precipitação de longa duração, como os totais mensais e anuais, é frequentemente considerada praticamente normal, consistente com o teorema do limite central. Um exemplo ilustrativo envolve ajustar a distribuição normal às chuvas classificadas de Outubro, o que demonstra um cinturão de confiança de 90% derivado da distribuição binomial. Os dados de precipitação são representados usando posições de plotagem como parte de uma análise de frequência cumulativa.
Problemas metodológicos e revisão por pares
John Ioannidis argumentou que o emprego de desvios padrão normalmente distribuídos como padrões de validação para resultados de pesquisas deixa previsões falsificáveis sobre fenômenos não normalmente distribuídos sem serem testadas. Tais fenómenos incluem aqueles que se manifestam apenas quando todas as condições necessárias são satisfeitas, onde nenhuma condição única pode substituir outra aditivamente, e aqueles que não são distribuídos aleatoriamente. Ioannidis afirma que a validação centrada em desvios padrão confere uma aparência ilusória de validade a hipóteses e teorias onde apenas um subconjunto de previsões falsificáveis é normalmente distribuído. Isto ocorre porque as evidências que contradizem as previsões falsificáveis podem residir nos segmentos não normalmente distribuídos do intervalo de previsão. Além disso, esta abordagem pode levar à rejeição injustificada de hipóteses cujas previsões falsificáveis são totalmente distribuídas de forma não normal, rotulando-as erroneamente como infalsificáveis, apesar da sua capacidade de teste empírico. Ioannidis postula que numerosos exemplos de teorias mutuamente exclusivas que ganham aceitação em periódicos de pesquisa decorrem do fracasso dos periódicos em considerar falsificações empíricas de previsões distribuídas não normalmente, e não da veracidade de tais teorias mutuamente exclusivas, o que é logicamente impossível, embora ambas possam estar incorretas e uma terceira teoria seja precisa.
Métodos Computacionais
Gerando valores de uma distribuição normal
Em simulações computacionais, particularmente em aplicações do método Monte-Carlo, gerar valores normalmente distribuídos é frequentemente vantajoso. Os algoritmos descritos posteriormente produzem desvios normais padrão, já que uma distribuição N(μ, σ§78§) pode ser derivada usando a fórmula X = μ + σZ, onde Z representa uma variável normal padrão. Todos esses métodos necessitam de um gerador de números aleatórios, especificamente U, capaz de gerar variáveis aleatórias uniformes.
- A abordagem mais direta utiliza a propriedade de transformação integral de probabilidade: se U estiver uniformemente distribuído em (0,1), então Φ−1(U) exibirá uma distribuição normal padrão. Uma limitação desta técnica é sua dependência do cálculo da função probit Φ−1, que carece de solução analítica. Os métodos de aproximação são detalhados por Hart (1968) e no artigo erf. Wichura desenvolveu um algoritmo eficiente para calcular esta função com 16 casas decimais de precisão, que o software estatístico R utiliza para gerar variáveis aleatórias de distribuição normal.
- Um método aproximado facilmente implementável, baseado no teorema do limite central, envolve gerar 12 desvios U(0,1) uniformes, somando-os e depois subtraindo 6; a variável aleatória resultante se aproximará de uma distribuição normal padrão. Na verdade, esta distribuição corresponde à distribuição de Irwin-Hall, que serve como uma aproximação polinomial de décima primeira ordem de 12 seções da distribuição normal. Este desvio aleatório específico possui um intervalo restrito de (−6, 6). Vale ressaltar que em uma distribuição normal verdadeira, apenas 0,00034% de todas as amostras normalmente ficam fora do intervalo ±6σ.
- O método Box-Muller emprega dois números aleatórios independentes, U e V, ambos distribuídos uniformemente em (0,1). Posteriormente, as duas variáveis aleatórias X e Y, definidas como
, seguirão uma distribuição normal padrão e permanecerão independentes. Esta formulação decorre do fato de que para um vetor aleatório normal bivariado (X, Y), a norma quadrada X§113114§ + Y§117118§ exibe uma distribuição qui-quadrado com dois graus de liberdade, que corresponde a uma distribuição aleatória exponencial facilmente gerada variável, especificamente a quantidade −2 ln(U) nessas equações. Além disso, o ângulo é distribuído uniformemente ao redor do círculo, determinado pela variável aleatória V.X = − §2324§ln Você porque ( §4344§π V ) , S = − §6566§ln Você pecado ( §8586§π V ) . {\displaystyle X={\sqrt {-2\ln U}}\,\cos(2\pi V),\qquad Y={\sqrt {-2\ln U}}\,\sin(2\pi V).} - O método polar de Marsaglia, uma variante da técnica Box-Muller, elimina a necessidade de cálculos de funções seno e cosseno. Nesta abordagem, U e V são amostrados a partir de uma distribuição uniforme sobre (−1,1) e, subsequentemente, S = U§910§ + V§1314§ é calculado. Se S for maior ou igual a 1, o processo é reiniciado; caso contrário, as duas quantidades
são gerados. Essas variáveis, X e Y, são variáveis aleatórias normais padrão independentes.X = Você − §3738§ln S S , S = V − §6970§ln S S {\displaystyle X=U{\sqrt {\frac {-2\ln S}{S}}},\qquad Y=V{\sqrt {\frac {-2\ln S}{S}}}} - O método Ratio funciona como uma técnica de amostragem de rejeição. Seu algoritmo envolve as seguintes etapas:
- Primeiro, gere dois desvios uniformes independentes, U e V.
- Em seguida, calcule X usando a fórmula: √8/e (V − 0,5)/U.
- Opcionalmente, se X§34§ ≤ 5 − 4e1/4U, então X será aceito e o algoritmo será concluído.
- Alternativamente, se X§34§ ≥ 4e−1,35/U + 1,4, então X será rejeitado e o processo será reiniciado a partir da etapa inicial.
- Se X§34§ ≤ −4 ln U, então X é aceito; caso contrário, o algoritmo será reiniciado.
- A inclusão destas duas etapas opcionais reduz significativamente a necessidade de avaliar o logaritmo na etapa final para a maioria dos casos. Melhorias adicionais nessas etapas podem tornar a avaliação de logaritmos ainda mais rara.
- O algoritmo zigurate oferece uma alternativa mais rápida, mas igualmente precisa, à transformada de Box-Muller. Aproximadamente 97% das vezes, são necessários apenas dois números aleatórios (um inteiro e um uniforme), uma única multiplicação e um teste if. Nos 3% restantes dos casos, quando a combinação desses números fica fora do "núcleo do zigurate" (que envolve uma forma de amostragem de rejeição utilizando logaritmos), o algoritmo necessita do uso de exponenciais e números aleatórios uniformes adicionais.
- A amostragem da distribuição normal padrão também pode ser obtida usando aritmética inteira. Esta técnica é considerada exata porque atende aos critérios de aproximação ideal, o que significa que é funcionalmente equivalente a extrair um número real da distribuição normal padrão e subsequentemente arredondá-lo para o valor de ponto flutuante representável mais próximo.
- A pesquisa também explora a relação entre a transformada rápida de Hadamard e a distribuição normal. Dado que esta transformação depende exclusivamente de adição e subtração, e devido ao teorema do limite central, números aleatórios de quase qualquer distribuição podem ser convertidos numa distribuição normal. Consequentemente, uma sequência de transformadas de Hadamard, quando combinada com permutações aleatórias, pode transformar conjuntos de dados arbitrários em dados normalmente distribuídos.
Aproximações numéricas para a função de distribuição cumulativa normal e função quantil normal
A função de distribuição cumulativa normal padrão (CDF) é amplamente empregada em domínios computacionais científicos e estatísticos.
Os valores de Φ(x) podem ser aproximados com alta precisão por meio de diversas metodologias, incluindo integração numérica, série de Taylor, série assintótica e frações contínuas. A seleção de um método de aproximação depende do nível de precisão exigido.
- Zelen & Severo (1964) introduziu uma aproximação para Φ(x) aplicável quando x > 0, com um limite de erro absoluto de |ε(x)| < 7.5·10−8 (algoritmo 26.2.17). A aproximação é expressa como:
onde ϕ(x) denota a função de densidade de probabilidade normal padrão e os coeficientes são definidos como b§201202§ = 0,2316419, b§207208§ = 0,319381530, b§213214§ = −0,356563782, b§219220§ = 1,781477937, b§225226§ = −1,821255978 e b§231232§ = 1,330274429. - Hart (1968) compilou inúmeras aproximações para a função erfc(), onde erfc(x) = 1 - erf(x), utilizando funções racionais, com e sem termos exponenciais. Esses algoritmos apresentam vários graus de complexidade e atingem uma precisão absoluta máxima de 24 dígitos. Posteriormente, West (2009) desenvolveu um algoritmo que integra o algoritmo 5666 de Hart com uma aproximação de fração contínua para a região da cauda, resultando em um método de cálculo rápido com precisão de 16 dígitos.
- Cody (1969) apresentou uma solução para ambas as funções erf e erfc, alcançando um erro relativo máximo limitado através da Aproximação Racional de Chebyshev, após observar que a solução Hart68 não era adequada para a função erf.
- Marsaglia (2004) propôs um algoritmo simples para calcular Φ(x) com precisão arbitrária, baseado na expansão da série de Taylor:
. Uma desvantagem significativa deste algoritmo é o seu tempo de cálculo comparativamente lento; por exemplo, atingir 16 dígitos de precisão requer mais de 300 iterações quando x = 10.Φ ( x ) = §1920§ §21 22§ + φ ( x ) ( x + §54x §50 51§ 55§ + +x §66 67§ §71 72§ ⋅ §7677§ +x §8990§ §94 95§ ⋅ §99100§ ⋅ §104105§ +x §117 118§ §122 123§ ⋅ §127128§ ⋅ §132133§⋅ §137138§ ⋯) {\displaystyle \Phi (x)={\frac {1}{2}}+\varphi (x)\left(x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+{\frac {x^{7}}{3\cdot 5\cdot 7}}+{\frac {x^{9}}{3\cdot 5\cdot 7\cdot 9}}+\cdots \right)} - A Biblioteca Científica GNU calcula valores para a função de distribuição cumulativa normal padrão empregando algoritmos de Hart e aproximações baseadas em polinômios de Chebyshev.
- Dia (2023) apresenta a aproximação subsequente para
Shore (1982) introduziu aproximações diretas adequadas para integração em modelos de otimização estocástica predominantes em pesquisa de engenharia e operações, incluindo engenharia de confiabilidade e análise de inventário. Quando p é definido como Φ(z), a aproximação mais básica para a função quantil é apresentada como:
Esta aproximação produz um erro absoluto máximo de 0,026 para z dentro do intervalo 0,5 ≤ p ≤ 0,9999, que corresponde a 0 ≤ z ≤ 3,719. Para casos em que p < 1/2, é necessário substituir p por 1 − p e inverter o sinal. Uma aproximação distinta, embora menos precisa, de parâmetro único é dada por:
This approach facilitated the derivation of a straightforward approximation for the normal distribution's loss integral, which is formally defined as:
Essa aproximação demonstra precisão notável para a cauda extrema direita, exibindo um erro máximo de 10−3 quando z ≥ 1,4. Aproximações adicionais altamente precisas para a função de distribuição cumulativa, derivadas usando a Metodologia de Modelagem de Resposta (RMM, Shore, 2011, 2012), são apresentadas em Shore (2005).
Um pequeno erro relativo em todo o domínio para a função de distribuição cumulativa
Histórico
Desenvolvimento
Alguns estudiosos atribuem a descoberta inicial da distribuição normal a de Moivre, que, na segunda edição de 1738 de sua obra A Doutrina das Chances, apresentou um estudo dos coeficientes dentro da expansão binomial de (a + b)n. De Moivre demonstrou que o termo médio nesta expansão se aproxima da magnitude de
Em 1823, Gauss publicou sua monografia seminal, "Theoria combinationis observeum erroribus minimis obnoxiae", onde introduziu vários conceitos estatísticos fundamentais, incluindo o método dos mínimos quadrados, o método da máxima verossimilhança e a distribuição normal. Ele empregou a notação M, M′, M″, ... para representar medidas de uma quantidade desconhecida V. Seu objetivo era identificar o estimador mais provável para esta quantidade, especificamente aquele que maximiza a probabilidade de observar os resultados experimentais. Dentro de sua estrutura, φΔ significa a função de densidade de probabilidade correspondente a erros de medição de magnitude Δ. Reconhecendo a natureza desconhecida da função φ, Gauss estipulou que sua metodologia deveria convergir para a solução estabelecida: a média aritmética dos valores observados. Com base nestes princípios fundamentais, Gauss demonstrou rigorosamente que a única lei que justifica a seleção da média aritmética como estimador de parâmetros de localização é a lei normal dos erros, expressa como:
Embora Gauss seja creditado por propor inicialmente a lei de distribuição normal, Laplace fez contribuições substanciais e fundamentais para o seu desenvolvimento. Laplace foi o primeiro a articular o desafio de agregar múltiplas observações em 1774, embora a sua solução inicial tenha resultado na distribuição Laplaciana. Em 1782, Laplace foi o pioneiro no cálculo do valor da integral, ∫ e−t§67§ dt = √π, estabelecendo assim a constante de normalização para a distribuição normal. Gauss reconheceu formalmente a precedência de Laplace nesta conquista significativa. Por fim, em 1810, Laplace provou e apresentou rigorosamente o teorema fundamental do limite central para a academia, ressaltando o profundo significado teórico da distribuição normal. Notavelmente, em 1809, o matemático irlandês-americano Robert Adrain publicou de forma independente e simultânea duas derivações perspicazes, embora falhas, da lei da probabilidade normal, separadas do trabalho de Gauss. Suas contribuições escaparam em grande parte da atenção da comunidade científica até 1871, quando foram redescobertas por Abbe.
Em meados do século XIX, Maxwell demonstrou que a distribuição normal não é apenas uma construção matemática conveniente, mas também se manifesta em fenómenos naturais. Especificamente, o número de partículas cuja velocidade, quando resolvida em uma direção específica, cai dentro do intervalo de x e x + dx é dado por:
Nomeação
Atualmente, este conceito é predominantemente referido em inglês como distribuição normal ou distribuição gaussiana. Designações alternativas menos frequentemente encontradas abrangem a distribuição de Gauss, a distribuição de Laplace-Gauss, a lei do erro, a lei da facilidade dos erros, a segunda lei de Laplace e a lei de Gauss.
O próprio Gauss supostamente introduziu o termo, vinculando-o às "equações normais" utilizadas em suas aplicações, onde "normal" carregava o significado técnico de ortogonal em vez de seu uso comum. No entanto, no final do século XIX, alguns autores começaram a empregar a designação distribuição normal, com "normal" funcionando como adjetivo. Este uso refletiu a percepção desta distribuição como típica, comum e, portanto, padrão. Peirce, entre esses autores, certa vez definiu "normal" como: "... o 'normal' não é a média (ou qualquer outro tipo de média) do que realmente ocorre, mas do que iria, no longo prazo, ocorrer sob certas circunstâncias." Posteriormente, por volta da virada do século 20, Pearson popularizou significativamente o termo normal para denotar essa distribuição.
Há muitos anos chamei a curva de Laplace-Gaussiana de curva normal, cujo nome, embora evite uma questão internacional de prioridade, tem a desvantagem de levar as pessoas a acreditar que todas as outras distribuições de frequência são, em um sentido ou outro, 'anormais'.
Além disso, Pearson foi o primeiro a articular a distribuição usando o desvio padrão σ, consistente com a notação contemporânea. Pouco tempo depois, em 1915, Fisher incorporou o parâmetro de localização na fórmula de distribuição normal, apresentando-o em sua forma moderna:
A designação distribuição normal padrão, caracterizando uma distribuição normal com média zero e variância um, ganhou ampla aceitação por volta da década de 1950. Sua proeminência foi solidificada por meio de sua inclusão em livros didáticos influentes, como Introdução à Estatística Matemática de P. G. Hoel (1947) e Introdução à Teoria da Estatística de Alexander M. Mood (1950).
Distribuição Bates – uma distribuição análoga à distribuição Irwin-Hall, mas redimensionada para o intervalo [0, 1].
- Distribuição Bates – semelhante à distribuição Irwin-Hall, mas redimensionada para o intervalo de 0 a 1
- Problema de Behrens-Fisher – um desafio estatístico persistente que envolve a determinação se duas amostras normais, possuindo variâncias distintas, compartilham médias idênticas.
- Distância Bhattacharyya – uma métrica empregada para distinguir entre misturas de distribuições normais.
- Teorema de Erdős – Kac – um teorema relativo à manifestação da distribuição normal na teoria dos números.
- Largura total na metade do máximo
- Desfoque Gaussiano – uma operação de convolução que utiliza a distribuição normal como sua função kernel.
- Função gaussiana
- A função de densidade de probabilidade (pdf) para a distribuição seminormal modificada, definida no intervalo
, é expresso como( §89§, ∞ ) {\textstyle (0,\infty )} . Aqui,f ( x ) = §44 +45§ β α §58/ 59§ x expα −§7172§ ( − βx §9293§ γ x )Ψ ( )α §120121§ , γ β {\textstyle f(x)={\frac {2\beta ^{\alpha /2}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi \left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}} representa a função Fox–Wright Psi.Ψ ( α , z ) = §178179§Ψ §187188§( ) ;( α , §209210§ §211212§ )) ( §225226§ , §229230§) z{\textstyle \Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)} - A condição de ser normalmente distribuído e não correlacionado não implica necessariamente independência.
- Distribuição normal da razão
- Distribuição normal recíproca
- Tabela normal padrão
- Lema de Stein
- Distribuição sub-Gaussiana
- Soma de variáveis aleatórias normalmente distribuídas
- Distribuição Tweedie: a distribuição normal é categorizada como um membro da família de modelos de dispersão exponencial Tweedie.
- Distribuição normal encapsulada: refere-se à aplicação da distribuição normal dentro de um domínio circular.
- Teste Z: um teste estatístico que utiliza a distribuição normal.
Notas
Referências
Citações
Fontes
"Distribuição normal", Enciclopédia de Matemática, EMS Press, 2001 [1994]
- "Distribuição normal", Enciclopédia de Matemática, EMS Press, 2001 [1994]Fonte: Arquivo da TORIma Academia