Distribuição normal (Normal distribution)

Na teoria das probabilidades e nas estatísticas, uma distribuição normal ou distribuição gaussiana é um tipo de distribuição de probabilidade contínua para um valor aleatório aleatório…

Nos campos da teoria das probabilidades e estatística, uma distribuição normal, também conhecida como distribuição gaussiana, representa uma distribuição de probabilidade contínua aplicável a uma variável aleatória de valor real. Sua função de densidade de probabilidade é geralmente expressa como: f ( x ) = 1 2 π σ 2 experiência ⁡ ( - ( x - μ ) 2 2 σ 2 ) . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.} O parâmetro ⁠ μ {\ displaystyle \ mu} ⁠ denota a média ou expectativa da distribuição, que também corresponde à sua mediana e moda. Por outro lado, σ 2 {\textstyle\sigma ^{2}} significa a variação. O desvio padrão desta distribuição é representado pelo valor positivo ⁠ σ { displaystyle sigma} ⁠ (sigma). Uma variável aleatória em conformidade com uma distribuição gaussiana é denominada distribuição normal e é chamada de desvio normal.

Na teoria de probabilidade e estatística, uma distribuição normal ou distribuição gaussiana é um tipo de distribuição de probabilidade contínua para uma variável aleatória de valor real. A forma geral de sua função de densidade de probabilidade é $f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.$ 26§ π σ §3536§ exp ⁡ ( − ( x − μ ) §7273§ §7879§ σ §8586§ ) . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.} O parâmetro ⁠ $\mu$ ⁠ é a média ou expectativa da distribuição (e também sua mediana e moda), enquanto o parâmetro ${\textstyle \sigma ^{2}}$ 140§ {\textstyle \sigma ^{2}} é a variação. O desvio padrão da distribuição é o valor positivo ⁠ $\sigma$ ⁠ (sigma). Diz-se que uma variável aleatória com distribuição gaussiana é normalmente distribuída e é chamada de desvio normal.

As distribuições normais têm uma importância significativa nas estatísticas e são frequentemente empregadas nas ciências naturais e sociais para modelar variáveis aleatórias com valor real quando suas distribuições subjacentes são desconhecidas. Sua proeminência é parcialmente atribuível ao teorema do limite central. Este teorema postula que a média de numerosas amostras estatisticamente independentes (observações) de uma variável aleatória que possui média e variância finitas constitui ela própria uma variável aleatória, cuja distribuição se aproxima progressivamente de uma distribuição normal à medida que o tamanho da amostra aumenta. Conseqüentemente, as quantidades físicas que se prevê resultarem da soma de múltiplos processos independentes, como erros de medição, frequentemente exibem distribuições que são aproximadamente normais. Além disso, as distribuições gaussianas possuem propriedades distintas que se mostram inestimáveis em investigações analíticas. Por exemplo, uma combinação linear formada a partir de um conjunto fixo de desvios normais independentes será ela própria um desvio normal. Numerosos resultados analíticos e metodologias, incluindo a propagação da incerteza e ajuste de parâmetros de mínimos quadrados, podem ser derivados explicitamente quando as variáveis pertinentes aderem a uma distribuição normal.

Uma distribuição normal é ocasionalmente chamada informalmente de "curva em sino". No entanto, inúmeras outras distribuições também exibem uma característica em forma de sino, incluindo Cauchy, t de Student e distribuições logísticas.

A distribuição de probabilidade univariada se estende a vetores dentro da distribuição normal multivariada e a matrizes dentro da distribuição normal de matriz.

Definições

Distribuição Normal Padrão

A instância mais direta de uma distribuição normal é designada como a distribuição normal padrão ou, alternativamente, a distribuição normal unitária. Este cenário específico ocorre quando ${\textstyle \mu =0}$

Embora a densidade acima mencionada seja amplamente reconhecida como a distribuição normal padrão, alguns estudiosos aplicaram esta designação a formas alternativas da distribuição normal. Por exemplo, Carl Friedrich Gauss certa vez definiu o padrão normal como ${\textstyle \varphi (z)={\frac {1}{\sqrt {\pi }}}e^{-z^{2}},}$ 42§ , {\textstyle \varphi (z)={\frac {1}{\sqrt {\pi }}}e^{-z^{2}},} que exibe um variação de ⁠ ${\tfrac {1}{2}}$ 70§ {\displaystyle {\tfrac {1}{2}}} ⁠. Da mesma forma, Stephen Stigler propôs uma definição normal padrão como ${\textstyle \varphi (z)=e^{-\pi z^{2}},}$ 115§ , {\textstyle \varphi (z)=e^{-\pi z^{2}},} caracterizado por uma forma funcional mais simples e uma variação de ${\textstyle \sigma ^{2}={\frac {1}{2\pi }}.}$ 142§ = §149150§ §152153§ π . {\textstyle \sigma ^{2}={\frac {1}{2\pi }}.}

Distribuição Normal Geral

Se ⁠ $Z$ ⁠ representa um desvio normal padrão, então a variável ${\textstyle X=\sigma Z+\mu }$ seguirá uma distribuição normal com um valor esperado de ⁠ $\mu$ ⁠ e um desvio padrão de ⁠ $\sigma$ ⁠. Isso implica que a distribuição normal padrão ⁠ $Z$ ⁠ pode ser dimensionado por um fator de ⁠ $\sigma$ ⁠ e posteriormente deslocado por ⁠ $\mu$ ⁠ para gerar uma distribuição normal distinta, denotada como ⁠ $X$ ⁠.

Por outro lado, se ⁠ $X$ ⁠ representa um desvio normal caracterizado pelos parâmetros ⁠ $\mu$ ⁠ e ${\textstyle \sigma ^{2}}$ 49§ {\textstyle \sigma ^{2}} , sua distribuição pode ser transformada na distribuição normal padrão por meio de reescalonamento e deslocamento, usando a fórmula ${\textstyle Z=(X-\mu )/\sigma }$ . Essa variável resultante é comumente chamada de forma padronizada de ⁠ $X$ ⁠.

Especificamente, a função de densidade de probabilidade para ⁠ $X$ ⁠ pode ser expresso usando a distribuição normal padrão, denotada como ⁠ $\varphi$ ⁠, que possui média zero e variância unitária: $f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma }}\varphi \left({\frac {x-\mu }{\sigma }}\right)\,.$ 63§ ) = §7273§ σ φ ( x − μ σ ) . {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma }}\varphi \left({\frac {x-\mu }{\sigma }}\right)\,.} Para garantir que a integral da densidade de probabilidade permaneça igual a 1, ela deve ser escalonada pelo fator ${\textstyle 1/\sigma }$ 124§ / σ {\textstyle 1/\sigma } .

Notação Matemática

A função de densidade de probabilidade da distribuição gaussiana padrão, também conhecida como distribuição normal padrão (caracterizada por uma média zero e variância unitária), é frequentemente simbolizada pela letra grega ⁠ $\phi$ ⁠ (phi). Além disso, a forma alternativa da letra grega phi, ⁠ $\varphi$ ⁠, também é comumente empregado.

A distribuição normal é frequentemente denotada como ${\textstyle N(\mu ,\sigma ^{2})}$ ou ⁠ ${\mathcal {N}}(\mu ,\sigma ^{2})$ ⁠. Consequentemente, quando uma variável aleatória ⁠ $X$ ⁠ segue uma distribuição normal com uma média de ⁠ $\mu$ ⁠ e um desvio padrão de ⁠ $\sigma$ ⁠, pode ser expresso como:

$X\sim {\mathcal {N}}(\mu ,\sigma ^{2}).$

Parametrizações Alternativas

Alguns pesquisadores propõem o emprego da precisão, denotada como ⁠ $\tau$ ⁠, para caracterizar a largura da distribuição, em vez do desvio padrão ⁠ $\sigma$ ⁠ ou a variação ⁠ $\sigma ^{2}$ 51§{\displaystyle \sigma ^{2}}⁠. A precisão é convencionalmente definida como o inverso da variação, especificamente ⁠ $1/\sigma ^{2}$ 71§/σ§8182§{\displaystyle 1/\sigma ^{2}}⁠. Consequentemente, a fórmula da distribuição é modificada para: $f(x)={\sqrt {\frac {\tau }{2\pi }}}e^{-\tau (x-\mu )^{2}/2}.$ 118§πe−τ(x−μ)§150151§/§158159§.{\displaystyle f(x)={\sqrt {\frac {\tau }{2\pi }}}e^{-\tau (x-\mu )^{2}/2}.}

Afirma-se que essa parametrização alternativa oferece benefícios em cálculos numéricos, especialmente quando ⁠ $\sigma$ ⁠ se aproxima de zero e simplifica fórmulas em certas aplicações, incluindo inferência bayesiana para variáveis que exibem uma distribuição normal multivariada.

Como alternativa, o inverso do desvio padrão, denotado como ${\textstyle \tau '=1/\sigma }$ 16§ / σ {\textstyle \tau '=1/\sigma } , pode ser definido como a precisão. Nesta formulação, a expressão para a distribuição normal é dada por $f(x)={\frac {\tau '}{\sqrt {2\pi }}}e^{-(\tau ')^{2}(x-\mu )^{2}/2}.$

Stigler postula que esta formulação específica oferece vantagens devido à sua expressão matemática significativamente mais simples e memorável, juntamente com fórmulas aproximadas diretas para os quantis da distribuição.

Distribuições normais são classificadas como uma família exponencial, caracterizada por parâmetros naturais ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ 13§ = μ σ §28 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ {\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}} e ${\textstyle \textstyle \theta _{2}=-{\frac {1}{2\sigma ^{2}}}}$ 67§ §69 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ {\textstyle \textstyle \theta _{2}=-{\frac {1}{2\sigma ^{2}}}} , junto com estatísticas naturais x e x§97 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ . Os parâmetros de expectativa dupla correspondentes para uma distribuição normal são η§103104§ = μ e η§111 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ μ§115 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ σ§119 ${\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}}$ .

Função de distribuição cumulativa

A função de distribuição cumulativa (CDF) da distribuição normal padrão, normalmente indicada pela letra grega maiúscula ⁠ $\Phi$ ⁠, é definido pela integral: $\Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-t^{2}/2}\,dt\,.$ 39§ §4142§ π ∫ − ∞ x e − t §7778§ / §8586§ d t . {\displaystyle \Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-t^{2}/2}\,dt\,.}

A função de erro associada, representada como ${\textstyle \operatorname {erf} (x)}$ , calcula a probabilidade de que uma variável aleatória de um distribuição normal com média 0 e variância 1/2 ficará dentro do intervalo ⁠ $[-x,x]$ ⁠. Isso é expresso como: $\operatorname {erf} (x)={\frac {1}{\sqrt {\pi }}}\int _{-x}^{x}e^{-t^{2}}\,dt={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt\,.$ 76§ π ∫ − x x e − t §111 ${\textstyle \operatorname {erf} (x)}$ d t = §127 ${\textstyle \operatorname {erf} (x)}$ ∫ §141142§ x e − t §160 ${\textstyle \operatorname {erf} (x)}$ d t . {\displaystyle \operatorname {erf} (x)={\frac {1}{\sqrt {\pi }}}\int _{-x}^{x}e^{-t^{2}}\,dt={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt\,.}

Essas integrais não podem ser expressas usando funções elementares e, consequentemente, são categorizadas como funções especiais. No entanto, numerosas aproximações numéricas para eles foram desenvolvidas.

Essas duas funções apresentam uma relação estreita, que pode ser expressa pela seguinte fórmula: $\Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right].$ 20§ §21 $\Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right].$ [ §2930§ + erf ⁡ ( x §46 $\Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right].$ ) ] . {\displaystyle \Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right].}

Para uma distribuição normal geral caracterizada por uma função de densidade ⁠ $f$ ⁠, uma média ⁠ $\mu$ ⁠, e uma variação ${\textstyle \sigma ^{2}}$ 49§ {\textstyle \sigma ^{2}} , sua função de distribuição cumulativa é definida como: $F(x)=\Phi {\left({\frac {x-\mu }{\sigma }}\right)}={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right].$ 109§ §110111§ [ §118119§ + erf ⁡ ( x − μ σ §148149§ ) ] . {\displaystyle F(x)=\Phi {\left({\frac {x-\mu }{\sigma }}\right)}={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right].}

Consequentemente, a probabilidade de x estar dentro do intervalo definido por a e b, onde a < b, é expresso da seguinte forma: $\operatorname {P} (a<x\leq b)={\frac {1}{2}}\left[\operatorname {erf} \left({\frac {b-\mu }{\sigma {\sqrt {2}}}}\right)-\operatorname {erf} \left({\frac {a-\mu }{\sigma {\sqrt {2}}}}\right)\right]$ 39§ §4041§ [ erf ⁡ ( b − μ σ §7475§ ) − erf ⁡ ( uma − μ σ §113114§ ) ] {\displaystyle \operatorname {P} (a

A função Q, freqüentemente encontrada na literatura de engenharia, representa o complemento da função de distribuição cumulativa normal padrão, denotada como ${\textstyle Q(x)=1-\Phi (x)}$ 17§ − Φ ( x ) {\textstyle Q(x)=1-\Phi (x)} . Esta função quantifica a probabilidade de uma variável aleatória normal padrão ⁠ $X$ ⁠ excederá um determinado valor ⁠ $x$ ⁠, especificamente: ⁠ $P(X>x)$ ⁠. É importante observar que definições alternativas de ⁠ $Q$ ⁠-função existe, todas elas são transformações diretas de ⁠ $\Phi$ ⁠, e são empregados ocasionalmente.

$\int \Phi (x)\,dx=x\Phi (x)+\varphi (x)+C.$

Aqui, ${\textstyle !!}$ representa o fatorial duplo.

Representação da Série Taylor

A série de Taylor para a distribuição normal, simbolizada por ⁠ $\varphi$ ⁠, pode ser obtido substituindo ⁠ $-{\tfrac {1}{2}}x^{2}$ 32§ §3334§ x §4243§ {\displaystyle -{\tfrac {1}{2}}x^{2}} ⁠ na série de Taylor da função exponencial.

$\varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}$ 20§ §22 $\varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}$ ∑ n = §3940§ ∞ ( − §5657§ ) n n ! §75 $\varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}$ x §89 $\varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}$ {\displaystyle \varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}}

A série de Taylor para a função de distribuição cumulativa pode ser derivada integrando esta série termo por termo:

$\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ 20§ §21 $\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ + §2930§ §32 $\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ ∑ n = §4950§ ∞ ( − §6667§ ) n n ! §85 $\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ ( §94 $\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ 101§ ) x §111 $\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.$ 118§ . {\displaystyle \Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.} No entanto, esta série se mostra computacionalmente ineficiente devido à sua convergência lenta, exceto nos casos em que ⁠ $x$ ⁠ é de pequena magnitude.

Ambas as séries representam funções inteiras, exibindo convergência entre todos os valores reais e complexos de ⁠ $x$ ⁠.

Computação recursiva com série de Taylor

A relação de recorrência que rege os polinômios de Hermite, especificamente He_n(x), facilita a derivação eficiente de sua expansão em série de Taylor em torno de um ponto arbitrário x§1112§:

Desvio padrão e cobertura de dados

Para uma distribuição normal, aproximadamente 68% dos pontos de dados estão dentro de um desvio padrão σ da média. Além disso, cerca de 95% dos valores estão contidos dentro de dois desvios padrão e aproximadamente 99,7% estão dentro de três desvios padrão. Este princípio é comumente referido como regra 68–95–99,7 (empírica) ou regra dos 3 sigma.

Mais precisamente, a probabilidade de um desvio normal cair dentro do intervalo definido por ${\textstyle \mu -n\sigma }$ e ${\textstyle \mu +n\sigma }$ é matematicamente expresso como: $F(\mu +n\sigma )-F(\mu -n\sigma )=\Phi (n)-\Phi (-n)=\operatorname {erf} \left({\frac {n}{\sqrt {2}}}\right).$ Os valores correspondentes, com precisão de 12 dígitos significativos, para ${\textstyle n=1,2,\ldots ,6}$ 161§ , §164 ${\textstyle \mu -n\sigma }$ {\textstyle n=1,2,\ldots ,6} são apresentados abaixo:

Para valores substanciais de ⁠ $n$ ⁠, a seguinte aproximação pode ser empregada: $1-p\approx {\frac {\sqrt {2}}{n{\sqrt {\pi e^{n^{2}}}}}}$ 25§ − p ≈ §3738§ n π e n §5657§ {\displaystyle 1-p\approx {\frac {\sqrt {2}}{n{\sqrt {\pi e^{n^{2}}}}}}}

Função Quantílica

A função quantílica de uma distribuição é definida como o inverso de sua função de distribuição cumulativa. Para a distribuição normal padrão, esta função é especificamente denominada função probit e pode ser expressa usando a função de erro inverso:

A tabela subsequente apresenta o quantil ${\textstyle z_{p}}$ , o que garante que uma variável aleatória ⁠ $X$ ⁠ está dentro do intervalo ${\textstyle \mu \pm z_{p}\sigma }$ com uma probabilidade de ⁠ $p$ ⁠. Esses quantis são fundamentais para estabelecer intervalos de tolerância para médias amostrais e outros estimadores estatísticos que seguem distribuições normais ou assintoticamente normais. É importante observar que a tabela subsequente apresenta ${\textstyle {\sqrt {2}}\operatorname {erf} ^{-1}(p)=\Phi ^{-1}\left({\frac {p+1}{2}}\right)}$ 109§ ⁡ ( p ) = Φ − §131132§ ( p + §145146§ §148 ${\textstyle z_{p}}$ ) {\textstyle {\sqrt {2}}\operatorname {erf} ^{-1}(p)=\Phi ^{-1}\left({\frac {p+1}{2}}\right)} , em vez de ${\textstyle \Phi ^{-1}(p)}$ 178§ ( p ) {\textstyle \Phi ^{-1}(p)} conforme definido anteriormente.

Para valores diminutos de ⁠ $p$ ⁠, a função quantil exibe uma expansão assintótica valiosa, expressa como: ${\textstyle \Phi ^{-1}(p)=-{\sqrt {\ln {\frac {1}{p^{2}}}-\ln \ln {\frac {1}{p^{2}}}-\ln(2\pi )}}+{\mathcal {o}}(1).}$ 33§ ( p ) = − ln ⁡ §5657§ p §6263§ − ln ⁡ ln ⁡ §8384§ p §8990§ − ln ⁡ ( §105106§ π ) + o ( §124125§ ) . {\textstyle \Phi ^{-1}(p)=-{\sqrt {\ln {\frac {1}{p^{2}}}-\ln \ln {\frac {1}{p^{2}}}-\ln(2\pi )}}+{\mathcal {o}}(1).}

O cálculo da função quantílica pode ser alcançado por meio de algoritmos de localização de raiz.

Para determinar o valor ⁠ $x$ ⁠ para um quantil especificado ⁠ $q$ ⁠, onde ⁠ $\Phi (x)=q$ ⁠, qualquer um dos métodos mencionados acima para calcular a função de distribuição cumulativa ${\textstyle \Phi (x)}$ pode ser empregado com um algoritmo de localização de raiz, como o método de Newton ou o método de Halley. Por exemplo, começando com uma aproximação inicial ⁠ $x_{0}$ 100§ {\displaystyle x_{0}} ⁠, refinamentos sucessivos ⁠ $x_{1}$ 124§ {\displaystyle x_{1}} ⁠, ⁠ $x_{2}$ ⁠ e assim por diante, podem ser calculados iterativamente usando o método de Newton por meio da fórmula: $x_{n}=x_{n-1}-{\frac {\Phi (x_{n-1})-q}{\varphi (x_{n-1})}}\,.$ 186§ − Φ ( x n − §209210§ ) − q φ ( x n − §236237§ ) . {\displaystyle x_{n}=x_{n-1}-{\frac {\Phi (x_{n-1})-q}{\varphi (x_{n-1})}}\,.}

Propriedades

A distribuição normal possui diversas propriedades distintas. É caracterizada exclusivamente como a única distribuição onde todos os cumulantes além dos dois primeiros (a média e a variância) são zero. Além disso, entre todas as distribuições contínuas com uma determinada média e variância, apresenta a entropia máxima. Geary demonstrou que, sob a suposição de média e variância finitas, a distribuição normal é a única distribuição para a qual a média e a variância, derivadas de um conjunto de observações independentes, são independentes.

Classificada como uma subclasse de distribuições elípticas, a distribuição normal é caracterizada por sua simetria em torno de sua média e sua densidade de probabilidade diferente de zero em toda a reta numérica real. Consequentemente, pode não ser um modelo apropriado para variáveis que são intrinsecamente positivas ou que apresentam assimetria significativa, exemplos dos quais incluem o peso humano ou os preços das ações. Para tais variáveis, distribuições alternativas como a distribuição log-normal ou a distribuição de Pareto geralmente fornecem uma representação mais precisa.

A função de densidade normal se aproxima de zero quando a variável ⁠ $x$ ⁠ desvia-se significativamente da média; por exemplo, um intervalo que abrange três desvios padrão abrange aproximadamente 99,73% de toda a distribuição. Consequentemente, a distribuição normal pode ser inadequada como modelo se for prevista uma proporção substancial de valores discrepantes – pontos de dados muito distantes da média. Nesses cenários, técnicas de inferência estatística como os mínimos quadrados, que são otimizadas para variáveis normalmente distribuídas, tendem a perder sua confiabilidade. Em vez disso, é aconselhável empregar uma distribuição de cauda pesada e aplicar métodos robustos de inferência estatística.

A distribuição gaussiana é um membro da família de distribuições estáveis, que servem como atratores para somas de variáveis aleatórias independentes e distribuídas de forma idêntica, independentemente de sua média ou variância ser finita. Com exceção da distribuição gaussiana, que representa um caso limite, todas as outras distribuições estáveis apresentam caudas pesadas e variância infinita. A distribuição gaussiana é notável como uma das poucas distribuições estáveis cujas funções de densidade de probabilidade podem ser expressas analiticamente, juntamente com as distribuições de Cauchy e Lévy.

Simetrias e propriedades derivadas

Uma distribuição normal, caracterizada por sua função de densidade de probabilidade ${\textstyle f(x)}$ , uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}>0}$ 59§ {\textstyle \sigma ^{2}>0} , possui as propriedades subsequentes:

A distribuição exibe simetria em torno do ponto ${\textstyle x=\mu ,}$ , que representa simultaneamente a moda, a mediana e a média da distribuição.
A distribuição é unimodal: sua primeira derivada é positiva quando ${\textstyle x<\mu ,}$ , negativo quando ${\textstyle x>\mu ,}$ , e precisamente zero em ${\textstyle x=\mu .}$ .
A área total delimitada pela curva e pelo ⁠ $x$ ⁠-eixo é igual a um.
A primeira derivada da função é dada por ${\textstyle f'(x)=-{\frac {x-\mu }{\sigma ^{2}}}f(x).}$
A segunda derivada da função é dada pela expressão: ${\textstyle f''(x)={\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{4}}}f(x).}$
A função de densidade exibe dois pontos de inflexão, definidos como locais onde a segunda derivada de ⁠ $f$ ⁠ é zero e sofre uma mudança de sinal. Esses pontos estão situados a um desvio padrão da média, especificamente em ${\textstyle x=\mu -\sigma }$ e ${\textstyle x=\mu +\sigma .}$
A função de densidade é caracterizada pela concavidade logarítmica.
A função densidade é infinitamente diferenciável, possuindo a propriedade de ser superlisa de ordem 2.

Além disso, a função de densidade ⁠ $\varphi$ ⁠ para a distribuição normal padrão (onde ${\textstyle \mu =0}$ e ${\textstyle \sigma =1}$ 52§ {\textstyle \sigma =1} ) possui as seguintes características:

A primeira derivada é expressa como: ${\textstyle \varphi '(x)=-x\varphi (x).}$
A segunda derivada é dada por: ${\textstyle \varphi ''(x)=(x^{2}-1)\varphi (x)}$ 35§ ) φ ( x ) {\textstyle \varphi ''(x)=(x^{2}-1)\varphi (x)}
Mais geralmente, sua nésima derivada é expressa como: ${\textstyle \varphi ^{(n)}(x)=(-1)^{n}\operatorname {He} _{n}(x)\varphi (x),}$ 35§ ) n Ele n ⁡ ( x ) φ ( x ) , {\textstyle \varphi ^{(n)}(x)=(-1)^{n}\operatorname {He} _{n}(x)\varphi (x),} onde ${\textstyle \operatorname {He} _{n}(x)}$ denota o nésimo (probabilista) polinômio de Hermite.
A probabilidade de que uma variável normalmente distribuída ⁠ $X$ ⁠, com uma média conhecida ⁠ $\mu$ ⁠ e variação ${\textstyle \sigma ^{2}}$ 49§ {\textstyle \sigma ^{2}} , cai dentro de um conjunto específico pode ser calculado se a fração padronizada ${\textstyle Z=(X-\mu )/\sigma }$ segue uma distribuição normal padrão.

Momentos

Para uma variável ⁠ $X$ ⁠, seus momentos simples e absolutos são definidos como os valores esperados de ${\textstyle X^{p}}$ e ${\textstyle |X|^{p}}$ , respectivamente. Esses parâmetros são chamados de momentos centrais se o valor esperado ⁠ $\mu$ ⁠ de ⁠ $X$ ⁠ é zero; caso contrário, eles são chamados de momentos não centrais. Normalmente, o interesse é confinado a momentos de ordem inteira ⁠ $p$ ⁠.

Quando uma variável aleatória ⁠ $X$ ⁠ segue uma distribuição normal, seus momentos não centrais são bem definidos e finitos para qualquer ⁠ $p$ ⁠ onde a parte real excede −1. Além disso, para qualquer número inteiro não negativo ⁠ $p$ ⁠, os momentos centrais são expressos como: $\operatorname {E} \left[(X-\mu )^{p}\right]={\begin{cases}0&{\text{if }}p{\text{ é ímpar,}}\\\sigma ^{p}(p-1)!!&{\text{if }}p{\text{ é par.}}\end{cases}}$ 101§se p é ímpar,σp(p−§134135§)!!se p é par.{\displaystyle \operatorname {E} \left[(X-\mu )^{p}\right]={\begin{cases}0&{\text{if }}p{\text{ é ímpar,}}\\\sigma ^{p}(p-1)!!&{\text{if }}p{\text{ é par.}}\end{cases}}}Neste contexto, ${\textstyle n!!}$ representa o fatorial duplo, que é definido como o produto de todos os números inteiros de ⁠ $n$ ⁠ até 1 que compartilham a mesma paridade que ${\textstyle n.}$

Embora os momentos absolutos centrais se alinhem com os momentos simples para todas as ordens pares, eles exibem valores diferentes de zero para ordens ímpares. Para qualquer número inteiro não negativo ${\textstyle p,}$

${\begin{aligned}\operatorname {E} \left[|X-\mu |^{p}\right]&=\sigma ^{p}(p-1)!!\cdot {\begin{cases}{\sqrt {\frac {2}{\pi }}}&{\text{if }}p{\text{ é ímpar}}\\1&{\text{if }}p{\text{ é par}}\end{cases}}\\[8pt]&=\sigma ^{p}\cdot {\frac {2^{p/2}\Gamma \left({\frac {p+1}{2}}\right)}{\sqrt {\pi }}}.\end{aligned}}$

A validade dessas expressões persiste mesmo quando ⁠ ${\displaystyle p> <semantics> <mrow class=$ 15§ {\displaystyle p>-1} ⁠ não é um número inteiro.

A expectativa condicional de ⁠ $X$ ⁠, dado que ⁠ $X$ ⁠ está dentro do intervalo ${\textstyle [a,b]}$ , é expresso como: $\operatorname {E} \left[X\mid a<X<b\right]=\mu -\sigma ^{2}{\frac {f(b)-f(a)}{F(b)-F(a)}}\,,$ 108§ f ( b ) − f ( a ) F ( b ) − F ( a ) , {\displaystyle \operatorname {E} \left[X\mid a Aqui, ⁠ $f$ ⁠ e ⁠ $F$ ⁠ denotam a função de densidade de probabilidade e a função de distribuição cumulativa, respectivamente, para ⁠ $X$ ⁠. Quando ${\textstyle b=\infty }$ , esta expressão é reconhecida como a razão de Mills inversa.É importante observar que a função de densidade ⁠ $f$ ⁠ de ⁠ $X$ ⁠ é empregado aqui, em vez da densidade normal padrão normalmente encontrada na proporção inversa de Mills contexto, resultando na presença de ${\textstyle \sigma ^{2}}$ 291§ {\textstyle \sigma ^{2}} em vez de ⁠ $\sigma$ ⁠.

Transformada de Fourier e função característica

A transformada de Fourier para uma função de densidade de probabilidade normal ⁠ $f$ ⁠, caracterizado por uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ 48§ {\textstyle \sigma ^{2}} , é dado por:

A transformada de Fourier de uma função de densidade de probabilidade normal é expressa como: ${\hat {f}}(t)=\int _{-\infty }^{\infty }f(x)e^{-itx}\,dx=e^{-i\mu t}e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}\,,$ 100 ${\hat {f}}(t)=\int _{-\infty }^{\infty }f(x)e^{-itx}\,dx=e^{-i\mu t}e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}\,,$

Aqui, ⁠ $i$ ⁠ representa a unidade imaginária. Quando a média ${\textstyle \mu =0}$ 30§{\textstyle \mu =0}, o fator inicial torna-se 1. Consequentemente, a transformada de Fourier, desconsiderando um multiplicador constante, se manifesta como uma densidade normal dentro do domínio da frequência, caracterizada por uma média de 0 e uma variação de ⁠ $1/\sigma ^{2}$ 47§/σ§5758§{\displaystyle 1/\sigma ^{2}}⁠. Notavelmente, a distribuição normal padrão, denotada por ⁠ $\varphi$ ⁠, funciona como uma função própria da transformada de Fourier.

Na teoria da probabilidade, a transformada de Fourier de uma variável aleatória de valor real ⁠ $X$ ⁠ a distribuição de probabilidade está intrinsecamente ligada à sua função característica, ${\textstyle \varphi _{X}(t)}$ . Esta função é formalmente definida como o valor esperado de ${\textstyle e^{itX}}$ , onde ⁠ $t$ ⁠ representa o parâmetro de frequência com valor real da transformada de Fourier. Esta definição é passível de extensão analítica para uma variável de valor complexo ⁠ $t$ ⁠. A relação entre esses dois conceitos é expressa como:

Os componentes reais e imaginários de ${\hat {f}}(t)=\operatorname {E} [e^{-itx}]=e^{-i\mu t}e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}$

Em uma linha semelhante, as seguintes expressões são observadas: $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ 51§ §52 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ σ §61 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ t §69 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ {\displaystyle \operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}} e $\operatorname {E} [\sinh(tx)]=\sinh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}.$ 134§ §135 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ σ §144 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ t §152 $\operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}$ . {\displaystyle \operatorname {E} [\sinh(tx)]=\sinh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}.}

Quando essas fórmulas são avaliadas com $t=1$ 11§ {\displaystyle t=1} , eles produzem os valores esperados para essas funções trigonométricas e hiperbólicas fundamentais relativas a uma variável aleatória gaussiana $X\sim N(\mu ,\sigma ^{2})$ . Estes resultados também podem ser interpretados como implicações diretas do teorema de Isserlis.

Funções de geração de momento e cumulante

A função geradora de momento (MGF) para uma variável aleatória real ⁠ $X {\displaystyle X}$ ⁠ é definido como o valor esperado de ${\textstyle e^{tX}}$ , expresso como uma função do parâmetro real ⁠ $t {\displaystyle t}$ ⁠. Para uma distribuição normal caracterizada por densidade ⁠ $f {\displaystyle f}$ ⁠, uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ 109§ {\textstyle \sigma ^{2}} , a função geradora de momento é bem definida e corresponde a:

$M(t)=\operatorname {E} \left[e^{tX}\right]={\hat {f}}(it)=e^{\mu t}e^{\sigma ^{2}t^{2}/2}\,.$ Para qualquer número inteiro ⁠ $k$ ⁠, o coeficiente correspondente a ⁠ $t^{k}/k!$ ⁠ dentro da função geradora de momento (quando expressa como uma série de potências exponenciais em ⁠ $t {\displaystyle t}$ ⁠) representa o valor esperado da distribuição normal, denotado como ⁠ $\operatorname {E} [X^{k}]$ ⁠.

A função geradora de cumulante é definida como o logaritmo natural da função geradora de momento, especificamente: $g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.$ 42§ §43 $g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.$ σ §53 $g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.$ t §61 $g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.$ . {\displaystyle g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.}

Embora os coeficientes desta série de potências exponenciais estabeleçam os cumulantes, sua forma polinomial quadrática em ⁠ $t$ ⁠ implica que apenas os dois cumulantes iniciais possuem valores diferentes de zero: especificamente, a média ⁠ $\mu$ ⁠ e a variação ⁠ $\sigma ^{2}$ 50§ {\displaystyle \sigma ^{2}} ⁠.

Alternativamente, alguns pesquisadores optam por utilizar a função característica, definida como E[e^itX] = e^{iμt - σ§1415§t§1819§/2}, e seu logaritmo, ln E[e^itX] = iμt - ⁠§3334§/§3738§⁠σ§4344§t§4748§.

Operador e classe Stein

No método de Stein, para uma variável aleatória ${\textstyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})}$ , o operador Stein é definido como ${\textstyle {\mathcal {A}}f(x)=\sigma ^{2}f'(x)-(x-\mu )f(x)}$ . A classe correspondente ${\textstyle {\mathcal {F}}}$ abrange todas as funções absolutamente contínuas ⁠ $\textstyle f:\mathbb {R} \to \mathbb {R}$ ⁠ que satisfazem a condição ⁠ $\operatorname {E} [\vert f'(X)\vert ]<\infty$ ⁠.

Limite de variação zero

Quando a variação ${\textstyle \sigma ^{2}}$ se aproxima de zero, a função de densidade de probabilidade ${\textstyle f}$ converge para zero em todos os lugares, exceto em ${\textstyle \mu }$ , onde se aproxima de ${\textstyle \infty }$ , enquanto sua integral permanece igual a 1. Uma extensão da distribuição normal para o caso de variância zero pode ser definida usando a medida delta de Dirac ${\textstyle \delta _{\mu }}$ . No entanto, as variáveis aleatórias resultantes não são absolutamente contínuas e, portanto, carecem de funções convencionais de densidade de probabilidade. A função de distribuição cumulativa (CDF) para tal variável aleatória é, conseqüentemente, a função degrau de Heaviside, traduzida pela média ${\textstyle \mu }$ , expresso como: $F(x)={\begin{cases}0&{\text{if }}x<\mu \\1&{\text{if }}x\geq \mu .\end{cases}}$ 138§ se x < μ §156157§ if x ≥ μ . {\displaystyle F(x)={\begin{cases}0&{\text{if }}x<\mu \\1&{\text{if }}x\geq \mu .\end{cases}}}

Entropia máxima

Entre todas as distribuições de probabilidade definidas sobre os números reais que possuem uma média finita especificada ⁠ $\mu$

No ponto de entropia máxima, uma variação infinitesimal ${\textstyle \delta f(x)}$ da função ${\textstyle f(x)}$ resultará em uma variação correspondente ${\textstyle \delta L}$ em ⁠ $L$ ⁠ que é precisamente zero:

Considerando que esta condição deve ser satisfeita para qualquer variação infinitesimal ⁠ $\delta f(x)$ ⁠, o coeficiente associado a ⁠ $\delta f(x)$ ⁠ deve necessariamente ser igual a zero. Consequentemente, resolvendo para ⁠ $f(x)$ ⁠ produz o seguinte resultado:

As restrições de Lagrange, que garantem que a função ⁠ $f(x)$ ⁠ é normalizado corretamente e exibe a média e a variância especificadas, são atendidos se e somente se o parâmetros ⁠ $\lambda _{0}$ 37§ {\displaystyle \lambda _{0}} ⁠, ⁠ $\lambda _{1}$ 62§ {\displaystyle \lambda _{1}} ⁠, e ⁠ $\lambda _{2}$ 87§ {\displaystyle \lambda _{2}} ⁠ são escolhidos para definir $f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,.$ 118§ §120121§ π σ §130131§ e − ( x − μ ) §161162§ §167168§ σ §174175§ . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,.} A entropia de uma distribuição normal, denotada como ${\textstyle X\sim N(\mu ,\sigma ^{2})}$ 221§ ) {\textstyle X\sim N(\mu ,\sigma ^{2})} , é dado pela fórmula: $H(X)={\tfrac {1}{2}}(1+\ln 2\sigma ^{2}\pi )\,,$ 254§ §255256§ ( §262263§ + ln ⁡ §271272§ σ §278279§ π ) , {\displaystyle H(X)={\tfrac {1}{2}}(1+\ln 2\sigma ^{2}\pi )\,,} .Notavelmente, esse valor de entropia é independente da média ⁠ $\mu$ ⁠.

Outras propriedades

Distribuições relacionadas

Teorema do limite central

O Teorema do Limite Central (CLT) postula que, sob um conjunto de condições amplamente aplicáveis, a soma agregada de numerosas variáveis aleatórias se aproximará de uma distribuição normal. Especificamente, se ${\textstyle X_{1},\ldots ,X_{n}}$ 11§ , … , X n {\textstyle X_{1},\ldots ,X_{n}} representam variáveis aleatórias independentes e distribuídas de forma idêntica, cada uma possuindo uma distribuição arbitrária, uma média zero e uma variância de ${\textstyle \sigma ^{2}}$ e se ⁠ $Z$ ⁠ é definido como sua média escalada por ${\textstyle {\sqrt {n}}}$ , expresso como $Z={\sqrt {n}}{\biggl (}{\frac {1}{n}}\sum _{i=1}^{n}X_{i}{\biggr )}$ 123§ n ∑ i = §137138§ n X i ) {\displaystyle Z={\sqrt {n}}{\biggl (}{\frac {1}{n}}\sum _{i=1}^{n}X_{i}{\biggr )}} , depois como ⁠ $n$ ⁠ tende ao infinito, a distribuição de probabilidade de ⁠ $Z$ ⁠ converge para uma distribuição normal caracterizada por uma média zero e uma variância de ⁠ $\sigma ^{2}$ ⁠.

Este teorema é generalizável para abranger variáveis ${\textstyle (X_{i})}$ que não são independentes ou não são distribuídos de forma idêntica, desde que restrições específicas sejam impostas ao seu grau de dependência e aos momentos de suas distribuições.

Em aplicações práticas, inúmeras estatísticas de testes, pontuações e estimadores são formulados como somas de variáveis aleatórias; além disso, estimadores adicionais podem ser conceituados como tais somas através da aplicação de funções de influência. Consequentemente, o Teorema do Limite Central determina que esses parâmetros estatísticos exibirão distribuições assintoticamente normais.

O Teorema do Limite Central indica ainda que várias distribuições são passíveis de aproximação pela distribuição normal, incluindo:

A distribuição binomial, denotada como ${\textstyle B(n,p)}$ , aproxima uma distribuição normal com uma média de ${\textstyle np}$ e uma variação de ${\textstyle np(1-p)}$ 57§ − p ) {\textstyle np(1-p)} , desde que ⁠ $n$ ⁠ é suficientemente grande e ⁠ $p$ ⁠ não está excessivamente próximo de 0 ou 1.
A distribuição de Poisson, caracterizada pelo parâmetro ⁠ $\lambda$ ⁠, pode ser aproximado por uma distribuição normal com uma média de ⁠ $\lambda$ ⁠ e uma variação de ⁠ $\lambda$ ⁠, especialmente quando ⁠ $\lambda$ ⁠ é grande.
A distribuição qui-quadrado, representada como ${\textstyle \chi ^{2}(k)}$ , aproxima-se de uma distribuição normal com uma média de ⁠ $k$ ⁠ e uma variação de ${\textstyle 2k}$ , especialmente quando ⁠ $k$ ⁠ é grande.
A distribuição t de Student, denotada como ${\textstyle t(\nu )}$ , aproxima uma distribuição normal padrão (média 0, variância 1) como os graus de liberdade ⁠ $\nu$ ⁠ aumenta.

A adequação dessas aproximações depende da aplicação pretendida e da taxa na qual elas convergem para a distribuição normal. Geralmente, essas aproximações apresentam precisão reduzida nas extremidades da distribuição.

O teorema de Berry-Esseen fornece um limite superior geral para o erro de aproximação associado ao teorema do limite central, enquanto as expansões de Edgeworth oferecem refinamentos para essa aproximação.

Este teorema fornece adicionalmente uma base teórica para modelar o agregado de numerosas fontes de ruído uniformes como ruído gaussiano.

Operações e funções envolvendo variáveis normais

Operações em uma única variável normal

Se a variável aleatória ⁠ $X$ ⁠ segue uma distribuição normal com uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ 49§ {\textstyle \sigma ^{2}} , então o seguinte se aplica:

Uma transformação linear ${\textstyle aX+b}$ , para quaisquer números reais ⁠ $a$ ⁠ e ⁠ $b$ ⁠, de uma variável normalmente distribuída, também é normalmente distribuída, com média ${\textstyle a\mu +b}$ e variação ${\textstyle a^{2}\sigma ^{2}}$ . Esta propriedade indica que a família de distribuições normais é fechada sob transformações lineares.
Quando ⁠ $X$ ⁠ é normalmente distribuído, é exponencial, ${\textstyle e^{X}\sim \ln(N(\mu ,\sigma ^{2}))}$ 57§)){\textstyle e^{X}\sim \ln(N(\mu ,\sigma ^{2}))}, segue uma distribuição log-normal.
A função sigmóide padrão aplicada a uma variável normalmente distribuída ⁠ $X$ ⁠ resulta em uma distribuição logit-normal, expressa como ${\textstyle \sigma (X)\sim P({\mathcal {N}}(\mu ,\,\sigma ^{2}))}$ 61§)){\textstyle \sigma (X)\sim P({\mathcal {N}}(\mu ,\,\sigma ^{2}))}.
O valor absoluto de uma variável normalmente distribuída ⁠ $X$ ⁠ segue uma distribuição normal dobrada, representada como ${\textstyle {\left|X\right|\sim N_{f}(\mu ,\sigma ^{2})}}$ 57§){\textstyle {\left|X\right|\sim N_{f}(\mu ,\sigma ^{2})}}. Especificamente, se ${\textstyle \mu =0}$ 83§{\textstyle \mu =0}, esta distribuição é chamada de distribuição semi-normal.
O valor absoluto dos resíduos normalizados, expresso como ${\textstyle |X-\mu |/\sigma }$ , está em conformidade com uma distribuição chi com um único grau de liberdade: ${\textstyle |X-\mu |/\sigma \sim \chi _{1}}$ 75§ {\textstyle |X-\mu |/\sigma \sim \chi _{1}} .
O valor ao quadrado de ${\textstyle X/\sigma }$ exibe uma distribuição qui-quadrado não central com um grau de liberdade: ${\textstyle X^{2}/\sigma ^{2}\sim \chi _{1}^{2}(\mu ^{2}/\sigma ^{2})}$ 59§ §62 ${\textstyle X/\sigma }$ ( μ §73 ${\textstyle X/\sigma }$ / σ §86 ${\textstyle X/\sigma }$ ) {\textstyle X^{2}/\sigma ^{2}\sim \chi _{1}^{2}(\mu ^{2}/\sigma ^{2})} . Quando ${\textstyle \mu =0}$ 112§ {\textstyle \mu =0} , esta distribuição simplifica para a distribuição qui-quadrado padrão.
A probabilidade de log para uma variável normal, denotada como ⁠ $x$ ⁠, corresponde diretamente ao logaritmo de sua função de densidade de probabilidade: $\ln p(x)=-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}-\ln \left(\sigma {\sqrt {2\pi }}\right).$ 45§ §4647§ ( x − μ σ ) §7475§ − ln ⁡ ( σ §9697§ π ) . {\displaystyle \ln p(x)=-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}-\ln \left(\sigma {\sqrt {2\pi }}\right).} Dado que esta expressão representa um quadrado escalonado e deslocado de uma variável normal padrão, sua distribuição é, consequentemente, uma variável qui-quadrado escalonada e deslocada.
Quando a variável ⁠ $X$ ⁠ é restrito a um intervalo específico, como ${\textstyle [a,b]}$ , sua distribuição resultante é chamada de distribuição normal truncada.
A expressão ${\textstyle (X-\mu )^{-2}}$ segue uma distribuição de Lévy, caracterizada por um parâmetro de localização de 0 e um parâmetro de escala de ${\textstyle \sigma ^{-2}}$ .

Operações envolvendo duas variáveis normais independentes

Se ${\textstyle X_{1}}$ 11§{\textstyle X_{1}} e ${\textstyle X_{2}}$ representam duas variáveis aleatórias normais independentes, possuindo respectivas médias de ${\textstyle \mu _{1}}$ 56§{\textstyle \mu _{1}} e ${\textstyle \mu _{2}}$ e variações de ${\textstyle \sigma _{1}^{2}}$ 102§§105 ${\textstyle X_{1}}$ {\textstyle \sigma _{1}^{2}} e ${\textstyle \sigma _{2}^{2}}$ , então sua soma, ${\textstyle X_{1}+X_{2}}$ 155§+X§164 ${\textstyle X_{1}}$ {\textstyle X_{1}+X_{2}}, também será distribuído normalmente^[prova].Essa distribuição resultante terá uma média de ${\textstyle \mu _{1}+\mu _{2}}$ 190§+μ§200 ${\textstyle X_{1}}$ {\textstyle \mu _{1}+\mu _{2}} e uma variação de ${\textstyle \sigma _{1}^{2}+\sigma _{2}^{2}}$ 224§§227 ${\textstyle X_{1}}$ +σ§238 ${\textstyle X_{1}}$ §242 ${\textstyle X_{1}}$ {\textstyle \sigma _{1}^{2}+\sigma _{2}^{2}}.
Especificamente, se ⁠ $X$
Se ${\textstyle X_{1}}$ 11§{\textstyle X_{1}} e ${\textstyle X_{2}}$ são dois desvios normais independentes, cada um caracterizado por uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ , e se ⁠ $a$ ⁠ e ⁠ $b$ ⁠ representam números reais arbitrários, então a variável $X_{3}={\frac {aX_{1}+bX_{2}-(a+b)\mu }{\sqrt {a^{2}+b^{2}}}}+\mu$ 148§+bX§159 ${\textstyle X_{1}}$ −(a+b)μa§185 ${\textstyle X_{1}}$ +b§195 ${\textstyle X_{1}}$ +μ{\displaystyle X_{3}={\frac {aX_{1}+bX_{2}-(a+b)\mu }{\sqrt {a^{2}+b^{2}}}}+\mu } também é normalmente distribuído, mantendo a mesma média ⁠ $\mu$ ⁠ e variação ${\textstyle \sigma ^{2}}$ .Isso demonstra a estabilidade da distribuição normal, especificamente com um expoente de ${\textstyle \alpha =2}$ .
Se houver duas distribuições, denotadas como ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ , são caracterizadas como distribuições normais para ${\textstyle k\in \{0,1\}}$ 72§,§7576§}{\textstyle k\in \{0,1\}}, então sua média geométrica normalizada, representada pela expressão ${\textstyle {\frac {1}{\int _{\mathbb {R} ^{n}}X_{0}^{\alpha }(x)X_{1}^{1-\alpha }(x)\,{\text{d}}x}}X_{0}^{\alpha }X_{1}^{1-\alpha }}$ 96§∫RnX§119120§α(x)X§137138§§141142§−α(x)dxX§173174§αX§186187§§190191§−α{\textstyle {\frac {1}{\int _{\mathbb {R} ^{n}}X_{0}^{\alpha }(x)X_{1}^{1-\alpha }(x)\,{\text{d}}x}}X_{0}^{\alpha }X_{1}^{1-\alpha }}, também constitui uma distribuição normal ${\textstyle {\mathcal {N}}(m_{\alpha },\sigma _{\alpha }^{2})}$ .Os parâmetros para esta distribuição resultante são definidos da seguinte forma: ${\textstyle m_{\alpha }={\frac {\alpha m_{0}\sigma _{1}^{2}+(1-\alpha )m_{1}\sigma _{0}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}}$ 285§σ§293294§§297 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ +(§305306§−α)m§319320§σ§328329§§332 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ ασ§346347§§350 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ +(§358359§−α)σ§373374§§377 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ {\textstyle m_{\alpha }={\frac {\alpha m_{0}\sigma _{1}^{2}+(1-\alpha )m_{1}\sigma _{0}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}} e ${\textstyle \sigma _{\alpha }^{2}={\frac {\sigma _{0}^{2}\sigma _{1}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}}$ 423§§426 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ σ§434435§§438 ${\textstyle X_{k}\sim {\mathcal {N}}(m_{k},\sigma _{k}^{2})}$ ασ§452453§§456 ${\textstyle \sigma _{\alpha }^{2}={\frac {\sigma _{0}^{2}\sigma _{1}^{2}}{\alpha \sigma _{1}^{2}+(1-\alpha )\sigma _{0}^{2}}}}$ .

Operações envolvendo duas variáveis normais padrão independentes

Dadas duas variáveis aleatórias normais padrão independentes, ${\textstyle X_{1}}$ 11§ {\textstyle X_{1}} e ${\textstyle X_{2}}$ , ambos caracterizados por uma média de 0 e uma variância de 1, as seguintes propriedades são observados:

A soma e a diferença dessas variáveis, ${\textstyle X_{1}\pm X_{2}\sim {\mathcal {N}}(0,2)}$ 11§ ± X §21 ${\textstyle X_{1}\pm X_{2}\sim {\mathcal {N}}(0,2)}$ ∼ N ( §3637§ , §40 ${\textstyle X_{1}\pm X_{2}\sim {\mathcal {N}}(0,2)}$ {\textstyle X_{1}\pm X_{2}\sim {\mathcal {N}}(0,2)} , são normalmente distribuídos com média zero e variância de dois.
O produto dessas variáveis, denotado como ${\textstyle Z=X_{1}X_{2}}$ 15§ X §21 ${\textstyle Z=X_{1}X_{2}}$ {\textstyle Z=X_{1}X_{2}} , adere a uma distribuição de produto caracterizada pela função de densidade ${\textstyle f_{Z}(z)=\pi ^{-1}K_{0}(|z|)}$ 65§ K §7273§ ( | z | ) {\textstyle f_{Z}(z)=\pi ^{-1}K_{0}(|z|)} , onde ${\textstyle K_{0}}$ 109§ {\textstyle K_{0}} representa a função de Bessel modificada do segundo tipo. Esta distribuição exibe simetria em torno de zero, é ilimitada em ${\textstyle z=0}$ 131§ {\textstyle z=0} , e possui a função característica ${\textstyle \phi _{Z}(t)=(1+t^{2})^{-1/2}}$ 166§ + t §173 ${\textstyle Z=X_{1}X_{2}}$ ) − §184185§ / §190 ${\textstyle Z=X_{1}X_{2}}$ {\textstyle \phi _{Z}(t)=(1+t^{2})^{-1/2}} .
A proporção dessas variáveis, ${\textstyle X_{1}/X_{2}\sim \operatorname {Cauchy} (0,1)}$ 11§ / X §21 ${\textstyle X_{1}/X_{2}\sim \operatorname {Cauchy} (0,1)}$ ∼ Cauchy ⁡ ( §3637§ , §4041§ ) {\textstyle X_{1}/X_{2}\sim \operatorname {Cauchy} (0,1)} , segue a distribuição padrão de Cauchy.
A norma euclidiana, especificamente ${\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}}$ 13§ §16 ${\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}}$ + X §26 ${\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}}$ §30 ${\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}}$ {\textstyle {\sqrt {X_{1}^{2}+X_{2}^{2}}}} , é caracterizado pela distribuição Rayleigh.

Cálculos envolvendo múltiplas variáveis normais independentes

Uma combinação linear de desvios normais independentes produz consistentemente um desvio normal.
Se for um conjunto de variáveis, especificamente ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ 11§ , X §20 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} , representa variáveis aleatórias normais padrão independentes, então a soma de seus quadrados segue uma distribuição qui-quadrada com ⁠ $n$ ⁠ graus de liberdade, conforme expresso por $X_{1}^{2}+\cdots +X_{n}^{2}\sim \chi _{n}^{2}.$ 76§ §78 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + ⋯ + X n §98 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ ∼ χ n §114 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ . {\displaystyle X_{1}^{2}+\cdots +X_{n}^{2}\sim \chi _{n}^{2}.} .
Quando ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ 11§ , X §20 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} representam variáveis aleatórias independentes e normalmente distribuídas, cada uma possuindo uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ , segue-se que sua média amostral é estatisticamente independente de seu desvio padrão amostral. Esta independência pode ser rigorosamente estabelecida através da aplicação do teorema de Basu ou do teorema de Cochran.Consequentemente, a razão derivada dessas duas quantidades adere à distribuição t de Student, caracterizada por ${\textstyle n-1}$ 101§ {\textstyle n-1} graus de liberdade, conforme expresso pela seguinte fórmula: $t={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}={\frac {{\frac {1}{n}}(X_{1}+\cdots +X_{n})-\mu }{\sqrt {{\frac {1}{n(n-1)}}\left[(X_{1}-{\overline {X}})^{2}+\cdots +(X_{n}-{\overline {X}})^{2}\right]}}}\sim t_{n-1}.$ 163§ n ( X §174175§ + ⋯ + X n ) − μ §205206§ n ( n − §217218§ ) [ ( X §234235§ − X ¯ ) §254 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + ⋯ + ( X n − X ¯ ) §291 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ ] ∼ t n − §314315§ . {\displaystyle t={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}={\frac {{\frac {1}{n}}(X_{1}+\cdots +X_{n})-\mu }{\sqrt {{\frac {1}{n(n-1)}}\left[(X_{1}-{\overline {X}})^{2}+\cdots +(X_{n}-{\overline {X}})^{2}\right]}}}\sim t_{n-1}.}
Se ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ 11§ , X §20 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ , … , X n {\textstyle X_{1},X_{2},\ldots ,X_{n}} e ${\textstyle Y_{1},Y_{2},\ldots ,Y_{m}}$ 58§ , Y §67 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ , … , Y m {\textstyle Y_{1},Y_{2},\ldots ,Y_{m}} são variáveis aleatórias normais padrão independentes, então a proporção de suas somas de quadrados normalizadas exibirá uma distribuição F com (n, m) graus de liberdade. Esta relação é expressa como: $F={\frac {\left(X_{1}^{2}+X_{2}^{2}+\cdots +X_{n}^{2}\right)/n}{\left(Y_{1}^{2}+Y_{2}^{2}+\cdots +Y_{m}^{2}\right)/m}}\sim F_{n,m}.$ 122§ §125 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + X §135 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ §139 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + ⋯ + X n §158 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ ) / n ( Y §182183§ §186 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + Y §196 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ §200 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ + ⋯ + Y m §219 ${\textstyle X_{1},X_{2},\ldots ,X_{n}}$ ) / m ∼ F n , m . {\displaystyle F={\frac {\left(X_{1}^{2}+X_{2}^{2}+\cdots +X_{n}^{2}\right)/n}{\left(Y_{1}^{2}+Y_{2}^{2}+\cdots +Y_{m}^{2}\right)/m}}\sim F_{n,m}.}

Operações estatísticas envolvendo múltiplas variáveis normais correlacionadas

Uma forma quadrática envolvendo vetores normais, especificamente uma função quadrática ${\textstyle q=\sum x_{i}^{2}+\sum x_{j}+c}$ derivado de múltiplas variáveis normais independentes ou correlacionadas, constitui uma variável qui-quadrado generalizada.

Operações na função de densidade

A distribuição normal dividida é caracterizada principalmente pela concatenação de segmentos em escala das funções de densidade de distribuições normais distintas, seguida por uma renormalização da densidade combinada para garantir que ela se integre à unidade. Em contraste, a distribuição normal truncada é derivada do redimensionamento de um segmento específico de uma função de densidade singular.

Divisibilidade infinita e teorema de Cramér

Dado qualquer número inteiro positivo n, qualquer distribuição normal caracterizada por uma média de ⁠ $\mu$ ⁠ e uma variação de ${\textstyle \sigma ^{2}}$ 33§ {\textstyle \sigma ^{2}} pode ser representado como a distribuição da soma de n variáveis normais independentes, onde cada variável possui uma média de ${\textstyle {\frac {\mu }{n}}}$ e uma variação de ${\textstyle {\frac {\sigma ^{2}}{n}}}$ 83§ n {\textstyle {\frac {\sigma ^{2}}{n}}} . Essa característica é chamada de divisibilidade infinita.

Inversamente, se ${\textstyle X_{1}}$ 11§ {\textstyle X_{1}} e ${\textstyle X_{2}}$ representam variáveis aleatórias independentes e sua agregação, ${\textstyle X_{1}+X_{2}}$ 55§ + X §64 ${\textstyle X_{1}}$ {\textstyle X_{1}+X_{2}} , segue uma distribuição normal, então ambos ${\textstyle X_{1}}$ 87§ {\textstyle X_{1}} e ${\textstyle X_{2}}$ são necessariamente variáveis normais.

Essa descoberta é formalmente reconhecida como o teorema da decomposição de Cramér, que postula que a convolução de duas distribuições produz uma distribuição normal exclusivamente quando ambas as distribuições constituintes são normais. Consequentemente, o teorema de Cramér indica que uma combinação linear de variáveis independentes não-Gaussianas nunca exibirá precisamente uma distribuição normal, mesmo que possa convergir para ela com proximidade arbitrária.

O Teorema de Kac–Bernstein

O teorema de Kac–Bernstein postula que se houver duas variáveis aleatórias, ${\textstyle X}$ e ⁠ $Y$ ⁠, são independentes e sua soma ${\textstyle X+Y}$ e diferença ${\textstyle X-Y}$ também são independentes, então ambos X e Y deve necessariamente seguir distribuições normais.

De forma mais ampla, if ${\textstyle X_{1},\ldots ,X_{n}}$ 11§ , … , X n {\textstyle X_{1},\ldots ,X_{n}} representam variáveis aleatórias independentes e, em seguida, duas combinações lineares distintas, ${\textstyle \sum {a_{k}X_{k}}}$ e ${\textstyle \sum {b_{k}X_{k}}}$ , exibirá independência se e somente se todos ${\textstyle X_{k}}$ são normalmente distribuídos e a condição ${\textstyle \sum {a_{k}b_{k}\sigma _{k}^{2}=0}}$ 169§ {\textstyle \sum {a_{k}b_{k}\sigma _{k}^{2}=0}} é satisfeito, onde ${\textstyle \sigma _{k}^{2}}$ denota a variação de cada ${\textstyle X_{k}}$ .

Extensões

Como conceito fundamental na teoria das probabilidades, a distribuição normal foi significativamente estendida além de sua estrutura convencional univariada (unidimensional) (Caso 1). Essas distribuições expandidas são frequentemente chamadas de leis normais ou gaussianas, o que introduz alguma ambiguidade terminológica.

A distribuição normal multivariada caracteriza a lei gaussiana dentro do espaço euclidiano k-dimensional. Um vetor X ∈ R^k exibe uma distribuição normal multivariada se qualquer combinação linear de seus componentes constituintes Σ^k
_j=1a_j X_j segue uma distribuição normal univariada. A variância de X é representada por uma matriz simétrica definida positiva k × k V. A distribuição normal multivariada constitui um exemplo específico de distribuições elípticas. Consequentemente, seus contornos de isodensidade se manifestam como elipses quando k = 2 e como elipsóides para qualquer valor arbitrário de k.
A distribuição gaussiana retificada é uma versão retificada da distribuição normal, em que todos os elementos negativos são definidos como zero.
A distribuição normal complexa aborda vetores normais complexos. Um vetor complexo X ∈ C^k é definido como normal se seus componentes reais e imaginários exibem coletivamente uma distribuição normal multivariada §1011§k-dimensional. A estrutura de variância-covariância de X é caracterizada por duas matrizes distintas: a matriz de variância Γ e a matriz de relação C.
A distribuição normal da matriz refere-se a instâncias de matrizes que seguem uma distribuição normal.
Os processos gaussianos representam processos estocásticos que exibem distribuição normal. Estes podem ser conceituados como elementos dentro de um espaço de Hilbert de dimensão infinita H, servindo assim como análogos a vetores normais multivariados quando k = ∞. Um elemento aleatório h ∈ H é definido como normal se, para qualquer constante a ∈ H, o produto escalar (a, h) segue uma distribuição normal univariada. A estrutura de variância de tal elemento aleatório gaussiano pode ser caracterizada pelo operador de covariância K linear: H → H. Vários processos gaussianos ganharam destaque suficiente para serem nomeados individualmente:
- Movimento browniano;
- Ponte Browniana; e
- Processo Ornstein–Uhlenbeck.
A distribuição q gaussiana constitui uma construção matemática abstrata que serve como um análogo q para a distribuição normal.
O q-Gaussiano funciona como um análogo da distribuição Gaussiana em virtude de maximizar a entropia de Tsallis e é categorizado como um tipo de distribuição de Tsallis. Notavelmente, esta distribuição é distinta da distribuição q gaussiana mencionada acima.
A distribuição Kaniadakis κ-Gaussiana representa uma generalização da distribuição Gaussiana, originada das estatísticas Kaniadakis, e é classificada como uma distribuição Kaniadakis.

Uma variável aleatória X é definida por uma distribuição normal de duas partes quando sua função de densidade de probabilidade é expressa como:

A distribuição gaussiana é frequentemente empregada para modelar as distribuições empíricas de inúmeras variáveis aleatórias observadas em aplicações práticas. Para aumentar a precisão do ajuste de dados empíricos, uma extensão potencial envolve a utilização de uma família mais abrangente de distribuições com mais de dois parâmetros. Exemplos dessas extensões incluem:

A distribuição de Pearson, uma família de quatro parâmetros de distribuições de probabilidade, estende a distribuição normal para acomodar vários graus de assimetria e curtose.
A distribuição normal generalizada, também conhecida como distribuição de potência exponencial, permite modelar caudas de distribuição com comportamentos assintóticos mais espessos ou mais finos.

Inferência Estatística

Estimativa de parâmetros

Frequentemente, os parâmetros de uma distribuição normal são desconhecidos e requerem estimativa. Especificamente, dada uma amostra ${\textstyle (x_{1},\ldots ,x_{n})}$ 13§ , … , x n ) {\textstyle (x_{1},\ldots ,x_{n})} extraído de um ${\textstyle {\mathcal {N}}(\mu ,\sigma ^{2})}$ população, o objetivo é determinar os valores aproximados dos parâmetros ⁠ $\mu$ ⁠ e ${\textstyle \sigma ^{2}}$ . O método convencional para enfrentar esse desafio de estimativa é a abordagem de máxima verossimilhança, que requer a maximização da função log-verossimilhança, expressa como:

A expressão para ${\textstyle \ln {\mathcal {L}}({\hat {\mu }},{\hat {\sigma }}^{2})}$ é apresentado da seguinte forma: $\ln {\mathcal {L}}({\hat {\mu }},{\hat {\sigma }}^{2})=(-n/2)[\ln(2\pi {\hat {\sigma }}^{2})+1]$ 168§]{\displaystyle \ln {\mathcal {L}}({\hat {\mu }},{\hat {\sigma }}^{2})=(-n/2)[\ln(2\pi {\hat {\sigma }}^{2})+1]}

Média da amostra

Estimador $\textstyle {\hat {\mu }}$

No âmbito da teoria assintótica, o estimador $\textstyle {\hat {\mu }}$ demonstra consistência, o que significa que converge em probabilidade para ⁠ $\mu$ ⁠ como ${\textstyle n\rightarrow \infty }$ . Além disso, este estimador exibe normalidade assintótica, uma característica que decorre diretamente de sua normalidade em amostras finitas, conforme expresso por: ${\sqrt {n}}({\hat {\mu }}-\mu )\,\xrightarrow {d} \,{\mathcal {N}}(0,\sigma ^{2}).$ 124§,σ§132 $\textstyle {\hat {\mu }}$ ).{\displaystyle {\sqrt {n}}({\hat {\mu }}-\mu )\,\xrightarrow {d} \,{\mathcal {N}}(0,\sigma ^{2}).}

Variação da amostra

O estimador $\textstyle {\hat {\sigma }}^{2}$ é designado como a variância da amostra, pois representa a variação derivada dos dados da amostra ( ${\textstyle (x_{1},\ldots ,x_{n})}$ 49§,…,xn){\textstyle (x_{1},\ldots ,x_{n})}).

De acordo com a teoria assintótica, ambos os estimadores, especificamente ${\textstyle s^{2}}$ e $\textstyle {\hat {\sigma }}^{2}$ , demonstram consistência, o que significa que convergem em probabilidade para ${\textstyle \sigma ^{2}}$ como o tamanho da amostra ${\textstyle n\rightarrow \infty }$ .Além disso, ambos os estimadores exibem normalidade assintótica: ${\sqrt {n}}({\hat {\sigma }}^{2}-\sigma ^{2})\simeq {\sqrt {n}}(s^{2}-\sigma ^{2})\,\xrightarrow {d} \,{\mathcal {N}}(0,2\sigma ^{4}).$ 201§ , §204 ${\textstyle s^{2}}$ {\displaystyle {\sqrt {n}}({\hat {\sigma }}^{2}-\sigma ^{2})\simeq {\sqrt {n}}(s^{2}-\sigma ^{2})\,\xrightarrow {d} \,{\mathcal {N}}(0,2\sigma ^{4}).} Especificamente, esses estimadores são assintoticamente eficientes para estimar ${\textstyle \sigma ^{2}}$ .

Intervalos de confiança

De acordo com o teorema de Cochran, para distribuições normais, a média amostral $\textstyle {\hat {\mu }}$ e a variação da amostra s§31 $\textstyle {\hat {\mu }}$ são estatisticamente independentes. Esta independência implica que a análise da sua distribuição conjunta não oferece nenhum benefício adicional. Por outro lado, um teorema afirma que se a média amostral e a variância amostral são independentes dentro de uma determinada amostra, então essa amostra deve originar-se de uma distribuição normal. A independência estabelecida entre $\textstyle {\hat {\mu }}$ e s são fundamentais na construção da estatística t:

Fórmulas aproximadas podem ser derivadas das distribuições assintóticas dos estimadores $\textstyle {\hat {\mu }}$ e s§31 $\textstyle {\hat {\mu }}$ , como segue:

Testes de normalidade

Os testes de normalidade avaliam a probabilidade de um conjunto de dados especificado {x§34§, ..., x_n} originar-se de uma distribuição normal. A hipótese nula convencional H§1516§ postula que as observações seguem uma distribuição normal com uma média não especificada μ e variância σ§2324§, enquanto a hipótese alternativa H_a sugere uma distribuição arbitrária. Mais de 40 testes distintos foram desenvolvidos para enfrentar esse desafio estatístico. Os mais notáveis deles são detalhados posteriormente.

Os gráficos de diagnóstico oferecem apelo intuitivo, mas envolvem inerentemente a subjetividade, já que sua interpretação para aceitar ou rejeitar a hipótese nula depende do julgamento humano informal.

O gráfico Q–Q, também conhecido como gráfico de probabilidade normal ou gráfico de classificação, exibe graficamente os valores classificados de um conjunto de dados em relação aos quantis esperados derivados de uma distribuição normal padrão. Especificamente, ele plota pontos no formato (Φ⁻¹(p_k), x_(k)), onde os pontos de plotagem p_k são definidos como p_k = (k − α)/(n + 1 − 2α), e α representa uma constante ajustável que varia de 0 a 1. Sob a suposição de uma hipótese nula verdadeira, espera-se que esses pontos plotados se aproximem de uma linha reta.
O gráfico P – P, embora conceitualmente semelhante ao gráfico Q – Q, é empregado com muito menos frequência. Esta técnica envolve plotar pontos na forma (Φ(z_(k)), p_k), onde ${\textstyle \textstyle z_{(k)}=(x_{(k)}-{\hat {\mu }})/{\hat {\sigma }}}$ . Para dados normalmente distribuídos, espera-se que este gráfico forme uma linha reta conectando (0, 0) e (1, 1).

Testes de adequação:

Testes baseados em momentos:

Teste K-quadrado de D'Agostino
Teste Jarque-Bera
O teste de Shapiro–Wilk é baseado na linha do gráfico Q–Q exibindo uma inclinação de σ. Este teste avalia a estimativa dos mínimos quadrados dessa inclinação em relação à variância da amostra. A hipótese nula é rejeitada se existir uma discrepância significativa entre esses dois valores.

Testes baseados na função de distribuição empírica:

Teste Anderson-Darling
Teste de Lilliefors (uma adaptação do teste de Kolmogorov–Smirnov)

Análise bayesiana da distribuição normal

A análise bayesiana de dados normalmente distribuídos apresenta complexidades devido às inúmeras considerações potenciais:

A média, a variância ou ambas podem ser tratadas como parâmetros fixos.
Se a variância for desconhecida, a análise pode prosseguir diretamente usando a variância ou empregando precisão, que é a recíproca da variância. A formulação de equações em termos de precisão muitas vezes simplifica o processo analítico para a maioria dos cenários.
Cenários univariados e multivariados exigem consideração.
Variáveis desconhecidas podem receber distribuições anteriores conjugadas ou impróprias.
Outros casos surgem na regressão linear Bayesiana, onde o modelo fundamental assume dados normalmente distribuídos e atribui antecedentes normais aos coeficientes de regressão. A análise subsequente reflete a de cenários básicos de dados independentes e distribuídos de forma idêntica.

As fórmulas pertinentes aos casos de regressão não linear estão resumidas no artigo sobre anteriores conjugados.

Soma de duas quadráticas

Forma escalar

A fórmula auxiliar subsequente facilita a simplificação das equações de atualização posteriores, que de outra forma apresentariam uma complexidade computacional considerável.

$a(x-y)^{2}+b(x-z)^{2}=(a+b)\left(x-{\frac {ay+bz}{a+b}}\right)^{2}+{\frac {ab}{a+b}}(yz)^{2}$

Esta equação reformula a soma de duas expressões quadráticas envolvendo x expandindo os quadrados, agrupando os termos contendo x e completando o quadrado. Os intrincados fatores constantes associados a termos específicos merecem atenção especial:

O fator ${\textstyle {\frac {ay+bz}{a+b}}}$ representa uma média ponderada de y e z.
${\textstyle {\frac {ab}{a+b}}={\frac {1}{{\frac {1}{a}}+{\frac {1}{b}}}}=(a^{-1}+b^{-1})^{-1}.}$ 29§ §3334§ a + §4344§ b = ( a − §6364§ + b − §7677§ ) − §8788§ . {\textstyle {\frac {ab}{a+b}}={\frac {1}{{\frac {1}{a}}+{\frac {1}{b}}}}=(a^{-1}+b^{-1})^{-1}.} Este fator pode ser conceituado como decorrente de um cenário onde o os recíprocos das quantidades a e b são somados diretamente. Consequentemente, para combinar a e b, deve-se realizar uma sequência de operações: reciprocidade, adição e, em seguida, uma reciprocidade final para restaurar as unidades originais. Esta sequência operacional reflete precisamente o cálculo da média harmônica, portanto segue logicamente que ${\textstyle {\frac {ab}{a+b}}}$ representa metade da média harmônica de a e b.

Formulário vetorial

Uma fórmula comparável pode ser formulada para a soma de dois vetores quadráticos. Supondo que x, y e z denotam vetores de comprimento k, e que A e B são matrizes simétricas e invertíveis de dimensão ${\textstyle k\times k}$ , então o seguinte se aplica.

${\begin{aligned}&(\mathbf {y} -\mathbf {x} )'\mathbf {A} (\mathbf {y} -\mathbf {x} )+(\mathbf {x} -\mathbf {z} )'\mathbf {B} (\mathbf {x} -\mathbf {z} )\\={}&(\mathbf {x} -\mathbf {c} )'(\mathbf {A} +\mathbf {B} )(\mathbf {x} -\mathbf {c} )+(\mathbf {y} -\mathbf {z} )'(\mathbf {A} ^{-1}+\mathbf {B} ^{-1})^{-1}(\mathbf {y} -\mathbf {z} )\end{aligned}}$ 185§ + B − §199200§ ) − §210211§ ( y − z )

A expressão x′ A x é formalmente definida como uma forma quadrática, produzindo um valor escalar. Este formulário pode ser expandido como: $\mathbf {x} '\mathbf {A} \mathbf {x} =\sum _{i,j}a_{ij}x_{i}x_{j}$ . Este somatório representa todas as combinações possíveis de produtos de pares de elementos do vetor x, cada um ponderado por um coeficiente distinto. Devido à propriedade comutativa da multiplicação, especificamente ${\textstyle x_{i}x_{j}=x_{j}x_{i}}$ , apenas a soma agregada ${\textstyle a_{ij}+a_{ji}}$ é significativo para os elementos fora da diagonal da matriz A. Consequentemente, assumir que A é simétrico não resulta em qualquer perda de generalidade. Além disso, se A for simétrico, a forma bilinear exibe a propriedade ${\textstyle \mathbf {x} '\mathbf {A} \mathbf {y} =\mathbf {y} '\mathbf {A} \mathbf {x} .}$

Soma dos desvios da média

Uma fórmula adicional valiosa é apresentada abaixo: $\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}$ 16§ n ( x eu − μ ) §43 $\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}$ = ∑ eu = §5859§ n ( x eu − x ¯ ) §94 $\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}$ + n ( x ¯ − μ ) §125 $\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}$ {\displaystyle \sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}} , onde ${\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.}$ 159§ n ∑ eu = §173174§ n x eu . {\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.} .

Dada uma variação conhecida,

Para uma coleção de pontos de dados normalmente distribuídos X independentes e distribuídos de forma idêntica (i.i.d.), compreendendo n observações, onde cada ponto de dados individual x adere à distribuição ${\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})}$ e a variância σ§5455§ for conhecida, a distribuição anterior conjugada correspondente também exibirá uma distribuição normal.

Esta relação pode ser mais facilmente demonstrada reexpressando a variância como precisão, especificamente empregando τ = 1/σ§56§. Consequentemente, se ${\textstyle x\sim {\mathcal {N}}(\mu ,1/\tau )}$ 33§ / τ ) {\textstyle x\sim {\mathcal {N}}(\mu ,1/\tau )} e ${\textstyle \mu \sim {\mathcal {N}}(\mu _{0},1/\tau _{0}),}$ 77§ , §8283§ / τ §9394§ ) , {\textstyle \mu \sim {\mathcal {N}}(\mu _{0},1/\tau _{0}),} , as etapas subsequentes são as seguintes.

A função de verossimilhança é inicialmente formulada aplicando a expressão para a soma das diferenças quadradas da média:

A derivação subsequente procede da seguinte forma:

A derivação anterior utilizou a fórmula para a soma de duas expressões quadráticas, removendo sistematicamente todos os fatores constantes que não envolviam μ. Este processo produz o núcleo de uma distribuição normal, caracterizada por uma média de ${\textstyle {\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}}$ 35§ μ §4344§ n τ + τ §6162§ {\textstyle {\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}} e uma precisão de ${\textstyle n\tau +\tau _{0}}$ 95§ {\textstyle n\tau +\tau _{0}} , que pode ser formalmente expresso como: $p(\mu \mid \mathbf {X} )\sim {\mathcal {N}}\left({\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}},{\frac {1}{n\tau +\tau _{0}}}\right)$ 168§ μ §176177§ n τ + τ §194195§ , §205206§ n τ + τ §220221§ ) {\displaystyle p(\mu \mid \mathbf {X} )\sim {\mathcal {N}}\left({\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}},{\frac {1}{n\tau +\tau _{0}}}\right)}

Essas relações podem ser expressas como uma série de equações de atualização Bayesianas, que definem os parâmetros posteriores com base em suas contrapartes anteriores:

Especificamente, ao combinar n pontos de dados, caracterizados por uma precisão total de nτ (ou uma variância total equivalente de n/σ§1112§) e um valor médio de ${\textstyle {\bar {x}}}$ , uma nova precisão total é derivada pela soma da precisão total dos dados com a precisão total anterior. Simultaneamente, uma nova média é estabelecida usando uma média ponderada com precisão, que constitui uma média ponderada da média dos dados e da média anterior, com cada componente ponderado pela sua respectiva precisão total. Esta metodologia é logicamente sólida, considerando a precisão como um indicador de certeza observacional. Dentro da distribuição da média posterior, cada componente de input é ponderado de acordo com a sua certeza, e a certeza global desta distribuição é o agregado das certezas individuais. Para proporcionar uma compreensão intuitiva, pode-se considerar o ditado “o todo é (ou não é) maior que a soma das suas partes”. Além disso, dado que o conhecimento posterior resulta da síntese do conhecimento prévio e da probabilidade, é razoável concluir que o posterior apresenta maior certeza do que qualquer um dos seus componentes constituintes individualmente.

Esta fórmula demonstra as vantagens analíticas de conduzir análises bayesianas para antecedentes conjugados dentro de uma estrutura de distribuição normal usando precisão. A precisão posterior é derivada da soma das precisões anteriores e de verossimilhança, enquanto a média posterior é calculada por meio de uma média ponderada de precisão, conforme detalhado anteriormente. Alternativamente, essas fórmulas podem ser expressas usando variância, invertendo todos os termos de precisão, resultando em expressões mais complexas.

Dada uma média conhecida

Para um conjunto de dados X que consiste em n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.), onde cada ponto individual x segue uma distribuição normal ${\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})}$ com uma média conhecida μ, o conjugado anterior para a variância pode ser expresso como uma distribuição gama inversa ou uma distribuição qui-quadrado inversa escalonada. Estas duas distribuições são matematicamente equivalentes, diferindo apenas nas suas parametrizações. Embora a distribuição gama inversa seja mais comumente utilizada, a distribuição qui-quadrado inversa escalonada é adotada aqui por conveniência. A distribuição anterior para σ§5657§ é apresentada abaixo:

A função de verossimilhança definida anteriormente, expressa em termos de sua variância, é apresentada a seguir:

Posteriormente, a derivação produz:

Esta formulação também representa uma distribuição qui-quadrado inversa em escala, caracterizada pelos seguintes parâmetros:

Ao reparametrizar usando uma distribuição gama inversa, as expressões resultantes são: ${\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}$ 71§ n ( x eu − μ ) §98 ${\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}$ §103 ${\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}$ {\displaystyle {\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}}

Caso: média desconhecida e variância desconhecida

Considere um conjunto de dados X compreendendo n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.) normalmente distribuídos, onde cada ponto individual x adere à distribuição ${\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})}$ . Em cenários onde a média μ e a variância σ§5657§ são desconhecidas, um conjugado multivariado anterior, especificamente uma distribuição gama normal-inversa, é aplicado para modelar esses parâmetros. A derivação desta abordagem procede da seguinte forma:

A análise do caso envolvendo uma média desconhecida, mas uma variância conhecida, revela que as equações de atualização incorporam estatísticas suficientes derivadas dos dados. Essas estatísticas incluem a média amostral e a variância total dos pontos de dados, que é calculada a partir da variância conhecida dividida pelo número de pontos de dados.
Da mesma forma, o exame do caso com uma variância desconhecida, mas com média conhecida, indica que as equações de atualização utilizam estatísticas suficientes relativas aos dados, especificamente o número de pontos de dados e a soma dos desvios quadrados.
É crucial reconhecer que os valores de atualização posterior funcionam como a distribuição anterior quando os dados subsequentes são processados. Consequentemente, é lógico conceituar os anteriores em termos das estatísticas suficientes acima mencionadas, mantendo uma interpretação semântica consistente sempre que possível.
Quando a média e a variância são desconhecidas, antecedentes independentes podem ser estabelecidos para cada uma, utilizando estimativas fixas para a média média, a variância total, o número de pontos de dados que contribuem para a variância a priori e a soma dos desvios quadrados. No entanto, é crucial reconhecer que a variância total da média é inerentemente dependente da variância desconhecida. Além disso, a soma dos desvios quadrados, que informa a variância anterior, parece depender da média desconhecida. Na prática, esta última dependência é muitas vezes negligenciável porque uma mudança na média real resulta numa mudança equivalente nos pontos de dados gerados, mantendo assim os desvios quadráticos médios. Por outro lado, esta estabilidade não se aplica à variância total da média; à medida que a variância desconhecida aumenta, a variância total da média aumenta proporcionalmente, uma relação que idealmente deveria ser levada em consideração.
Essa observação leva à formulação de uma prioridade condicional para a média, dependente da variância desconhecida. Este anterior incorpora um hiperparâmetro que define a média das pseudo-observações associadas e um parâmetro separado que indica a quantidade dessas pseudo-observações. Esta contagem funciona como um parâmetro de escala para a variância, permitindo a regulação da variância global da média em relação ao parâmetro de variância real. Da mesma forma, a variância anterior inclui dois hiperparâmetros: um que especifica a soma dos desvios quadrados para suas pseudo-observações associadas e outro que novamente denota o número de pseudo-observações. Ambos os anteriores incorporam um hiperparâmetro que define o número de pseudo-observações, que, em cada caso, governa a variância relativa daquele anterior específico. Eles são fornecidos como hiperparâmetros distintos para permitir controle independente sobre a variação (ou confiança) dos dois anteriores.
Essa abordagem resulta diretamente na distribuição gama normal-inversa, que é o produto das duas distribuições definidas anteriormente. Ele emprega antecedentes conjugados - especificamente, uma distribuição gama inversa para a variância e uma distribuição normal para a média (que é condicional à variância) - e utiliza os mesmos quatro parâmetros estabelecidos anteriormente.

As distribuições anteriores normalmente são especificadas da seguinte maneira:

As equações de atualização são deriváveis e são apresentadas a seguir:

Ocorrência e aplicações

A presença da distribuição normal em cenários práticos pode ser amplamente categorizada em quatro tipos:

Distribuições precisamente normais;
Distribuições aproximadamente normais, como aquelas em que a aproximação é fundamentada pelo teorema do limite central; e
Distribuições modeladas como normais, onde a distribuição normal representa a distribuição máxima de entropia para média e variância especificadas.
Problemas de regressão, nos quais a distribuição normal emerge uma vez que os efeitos sistemáticos tenham sido modelados adequadamente.

Normalidade precisa

A distribuição normal se manifesta em diversas teorias físicas:

A distribuição de velocidade de esferas perfeitamente elásticas e em movimento independente, derivada da Teoria Dinâmica dos Gases de Maxwell, Parte I (1860).
A função de onda do estado fundamental dentro do espaço de posição do oscilador harmônico quântico.
A posição de uma partícula em difusão. Se a partícula está inicialmente situada em um ponto específico (ou seja, sua distribuição de probabilidade é a função delta de Dirac), então após o tempo t, sua localização é caracterizada por uma distribuição normal com variância t, que segue a equação de difusão ${\textstyle {\frac {\partial }{\partial t}}f(x,t)={\frac {1}{2}}{\frac {\partial ^{2}}{\partial x^{2}}}f(x,t)}$ 41§ §4243§ ∂ §5354§ ∂ x §6566§ f ( x , t ) {\textstyle {\frac {\partial }{\partial t}}f(x,t)={\frac {1}{2}}{\frac {\partial ^{2}}{\partial x^{2}}}f(x,t)} . A localização inicial deve ser definida por uma função de densidade específica ${\textstyle g(x)}$ , então a densidade no tempo t é a convolução de g e a função de densidade de probabilidade normal.

Normalidade aproximada

Distribuições

aproximadamente surgem em vários contextos, conforme elucidado pelo teorema do limite central. Quando um resultado resulta de uma multiplicidade de pequenos efeitos que operam aditivamente e independentemente, a sua distribuição aproximar-se-á de uma distribuição normal. No entanto, esta aproximação normal torna-se inválida se os efeitos operarem multiplicativamente (em vez de aditivamente) ou se uma influência externa singular possuir uma magnitude significativamente maior do que os outros efeitos.

Em problemas de contagem, onde o teorema do limite central incorpora uma aproximação discreta para contínua e envolve distribuições infinitamente divisíveis e decomponíveis, os exemplos incluem:
- Variáveis aleatórias binomiais, que estão associadas a variáveis de resposta binária;
- Variáveis aleatórias de Poisson, que estão ligadas a eventos raros;
A radiação térmica exibe uma distribuição de Bose-Einstein em escalas de tempo muito curtas, transitando para uma distribuição normal em escalas de tempo mais longas como consequência do teorema do limite central.

Normalidade presumida

A curva normal, também conhecida como curva laplaciana de erros, é considerada um fenômeno altamente anômalo. Embora seja aproximadamente aproximado em certas distribuições, a sua simplicidade inerente e utilidade teórica podem justificar a sua utilização como uma aproximação preliminar, particularmente em investigações teóricas.

Existem métodos estatísticos para testar empiricamente essa suposição.

Em contextos biológicos, o logaritmo de numerosas variáveis exibe frequentemente uma distribuição normal, o que significa que tendem a seguir uma distribuição log-normal (após a segregação em subpopulações masculinas e femininas). Os exemplos incluem:
- Medidas relativas ao tamanho do tecido vivo (por exemplo, comprimento, altura, área da pele, peso);
- O comprimento dos apêndices biológicos inertes, como cabelos, garras, unhas e dentes, medido na direção do crescimento, é frequentemente considerado como seguindo esta distribuição. Presume-se também que a espessura da casca da árvore se enquadra nesta categoria.
- Certas medidas fisiológicas, incluindo a pressão arterial de humanos adultos, apresentam esta distribuição.
No âmbito das finanças, particularmente no modelo Black-Scholes, assume-se normalmente que as alterações no logaritmo das taxas de câmbio, dos índices de preços e dos índices do mercado de ações seguem uma distribuição normal. Esta suposição decorre do comportamento destas variáveis de forma multiplicativa, semelhante aos juros compostos, em vez de aditivamente como os juros simples. No entanto, matemáticos como Benoit Mandelbrot afirmaram que as distribuições log-Lévy, caracterizadas por caudas pesadas, podem oferecer um modelo mais adequado, especialmente para analisar quebras do mercado de ações. Nassim Nicholas Taleb também criticou a confiança em suposições de distribuição normal em modelos financeiros em suas publicações.
Os erros de medição encontrados em experimentos físicos são frequentemente modelados usando uma distribuição normal. Esta aplicação não implica necessariamente uma suposição de que os próprios erros sejam normalmente distribuídos; em vez disso, seu uso produz as previsões mais conservadoras possíveis quando apenas a média e a variância dos erros são conhecidas.
Em testes padronizados, os resultados podem ser normalizados para se aproximarem de uma distribuição normal, selecionando cuidadosamente o número e a dificuldade das perguntas, como exemplificado pelos testes de QI, ou transformando as pontuações brutas dos testes em pontuações de saída, ajustando-as a uma distribuição normal. Por exemplo, a faixa de pontuação tradicional de 200 a 800 do SAT é baseada em uma distribuição normal com média de 500 e desvio padrão de 100.

Várias métricas de pontuação são derivadas da distribuição normal, abrangendo classificações percentuais (percentis ou quantis), equivalentes de curvas normais, estaninas, pontuações z e pontuações T. Além disso, vários procedimentos estatísticos comportamentais, como testes t e ANOVAs, pressupõem que as pontuações sejam normalmente distribuídas. Os sistemas de classificação por curva Bell alocam notas relativas com base em uma distribuição normal de pontuações.
Em hidrologia, a distribuição da vazão fluvial ou da precipitação de longa duração, como os totais mensais e anuais, é frequentemente considerada praticamente normal, consistente com o teorema do limite central. Um exemplo ilustrativo envolve ajustar a distribuição normal às chuvas classificadas de Outubro, o que demonstra um cinturão de confiança de 90% derivado da distribuição binomial. Os dados de precipitação são representados usando posições de plotagem como parte de uma análise de frequência cumulativa.

Problemas metodológicos e revisão por pares

John Ioannidis argumentou que o emprego de desvios padrão normalmente distribuídos como padrões de validação para resultados de pesquisas deixa previsões falsificáveis sobre fenômenos não normalmente distribuídos sem serem testadas. Tais fenómenos incluem aqueles que se manifestam apenas quando todas as condições necessárias são satisfeitas, onde nenhuma condição única pode substituir outra aditivamente, e aqueles que não são distribuídos aleatoriamente. Ioannidis afirma que a validação centrada em desvios padrão confere uma aparência ilusória de validade a hipóteses e teorias onde apenas um subconjunto de previsões falsificáveis é normalmente distribuído. Isto ocorre porque as evidências que contradizem as previsões falsificáveis podem residir nos segmentos não normalmente distribuídos do intervalo de previsão. Além disso, esta abordagem pode levar à rejeição injustificada de hipóteses cujas previsões falsificáveis são totalmente distribuídas de forma não normal, rotulando-as erroneamente como infalsificáveis, apesar da sua capacidade de teste empírico. Ioannidis postula que numerosos exemplos de teorias mutuamente exclusivas que ganham aceitação em periódicos de pesquisa decorrem do fracasso dos periódicos em considerar falsificações empíricas de previsões distribuídas não normalmente, e não da veracidade de tais teorias mutuamente exclusivas, o que é logicamente impossível, embora ambas possam estar incorretas e uma terceira teoria seja precisa.

Métodos Computacionais

Gerando valores de uma distribuição normal

Em simulações computacionais, particularmente em aplicações do método Monte-Carlo, gerar valores normalmente distribuídos é frequentemente vantajoso. Os algoritmos descritos posteriormente produzem desvios normais padrão, já que uma distribuição N(μ, σ§78§) pode ser derivada usando a fórmula X = μ + σZ, onde Z representa uma variável normal padrão. Todos esses métodos necessitam de um gerador de números aleatórios, especificamente U, capaz de gerar variáveis aleatórias uniformes.

A abordagem mais direta utiliza a propriedade de transformação integral de probabilidade: se U estiver uniformemente distribuído em (0,1), então Φ⁻¹(U) exibirá uma distribuição normal padrão. Uma limitação desta técnica é sua dependência do cálculo da função probit Φ⁻¹, que carece de solução analítica. Os métodos de aproximação são detalhados por Hart (1968) e no artigo erf. Wichura desenvolveu um algoritmo eficiente para calcular esta função com 16 casas decimais de precisão, que o software estatístico R utiliza para gerar variáveis aleatórias de distribuição normal.
Um método aproximado facilmente implementável, baseado no teorema do limite central, envolve gerar 12 desvios U(0,1) uniformes, somando-os e depois subtraindo 6; a variável aleatória resultante se aproximará de uma distribuição normal padrão. Na verdade, esta distribuição corresponde à distribuição de Irwin-Hall, que serve como uma aproximação polinomial de décima primeira ordem de 12 seções da distribuição normal. Este desvio aleatório específico possui um intervalo restrito de (−6, 6). Vale ressaltar que em uma distribuição normal verdadeira, apenas 0,00034% de todas as amostras normalmente ficam fora do intervalo ±6σ.
O método Box-Muller emprega dois números aleatórios independentes, U e V, ambos distribuídos uniformemente em (0,1). Posteriormente, as duas variáveis aleatórias X e Y, definidas como $X={\sqrt {-2\ln U}}\,\cos(2\pi V),\qquad Y={\sqrt {-2\ln U}}\,\sin(2\pi V).$ 24§ ln ⁡ Você porque ⁡ ( §4344§ π V ) , S = − §6566§ ln ⁡ Você pecado ⁡ ( §8586§ π V ) . {\displaystyle X={\sqrt {-2\ln U}}\,\cos(2\pi V),\qquad Y={\sqrt {-2\ln U}}\,\sin(2\pi V).} , seguirão uma distribuição normal padrão e permanecerão independentes. Esta formulação decorre do fato de que para um vetor aleatório normal bivariado (X, Y), a norma quadrada X§113114§ + Y§117118§ exibe uma distribuição qui-quadrado com dois graus de liberdade, que corresponde a uma distribuição aleatória exponencial facilmente gerada variável, especificamente a quantidade −2 ln(U) nessas equações. Além disso, o ângulo é distribuído uniformemente ao redor do círculo, determinado pela variável aleatória V.
O método polar de Marsaglia, uma variante da técnica Box-Muller, elimina a necessidade de cálculos de funções seno e cosseno. Nesta abordagem, U e V são amostrados a partir de uma distribuição uniforme sobre (−1,1) e, subsequentemente, S = U§910§ + V§1314§ é calculado. Se S for maior ou igual a 1, o processo é reiniciado; caso contrário, as duas quantidades $X=U{\sqrt {\frac {-2\ln S}{S}}},\qquad Y=V{\sqrt {\frac {-2\ln S}{S}}}$ 38§ ln ⁡ S S , S = V − §6970§ ln ⁡ S S {\displaystyle X=U{\sqrt {\frac {-2\ln S}{S}}},\qquad Y=V{\sqrt {\frac {-2\ln S}{S}}}} são gerados. Essas variáveis, X e Y, são variáveis aleatórias normais padrão independentes.
O método Ratio funciona como uma técnica de amostragem de rejeição. Seu algoritmo envolve as seguintes etapas:
- Primeiro, gere dois desvios uniformes independentes, U e V.
- Em seguida, calcule X usando a fórmula: √8/e (V − 0,5)/U.
- Opcionalmente, se X§34§ ≤ 5 − 4e^1/4U, então X será aceito e o algoritmo será concluído.
- Alternativamente, se X§34§ ≥ 4e^−1,35/U + 1,4, então X será rejeitado e o processo será reiniciado a partir da etapa inicial.
- Se X§34§ ≤ −4 ln U, então X é aceito; caso contrário, o algoritmo será reiniciado.
A inclusão destas duas etapas opcionais reduz significativamente a necessidade de avaliar o logaritmo na etapa final para a maioria dos casos. Melhorias adicionais nessas etapas podem tornar a avaliação de logaritmos ainda mais rara.
O algoritmo zigurate oferece uma alternativa mais rápida, mas igualmente precisa, à transformada de Box-Muller. Aproximadamente 97% das vezes, são necessários apenas dois números aleatórios (um inteiro e um uniforme), uma única multiplicação e um teste if. Nos 3% restantes dos casos, quando a combinação desses números fica fora do "núcleo do zigurate" (que envolve uma forma de amostragem de rejeição utilizando logaritmos), o algoritmo necessita do uso de exponenciais e números aleatórios uniformes adicionais.
A amostragem da distribuição normal padrão também pode ser obtida usando aritmética inteira. Esta técnica é considerada exata porque atende aos critérios de aproximação ideal, o que significa que é funcionalmente equivalente a extrair um número real da distribuição normal padrão e subsequentemente arredondá-lo para o valor de ponto flutuante representável mais próximo.
A pesquisa também explora a relação entre a transformada rápida de Hadamard e a distribuição normal. Dado que esta transformação depende exclusivamente de adição e subtração, e devido ao teorema do limite central, números aleatórios de quase qualquer distribuição podem ser convertidos numa distribuição normal. Consequentemente, uma sequência de transformadas de Hadamard, quando combinada com permutações aleatórias, pode transformar conjuntos de dados arbitrários em dados normalmente distribuídos.

Aproximações numéricas para a função de distribuição cumulativa normal e função quantil normal

A função de distribuição cumulativa normal padrão (CDF) é amplamente empregada em domínios computacionais científicos e estatísticos.

Os valores de Φ(x) podem ser aproximados com alta precisão por meio de diversas metodologias, incluindo integração numérica, série de Taylor, série assintótica e frações contínuas. A seleção de um método de aproximação depende do nível de precisão exigido.

Zelen & Severo (1964) introduziu uma aproximação para Φ(x) aplicável quando x > 0, com um limite de erro absoluto de |ε(x)| < 7.5·10⁻⁸ (algoritmo 26.2.17). A aproximação é expressa como: onde ϕ(x) denota a função de densidade de probabilidade normal padrão e os coeficientes são definidos como b§201202§ = 0,2316419, b§207208§ = 0,319381530, b§213214§ = −0,356563782, b§219220§ = 1,781477937, b§225226§ = −1,821255978 e b§231232§ = 1,330274429.
Hart (1968) compilou inúmeras aproximações para a função erfc(), onde erfc(x) = 1 - erf(x), utilizando funções racionais, com e sem termos exponenciais. Esses algoritmos apresentam vários graus de complexidade e atingem uma precisão absoluta máxima de 24 dígitos. Posteriormente, West (2009) desenvolveu um algoritmo que integra o algoritmo 5666 de Hart com uma aproximação de fração contínua para a região da cauda, resultando em um método de cálculo rápido com precisão de 16 dígitos.
Cody (1969) apresentou uma solução para ambas as funções erf e erfc, alcançando um erro relativo máximo limitado através da Aproximação Racional de Chebyshev, após observar que a solução Hart68 não era adequada para a função erf.
Marsaglia (2004) propôs um algoritmo simples para calcular Φ(x) com precisão arbitrária, baseado na expansão da série de Taylor: $\Phi (x)={\frac {1}{2}}+\varphi (x)\left(x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+{\frac {x^{7}}{3\cdot 5\cdot 7}}+{\frac {x^{9}}{3\cdot 5\cdot 7\cdot 9}}+\cdots \right)$ 20§ §21 $\Phi (x)={\frac {1}{2}}+\varphi (x)\left(x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+{\frac {x^{7}}{3\cdot 5\cdot 7}}+{\frac {x^{9}}{3\cdot 5\cdot 7\cdot 9}}+\cdots \right)$ + φ ( x ) ( x + x §5051§ §5455§ + x §6667§ §7172§ ⋅ §7677§ + x §8990§ §9495§ ⋅ §99100§ ⋅ §104105§ + x §117118§ §122123§ ⋅ §127128§ ⋅ §132133§ ⋅ §137138§ + ⋯ ) {\displaystyle \Phi (x)={\frac {1}{2}}+\varphi (x)\left(x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+{\frac {x^{7}}{3\cdot 5\cdot 7}}+{\frac {x^{9}}{3\cdot 5\cdot 7\cdot 9}}+\cdots \right)} . Uma desvantagem significativa deste algoritmo é o seu tempo de cálculo comparativamente lento; por exemplo, atingir 16 dígitos de precisão requer mais de 300 iterações quando x = 10.
A Biblioteca Científica GNU calcula valores para a função de distribuição cumulativa normal padrão empregando algoritmos de Hart e aproximações baseadas em polinômios de Chebyshev.
Dia (2023) apresenta a aproximação subsequente para ${\textstyle 1-\Phi }$

$1-\Phi \left(x\right)=1-\left(1-\Phi \left(-x\right)\right)$ 7§ − Φ ( x ) = §2425§ − ( §3334§ − Φ ( − x ) ) {\displaystyle 1-\Phi \left(x\right)=1-\left(1-\Phi \left(-x\right)\right)}

Shore (1982) introduziu aproximações diretas adequadas para integração em modelos de otimização estocástica predominantes em pesquisa de engenharia e operações, incluindo engenharia de confiabilidade e análise de inventário. Quando p é definido como Φ(z), a aproximação mais básica para a função quantil é apresentada como: $z=\Phi ^{-1}(p)=5.5556\left[1-\left({\frac {1-p}{p}}\right)^{0.1186}\right],\qquad p\geq 1/2$ 27§ ( p ) = 5.5556 [ §4445§ − ( §5657§ − p p ) 0,1186 ] , p ≥ §8990§ / §9596§ {\displaystyle z=\Phi ^{-1}(p)=5.5556\left[1-\left({\frac {1-p}{p}}\right)^{0.1186}\right],\qquad p\geq 1/2}

Esta aproximação produz um erro absoluto máximo de 0,026 para z dentro do intervalo 0,5 ≤ p ≤ 0,9999, que corresponde a 0 ≤ z ≤ 3,719. Para casos em que p < 1/2, é necessário substituir p por 1 − p e inverter o sinal. Uma aproximação distinta, embora menos precisa, de parâmetro único é dada por: $z=-0.4115\left\{{\frac {1-p}{p}}+\log \left[{\frac {1-p}{p}}\right]-1\right\},\qquad p\geq 1/2$ 43§ − p p + registro ⁡ [ §6768§ − p p ] − §8586§ } , p ≥ §100101§ / §106107§ {\displaystyle z=-0.4115\left\{{\frac {1-p}{p}}+\log \left[{\frac {1-p}{p}}\right]-1\right\},\qquad p\geq 1/2}

This approach facilitated the derivation of a straightforward approximation for the normal distribution's loss integral, which is formally defined as: ${\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}$ 83§ − Φ ( u ) ] d u L ( z ) ≈ { 0.4115 ( p §141142§ − p ) − z , p < §168169§ / §174 ${\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}$ 0.4115 ( §195196§ − p p ) , p ≥ §220221§ / 2. or, equivalently, L ( z ) ≈ { 0.4115 { §275276§ − log ⁡ [ p §293294§ − p ] } , p < §318319§ / §324 ${\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}$ 0.4115 §342343§ − p p , p ≥ §364365§ / 2. {\displaystyle {\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}}

Essa aproximação demonstra precisão notável para a cauda extrema direita, exibindo um erro máximo de 10⁻³ quando z ≥ 1,4. Aproximações adicionais altamente precisas para a função de distribuição cumulativa, derivadas usando a Metodologia de Modelagem de Resposta (RMM, Shore, 2011, 2012), são apresentadas em Shore (2005).

Um pequeno erro relativo em todo o domínio para a função de distribuição cumulativa ⁠ $\Phi$ ⁠ e a função quantílica ${\textstyle \Phi ^{-1}}$ foi alcançado em 2008 por Sergei Winitzki, utilizando uma fórmula explicitamente invertível.

Histórico

Desenvolvimento

Alguns estudiosos atribuem a descoberta inicial da distribuição normal a de Moivre, que, na segunda edição de 1738 de sua obra A Doutrina das Chances, apresentou um estudo dos coeficientes dentro da expansão binomial de (a + b)ⁿ. De Moivre demonstrou que o termo médio nesta expansão se aproxima da magnitude de ${\textstyle 2^{n}/{\sqrt {2\pi n}}}$ 20§ n / §3233§ π n {\textstyle 2^{n}/{\sqrt {2\pi n}}} . Ele afirmou ainda que 'Se m ou ⁠§5455§/§5859§⁠n for uma quantidade infinitamente grande, então o logaritmo da razão, que é um termo distante do meio pelo intervalo ℓ, tem para o termo médio, é ${\textstyle -{\frac {2\ell \ell }{n}}}$ 80§ ℓ ℓ n {\textstyle -{\frac {2\ell \ell }{n}}} .' Embora este teorema possa ser interpretado como uma formulação inicial, embora obscura, da lei da probabilidade normal, Stigler enfatiza que o próprio De Moivre não percebeu suas descobertas como nada além de uma regra aproximada para coeficientes binomiais, faltando notavelmente a estrutura conceitual de uma função de densidade de probabilidade.

Em 1823, Gauss publicou sua monografia seminal, "Theoria combinationis observeum erroribus minimis obnoxiae", onde introduziu vários conceitos estatísticos fundamentais, incluindo o método dos mínimos quadrados, o método da máxima verossimilhança e a distribuição normal. Ele empregou a notação M, M′, M″, ... para representar medidas de uma quantidade desconhecida V. Seu objetivo era identificar o estimador mais provável para esta quantidade, especificamente aquele que maximiza a probabilidade de observar os resultados experimentais. Dentro de sua estrutura, φΔ significa a função de densidade de probabilidade correspondente a erros de medição de magnitude Δ. Reconhecendo a natureza desconhecida da função φ, Gauss estipulou que sua metodologia deveria convergir para a solução estabelecida: a média aritmética dos valores observados. Com base nestes princípios fundamentais, Gauss demonstrou rigorosamente que a única lei que justifica a seleção da média aritmética como estimador de parâmetros de localização é a lei normal dos erros, expressa como: $\varphi {\mathit {\Delta }}={\frac {h}{\surd \pi }}\,e^{-\mathrm {hh} \Delta \Delta },$ Aqui, h representa “a medida da precisão das observações”. Ao utilizar esta lei normal como um modelo geral para erros experimentais, Gauss desenvolveu o que é atualmente reconhecido como o método dos mínimos quadrados ponderados não lineares.

Embora Gauss seja creditado por propor inicialmente a lei de distribuição normal, Laplace fez contribuições substanciais e fundamentais para o seu desenvolvimento. Laplace foi o primeiro a articular o desafio de agregar múltiplas observações em 1774, embora a sua solução inicial tenha resultado na distribuição Laplaciana. Em 1782, Laplace foi o pioneiro no cálculo do valor da integral, ∫ e^−t§67§ dt = √π, estabelecendo assim a constante de normalização para a distribuição normal. Gauss reconheceu formalmente a precedência de Laplace nesta conquista significativa. Por fim, em 1810, Laplace provou e apresentou rigorosamente o teorema fundamental do limite central para a academia, ressaltando o profundo significado teórico da distribuição normal. Notavelmente, em 1809, o matemático irlandês-americano Robert Adrain publicou de forma independente e simultânea duas derivações perspicazes, embora falhas, da lei da probabilidade normal, separadas do trabalho de Gauss. Suas contribuições escaparam em grande parte da atenção da comunidade científica até 1871, quando foram redescobertas por Abbe.

Em meados do século XIX, Maxwell demonstrou que a distribuição normal não é apenas uma construção matemática conveniente, mas também se manifesta em fenómenos naturais. Especificamente, o número de partículas cuja velocidade, quando resolvida em uma direção específica, cai dentro do intervalo de x e x + dx é dado por: $\operatorname {N} {\frac {1}{\alpha \;{\sqrt {\pi }}}}\;e^{-{\frac {x^{2}}{\alpha ^{2}}}}\,dx$ 22§ α π e − x §5455§ α §6364§ d x {\displaystyle \operatorname {N} {\frac {1}{\alpha \;{\sqrt {\pi }}}}\;e^{-{\frac {x^{2}}{\alpha ^{2}}}}\,dx}

Nomeação

Atualmente, este conceito é predominantemente referido em inglês como distribuição normal ou distribuição gaussiana. Designações alternativas menos frequentemente encontradas abrangem a distribuição de Gauss, a distribuição de Laplace-Gauss, a lei do erro, a lei da facilidade dos erros, a segunda lei de Laplace e a lei de Gauss.

O próprio Gauss supostamente introduziu o termo, vinculando-o às "equações normais" utilizadas em suas aplicações, onde "normal" carregava o significado técnico de ortogonal em vez de seu uso comum. No entanto, no final do século XIX, alguns autores começaram a empregar a designação distribuição normal, com "normal" funcionando como adjetivo. Este uso refletiu a percepção desta distribuição como típica, comum e, portanto, padrão. Peirce, entre esses autores, certa vez definiu "normal" como: "... o 'normal' não é a média (ou qualquer outro tipo de média) do que realmente ocorre, mas do que iria, no longo prazo, ocorrer sob certas circunstâncias." Posteriormente, por volta da virada do século 20, Pearson popularizou significativamente o termo normal para denotar essa distribuição.

Há muitos anos chamei a curva de Laplace-Gaussiana de curva normal, cujo nome, embora evite uma questão internacional de prioridade, tem a desvantagem de levar as pessoas a acreditar que todas as outras distribuições de frequência são, em um sentido ou outro, 'anormais'.

Além disso, Pearson foi o primeiro a articular a distribuição usando o desvio padrão σ, consistente com a notação contemporânea. Pouco tempo depois, em 1915, Fisher incorporou o parâmetro de localização na fórmula de distribuição normal, apresentando-o em sua forma moderna: $df={\frac {1}{\sqrt {2\sigma ^{2}\pi }}}e^{-(x-m)^{2}/(2\sigma ^{2})}\,dx.$ 17§ §1920§ σ §2627§ π e − ( x − m ) §5657§ / ( §6667§ σ §7374§ ) d x . {\displaystyle df={\frac {1}{\sqrt {2\sigma ^{2}\pi }}}e^{-(x-m)^{2}/(2\sigma ^{2})}\,dx.}

A designação distribuição normal padrão, caracterizando uma distribuição normal com média zero e variância um, ganhou ampla aceitação por volta da década de 1950. Sua proeminência foi solidificada por meio de sua inclusão em livros didáticos influentes, como Introdução à Estatística Matemática de P. G. Hoel (1947) e Introdução à Teoria da Estatística de Alexander M. Mood (1950).

Distribuição Bates – uma distribuição análoga à distribuição Irwin-Hall, mas redimensionada para o intervalo [0, 1].

Distribuição Bates – semelhante à distribuição Irwin-Hall, mas redimensionada para o intervalo de 0 a 1
Problema de Behrens-Fisher – um desafio estatístico persistente que envolve a determinação se duas amostras normais, possuindo variâncias distintas, compartilham médias idênticas.
Distância Bhattacharyya – uma métrica empregada para distinguir entre misturas de distribuições normais.
Teorema de Erdős – Kac – um teorema relativo à manifestação da distribuição normal na teoria dos números.
Largura total na metade do máximo
Desfoque Gaussiano – uma operação de convolução que utiliza a distribuição normal como sua função kernel.
Função gaussiana
A função de densidade de probabilidade (pdf) para a distribuição seminormal modificada, definida no intervalo ${\textstyle (0,\infty )}$ 9§ , ∞ ) {\textstyle (0,\infty )} , é expresso como ${\textstyle f(x)={\frac {2\beta ^{\alpha /2}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi \left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}$ . Aqui, ${\textstyle \Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)}$ 179§ Ψ §187188§ ( ( α , §209210§ §211 ${\textstyle (0,\infty )}$ ) ( §225226§ , §229230§ ) ; z ) {\textstyle \Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)} representa a função Fox–Wright Psi.
A condição de ser normalmente distribuído e não correlacionado não implica necessariamente independência.
Distribuição normal da razão
Distribuição normal recíproca
Tabela normal padrão
Lema de Stein
Distribuição sub-Gaussiana
Soma de variáveis aleatórias normalmente distribuídas
Distribuição Tweedie: a distribuição normal é categorizada como um membro da família de modelos de dispersão exponencial Tweedie.
Distribuição normal encapsulada: refere-se à aplicação da distribuição normal dentro de um domínio circular.
Teste Z: um teste estatístico que utiliza a distribuição normal.

Notas

Referências

Citações

Fontes

"Distribuição normal", Enciclopédia de Matemática, EMS Press, 2001 [1994]

"Distribuição normal", Enciclopédia de Matemática, EMS Press, 2001 [1994]Fonte: Arquivo da TORIma Academia

Distribuição normal (Normal distribution)