TORIma Academia Logo TORIma Academia
Distribuição normal (Normal distribution)
Ciências

Distribuição normal (Normal distribution)

TORIma Academia — Estatísticas

Normal distribution

Distribuição normal (Normal distribution)

Na teoria das probabilidades e nas estatísticas, uma distribuição normal ou distribuição gaussiana é um tipo de distribuição de probabilidade contínua para um valor aleatório aleatório…

Nos campos da teoria das probabilidades e estatística, uma distribuição normal, também conhecida como distribuição gaussiana, representa uma distribuição de probabilidade contínua aplicável a uma variável aleatória de valor real. Sua função de densidade de probabilidade é geralmente expressa como: f ( x ) = 1 2 π σ 2 experiência ⁡ ( - ( x - μ ) 2 2 σ 2 ) . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.} O parâmetro ⁠ μ {\ displaystyle \ mu} ⁠ denota a média ou expectativa da distribuição, que também corresponde à sua mediana e moda. Por outro lado, σ 2 {\textstyle\sigma ^{2}} significa a variação. O desvio padrão desta distribuição é representado pelo valor positivo ⁠ σ { displaystyle sigma} ⁠ (sigma). Uma variável aleatória em conformidade com uma distribuição gaussiana é denominada distribuição normal e é chamada de desvio normal.

Na teoria de probabilidade e estatística, uma distribuição normal ou distribuição gaussiana é um tipo de distribuição de probabilidade contínua para uma variável aleatória de valor real. A forma geral de sua função de densidade de probabilidade é f ( x ) = §2223§ §2526§ π σ §3536§ exp ( ( x μ ) §7273§ §7879§ σ §8586§ ) . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}\,.} O parâmetro μ {\displaystyle \mu } é a média ou expectativa da distribuição (e também sua mediana e moda), enquanto o parâmetro σ §139140§ {\textstyle \sigma ^{2}} é a variação. O desvio padrão da distribuição é o valor positivo σ {\displaystyle \sigma } (sigma). Diz-se que uma variável aleatória com distribuição gaussiana é normalmente distribuída e é chamada de desvio normal.

As distribuições normais têm uma importância significativa nas estatísticas e são frequentemente empregadas nas ciências naturais e sociais para modelar variáveis ​​aleatórias com valor real quando suas distribuições subjacentes são desconhecidas. Sua proeminência é parcialmente atribuível ao teorema do limite central. Este teorema postula que a média de numerosas amostras estatisticamente independentes (observações) de uma variável aleatória que possui média e variância finitas constitui ela própria uma variável aleatória, cuja distribuição se aproxima progressivamente de uma distribuição normal à medida que o tamanho da amostra aumenta. Conseqüentemente, as quantidades físicas que se prevê resultarem da soma de múltiplos processos independentes, como erros de medição, frequentemente exibem distribuições que são aproximadamente normais. Além disso, as distribuições gaussianas possuem propriedades distintas que se mostram inestimáveis ​​em investigações analíticas. Por exemplo, uma combinação linear formada a partir de um conjunto fixo de desvios normais independentes será ela própria um desvio normal. Numerosos resultados analíticos e metodologias, incluindo a propagação da incerteza e ajuste de parâmetros de mínimos quadrados, podem ser derivados explicitamente quando as variáveis ​​pertinentes aderem a uma distribuição normal.

Uma distribuição normal é ocasionalmente chamada informalmente de "curva em sino". No entanto, inúmeras outras distribuições também exibem uma característica em forma de sino, incluindo Cauchy, t de Student e distribuições logísticas.

A distribuição de probabilidade univariada se estende a vetores dentro da distribuição normal multivariada e a matrizes dentro da distribuição normal de matriz.

Definições

Distribuição Normal Padrão

A instância mais direta de uma distribuição normal é designada como a distribuição normal padrão ou, alternativamente, a distribuição normal unitária. Este cenário específico ocorre quando

Embora a densidade acima mencionada seja amplamente reconhecida como a distribuição normal padrão, alguns estudiosos aplicaram esta designação a formas alternativas da distribuição normal. Por exemplo, Carl Friedrich Gauss certa vez definiu o padrão normal como φ ( z ) = §2122§ π e z §4142§ , {\textstyle \varphi (z)={\frac {1}{\sqrt {\pi }}}e^{-z^{2}},} que exibe um variação de §6768§ §6970§ {\displaystyle {\tfrac {1}{2}}} . Da mesma forma, Stephen Stigler propôs uma definição normal padrão como φ ( z ) = e π z §114115§ , {\textstyle \varphi (z)=e^{-\pi z^{2}},} caracterizado por uma forma funcional mais simples e uma variação de σ §141142§ = §149150§ §152153§ π . {\textstyle \sigma ^{2}={\frac {1}{2\pi }}.}

Distribuição Normal Geral

Se Z {\displaystyle Z} representa um desvio normal padrão, então a variável X = σ Z + μ {\textstyle X=\sigma Z+\mu } seguirá uma distribuição normal com um valor esperado de μ {\displaystyle \mu } e um desvio padrão de σ {\displaystyle \sigma } . Isso implica que a distribuição normal padrão Z {\displaystyle Z} pode ser dimensionado por um fator de σ {\displaystyle \sigma } e posteriormente deslocado por μ {\displaystyle \mu } para gerar uma distribuição normal distinta, denotada como X {\displaystyle X} .

Por outro lado, se X {\displaystyle X} representa um desvio normal caracterizado pelos parâmetros μ {\displaystyle \mu } e σ §4849§ {\textstyle \sigma ^{2}} , sua distribuição pode ser transformada na distribuição normal padrão por meio de reescalonamento e deslocamento, usando a fórmula Z = ( X μ ) / σ {\textstyle Z=(X-\mu )/\sigma } . Essa variável resultante é comumente chamada de forma padronizada de X {\displaystyle X} .

Especificamente, a função de densidade de probabilidade para X {\displaystyle X} pode ser expresso usando a distribuição normal padrão, denotada como φ {\displaystyle \varphi } , que possui média zero e variância unitária: f ( x μ , σ §6263§ ) = §7273§ σ φ ( x μ σ ) . {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma }}\varphi \left({\frac {x-\mu }{\sigma }}\right)\,.} Para garantir que a integral da densidade de probabilidade permaneça igual a 1, ela deve ser escalonada pelo fator §123124§ / σ {\textstyle 1/\sigma } .

Notação Matemática

A função de densidade de probabilidade da distribuição gaussiana padrão, também conhecida como distribuição normal padrão (caracterizada por uma média zero e variância unitária), é frequentemente simbolizada pela letra grega ϕ {\displaystyle \phi } (phi). Além disso, a forma alternativa da letra grega phi, φ {\displaystyle \varphi } , também é comumente empregado.

A distribuição normal é frequentemente denotada como N(μ,σ§2021§){\textstyle N(\mu ,\sigma ^{2})} ou N(μ,σ§5960§){\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})}. Consequentemente, quando uma variável aleatória X{\displaystyle X} segue uma distribuição normal com uma média de μ{\displaystyle \mu } e um desvio padrão de σ{\displaystyle \sigma }, pode ser expresso como:

XN(μ,σ§2930§).{\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2}).}

Parametrizações Alternativas

Alguns pesquisadores propõem o emprego da precisão, denotada como τ{\displaystyle \tau }, para caracterizar a largura da distribuição, em vez do desvio padrão σ{\displaystyle \sigma } ou a variação σ§5051§{\displaystyle \sigma ^{2}}. A precisão é convencionalmente definida como o inverso da variação, especificamente §7071§/σ§8182§{\displaystyle 1/\sigma ^{2}}. Consequentemente, a fórmula da distribuição é modificada para: f(x)=τ§117118§πeτ(xμ)§150151§/§158159§.{\displaystyle f(x)={\sqrt {\frac {\tau }{2\pi }}}e^{-\tau (x-\mu )^{2}/2}.}

Afirma-se que essa parametrização alternativa oferece benefícios em cálculos numéricos, especialmente quando σ{\displaystyle \sigma } se aproxima de zero e simplifica fórmulas em certas aplicações, incluindo inferência bayesiana para variáveis que exibem uma distribuição normal multivariada.

Como alternativa, o inverso do desvio padrão, denotado como τ = §1516§ / σ {\textstyle \tau '=1/\sigma } , pode ser definido como a precisão. Nesta formulação, a expressão para a distribuição normal é dada por f ( x ) = τ §6061§ π e ( τ ) §8687§ ( x μ ) §102103§ / 2 . {\displaystyle f(x)={\frac {\tau '}{\sqrt {2\pi }}}e^{-(\tau ')^{2}(x-\mu )^{2}/2}.} .

Stigler postula que esta formulação específica oferece vantagens devido à sua expressão matemática significativamente mais simples e memorável, juntamente com fórmulas aproximadas diretas para os quantis da distribuição.

Distribuições normais são classificadas como uma família exponencial, caracterizada por parâmetros naturais θ §1213§ = μ σ §2829§ {\textstyle \textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}} e θ §5556§ = §6667§ §6970§ σ §7677§ {\textstyle \textstyle \theta _{2}=-{\frac {1}{2\sigma ^{2}}}} , junto com estatísticas naturais x e x§9798§. Os parâmetros de expectativa dupla correspondentes para uma distribuição normal são η§103104§ = μ e η§111112§ = μ§115116§ + σ§119120§.

Função de distribuição cumulativa

A função de distribuição cumulativa (CDF) da distribuição normal padrão, normalmente indicada pela letra grega maiúscula Φ {\displaystyle \Phi } , é definido pela integral: Φ ( x ) = §3839§ §4142§ π x e t §7778§ / §8586§ d t . {\displaystyle \Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-t^{2}/2}\,dt\,.}

A função de erro associada, representada como erf ( x ) {\textstyle \operatorname {erf} (x)} , calcula a probabilidade de que uma variável aleatória de um distribuição normal com média 0 e variância 1/2 ficará dentro do intervalo [ x , x ] {\displaystyle [-x,x]} . Isso é expresso como: erf ( x ) = §7576§ π x x e t §111112§ d t = §127128§ π §141142§ x e t §160161§ d t . {\displaystyle \operatorname {erf} (x)={\frac {1}{\sqrt {\pi }}}\int _{-x}^{x}e^{-t^{2}}\,dt={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt\,.}

Essas integrais não podem ser expressas usando funções elementares e, consequentemente, são categorizadas como funções especiais. No entanto, numerosas aproximações numéricas para eles foram desenvolvidas.

Essas duas funções apresentam uma relação estreita, que pode ser expressa pela seguinte fórmula: Φ ( x ) = §1920§ §2122§ [ §2930§ + erf ( x §4647§ ) ] . {\displaystyle \Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right].}

Para uma distribuição normal geral caracterizada por uma função de densidade f {\displaystyle f} , uma média μ {\displaystyle \mu } , e uma variação σ §4849§ {\textstyle \sigma ^{2}} , sua função de distribuição cumulativa é definida como: F ( x ) = Φ ( x μ σ ) = §108109§ §110111§ [ §118119§ + erf ( x μ σ §148149§ ) ] . {\displaystyle F(x)=\Phi {\left({\frac {x-\mu }{\sigma }}\right)}={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right].}

Consequentemente, a probabilidade de x estar dentro do intervalo definido por a e b, onde a < b, é expresso da seguinte forma: P ( uma < x b ) = §3839§ §4041§ [ erf ( b μ σ §7475§ ) erf ( uma μ σ §113114§ ) ] {\displaystyle \operatorname {P} (a

A função Q, freqüentemente encontrada na literatura de engenharia, representa o complemento da função de distribuição cumulativa normal padrão, denotada como P ( x ) = §1617§ Φ ( x ) {\textstyle Q(x)=1-\Phi (x)} . Esta função quantifica a probabilidade de uma variável aleatória normal padrão X {\displaystyle X} excederá um determinado valor x {\displaystyle x} , especificamente: P ( X > x ) {\displaystyle P(X>x)} . É importante observar que definições alternativas de P {\displaystyle Q} -função existe, todas elas são transformações diretas de Φ {\displaystyle \Phi } , e são empregados ocasionalmente.

Φ ( x ) d x = x Φ ( x ) + φ ( x ) + C . {\displaystyle \int \Phi (x)\,dx=x\Phi (x)+\varphi (x)+C.}

Aqui, ! ! {\textstyle !!} representa o fatorial duplo.

Representação da Série Taylor

A série de Taylor para a distribuição normal, simbolizada por φ {\displaystyle \varphi } , pode ser obtido substituindo §3132§ §3334§ x §4243§ {\displaystyle -{\tfrac {1}{2}}x^{2}} na série de Taylor da função exponencial.

φ ( x ) = §1920§ §2223§ π n = §3940§ ( §5657§ ) n n ! §7576§ n x §8990§ n {\displaystyle \varphi (x)={\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}}}x^{2n}}

A série de Taylor para a função de distribuição cumulativa pode ser derivada integrando esta série termo por termo:

Φ ( x ) = §1920§ §2122§ + §2930§ §3233§ π n = §4950§ ( §6667§ ) n n ! §8586§ n ( §9495§ n + §100101§ ) x §111112§ n + §117118§ . {\displaystyle \Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{n=0}^{\infty }{\frac {(-1)^{n}}{n!\,2^{n}(2n+1)}}x^{2n+1}.} No entanto, esta série se mostra computacionalmente ineficiente devido à sua convergência lenta, exceto nos casos em que x {\displaystyle x} é de pequena magnitude.

Ambas as séries representam funções inteiras, exibindo convergência entre todos os valores reais e complexos de x {\displaystyle x} .

Computação recursiva com série de Taylor

A relação de recorrência que rege os polinômios de Hermite, especificamente Hen(x), facilita a derivação eficiente de sua expansão em série de Taylor em torno de um ponto arbitrário x§1112§:

Desvio padrão e cobertura de dados

Para uma distribuição normal, aproximadamente 68% dos pontos de dados estão dentro de um desvio padrão σ da média. Além disso, cerca de 95% dos valores estão contidos dentro de dois desvios padrão e aproximadamente 99,7% estão dentro de três desvios padrão. Este princípio é comumente referido como regra 68–95–99,7 (empírica) ou regra dos 3 sigma.

Mais precisamente, a probabilidade de um desvio normal cair dentro do intervalo definido por μ n σ {\textstyle \mu -n\sigma } e μ + n σ {\textstyle \mu +n\sigma } é matematicamente expresso como: F ( μ + n σ ) F ( μ n σ ) = Φ ( n ) Φ ( n ) = erf ( n §132133§ ) . {\displaystyle F(\mu +n\sigma )-F(\mu -n\sigma )=\Phi (n)-\Phi (-n)=\operatorname {erf} \left({\frac {n}{\sqrt {2}}}\right).} Os valores correspondentes, com precisão de 12 dígitos significativos, para n = §160161§ , §164165§ , , §173174§ {\textstyle n=1,2,\ldots ,6} são apresentados abaixo:

Para valores substanciais de n {\displaystyle n} , a seguinte aproximação pode ser empregada: §2425§ p §3738§ n π e n §5657§ {\displaystyle 1-p\approx {\frac {\sqrt {2}}{n{\sqrt {\pi e^{n^{2}}}}}}}

Função Quantílica

A função quantílica de uma distribuição é definida como o inverso de sua função de distribuição cumulativa. Para a distribuição normal padrão, esta função é especificamente denominada função probit e pode ser expressa usando a função de erro inverso:

A tabela subsequente apresenta o quantil z p {\textstyle z_{p}} , o que garante que uma variável aleatória X {\displaystyle X} está dentro do intervalo μ ± z p σ {\textstyle \mu \pm z_{p}\sigma } com uma probabilidade de p {\displaystyle p} . Esses quantis são fundamentais para estabelecer intervalos de tolerância para médias amostrais e outros estimadores estatísticos que seguem distribuições normais ou assintoticamente normais. É importante observar que a tabela subsequente apresenta §9798§ erf §108109§ ( p ) = Φ §131132§ ( p + §145146§ §148149§ ) {\textstyle {\sqrt {2}}\operatorname {erf} ^{-1}(p)=\Phi ^{-1}\left({\frac {p+1}{2}}\right)} , em vez de Φ §177178§ ( p ) {\textstyle \Phi ^{-1}(p)} conforme definido anteriormente.

Para valores diminutos de p {\displaystyle p} , a função quantil exibe uma expansão assintótica valiosa, expressa como: Φ §3233§ ( p ) = ln §5657§ p §6263§ ln ln §8384§ p §8990§ ln ( §105106§ π ) + o ( §124125§ ) . {\textstyle \Phi ^{-1}(p)=-{\sqrt {\ln {\frac {1}{p^{2}}}-\ln \ln {\frac {1}{p^{2}}}-\ln(2\pi )}}+{\mathcal {o}}(1).}

O cálculo da função quantílica pode ser alcançado por meio de algoritmos de localização de raiz.

Para determinar o valor x {\displaystyle x} para um quantil especificado q {\displaystyle q} , onde Φ ( x ) = q {\displaystyle \Phi (x)=q} , qualquer um dos métodos mencionados acima para calcular a função de distribuição cumulativa Φ ( x ) {\textstyle \Phi (x)} pode ser empregado com um algoritmo de localização de raiz, como o método de Newton ou o método de Halley. Por exemplo, começando com uma aproximação inicial x §99100§ {\displaystyle x_{0}} , refinamentos sucessivos x §123124§ {\displaystyle x_{1}} , x §147148§ {\displaystyle x_{2}} e assim por diante, podem ser calculados iterativamente usando o método de Newton por meio da fórmula: x n = x n §185186§ Φ ( x n §209210§ ) q φ ( x n §236237§ ) . {\displaystyle x_{n}=x_{n-1}-{\frac {\Phi (x_{n-1})-q}{\varphi (x_{n-1})}}\,.}

Propriedades

A distribuição normal possui diversas propriedades distintas. É caracterizada exclusivamente como a única distribuição onde todos os cumulantes além dos dois primeiros (a média e a variância) são zero. Além disso, entre todas as distribuições contínuas com uma determinada média e variância, apresenta a entropia máxima. Geary demonstrou que, sob a suposição de média e variância finitas, a distribuição normal é a única distribuição para a qual a média e a variância, derivadas de um conjunto de observações independentes, são independentes.

Classificada como uma subclasse de distribuições elípticas, a distribuição normal é caracterizada por sua simetria em torno de sua média e sua densidade de probabilidade diferente de zero em toda a reta numérica real. Consequentemente, pode não ser um modelo apropriado para variáveis ​​que são intrinsecamente positivas ou que apresentam assimetria significativa, exemplos dos quais incluem o peso humano ou os preços das ações. Para tais variáveis, distribuições alternativas como a distribuição log-normal ou a distribuição de Pareto geralmente fornecem uma representação mais precisa.

A função de densidade normal se aproxima de zero quando a variável x {\displaystyle x} desvia-se significativamente da média; por exemplo, um intervalo que abrange três desvios padrão abrange aproximadamente 99,73% de toda a distribuição. Consequentemente, a distribuição normal pode ser inadequada como modelo se for prevista uma proporção substancial de valores discrepantes – pontos de dados muito distantes da média. Nesses cenários, técnicas de inferência estatística como os mínimos quadrados, que são otimizadas para variáveis ​​normalmente distribuídas, tendem a perder sua confiabilidade. Em vez disso, é aconselhável empregar uma distribuição de cauda pesada e aplicar métodos robustos de inferência estatística.

A distribuição gaussiana é um membro da família de distribuições estáveis, que servem como atratores para somas de variáveis ​​aleatórias independentes e distribuídas de forma idêntica, independentemente de sua média ou variância ser finita. Com exceção da distribuição gaussiana, que representa um caso limite, todas as outras distribuições estáveis ​​apresentam caudas pesadas e variância infinita. A distribuição gaussiana é notável como uma das poucas distribuições estáveis cujas funções de densidade de probabilidade podem ser expressas analiticamente, juntamente com as distribuições de Cauchy e Lévy.

Simetrias e propriedades derivadas

Uma distribuição normal, caracterizada por sua função de densidade de probabilidade f (x ) {\textstyle f(x)} , uma média de μ {\displaystyle \mu } e uma variação de σ §5253§ > §5859§ {\textstyle \sigma ^{2}>0} , possui as propriedades subsequentes:

Além disso, a função de densidade φ {\displaystyle \varphi } para a distribuição normal padrão (onde μ = §2931§ {\textstyle \mu =0} e σ = §5152§ {\textstyle \sigma =1} ) possui as seguintes características:

Momentos

Para uma variável X {\displaystyle X} , seus momentos simples e absolutos são definidos como os valores esperados de X p {\textstyle X^{p}} e | X | p {\textstyle |X|^{p}} , respectivamente. Esses parâmetros são chamados de momentos centrais se o valor esperado μ {\displaystyle \mu } de X {\displaystyle X} é zero; caso contrário, eles são chamados de momentos não centrais. Normalmente, o interesse é confinado a momentos de ordem inteira p {\displaystyle p} .

Quando uma variável aleatória X{\displaystyle X} segue uma distribuição normal, seus momentos não centrais são bem definidos e finitos para qualquer p{\displaystyle p} onde a parte real excede −1. Além disso, para qualquer número inteiro não negativo p{\displaystyle p}, os momentos centrais são expressos como:E[(Xμ)p]={§100101§se p é ímpar,σp(p§134135§)!!se p é par.{\displaystyle \operatorname {E} \left[(X-\mu )^{p}\right]={\begin{cases}0&{\text{if }}p{\text{ é ímpar,}}\\\sigma ^{p}(p-1)!!&{\text{if }}p{\text{ é par.}}\end{cases}}}Neste contexto, n!!{\textstyle n!!} representa o fatorial duplo, que é definido como o produto de todos os números inteiros de n{\displaystyle n} até 1 que compartilham a mesma paridade que n.{\textstyle n.}

Embora os momentos absolutos centrais se alinhem com os momentos simples para todas as ordens pares, eles exibem valores diferentes de zero para ordens ímpares. Para qualquer número inteiro não negativo p,{\textstyle p,}

A validade dessas expressões persiste mesmo quando p > §1415§ {\displaystyle p>-1} não é um número inteiro.

A expectativa condicional de X {\displaystyle X} , dado que X {\displaystyle X} está dentro do intervalo [ a , b ] {\textstyle [a,b]} , é expresso como: E [ X a < X < b ] = μ σ §107108§ f ( b ) f ( a ) F ( b ) F ( a ) , {\displaystyle \operatorname {E} \left[X\mid a Aqui, f {\displaystyle f} e F {\displaystyle F} denotam a função de densidade de probabilidade e a função de distribuição cumulativa, respectivamente, para X {\displaystyle X} . Quando b = {\textstyle b=\infty } , esta expressão é reconhecida como a razão de Mills inversa.É importante observar que a função de densidade f {\displaystyle f} de X {\displaystyle X} é empregado aqui, em vez da densidade normal padrão normalmente encontrada na proporção inversa de Mills contexto, resultando na presença de σ §290291§ {\textstyle \sigma ^{2}} em vez de σ {\displaystyle \sigma } .

Transformada de Fourier e função característica

A transformada de Fourier para uma função de densidade de probabilidade normal f {\displaystyle f} , caracterizado por uma média de μ {\displaystyle \mu } e uma variação de σ §4748§ {\textstyle \sigma ^{2}} , é dado por:

A transformada de Fourier de uma função de densidade de probabilidade normal é expressa como: f^(t)=∫f(x)eitxdx=ete§99100102§σ§110111§t§118119§,{\displaystyle {\hat {f}}(t)=\int _{-\infty }^{\infty }f(x)e^{-itx}\,dx=e^{-i\mu t}e^{-{\frac {1}{2}}\sigma ^{2}t^{2}}\,,}.

Aqui, i{\displaystyle i} representa a unidade imaginária. Quando a média μ=§2930§{\textstyle \mu =0}, o fator inicial torna-se 1. Consequentemente, a transformada de Fourier, desconsiderando um multiplicador constante, se manifesta como uma densidade normal dentro do domínio da frequência, caracterizada por uma média de 0 e uma variação de §4647§/σ§5758§{\displaystyle 1/\sigma ^{2}}. Notavelmente, a distribuição normal padrão, denotada por φ{\displaystyle \varphi }, funciona como uma função própria da transformada de Fourier.

Na teoria da probabilidade, a transformada de Fourier de uma variável aleatória de valor real X {\displaystyle X} a distribuição de probabilidade está intrinsecamente ligada à sua função característica, φ X ( t ) {\textstyle \varphi _{X}(t)} . Esta função é formalmente definida como o valor esperado de e i t X {\textstyle e^{itX}} , onde t {\displaystyle t} representa o parâmetro de frequência com valor real da transformada de Fourier. Esta definição é passível de extensão analítica para uma variável de valor complexo t {\displaystyle t} . A relação entre esses dois conceitos é expressa como:

Os componentes reais e imaginários de são delineados da seguinte forma:

Em uma linha semelhante, as seguintes expressões são observadas: E [ cosh ( t x ) ] = cosh ( μ t ) e §5051§ §5253§ σ §6162§ t §6970§ {\displaystyle \operatorname {E} [\cosh(tx)]=\cosh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}} e E [ sinh ( t x ) ] = sinh ( μ t ) e §133134§ §135136§ σ §144145§ t §152153§ . {\displaystyle \operatorname {E} [\sinh(tx)]=\sinh(\mu t)e^{{\frac {1}{2}}\sigma ^{2}t^{2}}.}

Quando essas fórmulas são avaliadas com t = §1011§ {\displaystyle t=1} , eles produzem os valores esperados para essas funções trigonométricas e hiperbólicas fundamentais relativas a uma variável aleatória gaussiana X N ( μ , σ §4546§ ) {\displaystyle X\sim N(\mu ,\sigma ^{2})} . Estes resultados também podem ser interpretados como implicações diretas do teorema de Isserlis.

Funções de geração de momento e cumulante

A função geradora de momento (MGF) para uma variável aleatória real X {\displaystyle X} é definido como o valor esperado de e t X {\textstyle e^{tX}} , expresso como uma função do parâmetro real t {\displaystyle t} . Para uma distribuição normal caracterizada por densidade f {\displaystyle f} , uma média de μ {\displaystyle \mu } e uma variação de σ §108109§ {\textstyle \sigma ^{2}} , a função geradora de momento é bem definida e corresponde a:

M ( t ) = E [ e t X ] = f ^ ( i t ) = e μ t e σ §8081§ t §8889§ / §9697§ . {\displaystyle M(t)=\operatorname {E} \left[e^{tX}\right]={\hat {f}}(it)=e^{\mu t}e^{\sigma ^{2}t^{2}/2}\,.} Para qualquer número inteiro k {\displaystyle k} , o coeficiente correspondente a t k / k ! {\displaystyle t^{k}/k!} dentro da função geradora de momento (quando expressa como uma série de potências exponenciais em t {\displaystyle t} ) representa o valor esperado da distribuição normal, denotado como E [ X k ] {\displaystyle \operatorname {E} [X^{k}]} .

A função geradora de cumulante é definida como o logaritmo natural da função geradora de momento, especificamente: g ( t ) = ln M ( t ) = μ t + §4142§ §4344§ σ §5354§ t §6162§ . {\displaystyle g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}\,.}

Embora os coeficientes desta série de potências exponenciais estabeleçam os cumulantes, sua forma polinomial quadrática em t {\displaystyle t} implica que apenas os dois cumulantes iniciais possuem valores diferentes de zero: especificamente, a média μ {\displaystyle \mu } e a variação σ §4950§ {\displaystyle \sigma ^{2}} .

Alternativamente, alguns pesquisadores optam por utilizar a função característica, definida como E[eitX] = eiμt - σ§1415§t§1819§/2, e seu logaritmo, ln E[eitX] = iμt - §3334§/§3738§σ§4344§t§4748§.

Operador e classe Stein

No método de Stein, para uma variável aleatória X N ( μ , σ §2930§ ) {\textstyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} , o operador Stein é definido como A f ( x ) = σ §7071§ f ( x ) ( x μ ) f ( x ) {\textstyle {\mathcal {A}}f(x)=\sigma ^{2}f'(x)-(x-\mu )f(x)} . A classe correspondente F {\textstyle {\mathcal {F}}} abrange todas as funções absolutamente contínuas f : R R {\displaystyle \textstyle f:\mathbb {R} \to \mathbb {R} } que satisfazem a condição E [ | f ( X ) | ] < {\displaystyle \operatorname {E} [\vert f'(X)\vert ]<\infty } .

Limite de variação zero

Quando a variação σ §1112§ {\textstyle \sigma ^{2}} se aproxima de zero, a função de densidade de probabilidade f {\textstyle f} converge para zero em todos os lugares, exceto em μ {\textstyle \mu } , onde se aproxima de {\textstyle \infty } , enquanto sua integral permanece igual a 1. Uma extensão da distribuição normal para o caso de variância zero pode ser definida usando a medida delta de Dirac δ μ {\textstyle \delta _{\mu }} . No entanto, as variáveis ​​aleatórias resultantes não são absolutamente contínuas e, portanto, carecem de funções convencionais de densidade de probabilidade. A função de distribuição cumulativa (CDF) para tal variável aleatória é, conseqüentemente, a função degrau de Heaviside, traduzida pela média μ {\textstyle \mu } , expresso como: F ( x ) = { §137138§ se x < μ §156157§ if x μ . {\displaystyle F(x)={\begin{cases}0&{\text{if }}x<\mu \\1&{\text{if }}x\geq \mu .\end{cases}}}

Entropia máxima

Entre todas as distribuições de probabilidade definidas sobre os números reais que possuem uma média finita especificada

No ponto de entropia máxima, uma variação infinitesimal δ f ( x ) {\textstyle \delta f(x)} da função f ( x ) {\textstyle f(x)} resultará em uma variação correspondente δ L {\textstyle \delta L} em L {\displaystyle L} que é precisamente zero:

Considerando que esta condição deve ser satisfeita para qualquer variação infinitesimal δ f ( x ) {\displaystyle \delta f(x)} , o coeficiente associado a δ f ( x ) {\displaystyle \delta f(x)} deve necessariamente ser igual a zero. Consequentemente, resolvendo para f ( x ) {\displaystyle f(x)} produz o seguinte resultado:

As restrições de Lagrange, que garantem que a função f ( x ) {\displaystyle f(x)} é normalizado corretamente e exibe a média e a variância especificadas, são atendidos se e somente se o parâmetros λ §3637§ {\displaystyle \lambda _{0}} , λ §6162§ {\displaystyle \lambda _{1}} , e λ §8687§ {\displaystyle \lambda _{2}} são escolhidos para definir f ( x ) = §117118§ §120121§ π σ §130131§ e ( x μ ) §161162§ §167168§ σ §174175§ . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\,.} A entropia de uma distribuição normal, denotada como X N ( μ , σ §220221§ ) {\textstyle X\sim N(\mu ,\sigma ^{2})} , é dado pela fórmula: H ( X ) = §253254§ §255256§ ( §262263§ + ln §271272§ σ §278279§ π ) , {\displaystyle H(X)={\tfrac {1}{2}}(1+\ln 2\sigma ^{2}\pi )\,,} .Notavelmente, esse valor de entropia é independente da média μ {\displaystyle \mu } .

Outras propriedades

Distribuições relacionadas

Teorema do limite central

O Teorema do Limite Central (CLT) postula que, sob um conjunto de condições amplamente aplicáveis, a soma agregada de numerosas variáveis ​​aleatórias se aproximará de uma distribuição normal. Especificamente, se X §1011§ , , X n {\textstyle X_{1},\ldots ,X_{n}} representam variáveis aleatórias independentes e distribuídas de forma idêntica, cada uma possuindo uma distribuição arbitrária, uma média zero e uma variância de σ §4849§ {\textstyle \sigma ^{2}} e se Z {\displaystyle Z} é definido como sua média escalada por n {\textstyle {\sqrt {n}}} , expresso como Z = n ( §122123§ n i = §137138§ n X i ) {\displaystyle Z={\sqrt {n}}{\biggl (}{\frac {1}{n}}\sum _{i=1}^{n}X_{i}{\biggr )}} , depois como n {\displaystyle n} tende ao infinito, a distribuição de probabilidade de Z {\displaystyle Z} converge para uma distribuição normal caracterizada por uma média zero e uma variância de σ §215216§ {\displaystyle \sigma ^{2}} .

Este teorema é generalizável para abranger variáveis ( X i ) {\textstyle (X_{i})} que não são independentes ou não são distribuídos de forma idêntica, desde que restrições específicas sejam impostas ao seu grau de dependência e aos momentos de suas distribuições.

Em aplicações práticas, inúmeras estatísticas de testes, pontuações e estimadores são formulados como somas de variáveis aleatórias; além disso, estimadores adicionais podem ser conceituados como tais somas através da aplicação de funções de influência. Consequentemente, o Teorema do Limite Central determina que esses parâmetros estatísticos exibirão distribuições assintoticamente normais.

O Teorema do Limite Central indica ainda que várias distribuições são passíveis de aproximação pela distribuição normal, incluindo:

A adequação dessas aproximações depende da aplicação pretendida e da taxa na qual elas convergem para a distribuição normal. Geralmente, essas aproximações apresentam precisão reduzida nas extremidades da distribuição.

O teorema de Berry-Esseen fornece um limite superior geral para o erro de aproximação associado ao teorema do limite central, enquanto as expansões de Edgeworth oferecem refinamentos para essa aproximação.

Este teorema fornece adicionalmente uma base teórica para modelar o agregado de numerosas fontes de ruído uniformes como ruído gaussiano.

Operações e funções envolvendo variáveis normais

Operações em uma única variável normal

Se a variável aleatória X {\displaystyle X} segue uma distribuição normal com uma média de μ {\displaystyle \mu } e uma variação de σ §4849§ {\textstyle \sigma ^{2}} , então o seguinte se aplica:

Operações envolvendo duas variáveis normais independentes
Operações envolvendo duas variáveis normais padrão independentes

Dadas duas variáveis aleatórias normais padrão independentes, X §1011§ {\textstyle X_{1}} e X §3233§ {\textstyle X_{2}} , ambos caracterizados por uma média de 0 e uma variância de 1, as seguintes propriedades são observados:

Cálculos envolvendo múltiplas variáveis normais independentes

Operações estatísticas envolvendo múltiplas variáveis normais correlacionadas

Operações na função de densidade

A distribuição normal dividida é caracterizada principalmente pela concatenação de segmentos em escala das funções de densidade de distribuições normais distintas, seguida por uma renormalização da densidade combinada para garantir que ela se integre à unidade. Em contraste, a distribuição normal truncada é derivada do redimensionamento de um segmento específico de uma função de densidade singular.

Divisibilidade infinita e teorema de Cramér

Dado qualquer número inteiro positivo n, qualquer distribuição normal caracterizada por uma média de μ {\displaystyle \mu } e uma variação de σ §3233§ {\textstyle \sigma ^{2}} pode ser representado como a distribuição da soma de n variáveis normais independentes, onde cada variável possui uma média de μ n {\textstyle {\frac {\mu }{n}}} e uma variação de σ §8283§ n {\textstyle {\frac {\sigma ^{2}}{n}}} . Essa característica é chamada de divisibilidade infinita.

Inversamente, se X §1011§ {\textstyle X_{1}} e X §3233§ {\textstyle X_{2}} representam variáveis aleatórias independentes e sua agregação, X §5455§ + X §6465§ {\textstyle X_{1}+X_{2}} , segue uma distribuição normal, então ambos X §8687§ {\textstyle X_{1}} e X §108109§ {\textstyle X_{2}} são necessariamente variáveis normais.

Essa descoberta é formalmente reconhecida como o teorema da decomposição de Cramér, que postula que a convolução de duas distribuições produz uma distribuição normal exclusivamente quando ambas as distribuições constituintes são normais. Consequentemente, o teorema de Cramér indica que uma combinação linear de variáveis independentes não-Gaussianas nunca exibirá precisamente uma distribuição normal, mesmo que possa convergir para ela com proximidade arbitrária.

O Teorema de Kac–Bernstein

O teorema de Kac–Bernstein postula que se houver duas variáveis aleatórias, X {\textstyle X} e Y {\displaystyle Y} , são independentes e sua soma X + Y {\textstyle X+Y} e diferença X Y {\textstyle X-Y} também são independentes, então ambos X e Y deve necessariamente seguir distribuições normais.

De forma mais ampla, if X §1011§ , , X n {\textstyle X_{1},\ldots ,X_{n}} representam variáveis aleatórias independentes e, em seguida, duas combinações lineares distintas, a k X k {\textstyle \sum {a_{k}X_{k}}} e b k X k {\textstyle \sum {b_{k}X_{k}}} , exibirá independência se e somente se todos X k {\textstyle X_{k}} são normalmente distribuídos e a condição a k b k σ k §162163§ = §168169§ {\textstyle \sum {a_{k}b_{k}\sigma _{k}^{2}=0}} é satisfeito, onde σ k §196197§ {\textstyle \sigma _{k}^{2}} denota a variação de cada X k {\textstyle X_{k}} .

Extensões

Como conceito fundamental na teoria das probabilidades, a distribuição normal foi significativamente estendida além de sua estrutura convencional univariada (unidimensional) (Caso 1). Essas distribuições expandidas são frequentemente chamadas de leis normais ou gaussianas, o que introduz alguma ambiguidade terminológica.

Uma variável aleatória X é definida por uma distribuição normal de duas partes quando sua função de densidade de probabilidade é expressa como:

A distribuição gaussiana é frequentemente empregada para modelar as distribuições empíricas de inúmeras variáveis aleatórias observadas em aplicações práticas. Para aumentar a precisão do ajuste de dados empíricos, uma extensão potencial envolve a utilização de uma família mais abrangente de distribuições com mais de dois parâmetros. Exemplos dessas extensões incluem:

Inferência Estatística

Estimativa de parâmetros

Frequentemente, os parâmetros de uma distribuição normal são desconhecidos e requerem estimativa. Especificamente, dada uma amostra ( x §1213§ , , x n ) {\textstyle (x_{1},\ldots ,x_{n})} extraído de um N ( μ , σ §6566§ ) {\textstyle {\mathcal {N}}(\mu ,\sigma ^{2})} população, o objetivo é determinar os valores aproximados dos parâmetros μ {\displaystyle \mu } e σ §109110§ {\textstyle \sigma ^{2}} . O método convencional para enfrentar esse desafio de estimativa é a abordagem de máxima verossimilhança, que requer a maximização da função log-verossimilhança, expressa como:

A expressão para lnL(μ^,σ^§4748§){\textstyle \ln {\mathcal {L}}({\hat {\mu }},{\hat {\sigma }}^{2})} é apresentado da seguinte forma: lnL(μ^,σ^§108109§)=(n/§127128§)[§140141§πσ^§159160§)+§167168§]{\displaystyle \ln {\mathcal {L}}({\hat {\mu }},{\hat {\sigma }}^{2})=(-n/2)[\ln(2\pi {\hat {\sigma }}^{2})+1]}

Média da amostra

Estimador

No âmbito da teoria assintótica, o estimador μ^{\displaystyle \textstyle {\hat {\mu }}} demonstra consistência, o que significa que converge em probabilidade para μ{\displaystyle \mu } como n{\textstyle n\rightarrow \infty }. Além disso, este estimador exibe normalidade assintótica, uma característica que decorre diretamente de sua normalidade em amostras finitas, conforme expresso por: n(μ^μ)dN(§123124§,σ§132133§).{\displaystyle {\sqrt {n}}({\hat {\mu }}-\mu )\,\xrightarrow {d} \,{\mathcal {N}}(0,\sigma ^{2}).}

Variação da amostra

O estimador σ^§2122§{\displaystyle \textstyle {\hat {\sigma }}^{2}} é designado como a variância da amostra, pois representa a variação derivada dos dados da amostra ((x§4849§,,xn){\textstyle (x_{1},\ldots ,x_{n})}).

De acordo com a teoria assintótica, ambos os estimadores, especificamente s §1011§ {\textstyle s^{2}} e σ ^ §4344§ {\displaystyle \textstyle {\hat {\sigma }}^{2}} , demonstram consistência, o que significa que convergem em probabilidade para σ §6768§ {\textstyle \sigma ^{2}} como o tamanho da amostra n {\textstyle n\rightarrow \infty } .Além disso, ambos os estimadores exibem normalidade assintótica: n ( σ ^ §129130§ σ §141142§ ) n ( s §162163§ σ §174175§ ) d N ( §200201§ , §204205§ σ §211212§ ) . {\displaystyle {\sqrt {n}}({\hat {\sigma }}^{2}-\sigma ^{2})\simeq {\sqrt {n}}(s^{2}-\sigma ^{2})\,\xrightarrow {d} \,{\mathcal {N}}(0,2\sigma ^{4}).} Especificamente, esses estimadores são assintoticamente eficientes para estimar σ §238239§ {\textstyle \sigma ^{2}} .

Intervalos de confiança

De acordo com o teorema de Cochran, para distribuições normais, a média amostral μ ^ {\displaystyle \textstyle {\hat {\mu }}} e a variação da amostra s§3132§ são estatisticamente independentes. Esta independência implica que a análise da sua distribuição conjunta não oferece nenhum benefício adicional. Por outro lado, um teorema afirma que se a média amostral e a variância amostral são independentes dentro de uma determinada amostra, então essa amostra deve originar-se de uma distribuição normal. A independência estabelecida entre μ ^ {\displaystyle \textstyle {\hat {\mu }}} e s são fundamentais na construção da estatística t:

Fórmulas aproximadas podem ser derivadas das distribuições assintóticas dos estimadores μ^{\displaystyle \textstyle {\hat {\mu }}} e s§3132§, como segue:

Testes de normalidade

Os testes de normalidade avaliam a probabilidade de um conjunto de dados especificado {x§34§, ..., xn} originar-se de uma distribuição normal. A hipótese nula convencional H§1516§ postula que as observações seguem uma distribuição normal com uma média não especificada μ e variância σ§2324§, enquanto a hipótese alternativa Ha sugere uma distribuição arbitrária. Mais de 40 testes distintos foram desenvolvidos para enfrentar esse desafio estatístico. Os mais notáveis deles são detalhados posteriormente.

Os gráficos de diagnóstico oferecem apelo intuitivo, mas envolvem inerentemente a subjetividade, já que sua interpretação para aceitar ou rejeitar a hipótese nula depende do julgamento humano informal.

Testes de adequação:

Testes baseados em momentos:

Testes baseados na função de distribuição empírica:

Análise bayesiana da distribuição normal

A análise bayesiana de dados normalmente distribuídos apresenta complexidades devido às inúmeras considerações potenciais:

As fórmulas pertinentes aos casos de regressão não linear estão resumidas no artigo sobre anteriores conjugados.

Soma de duas quadráticas

Forma escalar

A fórmula auxiliar subsequente facilita a simplificação das equações de atualização posteriores, que de outra forma apresentariam uma complexidade computacional considerável.

uma ( x s ) §2122§ + b ( x z ) §4243§ = ( uma + b ) ( x uma s + b z uma + b ) §9798§ + uma b uma + b ( s z ) §134135§ {\displaystyle a(x-y)^{2}+b(x-z)^{2}=(a+b)\left(x-{\frac {ay+bz}{a+b}}\right)^{2}+{\frac {ab}{a+b}}(yz)^{2}}

Esta equação reformula a soma de duas expressões quadráticas envolvendo x expandindo os quadrados, agrupando os termos contendo x e completando o quadrado. Os intrincados fatores constantes associados a termos específicos merecem atenção especial:

  1. O fator uma s + b z uma + b {\textstyle {\frac {ay+bz}{a+b}}} representa uma média ponderada de y e z.
  2. a b a + b = §2829§ §3334§ a + §4344§ b = ( a §6364§ + b §7677§ ) §8788§ . {\textstyle {\frac {ab}{a+b}}={\frac {1}{{\frac {1}{a}}+{\frac {1}{b}}}}=(a^{-1}+b^{-1})^{-1}.} Este fator pode ser conceituado como decorrente de um cenário onde o os recíprocos das quantidades a e b são somados diretamente. Consequentemente, para combinar a e b, deve-se realizar uma sequência de operações: reciprocidade, adição e, em seguida, uma reciprocidade final para restaurar as unidades originais. Esta sequência operacional reflete precisamente o cálculo da média harmônica, portanto segue logicamente que a b a + b {\textstyle {\frac {ab}{a+b}}} representa metade da média harmônica de a e b.
Formulário vetorial

Uma fórmula comparável pode ser formulada para a soma de dois vetores quadráticos. Supondo que x, y e z denotam vetores de comprimento k, e que A e B são matrizes simétricas e invertíveis de dimensão k × k {\textstyle k\times k} , então o seguinte se aplica.

( y x ) A ( y x ) + ( x z ) B ( x z ) = ( x c ) ( A + B ) ( x c ) + ( y z ) ( A §184185§ + B §199200§ ) §210211§ ( y z )

A expressão xA x é formalmente definida como uma forma quadrática, produzindo um valor escalar. Este formulário pode ser expandido como: x A x = i , j a i j x i x j {\displaystyle \mathbf {x} '\mathbf {A} \mathbf {x} =\sum _{i,j}a_{ij}x_{i}x_{j}} . Este somatório representa todas as combinações possíveis de produtos de pares de elementos do vetor x, cada um ponderado por um coeficiente distinto. Devido à propriedade comutativa da multiplicação, especificamente x i x j = x j x i {\textstyle x_{i}x_{j}=x_{j}x_{i}} , apenas a soma agregada a i j + a j i {\textstyle a_{ij}+a_{ji}} é significativo para os elementos fora da diagonal da matriz A. Consequentemente, assumir que A é simétrico não resulta em qualquer perda de generalidade. Além disso, se A for simétrico, a forma bilinear exibe a propriedade x A y = y A x . {\textstyle \mathbf {x} '\mathbf {A} \mathbf {y} =\mathbf {y} '\mathbf {A} \mathbf {x} .}

Soma dos desvios da média

Uma fórmula adicional valiosa é apresentada abaixo: eu = §1516§ n ( x eu μ ) §4344§ = eu = §5859§ n ( x eu x ¯ ) §9495§ + n ( x ¯ μ ) §125126§ {\displaystyle \sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}} , onde x ¯ = §158159§ n eu = §173174§ n x eu . {\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.} .

Dada uma variação conhecida,

Para uma coleção de pontos de dados normalmente distribuídos X independentes e distribuídos de forma idêntica (i.i.d.), compreendendo n observações, onde cada ponto de dados individual x adere à distribuição x N ( μ , σ §3738§ ) {\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})} e a variância σ§5455§ for conhecida, a distribuição anterior conjugada correspondente também exibirá uma distribuição normal.

Esta relação pode ser mais facilmente demonstrada reexpressando a variância como precisão, especificamente empregando τ = 1/σ§56§. Consequentemente, se x N ( μ , §3233§ / τ ) {\textstyle x\sim {\mathcal {N}}(\mu ,1/\tau )} e μ N ( μ §7677§ , §8283§ / τ §9394§ ) , {\textstyle \mu \sim {\mathcal {N}}(\mu _{0},1/\tau _{0}),} , as etapas subsequentes são as seguintes.

A função de verossimilhança é inicialmente formulada aplicando a expressão para a soma das diferenças quadradas da média:

A derivação subsequente procede da seguinte forma:

A derivação anterior utilizou a fórmula para a soma de duas expressões quadráticas, removendo sistematicamente todos os fatores constantes que não envolviam μ. Este processo produz o núcleo de uma distribuição normal, caracterizada por uma média de n τ x ¯ + τ §3435§ μ §4344§ n τ + τ §6162§ {\textstyle {\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}} e uma precisão de n τ + τ §9495§ {\textstyle n\tau +\tau _{0}} , que pode ser formalmente expresso como: p ( μ X ) N ( n τ x ¯ + τ §167168§ μ §176177§ n τ + τ §194195§ , §205206§ n τ + τ §220221§ ) {\displaystyle p(\mu \mid \mathbf {X} )\sim {\mathcal {N}}\left({\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}},{\frac {1}{n\tau +\tau _{0}}}\right)}

Essas relações podem ser expressas como uma série de equações de atualização Bayesianas, que definem os parâmetros posteriores com base em suas contrapartes anteriores:

Especificamente, ao combinar n pontos de dados, caracterizados por uma precisão total de (ou uma variância total equivalente de n/σ§1112§) e um valor médio de x ¯ {\textstyle {\bar {x}}} , uma nova precisão total é derivada pela soma da precisão total dos dados com a precisão total anterior. Simultaneamente, uma nova média é estabelecida usando uma média ponderada com precisão, que constitui uma média ponderada da média dos dados e da média anterior, com cada componente ponderado pela sua respectiva precisão total. Esta metodologia é logicamente sólida, considerando a precisão como um indicador de certeza observacional. Dentro da distribuição da média posterior, cada componente de input é ponderado de acordo com a sua certeza, e a certeza global desta distribuição é o agregado das certezas individuais. Para proporcionar uma compreensão intuitiva, pode-se considerar o ditado “o todo é (ou não é) maior que a soma das suas partes”. Além disso, dado que o conhecimento posterior resulta da síntese do conhecimento prévio e da probabilidade, é razoável concluir que o posterior apresenta maior certeza do que qualquer um dos seus componentes constituintes individualmente.

Esta fórmula demonstra as vantagens analíticas de conduzir análises bayesianas para antecedentes conjugados dentro de uma estrutura de distribuição normal usando precisão. A precisão posterior é derivada da soma das precisões anteriores e de verossimilhança, enquanto a média posterior é calculada por meio de uma média ponderada de precisão, conforme detalhado anteriormente. Alternativamente, essas fórmulas podem ser expressas usando variância, invertendo todos os termos de precisão, resultando em expressões mais complexas.

Dada uma média conhecida

Para um conjunto de dados X que consiste em n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.), onde cada ponto individual x segue uma distribuição normal x N ( μ , σ §3738§ ) {\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})} com uma média conhecida μ, o conjugado anterior para a variância pode ser expresso como uma distribuição gama inversa ou uma distribuição qui-quadrado inversa escalonada. Estas duas distribuições são matematicamente equivalentes, diferindo apenas nas suas parametrizações. Embora a distribuição gama inversa seja mais comumente utilizada, a distribuição qui-quadrado inversa escalonada é adotada aqui por conveniência. A distribuição anterior para σ§5657§ é apresentada abaixo:

A função de verossimilhança definida anteriormente, expressa em termos de sua variância, é apresentada a seguir:

Posteriormente, a derivação produz:

Esta formulação também representa uma distribuição qui-quadrado inversa em escala, caracterizada pelos seguintes parâmetros:

Ao reparametrizar usando uma distribuição gama inversa, as expressões resultantes são: α = α + n §3233§ β = β + eu = §7071§ n ( x eu μ ) §9899§ §103104§ {\displaystyle {\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}}

Caso: média desconhecida e variância desconhecida

Considere um conjunto de dados X compreendendo n pontos de dados independentes e distribuídos de forma idêntica (i.i.d.) normalmente distribuídos, onde cada ponto individual x adere à distribuição x N ( μ , σ §3738§ ) {\textstyle x\sim {\mathcal {N}}(\mu ,\sigma ^{2})} . Em cenários onde a média μ e a variância σ§5657§ são desconhecidas, um conjugado multivariado anterior, especificamente uma distribuição gama normal-inversa, é aplicado para modelar esses parâmetros. A derivação desta abordagem procede da seguinte forma:

  1. A análise do caso envolvendo uma média desconhecida, mas uma variância conhecida, revela que as equações de atualização incorporam estatísticas suficientes derivadas dos dados. Essas estatísticas incluem a média amostral e a variância total dos pontos de dados, que é calculada a partir da variância conhecida dividida pelo número de pontos de dados.
  2. Da mesma forma, o exame do caso com uma variância desconhecida, mas com média conhecida, indica que as equações de atualização utilizam estatísticas suficientes relativas aos dados, especificamente o número de pontos de dados e a soma dos desvios quadrados.
  3. É crucial reconhecer que os valores de atualização posterior funcionam como a distribuição anterior quando os dados subsequentes são processados. Consequentemente, é lógico conceituar os anteriores em termos das estatísticas suficientes acima mencionadas, mantendo uma interpretação semântica consistente sempre que possível.
  4. Quando a média e a variância são desconhecidas, antecedentes independentes podem ser estabelecidos para cada uma, utilizando estimativas fixas para a média média, a variância total, o número de pontos de dados que contribuem para a variância a priori e a soma dos desvios quadrados. No entanto, é crucial reconhecer que a variância total da média é inerentemente dependente da variância desconhecida. Além disso, a soma dos desvios quadrados, que informa a variância anterior, parece depender da média desconhecida. Na prática, esta última dependência é muitas vezes negligenciável porque uma mudança na média real resulta numa mudança equivalente nos pontos de dados gerados, mantendo assim os desvios quadráticos médios. Por outro lado, esta estabilidade não se aplica à variância total da média; à medida que a variância desconhecida aumenta, a variância total da média aumenta proporcionalmente, uma relação que idealmente deveria ser levada em consideração.
  5. Essa observação leva à formulação de uma prioridade condicional para a média, dependente da variância desconhecida. Este anterior incorpora um hiperparâmetro que define a média das pseudo-observações associadas e um parâmetro separado que indica a quantidade dessas pseudo-observações. Esta contagem funciona como um parâmetro de escala para a variância, permitindo a regulação da variância global da média em relação ao parâmetro de variância real. Da mesma forma, a variância anterior inclui dois hiperparâmetros: um que especifica a soma dos desvios quadrados para suas pseudo-observações associadas e outro que novamente denota o número de pseudo-observações. Ambos os anteriores incorporam um hiperparâmetro que define o número de pseudo-observações, que, em cada caso, governa a variância relativa daquele anterior específico. Eles são fornecidos como hiperparâmetros distintos para permitir controle independente sobre a variação (ou confiança) dos dois anteriores.
  6. Essa abordagem resulta diretamente na distribuição gama normal-inversa, que é o produto das duas distribuições definidas anteriormente. Ele emprega antecedentes conjugados - especificamente, uma distribuição gama inversa para a variância e uma distribuição normal para a média (que é condicional à variância) - e utiliza os mesmos quatro parâmetros estabelecidos anteriormente.

As distribuições anteriores normalmente são especificadas da seguinte maneira:

As equações de atualização são deriváveis e são apresentadas a seguir:

Ocorrência e aplicações

A presença da distribuição normal em cenários práticos pode ser amplamente categorizada em quatro tipos:

  1. Distribuições precisamente normais;
  2. Distribuições aproximadamente normais, como aquelas em que a aproximação é fundamentada pelo teorema do limite central; e
  3. Distribuições modeladas como normais, onde a distribuição normal representa a distribuição máxima de entropia para média e variância especificadas.
  4. Problemas de regressão, nos quais a distribuição normal emerge uma vez que os efeitos sistemáticos tenham sido modelados adequadamente.

Normalidade precisa

A distribuição normal se manifesta em diversas teorias físicas:

Normalidade aproximada

Distribuições

aproximadamente surgem em vários contextos, conforme elucidado pelo teorema do limite central. Quando um resultado resulta de uma multiplicidade de pequenos efeitos que operam aditivamente e independentemente, a sua distribuição aproximar-se-á de uma distribuição normal. No entanto, esta aproximação normal torna-se inválida se os efeitos operarem multiplicativamente (em vez de aditivamente) ou se uma influência externa singular possuir uma magnitude significativamente maior do que os outros efeitos.

Normalidade presumida

A curva normal, também conhecida como curva laplaciana de erros, é considerada um fenômeno altamente anômalo. Embora seja aproximadamente aproximado em certas distribuições, a sua simplicidade inerente e utilidade teórica podem justificar a sua utilização como uma aproximação preliminar, particularmente em investigações teóricas.

Existem métodos estatísticos para testar empiricamente essa suposição.

Problemas metodológicos e revisão por pares

John Ioannidis argumentou que o emprego de desvios padrão normalmente distribuídos como padrões de validação para resultados de pesquisas deixa previsões falsificáveis sobre fenômenos não normalmente distribuídos sem serem testadas. Tais fenómenos incluem aqueles que se manifestam apenas quando todas as condições necessárias são satisfeitas, onde nenhuma condição única pode substituir outra aditivamente, e aqueles que não são distribuídos aleatoriamente. Ioannidis afirma que a validação centrada em desvios padrão confere uma aparência ilusória de validade a hipóteses e teorias onde apenas um subconjunto de previsões falsificáveis ​​é normalmente distribuído. Isto ocorre porque as evidências que contradizem as previsões falsificáveis ​​podem residir nos segmentos não normalmente distribuídos do intervalo de previsão. Além disso, esta abordagem pode levar à rejeição injustificada de hipóteses cujas previsões falsificáveis ​​são totalmente distribuídas de forma não normal, rotulando-as erroneamente como infalsificáveis, apesar da sua capacidade de teste empírico. Ioannidis postula que numerosos exemplos de teorias mutuamente exclusivas que ganham aceitação em periódicos de pesquisa decorrem do fracasso dos periódicos em considerar falsificações empíricas de previsões distribuídas não normalmente, e não da veracidade de tais teorias mutuamente exclusivas, o que é logicamente impossível, embora ambas possam estar incorretas e uma terceira teoria seja precisa.

Métodos Computacionais

Gerando valores de uma distribuição normal

Em simulações computacionais, particularmente em aplicações do método Monte-Carlo, gerar valores normalmente distribuídos é frequentemente vantajoso. Os algoritmos descritos posteriormente produzem desvios normais padrão, já que uma distribuição N(μ, σ§78§) pode ser derivada usando a fórmula X = μ + σZ, onde Z representa uma variável normal padrão. Todos esses métodos necessitam de um gerador de números aleatórios, especificamente U, capaz de gerar variáveis aleatórias uniformes.

Aproximações numéricas para a função de distribuição cumulativa normal e função quantil normal

A função de distribuição cumulativa normal padrão (CDF) é amplamente empregada em domínios computacionais científicos e estatísticos.

Os valores de Φ(x) podem ser aproximados com alta precisão por meio de diversas metodologias, incluindo integração numérica, série de Taylor, série assintótica e frações contínuas. A seleção de um método de aproximação depende do nível de precisão exigido.

§6 Φ ( x ) = §2425§ ( §3334§ Φ ( x ) ) {\displaystyle 1-\Phi \left(x\right)=1-\left(1-\Phi \left(-x\right)\right)}

Shore (1982) introduziu aproximações diretas adequadas para integração em modelos de otimização estocástica predominantes em pesquisa de engenharia e operações, incluindo engenharia de confiabilidade e análise de inventário. Quando p é definido como Φ(z), a aproximação mais básica para a função quantil é apresentada como: z = Φ §2627§ ( p ) = 5.5556 [ §4445§ ( §5657§ p p ) 0,1186 ] , p §8990§ / §9596§ {\displaystyle z=\Phi ^{-1}(p)=5.5556\left[1-\left({\frac {1-p}{p}}\right)^{0.1186}\right],\qquad p\geq 1/2}

Esta aproximação produz um erro absoluto máximo de 0,026 para z dentro do intervalo 0,5 ≤ p ≤ 0,9999, que corresponde a 0 ≤ z ≤ 3,719. Para casos em que p < 1/2, é necessário substituir p por 1 − p e inverter o sinal. Uma aproximação distinta, embora menos precisa, de parâmetro único é dada por: z = 0,4115 { §4243§ p p + registro [ §6768§ p p ] §8586§ } , p §100101§ / §106107§ {\displaystyle z=-0.4115\left\{{\frac {1-p}{p}}+\log \left[{\frac {1-p}{p}}\right]-1\right\},\qquad p\geq 1/2}

This approach facilitated the derivation of a straightforward approximation for the normal distribution's loss integral, which is formally defined as: L ( z ) = z ( u z ) φ ( u ) d u = z [ §8283§ Φ ( u ) ] d u L ( z ) { 0.4115 ( p §141142§ p ) z , p < §168169§ / §174175§ , 0.4115 ( §195196§ p p ) , p §220221§ / 2. or, equivalently, L ( z ) { 0.4115 { §275276§ log [ p §293294§ p ] } , p < §318319§ / §324325§ , 0.4115 §342343§ p p , p §364365§ / 2. {\displaystyle {\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}}

Essa aproximação demonstra precisão notável para a cauda extrema direita, exibindo um erro máximo de 10−3 quando z ≥ 1,4. Aproximações adicionais altamente precisas para a função de distribuição cumulativa, derivadas usando a Metodologia de Modelagem de Resposta (RMM, Shore, 2011, 2012), são apresentadas em Shore (2005).

Um pequeno erro relativo em todo o domínio para a função de distribuição cumulativa Φ {\displaystyle \Phi } e a função quantílica Φ §3536§ {\textstyle \Phi ^{-1}} foi alcançado em 2008 por Sergei Winitzki, utilizando uma fórmula explicitamente invertível.

Histórico

Desenvolvimento

Alguns estudiosos atribuem a descoberta inicial da distribuição normal a de Moivre, que, na segunda edição de 1738 de sua obra A Doutrina das Chances, apresentou um estudo dos coeficientes dentro da expansão binomial de (a + b)n. De Moivre demonstrou que o termo médio nesta expansão se aproxima da magnitude de §1920§ n / §3233§ π n {\textstyle 2^{n}/{\sqrt {2\pi n}}} . Ele afirmou ainda que 'Se m ou §5455§/§5859§n for uma quantidade infinitamente grande, então o logaritmo da razão, que é um termo distante do meio pelo intervalo , tem para o termo médio, é §7980§ n {\textstyle -{\frac {2\ell \ell }{n}}} .' Embora este teorema possa ser interpretado como uma formulação inicial, embora obscura, da lei da probabilidade normal, Stigler enfatiza que o próprio De Moivre não percebeu suas descobertas como nada além de uma regra aproximada para coeficientes binomiais, faltando notavelmente a estrutura conceitual de uma função de densidade de probabilidade.

Em 1823, Gauss publicou sua monografia seminal, "Theoria combinationis observeum erroribus minimis obnoxiae", onde introduziu vários conceitos estatísticos fundamentais, incluindo o método dos mínimos quadrados, o método da máxima verossimilhança e a distribuição normal. Ele empregou a notação M, M, M″, ... para representar medidas de uma quantidade desconhecida V. Seu objetivo era identificar o estimador mais provável para esta quantidade, especificamente aquele que maximiza a probabilidade de observar os resultados experimentais. Dentro de sua estrutura, φΔ significa a função de densidade de probabilidade correspondente a erros de medição de magnitude Δ. Reconhecendo a natureza desconhecida da função φ, Gauss estipulou que sua metodologia deveria convergir para a solução estabelecida: a média aritmética dos valores observados. Com base nestes princípios fundamentais, Gauss demonstrou rigorosamente que a única lei que justifica a seleção da média aritmética como estimador de parâmetros de localização é a lei normal dos erros, expressa como: φ Δ = h π e h h Δ Δ , {\displaystyle \varphi {\mathit {\Delta }}={\frac {h}{\surd \pi }}\,e^{-\mathrm {hh} \Delta \Delta },} Aqui, h representa “a medida da precisão das observações”. Ao utilizar esta lei normal como um modelo geral para erros experimentais, Gauss desenvolveu o que é atualmente reconhecido como o método dos mínimos quadrados ponderados não lineares.

Embora Gauss seja creditado por propor inicialmente a lei de distribuição normal, Laplace fez contribuições substanciais e fundamentais para o seu desenvolvimento. Laplace foi o primeiro a articular o desafio de agregar múltiplas observações em 1774, embora a sua solução inicial tenha resultado na distribuição Laplaciana. Em 1782, Laplace foi o pioneiro no cálculo do valor da integral, et§67§ dt = π, estabelecendo assim a constante de normalização para a distribuição normal. Gauss reconheceu formalmente a precedência de Laplace nesta conquista significativa. Por fim, em 1810, Laplace provou e apresentou rigorosamente o teorema fundamental do limite central para a academia, ressaltando o profundo significado teórico da distribuição normal. Notavelmente, em 1809, o matemático irlandês-americano Robert Adrain publicou de forma independente e simultânea duas derivações perspicazes, embora falhas, da lei da probabilidade normal, separadas do trabalho de Gauss. Suas contribuições escaparam em grande parte da atenção da comunidade científica até 1871, quando foram redescobertas por Abbe.

Em meados do século XIX, Maxwell demonstrou que a distribuição normal não é apenas uma construção matemática conveniente, mas também se manifesta em fenómenos naturais. Especificamente, o número de partículas cuja velocidade, quando resolvida em uma direção específica, cai dentro do intervalo de x e x + dx é dado por: N §2122§ α π e x §5455§ α §6364§ d x {\displaystyle \operatorname {N} {\frac {1}{\alpha \;{\sqrt {\pi }}}}\;e^{-{\frac {x^{2}}{\alpha ^{2}}}}\,dx}

Nomeação

Atualmente, este conceito é predominantemente referido em inglês como distribuição normal ou distribuição gaussiana. Designações alternativas menos frequentemente encontradas abrangem a distribuição de Gauss, a distribuição de Laplace-Gauss, a lei do erro, a lei da facilidade dos erros, a segunda lei de Laplace e a lei de Gauss.

O próprio Gauss supostamente introduziu o termo, vinculando-o às "equações normais" utilizadas em suas aplicações, onde "normal" carregava o significado técnico de ortogonal em vez de seu uso comum. No entanto, no final do século XIX, alguns autores começaram a empregar a designação distribuição normal, com "normal" funcionando como adjetivo. Este uso refletiu a percepção desta distribuição como típica, comum e, portanto, padrão. Peirce, entre esses autores, certa vez definiu "normal" como: "... o 'normal' não é a média (ou qualquer outro tipo de média) do que realmente ocorre, mas do que iria, no longo prazo, ocorrer sob certas circunstâncias." Posteriormente, por volta da virada do século 20, Pearson popularizou significativamente o termo normal para denotar essa distribuição.

Há muitos anos chamei a curva de Laplace-Gaussiana de curva normal, cujo nome, embora evite uma questão internacional de prioridade, tem a desvantagem de levar as pessoas a acreditar que todas as outras distribuições de frequência são, em um sentido ou outro, 'anormais'.

Além disso, Pearson foi o primeiro a articular a distribuição usando o desvio padrão σ, consistente com a notação contemporânea. Pouco tempo depois, em 1915, Fisher incorporou o parâmetro de localização na fórmula de distribuição normal, apresentando-o em sua forma moderna: d f = §1617§ §1920§ σ §2627§ π e ( x m ) §5657§ / ( §6667§ σ §7374§ ) d x . {\displaystyle df={\frac {1}{\sqrt {2\sigma ^{2}\pi }}}e^{-(x-m)^{2}/(2\sigma ^{2})}\,dx.}

A designação distribuição normal padrão, caracterizando uma distribuição normal com média zero e variância um, ganhou ampla aceitação por volta da década de 1950. Sua proeminência foi solidificada por meio de sua inclusão em livros didáticos influentes, como Introdução à Estatística Matemática de P. G. Hoel (1947) e Introdução à Teoria da Estatística de Alexander M. Mood (1950).

Distribuição Bates – uma distribuição análoga à distribuição Irwin-Hall, mas redimensionada para o intervalo [0, 1].

Notas

Referências

Citações

Fontes

"Distribuição normal", Enciclopédia de Matemática, EMS Press, 2001 [1994]

Sobre este artigo

Informações sobre Distribuição normal

Um breve guia sobre a vida, pesquisas, descobertas e importância científica de Distribuição normal.

Etiquetas de tema

Informações sobre Distribuição normal Quem foi Distribuição normal Vida de Distribuição normal Pesquisas de Distribuição normal Descobertas de Distribuição normal Contribuições científicas

Buscas comuns sobre este tema

  • Quem foi Distribuição normal?
  • O que Distribuição normal descobriu?
  • Quais foram as contribuições de Distribuição normal?
  • Por que Distribuição normal é importante?

Arquivo da categoria

Arquivo de Ciência

Mergulhe no fascinante universo da ciência. Aqui, você encontrará artigos detalhados, explicações claras e análises aprofundadas sobre os mais diversos temas, desde biologia e física até algoritmos e adaptação

Início Voltar para Ciências