ley de los grandes números (Law of large numbers)

En teoría de la probabilidad, la ley de los grandes números es una ley matemática que establece que el promedio de los resultados obtenidos de un gran número de independientes…

En teoría de la probabilidad, la ley de los grandes números postula que el promedio de los resultados derivados de un número sustancial de muestras aleatorias independientes converge al valor verdadero, siempre que tal valor exista. Más precisamente, para una muestra de valores independientes e idénticamente distribuidos, esta ley afirma que la media muestral convergerá a la media verdadera.

La ley de los grandes números es crucial para garantizar resultados estables a largo plazo para los promedios de ciertos eventos aleatorios. Por ejemplo, aunque un casino pueda incurrir en pérdidas en un giro individual de la ruleta, sus ganancias acumuladas convergerán hacia un porcentaje predecible en un volumen sustancial de giros. La racha ganadora de cualquier jugador se verá mitigada en última instancia por las probabilidades inherentes del juego. Fundamentalmente, esta ley se aplica exclusivamente cuando se considera un gran número de observaciones. No implica que un número limitado de observaciones se alineará con el valor esperado, ni que una secuencia de un resultado será inmediatamente "equilibrada" por otros (falacia de Gambler).

Históricamente, numerosos matemáticos han contribuido al refinamiento de esta ley. Actualmente, la ley de los grandes números encuentra aplicación en diversas disciplinas, como la estadística, la teoría de la probabilidad, la economía y los seguros.

Ejemplos ilustrativos

Una sola tirada de un dado de seis caras produce uno de los números enteros 1, 2, 3, 4, 5 o 6, cada uno de los cuales tiene la misma probabilidad de ocurrir. En consecuencia, el valor esperado para dicha tirada se calcula de la siguiente manera:

${\frac {1+2+3+4+5+6}{6}}=3.5$ 10§ + §13 ${\frac {1+2+3+4+5+6}{6}}=3.5$ = 3,5 {\displaystyle {\frac {1+2+3+4+5+6}{6}}=3.5}

De acuerdo con la ley de los grandes números, cuando se lanza una cantidad sustancial de dados de seis caras, el promedio de sus valores (también conocido como media muestral) convergerá a 3,5, y la precisión aumenta proporcionalmente al número de dados lanzados.

La ley de los grandes números implica que la probabilidad empírica de éxito dentro de una serie de ensayos de Bernoulli converge con su contraparte teórica. Para una variable aleatoria de Bernoulli, el valor esperado corresponde a la probabilidad teórica de éxito, y el promedio de n tales variables (suponiendo que sean independientes y estén distribuidas idénticamente (i.i.d.)) constituye precisamente la frecuencia relativa.

A modo de ilustración, un lanzamiento de moneda justo representa un juicio de Bernoulli. Cuando se lanza una moneda justa una vez, la probabilidad teórica de que el resultado sea cara es 1⁄§34§. En consecuencia, de acuerdo con la ley de los grandes números, la proporción de caras en un gran número de lanzamientos de moneda será aproximadamente §78§⁄§910§. Específicamente, la proporción de caras después de n lanzamientos casi seguramente convergerá a §1516§⁄§1718§ ya que n tiende hacia el infinito.

Si bien la proporción de caras (y cruces) converge a 1⁄§34§, es casi seguro que la diferencia absoluta entre el número de caras y cruces aumentará sustancialmente a medida que crezca el número total de lanzamientos. En otras palabras, la probabilidad de que esta diferencia absoluta sea un número pequeño tiende a cero a medida que aumenta el número de lanzamientos. Además, es casi seguro que la relación entre la diferencia absoluta y el número total de lanzamientos convergerá a cero. Conceptualmente, la diferencia esperada aumenta, aunque a un ritmo más lento que el número total de lanzamientos.

Los métodos de Monte Carlo proporcionan otra ilustración convincente de la ley de los grandes números. Estos constituyen una categoría amplia de algoritmos computacionales que aprovechan el muestreo aleatorio repetido para obtener resultados numéricos. El aumento de repeticiones generalmente produce aproximaciones mejoradas. La importancia de estos métodos surge principalmente del hecho de que, en ocasiones, los enfoques alternativos son poco prácticos o inviables.

Limitaciones

La convergencia del promedio de resultados de numerosos ensayos no está universalmente garantizada. Por ejemplo, la media de n resultados muestreados de una distribución de Cauchy o ciertas distribuciones de Pareto (donde α<1) no convergerá a medida que n aumente, un fenómeno atribuido a sus colas pesadas. Estas dos distribuciones ilustran escenarios distintos: la distribución de Cauchy carece de una expectativa definida, mientras que la distribución de Pareto (α<1) posee una expectativa infinita. Un método práctico para generar valores distribuidos por Cauchy implica establecer números aleatorios iguales a la tangente de un ángulo distribuido uniformemente entre −90° y +90°. En este caso, la mediana es cero, pero el valor esperado permanece indefinido. En consecuencia, el promedio de n tales variables conserva la misma distribución que una sola variable, sin converger en probabilidad hacia cero o cualquier otro valor específico cuando n se acerca al infinito.

Cuando los ensayos contienen inherentemente un sesgo de selección, una característica común en el comportamiento económico o racional humano, la ley de los grandes números no puede mitigar este sesgo. El sesgo de selección persiste independientemente de un aumento en el número de ensayos.

Contexto histórico

El matemático italiano Gerolamo Cardano (1501-1576) postuló, sin pruebas formales, que la precisión de las estadísticas empíricas generalmente mejora con un número creciente de ensayos. Esta observación se formalizó posteriormente como una ley de grandes números. Jacob Bernoulli proporcionó la prueba inicial de una versión especializada de esta ley, aplicable a una variable aleatoria binaria. Su rigurosa demostración matemática, que requirió más de dos décadas para desarrollarse, fue publicada póstumamente en 1713 en su obra Ars Conjectandi (El arte de conjeturar). Bernoulli se refirió a esto como su "teorema de oro", aunque más tarde fue ampliamente reconocido como "teorema de Bernoulli". Este teorema no debe confundirse con el principio de Bernoulli, que lleva el nombre de su sobrino, Daniel Bernoulli. En 1837, S. D. Poisson desarrolló aún más este concepto, introduciendo la designación "la loi des grands nombres" ("la ley de los grandes números"). Posteriormente, el principio fue conocido con ambos nombres, pero "la ley de los grandes números" se ha convertido en la terminología predominante.

Tras las contribuciones fundamentales de Bernoulli y Poisson, muchos otros matemáticos, incluidos Chebyshev, Markov, Borel, Cantelli, Kolmogorov y Khinchin, refinaron aún más la ley. Markov demostró que la ley podía extenderse a variables aleatorias que carecían de varianza finita, siempre que se cumplieran ciertos supuestos más débiles. En 1929, Khinchin estableció que para una serie de variables aleatorias independientes e idénticamente distribuidas, la existencia del valor esperado por sí sola es suficiente para que se cumpla la ley débil de los grandes números. Estas investigaciones posteriores llevaron al desarrollo de dos formulaciones principales de la ley de los grandes números: la ley "débil" y la ley "fuerte". Estas designaciones se refieren a distintos modos de convergencia de las medias de la muestra acumulativa hacia el valor esperado, donde la forma fuerte implica notablemente la forma débil.

Formulaciones

La ley de los grandes números se presenta en dos versiones distintas: la ley fuerte de los grandes números y la ley débil de los grandes números. Considerando una secuencia infinita de variables aleatorias integrables de Lebesgue independientes e idénticamente distribuidas (i.i.d.), denotadas como X§1011§, X§1415§, ..., cada una de las cuales posee un valor esperado E(X§1819§) = E(X§2223§) = ... = μ, ambas formulaciones afirman que el promedio muestral

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$ 26§ n ( X §3738§ + ⋯ + X n ) {\displaystyle {\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})}

converge al valor esperado anticipado:

La integrabilidad de Lebesgue de X_j implica que su valor esperado, E(X_j), es finito y existe según lo definido por la integración de Lebesgue. Sin embargo, esta condición no significa que la medida de probabilidad correspondiente sea absolutamente continua con respecto a la medida de Lebesgue.

Por lo general, los libros de texto de introducción a la probabilidad también estipulan que las variables aleatorias poseen una varianza finita idéntica, expresada como $\operatorname {Var} (X_{i})=\sigma ^{2}$ (para cada $i$ ), junto con una ausencia de correlación entre ellos. En estas condiciones, la varianza del promedio de n variables aleatorias se calcula como:

$\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.$ 43§ n ( X §5556§ + ⋯ + X n ) ) = §8283§ n §88 $\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.$ Var ⁡ ( X §105106§ + ⋯ + X n ) = n σ §138 $\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.$ n §147 $\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.$ = σ §162 $\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.$ n . {\displaystyle \operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.}

Este supuesto particular facilita la abreviatura y simplificación de las pruebas. Sin embargo, la premisa de la varianza finita no es necesaria para que la ley se cumpla; si bien una varianza grande o infinita puede impedir la tasa de convergencia, la ley de los grandes números sigue siendo válida.

La condición de independencia mutua entre variables aleatorias puede sustituirse por independencia por pares o intercambiabilidad en ambas iteraciones de la ley.

La distinción entre las versiones fuerte y débil pertenece al modo específico de convergencia que se afirma. La interpretación de estos modos de convergencia se detalla en otra parte.

Ley débil

La Ley débil de los números grandes, también conocida como Ley de Khinchin, postula que para un conjunto de muestras independientes e idénticamente distribuidas (iid) derivadas de una variable aleatoria que posee una media finita, la media muestral converge en probabilidad hacia el valor esperado.

Específicamente, para cualquier valor numérico positivo ε,

$\lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1.$

Este resultado implica que la ley débil postula que para cualquier margen arbitrariamente pequeño, distinto de cero (ε), un tamaño de muestra suficientemente grande garantiza una alta probabilidad de que el promedio observado se aproximará al valor esperado, manteniéndose dentro del margen especificado.

La ley débil de los grandes números es aplicable no solo a variables aleatorias independientes e idénticamente distribuidas (i.i.d.), sino que también se extiende a otros escenarios. Por ejemplo, la ley sigue siendo válida incluso si la varianza difiere para cada variable aleatoria dentro de una serie, siempre que el valor esperado permanezca constante. Chebyshev demostró en 1867 que la ley se cumple si estas variaciones están limitadas. (Si los valores esperados varían a lo largo de la serie, la ley se puede aplicar a la desviación promedio de sus respectivos valores esperados, lo que indica una convergencia en probabilidad a cero). La prueba de Chebyshev es efectiva siempre que la varianza del promedio de los valores n iniciales se acerque a cero cuando n tiende a infinito. Considere un caso ilustrativo en el que cada variable aleatoria de la serie se adhiere a una distribución gaussiana (normal) con una media de cero, pero posee una varianza ilimitada equivalente a $2n/\log(n+1)$ 11§ n / iniciar sesión ⁡ ( n + §2930§ ) {\displaystyle 2n/\log(n+1)} . En cada etapa, el promedio exhibirá una distribución normal, consistente con el promedio de variables distribuidas normalmente. La varianza de la suma corresponde a la suma de las varianzas individuales, acercándose asintóticamente a $n^{2}/\log n$ 52§ / iniciar sesión ⁡ n {\displaystyle n^{2}/\log n} . En consecuencia, la varianza del promedio es asintótica con $1/\log n$ , convergiendo así a cero.

Además, existen casos en los que la ley débil es aplicable a pesar de la inexistencia de un valor esperado.

Ley fuerte de los grandes números

La ley fuerte de los grandes números, también conocida como ley de Kolmogorov, afirma que el promedio muestral converge casi con seguridad a su valor esperado.

Específicamente,

$\Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1.$

Esto implica que a medida que el número de ensayos n se acerca al infinito, la probabilidad de que el promedio observado converja al valor esperado es la unidad. La prueba contemporánea de la ley fuerte es más compleja que la de la ley débil, lo que requiere la selección de una subsecuencia apropiada.

La ley fuerte de los grandes números puede conceptualizarse como un ejemplo específico del teorema ergódico puntual. Esta perspectiva fundamenta la comprensión intuitiva del valor esperado de una variable aleatoria (aplicable exclusivamente a la integración de Lebesgue) como su "promedio a largo plazo" cuando se somete a un muestreo repetido.

Esta tercera ley se denomina ley fuerte porque se garantiza que las variables aleatorias que exhiben una fuerte convergencia (casi con seguridad) convergerán débilmente (en probabilidad). Sin embargo, se observa que la ley débil se aplica en condiciones específicas donde la ley fuerte no lo hace, lo que resulta en una convergencia que es únicamente débil (en probabilidad).

La ley fuerte es aplicable a variables aleatorias independientes e idénticamente distribuidas que poseen un valor esperado, una característica compartida con la ley débil. Kolmogorov lo demostró en 1930. Su aplicabilidad se extiende también a otros escenarios. Además, Kolmogorov estableció en 1933 que para variables independientes e idénticamente distribuidas, la convergencia casi segura del promedio a algo (que puede considerarse como una formulación alternativa de la ley fuerte) requiere la existencia de un valor esperado, sobre el cual el promedio entonces casi seguramente convergerá.

Si los sumandos son independientes pero no están distribuidos de manera idéntica, entonces

siempre que cada X_k posea un segundo momento finito y

$\sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty .$ 16§ ∞ §2627§ k §32 $\sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty .$ Var ⁡ [ X k ] < ∞ . {\displaystyle \sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty .}

Esta afirmación se reconoce como la ley fuerte de Kolmogorov, como lo ejemplificaron Sen & Singer (1993, Teorema 2.3.10).

Distinciones entre las leyes débiles y fuertes

La ley débil postula que para un n suficientemente grande, el ${\overline {X}}_{n}$ probablemente se aproximará a μ. En consecuencia, admite la posibilidad de que el evento $|{\overline {X}}_{n}-\mu |>\varepsilon$ ocurre un número infinito de veces, aunque en intervalos poco frecuentes. (Esto no implica necesariamente $|{\overline {X}}_{n}-\mu |\neq 0$ 122§ {\displaystyle |{\overline {X}}_{n}-\mu |\neq 0} para todos los n).

La ley fuerte demuestra que es casi seguro que este evento no ocurrirá. Específicamente, con una probabilidad de 1, para cualquier ε > 0, la desigualdad $|{\overline {X}}_{n}-\mu |<\varepsilon$ se cumple para todos los valores suficientemente grandes de n.

Hay escenarios específicos en los que la ley fuerte no se aplica, aunque la ley débil sigue siendo válida.

Leyes uniformes de los grandes números

La ley de los grandes números se ha ampliado para abarcar colecciones de estimadores, donde la convergencia muestra uniformidad en toda la colección; esta característica da lugar a la designación ley uniforme de los grandes números.

Considere una función f(x,θ) definida para θ ∈ Θ y continua con respecto a θ. Para cualquier θ fijo, la secuencia {f(X§1617§,θ), f(X§2425§,θ), ...} constituye una secuencia de variables aleatorias independientes e idénticamente distribuidas. En consecuencia, la media muestral de esta secuencia converge en probabilidad a E[f(X,θ)]. Este fenómeno se conoce como convergencia puntual con respecto a θ.

Un ejemplo específico de una ley uniforme de grandes números delinea las condiciones bajo las cuales la convergencia ocurre uniformemente con respecto a θ. Estas condiciones se cumplen si:

Θ es un conjunto compacto,
f(x,θ) es continua en cada θ ∈ Θ para casi todos los valores de x, y es una función medible de x para cada θ.
Existe una función dominante d(x) tal que el valor esperado E[d(X)] es finito y $\left\|f(x,\theta )\right\|\leq d(x)\quad {\text{para todos}}\ \theta \in \Theta .$

En consecuencia, E[f(X,θ)] es continua con respecto a θ, y

$\sup _{\theta \in \Theta }\left\|{\frac {1}{n}}\sum _{i=1}^{n}f(X_{i},\theta )-\operatorname {E} [f(X,\theta )]\right\|{\overset {\mathrm {P} }{\rightarrow }}\ 0.$ 27§ n ∑ i = §4142§ n f ( X i , θ ) − E ⁡ [ f ( X , θ ) ] ‖ → P 0. {\displaystyle \sup _{\theta \in \Theta }\left\|{\frac {1}{n}}\sum _{i=1}^{n}f(X_{i},\theta )-\operatorname {E} [f(X,\theta )]\right\|{\overset {\mathrm {P} }{\rightarrow }}\ 0.}

Este resultado es fundamental para establecer la consistencia de una clase amplia de estimadores.

Ley de Borel de los números grandes

Nombrada en honor a Émile Borel, la ley de los grandes números de Borel postula que cuando un experimento se realiza de forma repetida e independiente bajo condiciones consistentes, la proporción observada de las ocurrencias de un evento específico convergerá aproximadamente a la probabilidad del evento en cualquier ensayo único. Esta aproximación mejora con un número creciente de repeticiones. Formalmente, si E representa el evento, p su probabilidad y N_n(E) significa la frecuencia de E dentro de las n pruebas iniciales, entonces, con una probabilidad de uno, se cumple la siguiente relación: ${\frac {N_{n}(E)}{n}}\to p{\text{ as }}n\to \infty .$

Este teorema formaliza el concepto intuitivo de probabilidad como la frecuencia relativa anticipada a largo plazo de un evento. Constituye un caso específico dentro de la categoría más amplia de leyes generalizadas de grandes números en la teoría de la probabilidad.

Demostración de la ley débil

Considerando una secuencia infinita de variables aleatorias independientes e idénticamente distribuidas (i.i.d.), X§23§, X§6_{7§, ..., cada una de las cuales posee un valor esperado finito $E(X_{1})=E(X_{2})=\cdots =\mu <\infty$ _39§

)
=
⋯
=
μ
<
∞

{\displaystyle E(X_{1})=E(X_{2})=\cdots =\mu <\infty }

, el enfoque principal está en las propiedades de convergencia del promedio muestral.}

${\overline {X}}_{n}={\tfrac {1}{n}}(X_{1}+\cdots +X_{n}).$ 27§ n ( X §3940§ + ⋯ + X n ) . {\displaystyle {\overline {X}}_{n}={\tfrac {1}{n}}(X_{1}+\cdots +X_{n}).}

La ley débil de los grandes números afirma lo siguiente:

Prueba utilizando la desigualdad de Chebyshev, bajo el supuesto de varianza finita

Esta demostración se basa en la premisa de una varianza finita, específicamente $\operatorname {Var} (X_{i})=\sigma ^{2}$ (para cada $i$ ). La independencia inherente de estas variables aleatorias implica en consecuencia una ausencia de correlación entre ellas, lo que lleva a la conclusión de que

La condición de independencia mutua entre variables aleatorias puede sustituirse por independencia por pares o intercambiabilidad en ambas iteraciones de la ley.

La distinción entre las versiones fuerte y débil pertenece al modo específico de convergencia que se afirma. La interpretación de estos modos de convergencia se detalla en otra parte.

Aplicando la desigualdad de Chebyshev a la media muestral ${\overline {X}}_{n}$ produce la siguiente expresión:

$\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\leq {\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.$

Esta relación se puede utilizar para derivar la siguiente conclusión:

$\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon )=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.$ 52§ − P ⁡ ( | X ¯ n − μ | ≥ ε ) ≥ §103104§ − σ §115 $\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon )=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.$ n ε §127 $\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon )=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.$ . {\displaystyle \operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon )=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.}

Como n tiende a infinito, el valor de la expresión converge a 1. Este resultado es consistente con la definición de convergencia en probabilidad.

Prueba que emplea la convergencia de funciones características

Según el teorema de Taylor para funciones complejas, la función característica de cualquier variable aleatoria, X, que posee una media finita μ, se puede expresar como:

$\varphi _{X}(t)=1+it\mu +o(t),\quad t\rightarrow 0.$ 24§ + yo t μ + o ( t ) , t → 0. {\displaystyle \varphi _{X}(t)=1+it\mu +o(t),\quad t\rightarrow 0.}

Dado que todas las variables, específicamente X§23§, X§6_{7§ y los términos posteriores, comparten una función característica idéntica, se denotará uniformemente como φ_X.}

Las propiedades fundamentales de las funciones características incluyen:

La función característica satisface las siguientes propiedades: para una variable aleatoria escalada, $\varphi _{{\frac {1}{n}}X}(t)=\varphi _{X}({\tfrac {t}{n}})\quad {\text{and}}\quad \varphi _{X+Y}(t)=\varphi _{X}(t)\varphi _{Y}(t)\quad$ 14§nX(t)=φX(tn); y para la suma de dos variables aleatorias independientes, y φX+Y(t)=φX(t)φY(t). Estas relaciones se expresan formalmente como: {\displaystyle \varphi _{{\frac {1}{n}}X}(t)=\varphi _{X}({\tfrac {t}{n}})\quad {\text{and}}\quad \varphi _{X+Y}(t)=\varphi _{X}(t)\varphi _{Y}(t)\quad } , siempre que X y Y sean independientes.

Estas reglas facilitan el cálculo de la función característica para la media muestral, denotada como ${\overline {X}}_{n}$ , con respecto a φ_X:

La función característica de la media muestral, $\varphi _{{\overline {X}}_{n}}(t)=\left[\varphi _{X}\left({t \over n}\right)\right]^{n}=\left[1+i\mu {t \over n}+o\left({t \over n}\right)\right]^{n}\,\rightarrow \,e^{it\mu },\quad {\text{as}}\quad n\to \infty .$

El límite e^itμ representa la función característica de la variable aleatoria constante μ. En consecuencia, según el teorema de continuidad de Lévy, ${\overline {X}}_{n}$ converge en distribución a μ.

${\overline {X}}_{n}\,{\overset {\mathcal {D}}{\rightarrow }}\,\mu \qquad {\text{for}}\qquad n\to \infty .$

Dado que μ es una constante, se sigue que la convergencia en distribución a μ y la convergencia en probabilidad a μ son equivalentes. En consecuencia,

Esto demuestra que la media muestral converge en probabilidad a la derivada de la función característica en el origen, siempre que esta última exista.

Prueba de la Ley Fuerte

Se presenta una prueba relativamente simple de la ley fuerte, basada en los supuestos de que $X_{i}$ se distribuyen de forma independiente e idéntica (i.i.d.), es decir ${\mathbb {E} }[X_{i}]=:\mu <\infty$ , que $\operatorname {Var} (X_{i})=\sigma ^{2}<\infty$ , y que ${\mathbb {E} }[X_{i}^{4}]=:\tau <\infty$ .

Inicialmente, es importante señalar que, sin pérdida de generalidad, está permitido suponer que $\mu =0$ 12§ {\displaystyle \mu =0} centrando los datos. Bajo esta condición, la ley fuerte establece que

La probabilidad de que el límite de la media muestral, $\Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=0\right)=1,$ 46§)=§5354§,{\displaystyle \Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=0\right)=1,}, es igual a uno.

La expectativa se calcula de la siguiente manera: ${\mathbb {E} }[S_{n}^{4}]={\mathbb {E} }\left[\left(\sum _{i=1}^{n}X_{i}\right)^{4}\right]={\mathbb {E} }\left[\sum _{1\leq i,j,k,l\leq n}X_{i}X_{j}X_{k}X_{l}\right].$ 54§ n X i ) §7475§ ] = E [ ∑ §9899§ ≤ i , j , k , l ≤ n X i X j X k X l ] . {\displaystyle {\mathbb {E} }[S_{n}^{4}]={\mathbb {E} }\left[\left(\sum _{i=1}^{n}X_{i}\right)^{4}\right]={\mathbb {E} }\left[\sum _{1\leq i,j,k,l\leq n}X_{i}X_{j}X_{k}X_{l}\right].}

Hay $n$ términos de la forma ${\mathbb {E} }[X_{i}^{4}]$

Implicaciones

La ley de los grandes números permite estimar tanto la expectativa como otras características de una distribución de probabilidad desconocida a partir de la realización de una secuencia. Específicamente, la ley de grandes números de Borel facilita la derivación de la función de masa de probabilidad. Para cualquier evento dentro de la función de masa de probabilidad objetiva, su probabilidad de ocurrencia puede aproximarse por la proporción de veces que se manifiesta ese evento. El aumento de repeticiones produce una aproximación más precisa. En el dominio continuo, considere el intervalo: $C=(a-h,a+h]$ , para una h positiva suficientemente pequeña. En consecuencia, para un gran número de ensayos (n):

${\frac {N_{n}(C)}{n}}\thickapprox p=P(X\in C)=\int _{a-h}^{a+h}f(x)\,dx\thickapprox 2hf(a)$

Empleando esto metodología, todo el eje x se puede dividir en una cuadrícula de intervalos uniformes (cada uno de ancho 2h) para construir un gráfico de barras, comúnmente conocido como histograma.

Aplicaciones

Una aplicación importante de la ley de los grandes números es el método de Monte Carlo, una técnica de aproximación crucial que emplea muestreo aleatorio para estimar resultados numéricos. El procedimiento para calcular la integral de f(x) en el intervalo [a, b] se describe a continuación:

Genere variables aleatorias uniformes X₁, X₂, …, X_n, generalmente realizadas mediante software, o utilice una tabla de números aleatorios para obtener U§67§, U§8_{9§, …, U_n, que son variables aleatorias independientes y distribuidas de manera idéntica (i.i.d.) uniformemente distribuidas en [0, 1]. Posteriormente, defina X_i = a + (b - a) U_i para cada i del 1 al n. En consecuencia, X§16}17§, X§18_{19§, …, X_n constituyen un conjunto de variables aleatorias uniformes independientes e idénticamente distribuidas en el intervalo [a, b].}
Calcule f(X₁), f(X₂), …, f(X_n).
El promedio de los valores de la función f(X₁), f(X₂), …, f(X_n) se calcula como $(b-a){\tfrac {f(X_{1})+f(X_{2})+\dots +f(X_{n})}{n}}$ _52§ ) + ⋯ + f ( X n ) n {\displaystyle (b-a){\tfrac {f(X_{1})+f(X_{2})+\dots +f(X_{n})}{n}}} . Posteriormente, por la ley fuerte de los números grandes, esta expresión converge a $(b-a)\operatorname {E} (f(X_{1}))=(b-a)\int _{a}^{b}f(x){\tfrac {1}{b-a}}\,dx=\int _{a}^{b}f(x){dx}$ .

La integral de la función $f(x)=\cos ^{2}(x){\sqrt {x^{3}+1}}$ 46§ {\displaystyle f(x)=\cos ^{2}(x){\sqrt {x^{3}+1}}} en el intervalo [-1, 2] presenta desafíos importantes para las técnicas de integración tradicionales. En consecuencia, para su cálculo se emplea el método de Monte Carlo. Aplicando el algoritmo antes mencionado se obtiene el siguiente resultado:

$\int _{-1}^{2}f(x)\,dx=0.905$ 15§ §18 $\int _{-1}^{2}f(x)\,dx=0.905$ f ( x ) d x = 0,905 {\displaystyle \int _{-1}^{2}f(x)\,dx=0.905} se obtuvo con n = 25.

La aproximación numérica de la integral, cuando n es igual a 250, viene dada por $\int _{-1}^{2}f(x)\,dx=1.028$ 15§ §18 $\int _{-1}^{2}f(x)\,dx=1.028$ f ( x ) d x = 1.028 {\displaystyle \int _{-1}^{2}f(x)\,dx=1.028} .

Se observa que un aumento en n se correlaciona con un aumento en el valor numérico. A continuación se presenta el resultado preciso de la integral.

$\int _{-1}^{2}f(x)\,dx=1.000194$ 15§ §18 $\int _{-1}^{2}f(x)\,dx=1.000194$ f ( x ) d x = 1.000194 {\displaystyle \int _{-1}^{2}f(x)\,dx=1.000194} .

La aplicación de la Ley de los Números Grandes (LLN) dio como resultado una aproximación integral que se alineaba más estrechamente con su valor real, mejorando así su precisión.

Una ilustración adicional implica la integración de la función $f(x)={\frac {e^{x}-1}{e-1}}$ 31§ e − §3940§ {\displaystyle f(x)={\frac {e^{x}-1}{e-1}}} en todo el intervalo [0, 1]. El empleo tanto del método de Monte Carlo como del LIN demuestra que un número creciente de muestras conduce a que el valor numérico converja progresivamente hacia 0,4180233.

Notas

Referencias

"Ley de los grandes números", Enciclopedia de Matemáticas, EMS Press, 2001 [1994]

"Ley de los grandes números", Enciclopedia de Matemáticas, EMS Press, 2001 [1994]Weisstein, Eric W. "Ley débil de los números grandes". MathWorld.
Weisstein, Eric W. "Ley fuerte de los grandes números". MathWorld.
Las animaciones que ilustran la Ley de los Grandes Números, desarrolladas por Yihui Xie, están disponibles a través del paquete R `animation`.
El director ejecutivo de Apple, Tim Cook, hizo una declaración que ha sido notada por los estadísticos: "No creemos en leyes como las de grandes números. Esto es una especie de viejo dogma, creo, inventado por alguien [...]". Por el contrario, Business Insider aclaró que "la ley de los grandes números no tiene nada que ver con las grandes empresas, los grandes ingresos o las grandes tasas de crecimiento. La ley de los grandes números es un concepto fundamental en la teoría de la probabilidad y la estadística, que vincula las probabilidades teóricas que podemos calcular con los resultados reales de los experimentos que realizamos empíricamente."

ley de los grandes números (Law of large numbers)