232
Probabilidad y aplicaciones estad´ ısticas. Enrique M. Caba˜ na 1 PARTE I: Introducci ´ on a la probabilidad. 1 Universidad de la Rep´ ublica, Departamento de M´ etodos Cuantitativos de la Facultad de Ciencias Econ´ omicas y de Administraci´ on, y Centro de Matem´ atica de la Facultad de Ciencias.

Cabaña - Probabilidad y aplicaciones estadisticas

  • Upload
    ichramm

  • View
    1.921

  • Download
    14

Embed Size (px)

Citation preview

Page 1: Cabaña - Probabilidad y aplicaciones estadisticas

Probabilidad y aplicaciones estadısticas.

Enrique M. Cabana 1

PARTE I: Introduccion a la probabilidad.

1Universidad de la Republica, Departamento de Metodos Cuantitativos de

la Facultad de Ciencias Economicas y de Administracion, y Centro de Matematicade la Facultad de Ciencias.

Page 2: Cabaña - Probabilidad y aplicaciones estadisticas

Contenido

1 La probabilidad, un modelo matematico para la incertidum-

bre. 1

1.1 Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.1 La ley del azar. . . . . . . . . . . . . . . . . . . . . . . . 51.2.2 Un juego de azar. . . . . . . . . . . . . . . . . . . . . . . 61.2.3 Definicion de probabilidad. . . . . . . . . . . . . . . . . . 8

1.3 La definicion clasica de la probabilidad. . . . . . . . . . . . . . . 10

2 Probabilidades condicionales. 15

2.1 Interpretacion intuitiva. . . . . . . . . . . . . . . . . . . . . . . 152.2 Definicion de la probabilidad condicional. . . . . . . . . . . . . . 172.3 Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Una interpretacion objetiva para la probabilidad condicional. . . 202.5 El Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . 212.6 Dos ejemplos de aplicacion estadıstica del Teorema de Bayes. . . 22

3 Variables aleatorias. 25

3.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Dos teoremas de existencia. . . . . . . . . . . . . . . . . . . . . 283.3 Variables discretas y absolutamente continuas. . . . . . . . . . . 303.4 Algunos ejemplos de variables aleatorias. . . . . . . . . . . . . . 33

3.4.1 Variables asociadas a ensayos repetidos. . . . . . . . . . 333.4.2 Dos distribuciones absolutamente continuas. . . . . . . . 38

3.5 Construccion explıcita de variables aleatorias en R, con funcionde distribucion F dada, a partir de U ∼Uni(0, 1). . . . . . . . . 40

3.6 Solucion de la ecuacion funcional g(s+ t) = g(s) +g(t), s, t > 0.Probabilidad e informacion. . . . . . . . . . . . . . . . . . . . . 413.6.1 Las soluciones de la ecuacion. . . . . . . . . . . . . . . . 41

iii

Page 3: Cabaña - Probabilidad y aplicaciones estadisticas

iv CONTENIDO

3.6.2 La informacion. . . . . . . . . . . . . . . . . . . . . . . . 42

4 ∗ Tres aplicaciones vinculadas con la distribucion binomial. 47

4.1 Un modelo probabilıstico: El paseo al azar simple. . . . . . . . . 474.1.1 Paseo al azar simetrico simple. Principio de Reflexion. . 494.1.2 El paseo con dos barreras. Principio de Reflexion Multiple. 51

4.2 La formula de Stirling y el lımite de las probabilidades binomiales. 534.3 Una aplicacion estadıstica: inferencia sobre el parametro en un

modelo de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . 574.3.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . 574.3.2 Un primer esquema de solucion. . . . . . . . . . . . . . . 584.3.3 Algunas generalidades sobre la prueba de hipotesis. . . . 594.3.4 Estimacion de p. . . . . . . . . . . . . . . . . . . . . . . 62

5 ∗ Cadenas de Markov 65

5.1 Algunos ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . 655.2 Cadenas finitas homogeneas en el tiempo . . . . . . . . . . . . . 665.3 Cadenas finitas con estados absorbentes. . . . . . . . . . . . . . 68

5.3.1 Particion en bloques de la matriz de probabilidades detransicion . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4 Teorema de convergencia de probabilidades en una cadena deMarkov finita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6 Valor esperado de una variable aleatoria. 77

6.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776.2 Una definicion descriptiva de la esperanza. . . . . . . . . . . . . 786.3 Definicion constructiva de la esperanza. . . . . . . . . . . . . . . 816.4 Calculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 836.5 Algunas propiedades de las esperanzas. . . . . . . . . . . . . . . 88

6.5.1 Variables constantes con probabilidad 1. . . . . . . . . . 886.5.2 Desigualdad de Jensen. . . . . . . . . . . . . . . . . . . . 896.5.3 Calculo de lımites . . . . . . . . . . . . . . . . . . . . . . 906.5.4 Teorema de Convergencia Dominada de Lebesgue. . . . . 90

6.6 Momentos, variancia. . . . . . . . . . . . . . . . . . . . . . . . . 916.7 Medidas de posicion y medidas de dispersion de una distribucion

de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 926.8 Esperanza del producto de variables independientes. . . . . . . . 93

6.8.1 Independencia de variables aleatorias. . . . . . . . . . . . 936.9 Funciones generatrices. . . . . . . . . . . . . . . . . . . . . . . . 95

Page 4: Cabaña - Probabilidad y aplicaciones estadisticas

CONTENIDO v

6.10 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.11 * Una aplicacion: Calculo de probabilidades en el paseo al azar

con barreras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.11.1 Paseo al azar con dos barreras absorbentes. . . . . . . . . 976.11.2 Paseo al azar con una barrera . . . . . . . . . . . . . . . 100

7 Medidas, integrales, densidades. 103

7.1 Espacios de medida. . . . . . . . . . . . . . . . . . . . . . . . . 1037.2 Probabilidades y medidas completas. . . . . . . . . . . . . . . . 1047.3 Integral respecto de una medida. . . . . . . . . . . . . . . . . . 1057.4 Dos ejemplos: Integral de Lebesgue e integral respecto de una

medida discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.4.1 Integral respecto de la medida de Lebesgue . . . . . . . . 1077.4.2 Integral respecto de la medida νS del Ejemplo 7.1.1. . . . 108

7.5 La esperanza como caso particular de la integral. . . . . . . . . 1087.6 Densidad de una medida respecto de otra medida. . . . . . . . . 109

8 Distribuciones conjuntas, independencia. 111

8.1 Distribucion conjunta de una pareja de variables aleatorias. . . . 1118.2 La integral de Lebesgue en R2. . . . . . . . . . . . . . . . . . . 1148.3 Calculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 115

8.3.1 Momentos asociados a una pareja de variables. . . . . . . 1158.4 Distribucion de variables aleatorias independientes. Producto

de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 1168.4.1 Independencia de variables aleatorias. . . . . . . . . . . . 1168.4.2 Producto de probabilidades. . . . . . . . . . . . . . . . . 1178.4.3 La medida de Lebesgue en R2, como medida producto. . 117

8.5 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1188.6 Una aplicacion de la esperanza. Otra solucion al problema de la

aguja de Buffon. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198.7 Distribucion de la suma de variables independientes. . . . . . . . 1218.8 Un ejemplo: Suma de variables geometricas, distribucion bino-

mial negativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1228.9 Otro ejemplo: Suma de variables exponenciales. Distribucion

Gamma y distribucion de Poisson. . . . . . . . . . . . . . . . . . 1238.10 Ensayos repetidos, cuando hay mas de dos resultados posibles:

la distribucion multinomial . . . . . . . . . . . . . . . . . . . . . 1258.11 Los estadısticos de orden de una muestra. . . . . . . . . . . . . 127

8.11.1 Definicion de los estadısticos de orden. . . . . . . . . . . 127

Page 5: Cabaña - Probabilidad y aplicaciones estadisticas

vi CONTENIDO

8.11.2 Distribucion de los estadısticos de orden. . . . . . . . . . 1288.11.3 Otra derivacion de la densidad del h-esimo estadıstico

de orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 129

9 Distribuciones y esperanzas condicionales. 131

9.1 Introduccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1319.2 Una interpretacion intuitiva para la esperanza condicional. . . . 1329.3 Definicion de la esperanza condicional. . . . . . . . . . . . . . . 1339.4 La distribucion condicional. . . . . . . . . . . . . . . . . . . . . 1379.5 Esperanzas condicionales iteradas. . . . . . . . . . . . . . . . . . 1399.6 La esperanza de una funcion de una pareja de variables inde-

pendientes, y el Teorema de Fubini. . . . . . . . . . . . . . . . . 142

10 ∗ Convergencia de probabilidades en una cadena de Markov. 145

10.1 Cadenas con una cantidad numerable de estados. . . . . . . . . 14510.2 Teorema de convergencia de probabilidades en una cadena de

Markov numerable. . . . . . . . . . . . . . . . . . . . . . . . . . 14610.2.1 Significado de las hipotesis del enunciado. . . . . . . . . 14710.2.2 ∗ Demostracion del Teorema 10.2.1. . . . . . . . . . . . . 148

10.3 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15310.4 Un ejemplo: Obtencion de las probabilidades de absorcion, y de

las esperanzas de los tiempos de absorcion a partir del Teoremade convergencia de probabilidades. . . . . . . . . . . . . . . . . 154

10.5 Uso de los metodos matriciales de §5.3 para el calculo de lostiempos esperados de absorcion. . . . . . . . . . . . . . . . . . . 155

11 Convergencia de variables aleatorias. Leyes de Grandes Nu-

meros. 157

11.1 Desigualdades de Markov y de Chebyshev. . . . . . . . . . . . . 15711.2 Distancias entre variables aleatorias basadas en momentos. . . . 158

11.2.1 Distancia cuadratica. . . . . . . . . . . . . . . . . . . . . 15811.3 Convergencias cuadratica y en probabilidad. . . . . . . . . . . . 160

11.3.1 Convergencia cuadratica. . . . . . . . . . . . . . . . . . . 16011.3.2 Convergencia en probabilidad. . . . . . . . . . . . . . . . 16011.3.3 Criterio de convergencia en probabilidad basado en la

convergencia cuadratica. . . . . . . . . . . . . . . . . . . 16211.4 Convergencia casi segura. . . . . . . . . . . . . . . . . . . . . . . 16211.5 Completitud de L2(Ω,P). . . . . . . . . . . . . . . . . . . . . . 16411.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Page 6: Cabaña - Probabilidad y aplicaciones estadisticas

CONTENIDO vii

11.7 Una aplicacion a la estadıstica. Coherencia de una sucesion deestimadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16611.7.1 Estimacion coherente de las cuantilas de F a partir de

una muestra aleatoria simple. . . . . . . . . . . . . . . . 16711.8 Una aplicacion al analisis: Teorema de Weierstrass de aproxi-

macion de funciones continuas por polinomios. . . . . . . . . . . 16811.9 Leyes de Grandes Numeros. . . . . . . . . . . . . . . . . . . . . 169

11.9.1 Ley Debil de los Grandes Numeros. . . . . . . . . . . . . 16911.9.2 Ley Fuerte de los Grandes Numeros. . . . . . . . . . . . 170

11.10 Distribucion empırica de una muestra. Ley de Glivenko-Can-telli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

11.11Reinterpretacion de la Ley de Glivenko - Cantelli como una Leyde los Grandes Numeros funcional. . . . . . . . . . . . . . . . . 174

11.12Algunas aplicaciones estadısticas de la convergencia de Fn a F . . 175

12 Convergencia en Ley. Distribucion normal. Teorema del Lı-

mite Central. 177

12.1 Convergencia en ley o en distribucion, para variables con valoresen R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17712.1.1 Un recıproco del Teorema 12.1.1. . . . . . . . . . . . . . 17912.1.2 Una caracterizacion de la convergencia en distribucion. . 180

12.2 Distribucion normal en R. . . . . . . . . . . . . . . . . . . . . . 18312.3 Teorema del Lımite Central para variables equidistribuidas. . . . 18612.4 Teorema del Lımite Central para arreglos triangulares de varia-

bles independientes. . . . . . . . . . . . . . . . . . . . . . . . . . 19012.5 Aplicacion: Un ejemplo de convergencia en distribucion asocia-

do a los estadısticos de orden. . . . . . . . . . . . . . . . . . . . 190

13 Complementos y demostraciones omitidas en capıtulos ante-

riores. 195

13.1 Teorema de Extension de Probabilidades de A. N. Kolmogorov. 19513.1.1 Demostracion de la existencia. . . . . . . . . . . . . . . . 19513.1.2 Demostracion de la unicidad. . . . . . . . . . . . . . . . 198

13.2 Definicion de una probabilidad en R a partir de su funcion dedistribucion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

13.3 Algunas propiedades de las esperanzas y de las integrales. . . . . 20113.3.1 Monotonıa, linealidad y σ-aditividad de esperanzas e in-

tegrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 20113.3.2 Calculo de lımites. . . . . . . . . . . . . . . . . . . . . . 203

Page 7: Cabaña - Probabilidad y aplicaciones estadisticas

viii CONTENIDO

13.4 Cambio de variables en una integral. . . . . . . . . . . . . . . . 20313.5 Producto de probabilidades, Teorema de Fubini. . . . . . . . . . 20413.6 Integral de Lebesgue y densidades en Rd. . . . . . . . . . . . . . 20613.7 Una distancia entre probabilidades. . . . . . . . . . . . . . . . . 20613.8 Normas Lp en espacios de clases de equivalencia de funciones

medibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20713.9 Densidad de una medida absolutamente continua. . . . . . . . . 210

13.9.1 Demostracion del Teorema de Radon-Nikodym. . . . . . 21113.10Inversion de la funcion caracterıstica de una distribucion de pro-

babilidades en R. . . . . . . . . . . . . . . . . . . . . . . . . . . 21213.11Inversion de la funcion caracterıstica de una distribucion de pro-

babilidades en Rd. . . . . . . . . . . . . . . . . . . . . . . . . . 21513.12Demostracion de la Ley Fuerte de los Grandes Numeros de Kol-

mogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21613.13Demostracion del T.L.C. de Lindeberg, para arreglos triangulares.219

Page 8: Cabaña - Probabilidad y aplicaciones estadisticas

Indice de Figuras

2.1 Ilustracion para el Ejemplo 2.6.1 . . . . . . . . . . . . . . . . . . 23

3.1 Funcion de distribucion de una variable discreta . . . . . . . . . 313.2 Funcion de distribucion de una variable absolutamente continua 323.3 Solucion de la ecuacion funcional g(s + t) = g(s) + g(t) . . . . . 43

4.1 Representaciones graficas de la trayectoria de un paseo al azar. . 484.2 Reflexion de una trayectoria . . . . . . . . . . . . . . . . . . . . 504.3 Reflexiones sucesivas de j respecto del par de niveles −a y b. . . 524.4 Ilustracion para el Ejemplo 4.3.1 . . . . . . . . . . . . . . . . . . 594.5 Errores de tipos I y II en una prueba de hipotesis. . . . . . . . . 61

5.1 Diagrama de estados y transiciones de la cadena del Ejemplo 1. 66

6.1 Interpretacion grafica de un sumando en la esperanza de unavariable discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.2 Interpretacion grafica de la esperanza de una variable discreta. . 856.3 Interpretacion de la esperanza como diferencia de areas. . . . . . 856.4 Aproximacion de la esperanza por esperanzas de aproximaciones

discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8.1 Dominios de integracion. . . . . . . . . . . . . . . . . . . . . . . 113

12.1 Graficos de u−

z,ε y de u+z,ε. . . . . . . . . . . . . . . . . . . . . . . 181

12.2 Funcion de distribucion de probabilidades Φ y densidad ϕ (lla-mada campana de Gauss) de una variable normal tıpica. . . . . 184

13.1 Graficos de sin(x)/x y de∫ x0 sin(y)dy/y. . . . . . . . . . . . . . . 213

13.2 Camino de integracion para el calculo de∫

eızdz/z. . . . . . . . 214

ix

Page 9: Cabaña - Probabilidad y aplicaciones estadisticas

x FIGURAS

Page 10: Cabaña - Probabilidad y aplicaciones estadisticas

Indice de Tablas

6.1 Esperanzas, variancias y funciones generatrices de momentos dealgunas distribuciones. . . . . . . . . . . . . . . . . . . . . . . . 98

12.1 Distribucion normal tıpica. . . . . . . . . . . . . . . . . . . . . . 185

xi

Page 11: Cabaña - Probabilidad y aplicaciones estadisticas

Tanto el desarrollo de la probabi-lidad como el de la estadıstica, lomismo que sus aportes al progresocientıfico y tecnologico, son un pro-ducto del Siglo XX.El registro de datos estadısticos estan viejo como la escritura, pero elanalisis matematico de esos datos,con el proposito de tomar decisiones,tiene aproximadamente un siglo deantiguedad, ya que suele estable-cerse como hito que marca el origende la estadıstica al comienzo de laedicion de la revista estadıstica masantigua, Biometrika, cuyo primernumero aparecio en 1899.

Aunque hay antecedentes de calculos de probabilidades asociados a juegos deazar, que se remontan al menos al Siglo XVI, los matematicos de principios del siglopasado aun veıan a la probabilidad como un invento de los siglos 17 y 18 no integradoa la disciplina rigurosa que cultivaban, carente de una estructura solida, que apenastenıa el merito de dar ingeniosas soluciones ad hoc a variados problemas.

La formalizacion del calculo de probabilidades, como una rama de la matematicasolidamente fundada, esta asociada a trabajos realizados por Andrei N. Kolmogorov(1903-1987). Basandose en los estudios de quienes en esa epoca formalizaban elcalculo de integrales, Kolmogorov construyo una teorıa axiomatica de la probabilidadinmersa dentro de la teorıa de la medida y contribuyo al desarrollo de ambas conaportes originales.

Hoy sigue publicandose Biometrika, junto con un gran numerode revistas de probabilidad y de estadıstica matematica que, enconjunto, recogen un doceavo de los trabajos de matematica queaparecen en la bibliografıa especializada. El aporte de la probabi-lidad y de la estadıstica al desarrollo de las ciencias sociales y de lanaturaleza, e incluso de otras ramas de la matematica es induda-ble, y los metodos estadısticos contribuyen de manera sustantivaa mejorar la produccion de bienes y la prestacion de servicios.

Page 12: Cabaña - Probabilidad y aplicaciones estadisticas

1. La probabilidad, un modelomatematico para la incertidum-bre.

La teorıa de las probabilidades proporciona modelos matematicos para des-cribir situaciones en las que existe incertidumbre. Se indica por medio de laprobabilidad el grado de factibilidad de un determinado acontecimiento o deconfianza que se tiene en que ocurra ese acontecimiento. Mas precisamente,la probabilidad es una funcion que tiene por dominio una familia de acon-tecimientos cuya ocurrencia es posiblemente incierta. A cada uno de estosacontecimientos la probabilidad atribuye un numero, tanto mas grande cuantomayor sea su factibilidad, o la confianza en que ese acontecimiento ocurra. Ala maxima factibilidad o confianza (certeza), le atribuye el 1, y a la mınima,el 0. 1

1.1 Sucesos.

Comencemos por analizar el dominio de la probabilidad, es decir, la familia que lla-maremos A, de los acontecimientos que vamos a incluir en el modelo. Convendremosque toda vez que nos interese considerar la eventual ocurrencia de un acontecimientoA, incluiremos tambien en nuestro modelo el acontecimiento

1Estos comentarios iniciales solo aspiran a establecer un vınculo entre el modelomatematico que vamos a introducir, y algunas de las posibles aplicaciones de ese modelo,fuera de la matematica. Buena parte de la riqueza y del atractivo de la probabilidad consis-ten en que constituye un instrumento para construir modelos capaces de reflejar fenomenosinciertos de la naturaleza, respecto de los cuales puede interesarnos adoptar decisiones. Es-tas incertidumbres pueden en particular pensarse de manera objetiva o subjetiva, y esoexplica el uso de los terminos “factibilidad” y “confianza”, respectivamente. Es por ello quemotivaremos en §1.2 la definicion de la probabilidad mediante dos modelos, uno de ellosobjetivo, y el otro subjetivo.

1

Page 13: Cabaña - Probabilidad y aplicaciones estadisticas

2Enrique M. Cabana.

Capıtulo 1: Probabilidad.

“no ocurre A” , abreviado “no A”,

y toda vez que nos interese considerar la ocurrencia de los acontecimientos A y B,tambien incluiremos en nuestro modelo los acontecimientos compuestos a partir de Ay de B que son:

“ocurren ambos acontecimientos, el A y el B”, abreviado “A y B”,

“alguno de los acontecimientos A, B ocurre”, abreviado “A o B”,

y tambien otras combinaciones cuya inclusion es consecuencia de las anteriores, talescomo “ocurre A pero no B”, que equivale a “A y (no B)”, o bien “ocurre A o B perono ambos”, que es lo mismo que “(A y (no B)) o (B y (no A))”. Por una induccionobvia, estas convenciones se generalizan a acontecimientos compuestos por mas dedos, tales como la ocurrencia de por lo menos uno de varios acontecimientos dados,o la no ocurrencia de ninguno de ellos.

Resulta un sencillo ejercicio verificar que las operaciones (no, o, y) entre acontecimien-tos tienen las mismas propiedades formales que ciertas operaciones (complemento,union, interseccion, respectivamente) entre conjuntos. Mas aun, es posible mostrarque cada acontecimiento se puede asociar a un subconjunto de un conjunto dado quellamaremos Ω, de modo que se correspondan:

acontecimiento subconjunto

A A

B B

no A Ac

A o B A ∪ B

A y B A ∩ B

A y (no B) A \ B

. . . . . . . . .

Page 14: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1.1. Sucesos 3

Para ello podemos pensar que Ω es el conjunto de todos los acontecimientos ele-mentales o “estados posibles de la naturaleza”, es decir, el conjunto formado porlas descripciones exhaustivas y mutuamente excluyentes de cada uno de los estadosposibles del sistema que nos interesa describir. Entonces, un subconjunto A de Ω secorrespondera con el acontecimiento consistente en que ocurre alguno de los estadosdescritos por los puntos de Ω contenidos en A.

Las consideraciones anteriores nos conducen a introducir la siguiente definicion.

Dado un conjunto no vacıo Ω, consideremos una familia A de partes de Ωcon las propiedades:

(a0) A es no vacıa.(a1) Si A pertenece a A, entonces su complemento Ac tambien pertenece a

A.(a2) Si los conjuntos A1, . . . , An(n ∈ N) pertenecen a A, entonces

⋃nm=1 Am

tambien pertenece a A.

Definicion 1.1.1 A una familia A que cumple (a0), (a1) y (a2), o, en otraspalabras, a una familia de subconjuntos de Ω cerrada bajo complementos yuniones finitas, se la llama un algebra de subconjuntos de Ω.

Toda algebra de subconjuntos de Ω es tambien cerrada bajo interseccionesfinitas, y bajo diferencias simetricas. Conviene recordar, para verificarlo, queuna interseccion finita puede escribirse en la forma

⋂nm=1 Am = (

⋃nm=1 Ac

m)c, yque la diferencia simetrica de A y B es A B = (A ∩ Bc) ∪ (B ∩ Ac).

Definicion 1.1.2 Una familia A de subconjuntos de Ω que cumple las propie-dades

(s0) = (a0),(s1) = (a1), y(s2) Si los conjuntos de una sucesion (An)n=1,2,... pertenecen a A, entonces

⋃∞n=1 Am tambien pertenece a A.

se llama σ-algebra de subconjuntos de Ω.

Puede verificarse que toda σ-algebra de subconjuntos de Ω es un algebra.Conviene verificar previamente que una consecuencia de las definiciones (1.1.1)y (1.1.2) es que toda algebra y toda σ-algebra contienen necesariamente a Ωy al conjunto vacıo ∅.

Observemos que la familia ∅, Ω es una σ-algebra, y, de acuerdo a laobservacion precedente, se trata de la σ-algebra mas pequena posible, a la quesuele llamarsele σ-algebra trivial.

Page 15: Cabaña - Probabilidad y aplicaciones estadisticas

4Enrique M. Cabana.

Capıtulo 1: Probabilidad.

Nota: Aunque la introduccion informal que precede a la Definicion 1.1.1sugiere adoptar un algebra como dominio de la probabilidad, tiene ventajastecnicas adoptar en cambio una σ-algebra. El Teorema 3.2.1 nos dara unaprimera clave para apreciar la conveniencia de esta formalizacion.

Definicion 1.1.3 La pareja (Ω,A) en la que Ω es un conjunto no vacıo y Aes una σ-algebra de subconjuntos de Ω, se llama espacio probabilizable, y loselementos de A se llaman sucesos.

Ejercicios.

Ejercicio 1.1.1 Verificar que toda σ-algebra A contiene a Ω y al suceso vacıo ∅,y que se cumplen las propiedades

(a2) A1, . . . , An(n ∈ N) ∈ A ⇒⋃n

m=1 Am ∈ A.

(a3) A1, A2, . . . ∈ A ⇒⋂∞

m=1 Am ∈ A

Ejercicio 1.1.2 Verificar que toda σ-algebra de subconjuntos de Ω es un algebra.

Ejercicio 1.1.3 Verificar que la familia 2Ω de todos los subconjuntos de Ω es unaσ-algebra.

Ejercicio 1.1.4 Verificar que si A1, . . . , An es una particion de Ω, es decir, lossucesos A1, . . . , An son disjuntos y

⋃nm=1 Am = Ω, entonces la familia de todas las

uniones ⋃

m∈J : J subconjunto de 1, 2, . . . , n es un algebra.

Ejercicio 1.1.5 Verificar que la interseccion de σ-algebras de subconjuntos de Ωes tambien una σ-algebra. Deducir que dada una familia cualquiera de subconjuntosde Ω, existe una mınima σ-algebra que los contiene.

Ejercicio 1.1.6 Enumerar la mınima σ-algebra de subconjuntos de R que contienea los conjuntos 0 , 1 y 2 .

Ejercicio 1.1.7 Verificar que si A es una σ-algebra de partes de R que contienelos intervalos abiertos (a, b) : a, b ∈ R, a ≤ b, entonces A contiene tambien todoslos intervalos cerrados y semiabiertos.

Ejercicio 1.1.8 Verificar que coinciden las mınimas σ-algebras de partes de R

que contienen (i) los intervalos abiertos; (ii) los intervalos cerrados; (iii) todos losintervalos; (iv) los conjuntos abiertos; (v) los conjuntos cerrados.

Esta σ-algebra se llama de Borel.

Page 16: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1.2. Probabilidad 5

1.2 Probabilidad.

A cada acontecimiento (o suceso), sobre cuya ocurrencia existe incertidumbre,queremos atribuir ahora una medida, su probabilidad, que nos diga hasta quepunto podemos confiar en que ese acontecimiento ocurra. Antes de dar unadefinicion formal, vamos a considerar dos situaciones que nos proporcionaranuna interpretacion intuitiva para la probabilidad.

1.2.1 La ley del azar.

Consideremos la siguiente ley sobre cuya eventual validez no nos pronunciamos.

Repitamos indefinidamente un cierto experimento E con independencia entre las suce-sivas replicaciones. Supongamos que el resultado del experimento es incierto, y lla-memos A a uno de los resultados posibles. Designamos por rn(A) (que llamamosfrecuencia de A) al numero de veces que ha ocurrido A al cabo de n repeticiones.Entonces, el cociente rn(A)/n (que llamamos frecuencia relativa de A) tiene lımitecuando n tiende a infinito, y a ese lımite lo llamamos p(A).

Consideremos un ejemplo de tal situacion. Supongamos que el experimento consisteen arrojar un dado cuyas caras estan numeradas de 1 a 6. El resultado (el numerode la cara que queda hacia arriba) puede ser cualquiera de esos seis numeros, pero encada repeticion del experimento no hay certeza sobre cual de estos sera como sueleocurrir cuando se arroja un dado. Interpretamos la independencia entre las sucesivasrepeticiones en el sentido de que la ejecucion de cualesquiera de ellas, y, en particularsus resultados, no tiene ninguna influencia sobre las otras y sobre sus resultados.

La ley que hemos enunciado conduce a lımites p(1), . . . , p(6) para las frecuenciasrelativas con que se obtienen los resultados 1, . . . , 6. Aunque la ley no dice nada sobrecuales son estos lımites, es claro que todos ellos son numeros comprendidos entre 0y 1, ya que las frecuencias relativas cumplen esa propiedad por su propia definicion.Ademas, como en cada repeticion del experimento ocurre alguno de los resultadosindicados y solo uno, las frecuencias rn(1), . . . , rn(6) cumplen rn(1)+ . . .+ rn(6) = n,de donde resulta p(1) + . . . + p(6) = 1. Si tuvieramos buenas razones para suponerque ninguna de las caras esta privilegiada respecto de las otras (por la construcciondel dado y por la manera de arrojarlo), concluirıamos p(1) = p(2) = . . . = p(6), yentonces debe cumplirse p(i) = 1/6, i = 1, . . . , 6.

En general, si A, B son dos resultados posibles del experimento que no pueden ocurrirsimultaneamente, entonces rn(A o B) = rn(A)+ rn(B), de donde p(A o B) = p(A)+p(B). Por otra parte, si Ω es el resultado consistente en que ocurra alguno cualquierade los resultados posibles, resultado trivial que siempre ocurre, tenemos rn(Ω) = n ,de modo que p(Ω) = 1.

Page 17: Cabaña - Probabilidad y aplicaciones estadisticas

6Enrique M. Cabana.

Capıtulo 1: Probabilidad.

1.2.2 Un juego de azar.

Veamos a continuacion otro ejemplo, que retomaremos en varias oportunidades paramotivar algunas de las definiciones, basado en un juego de azar hipotetico. Considere-mos un experimento cuyo resultado es incierto, y llamemos A a uno de sus resultadosposibles. Un jugador se dispone a participar en el siguiente juego de azar: se realizael experimento; si ocurre A, recibe como premio una unidad monetaria, y si no ocurreA, no recibe ningun premio. Vamos a llamar π(A) a la cantidad que el jugador estimaequitativo pagar para intervenir, sin pretender obtener una ganancia de su juego, perosin sufrir tampoco una perdida. De otra manera, llamemos π(A) a una cantidad talque el jugador considera que le conviene jugar si el pago que debe hacer por interveniren el juego es menor que π(A), pero estarıa dispuesto a intercambiar su papel con labanca por un pago superior a π(A). La cantidad π(A) no tiene por que ser la mismapara distintos jugadores, pues puede depender de su informacion previa, o de otrasconsideraciones subjetivas.

π(A)

A?sı

no

1

0

Podemos expresar la condicion de equitatividad del juego de otra manera: el jugadorestima que la cantidad cierta π(A) y la cantidad incierta que es el premio del juego,que vale 1 si ocurre A y 0 si no ocurre A, tienen el mismo valor, es decir, sonintercambiables.

Obviamente se cumple 0 ≤ π(A) ≤ 1, pues en caso contrario el jugador tendrıaseguramente una ganancia (si fuese π(A) < 0) o una perdida (si 1 < π(A)).

Aceptemos ademas que si el premio del juego fuese c si ocurre A y 0 si no ocurre, eljugador lo cambiarıa por cπ(A). Esta condicion de linealidad solo es razonable si lassumas a intercambiar son pequenas; en efecto, un jugador podrıa estimar apropiadoinvertir una pequena cantidad en un juego para duplicarla en caso de ganar, pero noinvertirıa toda su fortuna en el mismo juego, aun cuando la duplicara en caso de ganar,para no arriesgarse a perder, por la consecuencia desastrosa que esto le significarıa.Por lo tanto, convendra pensar en lo sucesivo que las sumas que se intercambian sonpequenas.

Observemos tambien que, si A y B son dos resultados posibles, que no pueden ocurrir ala vez, nuestro jugador podrıa intervenir simultaneamente dos veces en el mismo juego,apostando una vez en favor de A, por lo cual estima que debe pagar π(A), y la otra vezpor B, por lo cual estima que debe pagar π(B). Como esto es equivalente a interveniruna vez apostando por (A o B) (observese que para que esto sea correcto se requiereque A y B no puedan ocurrir simultaneamente), se deduce π(A o B) = π(A) + π(B).

Page 18: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1.2. Probabilidad 7

π(A)

A? sı

no

1

0

+

π(B)

B?sı

no

1

0

=π(A ∪ B)

A ∪ B?sı

no

1

0

Una observacion trivial es que si el jugador apuesta por el resultado Ω consistente enque ocurra cualquiera de los resultados posibles, con lo que se asegura una gananciade 1, la condicion de equitatividad presente en la descripcion de π implica π(Ω) = 1.

El mismo experimento de 1.2.1 sirve de ejemplo para esta situacion. Pero ahora noes necesario suponer que haya una sucesion de repeticiones independientes (terminodifıcil de definir formalmente, al menos por el momento!). El experimento de arrojarel dado podrıa realizarse por una unica vez. El jugador puede saber poco o nada sobrela construccion del dado, o sobre la habilidad del que lo arroja. Hara su composicionde lugar, usando la informacion que tenga, y atribuira valores a π. Notemos quecualquiera sea esta composicion de lugar, las consideraciones anteriores indican quelos seis valores π(1), . . . , π(6) no pueden ser completamente arbitrarios: deben serno negativos y sumar 1. Observemos de paso que si nuestro jugador no encuentrarazones para preferir un resultado a otro, desde el punto de vista de la confianza quetenga en que cada uno de ellos ocurra, elegira π(1) = . . . = π(6) = 1/6.

Entre los modelos de 1.2.1 y 1.2.2 puede establecerse la siguiente relacion. Supon-gamos que el juego puede repetirse, y que nuestro jugador esta dispuesto a apostarcada vez π(A) para ganar 1 en caso de ocurrir A. Para las n primeras repeticiones,considerara intercambiable una apuesta nπ(A) con la ganancia rn(A) (con la notacionintroducida en 1.2.1); la apuesta promedio, constante, es π(A), y la ganancia promediorn(A)/n . De aquı resulta que el jugador debera considerar intercambiables π(A) conrn(A)/n, y, si considera que la ley del azar es valida, como la equivalencia de π(A)con rn(A)/n vale para todo n, debera estimar π(A) = p(A).

No debe extranarnos entonces que π y p compartan algunas propiedades.

Nota: La definicion que sigue intenta recoger los elementos comunes pre-sentes en los dos ejemplos precedentes. Sin ir mas alla de lo que ellos sugieren,la propiedad del item (p2) se formularıa para sucesiones finitas exclusivamente.Sin embargo, razones de conveniencia tecnica vinculadas a resultados talescomo los de los Teoremas 3.2.1, y 1.2.1, aconsejan extender la aditividad asucesiones infinitas.

Page 19: Cabaña - Probabilidad y aplicaciones estadisticas

8Enrique M. Cabana.

Capıtulo 1: Probabilidad.

1.2.3 Definicion de probabilidad.

Definicion 1.2.1 . Dado un espacio probabilizable (Ω,A), llamamos probabi-lidad en (Ω,A) a una funcion P : A → R+ que satisfaga

(p1) P(Ω) = 1

(p2) Si (An)n=1,2,... es una sucesion de sucesos disjuntos, entonces secumple

P(⋃∞

n=1 An) =∑∞

n=1 P(An).

Definicion 1.2.2 La terna (Ω,A,P), donde P es una probabilidad en (Ω,A),se llama espacio de probabilidad.

Ejemplo. Si Ω = ω1, ω2, . . . , ωn, . . . es un conjunto numerable, A = 2Ω

es la familia de todos los subconjuntos de Ω, y (pn)n=1,2,... es una sucesion denumeros no negativos tal que

∑∞n=1 pn = 1, entonces P(A) =

ωn∈A pn es unaprobabilidad en (Ω,A).

Ejercicios

Ejercicio 1.2.1 Probar que toda probabilidad satisface las siguientes propiedades:

(p’1) P(∅) = 0.

(p’2) Si (Am)m=1,2,...,n es una familia finita de sucesos disjuntos, entonces secumple P (

⋃nm=1 Am) =

∑nm=1 P(Am).

(p3) P(Ac) = 1 − P(A)

(p4) A ⊂ B ⇒ P(A) ≤ P(B).

(p5) P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Ejercicio 1.2.2 Probar por induccion completa la siguiente generalizacion de lapropiedad (p5) del ejercicio precedente:

Para cualesquiera sucesos A1, A2, . . . , An, la probabilidad de la union puede cal-cularse mediante la formula:

P(⋃n

i=1 Ai) =∑n

k=1(−1)k+1∑

1≤i1<...<ik≤n P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik)

Ejercicio 1.2.3 Si P y Q son dos probabilidades definidas en un mismo espacio,mostrar que aP + bQ tambien es una probabilidad para cualquier par de numerosno negativos a y b que satisfagan a + b = 1.

Ejercicio 1.2.4 Si A,B, C, son sucesos arbitrarios, mostrar que

Page 20: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1.2. Probabilidad 9

(a) P(A ∩ B ∩ C) ≤ P(A) ∧ P(B) ∧ P(C);

(b) P(A ∪ B ∪ C) ≥ P(A) ∨ P(B) ∨ P(C).

Ejercicio 1.2.5 Un dado esta cargado de modo que la probabilidad de cada caraes proporcional al numero indicado en la cara. Cual es la probabilidad de que alarrojarlo, se obtenga un resultado par?

Ejercicio 1.2.6 Dada una sucesion creciente de sucesos: ∅ = E0 ⊂ E1 ⊂ E2 ⊂ . . .,verificar que

⋃∞i=1 Ei se puede escribir como una union disjunta en la forma

∞⋃

i=1

Ei =∞⋃

i=1

(Ei \ Ei−1).

Teorema 1.2.1 (Continuidad de la probabilidad).

(i) Si (An)n=1,2,... es una sucesion creciente de sucesos, se cumple

P

(

∞⋃

n=1

An

)

= limn→∞

P(An).

(ii) Si (Bn)n=1,2,... es una sucesion decreciente de sucesos,entonces

P

(

∞⋂

n=1

Bn

)

= limn→∞

P(Bn).

Demostracion. Observemos en primer lugar que (i) y (ii) son equivalentes.En efecto, si vale (i) y (Bn)n=1,2,...es decreciente, entonces (Bc

n)n=1,2,... es cre-ciente, y P

⋂∞n=1 Bn =1−P(

⋂∞n=1 Bn)c =1−P(

⋃∞n=1 Bc

n)=1−limn→∞ P(Bcn), por

(i). De aquı resulta P(⋂∞

n=1 Bn)=1−limn→∞(1−P(Bn))= limn→∞P(Bn). Demanera analoga se muestra que (ii) implica (i).

Para probar (i) definimos Cn = An \ An−1, n = 2, 3, . . ., y C1 = A1 demanera que los sucesos (Cn)n=1,2,... son disjuntos. Ademas se verifica queAn =

⋃nm=1 Cm y que

⋃∞n=1 An =

⋃∞n=1 Cn. Como los Cn son disjuntos, P(An)

=∑n

m=1 P(Cm), y P⋃∞

n=1 An =∑∞

m=1 P(Cm). Por lo tanto, P⋃∞

n=1 An =limn→∞

∑nm=1 P(Cm) = limn→∞ P(An).

El enunciado del Teorema 1.2.1 podrıa haberse escrito en la forma: Para toda sucesionmonotona de sucesos (An), se cumple limP(An) = P(limAn), porque cuando (An)

Page 21: Cabaña - Probabilidad y aplicaciones estadisticas

10Enrique M. Cabana.

Capıtulo 1: Probabilidad.

es creciente, se define lim An =⋃

n=1 An, y cuando es decreciente, lim An =⋂

n=1 An.Esta observacion justifica mejor el nombre de teorema de continuidad para el Teorema1.2.1. Las dos definiciones precedentes de lımite de sucesiones monotonas de conjuntosson coherentes con las siguientes:

Para cualquier sucesion de conjuntos (An), llamamos lımite superior de la sucesion alconjunto lim supAn =

n=1

m=nAm, y lımite inferior a lim inf An =

n=1

m=nAm.

Decimos que (An) tiene lımite cuando lim supAn y lim inf An coinciden, y en ese caso,definimos limAn = lim supAn = lim inf An.

Resulta inmediato verificar que cuando (An) es monotona, esta ultima definicion delımite coincide con la del parrafo anterior.

Finalmente, dejamos a cargo del lector verificar que las definiciones de lim sup y delim inf de conjuntos podrıan haberse hecho de la siguiente manera equivalente: Si

designamos por 1A a la funcion indicatriz de A, es decir, 1A(ω) =

1 si ω ∈ A0 si ω ∈ A,

entonces se cumplen las igualdades,

1lim sup An= lim sup1An

, 1lim inf An= lim inf 1An

,

que pueden adoptarse como definicion de lımites de sucesiones de conjuntos a partirde los lımites de las sucesiones de sus funciones indicatrices. Mas precisamente:lim supAn = ω : lim sup1An

= 1, lim inf An = ω : lim inf 1An= 1.

1.3 La definicion clasica de la probabilidad.

Teorema 1.3.1 Si A1, A2, . . . , An es una particion de Ω (es decir, A1, A2,. . ., An, son sucesos disjuntos cuya union es Ω) y se cumple P(A1) = P(A2)= . . . =P(An), entonces P(A1 ∪ A2 ∪ . . . ∪ Ak) = k/n.

El mismo resultado suele expresarse diciendo que, cuando hay n sucesosigualmente probables y mutuamente excluyentes, alguno de los cuales ocurrenecesariamente, entonces, si exactamente k de ellos son favorables a ciertoresultado, la probabilidad de este resultado es k/n, es decir, es igual al numerode casos favorables dividido por el numero de casos posibles.

La demostracion del Teorema 1.3.1 no ofrece dificultades especiales. Suprincipal interes se debe a sus aplicaciones. Estas corresponden al contextorelativamente limitado en que podemos identificar una particion de Ω en suce-sos equiprobables, y queremos determinar la probabilidad del suceso obtenidopor la union de algunos de ellos. A pesar de esta limitacion, hay una ampliavariedad de situaciones que pueden modelarse mediante un esquema en el queel Teorema 1.3.1 es aplicable, como lo sugieren los ejercicios siguientes.

Page 22: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1.3. La definicion clasica de la probabilidad. 11

Ejercicios

En cada uno de los enunciados que siguen se plantean situaciones para cuyasolucion es posible plantear un modelo para la aplicacion del Teorema 1.3.1.La validez de los resultados estara condicionada, por supuesto, a la validez delmodelo.

Ejercicio 1.3.1 Se distribuyen al azar N bolas numeradas de 1 a N , en N cajas,de modo que se coloca una bola en cada caja.

¿ Cual es la probabilidad de que en las cajas numeros 1 y 2 se coloquen las bolascon numeros 1 y 2 respectivamente, y que, en cambio, en la caja numero 4 no estela bola numero 4? (N ≥ 4).

Ejercicio 1.3.2 Se arrojan repetidamente dos dados perfectos y se observan lassumas sucesivas S1, S2, . . .

(a) Calcular la probabilidad de obtener el mismo resultado las tres primerasveces (es decir, S1 = S2 = S3).

(b) Calcular la probabilidad del suceso S1 < S2 < S3.

(c) Generalizar (a) y (b) al caso en que se consideran los N primeros resul-tados en vez de los tres primeros.

Ejercicio 1.3.3 Se eligen n dıgitos al azar. ¿ Cual es la probabilidad de que nohaya dos iguales?

Ejercicio 1.3.4 Si m bolas se colocan al azar en n cajas, ¿ cual es la probabilidadde que exactamente una caja quede vacıa?

Ejercicio 1.3.5 ¿ Cual es la probabilidad de que en un grupo de r personas elegi-das al azar, haya por lo menos dos que cumplan anos el mismo dıa?

Ejercicio 1.3.6 Se busca una determinada ficha de un mazo de n, que ha sidomezclado. Para encontrarla, se examinan las fichas una a una hasta que la fichabuscada aparece. ¿ Cual es la probabilidad de tener que examinar j fichas?

Ejercicio 1.3.7 Se corren seis carreras, en cada una de las cuales participan diezcaballos. Cada caballo tiene la misma probabilidad de ganar una carrera, que cual-quier otro de los que corren en ella. Se eligen al azar un caballo de cada carrera. ¿Cual es la probabilidad de elegir a los ganadores?

Page 23: Cabaña - Probabilidad y aplicaciones estadisticas

12Enrique M. Cabana.

Capıtulo 1: Probabilidad.

Ejercicio 1.3.8 En la ciudad circulan a billetes de una serie que llamaremos A,b de una serie B y c de una serie C. ¿ Cual es la probabilidad de que una personaque tiene cinco billetes, tenga algun billete de cada serie?

¿ Es posible responder la misma pregunta si en vez de conocer el numero debilletes de cada serie que circulan se conocen las proporciones α = a

a+b+c, β =

ba+b+c

, γ = ca+b+c

?

Ejercicio 1.3.9 En un examen se le entregan a un estudiante n preguntas y se leentregan de manera desordenada las n respuestas. Se le pide que ponga en corres-pondencia cada pregunta con su respuesta. ¿ Cual es la probabilidad de que aciertealguna, si contesta al azar? Se sugiere utilizar la formula establecida en el Ejercicio1.2.2.

N1.- Los comienzos del calculo de probabilida-

des.

Se suele establecer como comienzo del calculo de probabilidades, el intercam-bio de correspondencia entre Fermat y Pascal referente a juegos de azar. Nofueron ellos, sin embargo, los primeros en ocuparse en formalizar aspectos re-lativos a este tema, y entre sus predecesores se encuentran Fra Luca Pacioli(aproximadamente 1445 - 1517), Tartaglia (ap.1500 - 1557), Cardano (1501 -1576) (a quien se remonta el calculo de probabilidades mediante la ”definicionclasica”, §1.3) y Galileo Galilei (1564 - 1642).

Fermat, Pierre de (1601-1665).

Nacio en Beaumont de Lomages, Francia, el 17 de agosto de 1601. Aunque

era abogado y funcionario del gobierno, se le recuerda por sus contribuciones

a la matematica, especialmente a la teorıa de numeros. El llamado ”ultimo

Teorema de Fermat” que expresa que la ecuacion diofantica xn + yn = zn

no tiene raıces para n > 2, que manifesto haber demostrado en una nota

escrita al margen de un texto, pero cuya demostracion nunca se conocio, fue

un desafıo para quienes intentaron demostrarlo durante mas de trescientos

anos desde entonces. La demostracion recien se obtuvo en 1993 - 1995 como

resultado de la aplicacion de teorıas muy elaboradas, algunas de las cuales,

sin duda, deben su surgimiento al proposito de demostrar el ”Teorema de

Fermat”.

El y Blaise Pascal, en correspondencia intercambiada entre ambos, es-

tablecieron las bases del calculo de probabilidades, al resolver problemas

planteados por juegos de azar.

Page 24: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

1. N1.- Fermat, Pascal. 13

Pascal, Blaise (1623-1662).

Nacio en Clermont, Auvergne, Francia, el 19 de junio de 1623. Su padre, Etienne Pascal, le dio una

educacion poco ortodoxa, y, aunque pretendio mantenerlo alejado de la matematica durante sus primeros

anos de estudio, el redescubrio por sı mismo algunos resultados de la geometrıa.

Sus principales contribuciones las hizo en al campo de la hidrostatica, la hidrodinamica, y la geometrıa

proyectiva. Invento la pascalina, primera calculadora decimal mecanica.

Junto con Fermat, establecio las bases del calculo de probabilidades, resolviendo problemas planteados

por la practica de los juegos de azar.

Page 25: Cabaña - Probabilidad y aplicaciones estadisticas

14Enrique M. Cabana.

Capıtulo 1: Probabilidad.

Page 26: Cabaña - Probabilidad y aplicaciones estadisticas

2. Probabilidades condicionales.

2.1 Interpretacion intuitiva.

Vamos a retomar el modelo de 1.2.2. Consideremos un experimento con resultadosposibles A y B y supongamos que un jugador estima, con la informacion que poseea priori, que resulta equitativo pagar π(B) por obtener premio 1 cuando B ocurre.Demosle ahora al jugador la informacion adicional de que A ocurre. A la nuevacantidad que considera equitativo pagar para obtener premio 1 cuando ocurre B,luego de saber que A ocurre, la llamaremos π(B|A). Resulta razonable plantearse siesta informacion nueva lo induce a cambiar su apuesta, y en caso afirmativo, de quemanera. De otra modo: nos preguntamos si π(B|A) difiere de π(B).

Consideremos un ejemplo. Supongamos que en una caja se han guardado dos mo-nedas. Una de ellas tiene dos caras, y la otra dos cruces. Se retira una de ellas dela caja, sin que resulte mas verosımil que la moneda retirada sea una o la otra, y searroja sobre la mesa. Llamemos A al suceso que consiste en que sale cara. Luego sevuelve a arrojar, y se ofrece apostar a que en esta segunda oportunidad salga cruz,suceso que llamaremos B. A un jugador que ignore el resultado de la primera vez quese ha arrojado la moneda, le resulta equitativo pagar 0.5 por intervenir en el juego enque recibe premio 1 cuando ocurre B, ya que es igualmente plausible que la monedaextraıda sea la que tiene dos caras, o la que tiene dos cruces. Sin embargo, es claroque si sabe que A ha ocurrido, es porque la moneda que se extrajo es la que tiene doscaras, y entonces es seguro que no ocurrira B, lo que le lleva a pagar 0 por interveniren el juego.

Modifiquemos ahora nuestro ejemplo de la manera siguiente. Supongamos que unade las monedas ha sido trucada de modo que la probabilidad de que al arrojarla salgacara es p, o, lo que es lo mismo - y lo que precede es una manera abreviada de decirlo- dentro de nuestro modelo subjetivo, la composicion de lugar del jugador sobre esamoneda lo llevarıa a pagar p por intervenir en el juego en que recibe 1 si al arrojarla moneda sale cara. Consecuentemente, la probabilidad de que salga cruz es 1 − p.Supongamos asimismo que la otra moneda tiene una propiedad analoga, pero ahoraes 1 − p la probabilidad de que salga cara y p la de que salga cruz.

Si p es 1, se repite la situacion descrita arriba. Si en cambio p es 0.5, las dos monedasson equivalentes. Cualquiera que sea la elegida, la probabilidad de que en la segundainstancia en que se arroja salga cara es 0.5, de modo que conocer si A ocurre o no, no

15

Page 27: Cabaña - Probabilidad y aplicaciones estadisticas

16Enrique M. Cabana.

Capıtulo 2: Probabilidades condicionales

servira para modificar la composicion de lugar respecto del resultado de la segundainstancia, como antes.

Parece razonable que el efecto del parametro p sea continuo. En todos los casos,π(B) = 0.5, cualquiera sea p. Pero cuando p = 1, π(B|A) = 0, cuando p = 0.5,π(B|A) = 0.5, y cuando p = 0, π(B|A) = 0, por analogıa con el primer caso, ya quela situacion es similar. Es de esperar entonces que π(B|A) varıe continuamente conp recorriendo valores que van de 0 a 0.5 y nuevamente a 0, cuando p va de 1 a 0.5, ya 0. Mas adelante, una vez introducidos algunos elementos que facilitaran el calculo,propondremos como ejercicio encontrar π(B|A) en funcion de p.

Consideremos ahora una forma particular de apuesta, que llamaremos apuesta com-

binada: Se apuesta por un cierto resultado A, y, si este se produce, se invierte laganancia en apostar a otro resultado B. Cuando esto es ası, aun antes de jugar ysin saber si A ocurre o no, el jugador debe considerar, en el momento de preguntarsehasta cuanto esta dispuesto a pagar al apostar por B, que A ha ocurrido, dado quesolo en este caso tiene efecto su segunda apuesta.

λπ(A)

A?sı

no

λ

0

= π(B|A)

B?sı

no

1

0

=

π(A)π(B|A)

A ∩ B?sı

no

1

0

Vamos a analizar como puede decidir un jugador cuanto esta dispuesto a pagar paraintervenir en un juego en que apuesta por A e invierte su ganancia en apostar por B.Supongamos por anadidura que el premio en esta segunda instancia es 1.

Por una parte, dado que solo obtiene la ganancia 1 cuando ocurre A (para podercontinuar apostando) y tambien B (para ganar en la segunda apuesta), se deduceque estara dispuesto a pagar π(A ∩ B).

Por otra parte, al apostar por B con la informacion de que A ha ocurrido (tieneque haber ocurrido, pues de no ser ası no estarıa apostando), esta dispuesto a pagarπ(B|A). Esto es lo que debe obtener como ganancia de su primera apuesta. Dadoque pagarıa π(A) por obtener premio 1 si ocurre A, para multiplicar el premio porπ(B|A) multiplicara tambien su apuesta por el mismo coeficiente, de modo que laapuesta combinada sera π(A)π(B|A).

De los dos parrafos anteriores resulta que debe cumplirse

π(A ∩ B) = π(A)π(B|A).

Page 28: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

2.2. Definicion de la probabilidad condicional. 17

Observemos finalmente que las consideraciones anteriores conducen a una formaliza-cion del concepto de independencia, hasta ahora manejado de manera informal. Enefecto, si la informacion sobre la ocurrencia de A no cambia la confianza en la ocur-rencia de B, diremos que B es independiente de A. Con las notaciones que estamosutilizando, B es independiente de A cuando π(B|A) = π(B). La probabilidad condi-

cional y la independencia de sucesos se introducen formalmente en las definicionesque siguen.

2.2 Definicion de la probabilidad condicional.

Definicion 2.2.1 Dado un espacio de probabilidad (Ω,A,P), y un suceso Atal que P(A) > 0, se define la funcion P(·|A) : A → R+ de la siguiente

manera:

P(B|A) = P(A ∩ B)/P(A).

Dicha funcion se llama probabilidad condicional dado A.

Ejercicios.

Ejercicio 2.2.1 (i) Verificar que (Ω,A,P(·|A)) es un nuevo espacio de probabili-dad. (Se supondra P(A) > 0).

(ii) Verificar que AA = A ∩ B : B ∈ A es una σ-algebra de subconjuntos deA, y que la restriccion de P(·|A) a AA es tambien una probabilidad.

Ejercicio 2.2.2 Probar la siguiente regla de multiplicacion de probabilida-

des. (Se supondra en lo que sigue que las probabilidades condicionales estan defini-das, es decir, los sucesos condicionantes tienen probabilidad positiva.)

(p6) P(A1 ∩ A2) = P(A1) P(A2|A1)

(p′6) P(A1 ∩ A2 ∩ . . . ∩ An) =

P(A1)P(A2|A1)P(A3|A1 ∩ A2) . . .P(An|A1 ∩ A2 ∩ . . . ∩ An−1)

Ejercicio 2.2.3 Verificar

(i) P(A|B ∩ C)P(B|C) = P(B|A ∩ C)P(A|C)

(ii) Si A ⊂ B ⊂ C ⊂ D, entonces P(A|D) ≤ P(B|C).

Page 29: Cabaña - Probabilidad y aplicaciones estadisticas

18Enrique M. Cabana.

Capıtulo 2: Probabilidades condicionales

Ejercicio 2.2.4 Se elige una de dos monedas, con iguales probabilidades 0.5, 0.5para cada una de ellas. Una de las monedas, al ser arrojada, resulta en cara conprobabilidad p y en cruz con probabilidad 1 − p. El resultado de arrojar la otra escruz con probabilidad p y cara con probabilidad 1−p. Se arroja dos veces la monedaelegida, con independencia entre los resultados de una y otra instancia. A y B son,respectivamente, los sucesos que consisten en que la primera vez el resultado es cara,y en que la segunda vez es cruz. Calcular la probabilidad de B dado A en funcionde p.

2.3 Independencia.

Definicion 2.3.1 Se dice que los sucesos A, B son independientes, cuando

P(A ∩ B) = P(A)P(B).

De acuerdo a los comentarios previos a la Definicion 2.3.1, corresponderıa definir demanera asimetrica

A independiente de B cuando P(A|B) = P(A),

y, analogamente

B independiente de A cuando P(B|A) = P(B),

Sin embargo, estas dos definiciones son casi equivalentes a la Definicion 2.3.1 (Paraverificarlo basta recurrir a la definicion de probabilidad condicional). La Definicion2.3.1 es mas general, porque tiene sentido aun cuando A y/o B tienen probabilidadcero.

Definicion 2.3.2 Se dice que el conjunto A1, A2, . . . , An es un conjunto

independiente de sucesos, cuando P(⋂

j∈J Aj) =∏

j∈J P(Aj) para cualquier

subconjunto de ındices J ∈ 1, 2, . . . , n.

Para referirse a un conjunto independiente de sucesos, es habitual decirque los sucesos son independientes. Esta forma de expresion puede prestarse aconfusion, pero no la evitaremos en lo que sigue, en la medida que el contextoindique que es lo que se quiere expresar.

Ejercicios.

Ejercicio 2.3.1 Mostrar por medio de un ejemplo que A,B, B, C, A,Cpueden ser conjuntos independientes, sin que A,B, C lo sea necesariamente.

Page 30: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

2.3. Independencia. 19

Ejercicio 2.3.2 Se lanzan tres dados simultaneamente. Calcular:

(a) la probabilidad de obtener un 6, dado que no hay dos resultados iguales.

Se lanza ahora un dado n veces, sucesiva e independientemente. Calcular lasprobabilidades de los siguientes sucesos:

(b) obtener al menos dos 5, dado que ocurrio al menos un 5 en los n lanza-mientos.

(c) idem, dado que ocurrio al menos un 5 en los primeros m lanzamientos.

Ejercicio 2.3.3 Se lanza una moneda sucesiva e independientemente. La proba-bilidad de que ocurra cara en un lanzamiento es p, y la de que ocurra cruz es 1− p.¿Cual es la probabilidad de que ocurran cuatro caras antes que cinco cruces?

Ejercicio 2.3.4 Probar que si P(A|B) > P(A), entonces P(B|A) > P(B).

Ejercicio 2.3.5 Se distribuyen al azar k bolas (numeradas de 1 a k ) en 2k cajas(numeradas de 1 a 2k ), de modo que cada caja contiene a lo sumo una bola. Calcularlas siguientes probabilidades:

(a) la caja #1 resulte ocupada;

(b) la bola #2 resulte colocada en la caja #2 dado que la caja #1 resultodesocupada;

(c) la bola #2 resulte colocada en la caja #2 dado que la caja #1 resultoocupada por la bola #1.

Ejercicio 2.3.6 Mostrar que los dos experimentos siguientes son equivalentes:

(1) De un mazo de n cartas se extrae una carta de modo que la probabili-dad de cualquiera de las cartas del mazo es la misma. Luego se extraeuna segunda carta de modo que la probabilidad de cualquiera de lasrestantes cartas es la misma. Luego una tercera en las mismas condi-ciones, y ası sucesivamente hasta haber extraıdo m cartas. El resultadodel experimento es el conjunto desordenado de las m cartas extraidas.

(2) Se extraen al azar m cartas del mazo, de modo que cualquiera de las(nm

)

combinaciones posibles tenga la misma probabilidad.

Ejercicio 2.3.7 Se eligen dos enteros no negativos T1, T2, independientemente, demodo que P(T1 = n) = P(T2 = n) = p(1 − p)n (n = 0, 1, 2, . . .). Probar que paracualquier n0 y n = 0, 1, .. . . . , n0, se cumple PT1 = n|T1 + T2 = n0 = 1/(n0 + 1).

Page 31: Cabaña - Probabilidad y aplicaciones estadisticas

20Enrique M. Cabana.

Capıtulo 2: Probabilidades condicionales

Ejercicio 2.3.8 Se arroja sucesivamente una moneda y se describen los resultadospor medio de los numeros U1, U2, U3, . . .. Cuando en la n−esima replicacion elresultado es cara, ponemos Un = 1, y en caso contrario, Un = 0. Suponemos queen cada oportunidad, la probabilidad de obtener cara es 1/2, y que las sucesivasreplicaciones son independientes.

Llamemos X al numero cuya expresion en el sistema de numeracion binariaes 0.U1U2U3 . . . Un . . . o bien, de manera equivalente, X =

n=1 2−nUn. CalcularP(X ≥ 1/2), P(X = 0), P(X = 1), P(j2−n ≤ X ≤ k2−n), (j ≤ k ≤ 2n).

Nota: Cada uno de los resultados que especifican exclusivamente los valoresde U1, . . . , Un para un valor fijo de n, corresponden a sucesos en la σ-algebragenerada por Ui = 1i=1,...,n, que no es otra que el algebra formada porlas uniones de sucesos elegidos entre los 2n sucesos elementales de la formaUi = ui : i = 1, 2, . . . , n con ui = 0 o 1.

Esto no basta para incluir resultados del tipo de X = 1 = Ui = 1 :i = 1, 2, . . ., por ejemplo, que involucran a todos los Ui. Para incluirlospuede considerarse, para cada n, el algebra An de todas las uniones finitasde Ui = ui : i = 1, 2, . . . , n con ui = 0 o 1, en la que la probabilidad decada resultado elemental es PUi = ui : i = 1, 2, . . . , n =

∏ni=1 PUi = ui, y

extender la probabilidad a la mınima σ-algebra que contiene todas las An (n= 1, 2, . . .). El Teorema 3.2.1 indica que la extension es posible y unica.

2.4 Una interpretacion objetiva para la pro-

babilidad condicional.

Podemos ahora reinterpretar la probabilidad condicional, a partir de la con-sideracion de una sucesion de repeticiones independientes de un experimento.Supongamos un experimento en el que pueden obtenerse resultados A, B, quepuede repetirse indefinidamente, de manera independiente. Repitamos el ex-perimento hasta que ocurra A por primera vez. En esa oportunidad nos fijamossi ocurrio B y en tal caso decimos que ocurrio el suceso “B|A ”. Tenemos asıuna descripcion explıcita de la ocurrencia de B condicionada a que se sabe queocurre A.

Si llamamos abreviadamente A∗

n =“A ocurre por primera vez en la n-esimarepeticion”, y Bn =“B ocurre en la n-esima repeticion”, entonces “B|A” =⋃

n=1 A∗

n ∩ Bn, y la union es disjunta pues lo son los A∗

n.

Por la independencia de las repeticiones, el suceso Cn que consiste en queA no ocurre en ninguna de las primeras n − 1 repeticiones tiene probabilidad

Page 32: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

2.5. El Teorema de Bayes. 21

(1 − P(A))n−1. El suceso Dn que consiste en que A y B ocurren en la n-esima repeticion tiene probabilidad P(A ∩ B). El suceso A∗

n ∩ Bn coincidecon Cn ∩ Dn pero estos ultimos son independientes, de modo que se cumpleP(A∗

n ∩ Bn) = P(A ∩ B)(1 − P(A))n−1.De aquı resulta

P(“B|A”) =∞∑

n=1

P(A∗

n ∩Bn) = P(A∩B)∞∑

n=1

(1−P(A))n−1 = P(A∩B)/P(A),

como era de esperar.

2.5 El Teorema de Bayes.

Teorema 2.5.1 (de Bayes) Supongamos dada una particion de Ω en sucesos

B1, B2, . . ., Bn, de probabilidades conocidas, y supongamos que tambien se

conocen las probabilidades condicionales de un suceso A dados cada uno de los

sucesos de la particion. Entonces, la probabilidad condicional de cada uno de

los Bj dado A se calcula mediante la formula

P(Bj|A) =P(Bj)P(A|Bj)

∑nh=1 P(Bh)P(A|Bh)

.

Demostracion. Por la definicion de probabilidad condicional, podemos es-cribir P(Bj|A) = P(Bj ∩A)/P(A), y P(Bj ∩A) = P(Bj)P(A|Bj). Basta en-tonces verificar que P(A) =

∑nh=1 P(Bh)P(A|Bh), y esto es debido a que A se

puede descomponer como union disjunta de los sucesos Bj ∩A(j = 1, 2, . . . , n),de modo que P(A) =

∑nh=1 P(Bj ∩ A).

Ejercicios.

Ejercicio 2.5.1 De un estudio clınico se han concluido los siguientes resultados:La probabilidad de que una persona extraıda al azar de la poblacion tenga ciertaafeccion cardıaca es 0.002; dado que padece esa afeccion, la probabilidad de quefume es 0.40, y dado que no la padece, la probabilidad de que fume es 0.10. ¿Cuales la probabilidad de que un fumador padezca la mencionada afeccion cardıaca?

Ejercicio 2.5.2 Repetir el ejercicio anterior con los datos ligeramente modificados:La probabilidad de que una persona extraıda al azar de la poblacion tenga ciertaafeccion cardıaca es 0.002; la probabilidad de que fume es 0.10; la probabilidad deque fume dado que padece la enfermedad es 0.40.

Page 33: Cabaña - Probabilidad y aplicaciones estadisticas

22Enrique M. Cabana.

Capıtulo 2: Probabilidades condicionales

Ejercicio 2.5.3 Los aspirantes a ocupar cierto empleo se clasifican en dos cate-gorıas, A y B, de acuerdo a la capacidad demostrada durante un primer mes detrabajo a prueba. La experiencia muestra que puede suponerse que la probabilidadde que un aspirante que termina por ser clasificado A provenga de cierto institutode formacion es 0.35, que la probabilidad de que un aspirante -no importa su califi-cacion- provenga de ese instituto es 0.05, y que la probabilidad de que un aspirante-no importa de donde venga- sea calificado A, es 0.25 (esto a veces se formula expre-sando que el 35% de los clasificados A y el 5% del total de los aspirantes provienendel mencionado instituto, y que el 25% de los aspirantes son clasificados A). Apartir de estos datos, ¿Cual es la probabilidad de que un aspirante proveniente delinstituto en cuestion sea clasificado A?

2.6 Dos ejemplos de aplicacion estadıstica del

Teorema de Bayes.

Vamos a considerar situaciones en la que el Teorema de Bayes nos ayudaraa adoptar una decision, basada en la informacion proporcionada por un ex-perimento. Esto justifica de por sı el tıtulo aplicacion estadıstica ya que laestadıstica matematica tiene por objeto, precisamente, la aplicacion de mode-los probabilısticos a la toma de decisiones en base a informacion empırica.

Ejemplo 2.6.1 Supondremos que cierto mecanismo posee una pieza que essometida a un intenso esfuerzo cada vez que se acciona, de modo que debe serreemplazada con frecuencia. Cada repuesto es utilizable H veces, con PH = h= qh−1(1 − q), h = 1, 2, . . .. En un deposito hay 100 cajas de 150 repuestos cadauna. Las duraciones de estas piezas son independientes con la distribucion indicada.De las 100 cajas, 30 fueron elaboradas con un procedimiento “A” que produce unvalor de q = 0.95, mientras que las restantes 70 se prepararon mediante un procedi-miento “B” y tienen q = 0.8. Sin embargo, ni las cajas ni las piezas que contienenposeen indicios que permitan saber cual fue el procedimiento de elaboracion, y porconsiguiente cuanto vale q.

Si extraemos una caja al azar, la probabilidad de que q valga 0.95 es 30/100 = 0.3. Siestuvieramos obligados a responder cuanto vale q, deberıamos decir que vale 0.8, paraminimizar la probabilidad de equivocarnos, que serıa 0.3, ya que si respondieramos0.95 errarıamos con probabilidad 0.7.

¿Que deberıamos responder a la misma pregunta, una vez abierta la caja, y utilizados10 de los repuestos, cuyas duraciones resultan ser H1 = h1, H2 = h2, . . ., H10 = h10?

Nuevamente, para minimizar la probabilidad de error, elegiremos la respuesta masprobable, pero ahora es la probabilidad condicional dadas H1 = h1, . . ., H10 = h10,la que resulta relevante. Con s = h1 + . . . +h10,

Pq = 0.95|Hi = hi, i = 1, . . . , 10 =0.3(0.95)s−10(0.05)10

0.3(0.95)s−10(0.05)10 + 0.7(0.8)s−10(0.2)10

Page 34: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

2.6. El Teorema de Bayes. 23

y esta expresion varıa con s como lo indica la Figura 2.1. Esa misma figura muestraque para s ≥ 113 se puede responder q = 0.95 con confianza de que se errara la res-puesta con probabilidad inferior a 5%, y si s ≤ 78, en cambio, al responder q = 0.8 laprobabilidad de errar es tambien inferior a 5%. En ambos casos se trata de probabi-lidades a posteriori, como suele denominarse a las probabilidades condicionales dadala informacion relativa a los diez primeros repuestos utilizados. Se observara que soloresulta relevante en los resultados, la suma de las duraciones de los repuestos, y nocada una de las duraciones individuales.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

70 75 80 85 90 95 100 105 110 115 120

Figura 2.1: Probabilidad a posteriori del suceso q = .95 del Ejemplo 2.6.1, enfuncion de la suma s de las duraciones de los primeros diez repuestos utilizados.

Ejemplo 2.6.2 Un medico es consultado por un paciente y encuentra que estepresenta ciertos sıntomas. El conocimiento general de medicina que posee el medicole permite saber

(a) que esos sıntomas solo aparecen eventualmente en pacientes que hayan contraidoalguna de las enfermedades E1, E2 y E3,

(b) que la incidencia de esas enfermedades en la poblacion formada por los pacientesque concurren a la clınica es de, respectivamente, 1%, 0.5% y 0.1%, y que laeventualidad de que un paciente padezca a la vez dos de esas enfermedades esdescartable, y

(c) que la probabilidad de que un enfermo de Ei presente los mencionados sıntomases pi, donde p1 = .7, p2 = .4, p3 = 1.

Page 35: Cabaña - Probabilidad y aplicaciones estadisticas

24Enrique M. Cabana.

Capıtulo 2: Probabilidades condicionales

Con esa informacion, ¿en cuanto estima el medico la probabilidad de que el pacienteen observacion este enfermo de E1?

El medico ya sabe que la probabilidad de que el paciente este aquejado de E1 es2%, desde el momento que llega a ser atendido. Lo que debemos respondernos escomo cambia su composicion de lugar la informacion resultante de su examen, quele dice que el paciente posee los sıntomas en cuestion. En otras palabras, cual es laprobabilidad condicional de que el paciente este enfermo de E1 dado que posee lossıntomas.

La respuesta es el cociente entre la probabilidad de que posea los sıntomas y esteenfermo de E1, y la probabilidad de que posea los sıntomas, es decir,

0.01 × 0.7

0.01 × 0.7 + 0.005 × 0.4 + 0.001= 0.7.

De la misma manera, el medico puede calcular las probabilidades a posteriori de queel paciente padezca E2 (0.2) o E3 (0.1), y estos resultados facilitaran su decisionrespecto de que aconsejarle, o que informacion adicional procurar, mediante nuevosexamenes, por ejemplo, o mediante la observacion de las reacciones del paciente acierta medicacion.

Page 36: Cabaña - Probabilidad y aplicaciones estadisticas

3. Variables aleatorias.

3.1 Introduccion.

Vamos a considerar funciones que a cada uno de los estados posibles de la naturaleza

hacen corresponder un punto de un conjunto dado E, es decir, funciones de Ω enE. Se utilizan habitualmente para describir alguna caracterıstica de interes, repre-sentable por un un punto de E. Por ejemplo, si al arrojar un dado nos interesadescribir que cara quedo hacia arriba, podemos hacerlo con una funcion con valoresen 1, 2, 3, 4, 5, 6 o en R, que vale 1, 2, . . . , 6 segun el caso. Una descripcion completade la naturaleza se obtiene, por ejemplo, con E = Ω, y la funcion identidad.

Recordemos que hemos dado a Ω una estructura de espacio probabilizable dotan-dolo de una σ-algebra de subconjuntos A . Convendremos en dar tambien a E unaestructura de espacio probabilizable, con una σ-algebra S, y las descripciones de lanaturaleza que haremos por medio de la funcion X : Ω → E, seran las que especificanque X toma valores en S, para algun S en S. Vamos a exigir que, cualquiera sea Sen S, los acontecimientos ω : X(ω) ∈ S sean sucesos, es decir, sean elementos deA. A las funciones de Ω en E que cumplen esta propiedad las llamaremos variables

aleatorias.

Definicion 3.1.1 Dado un espacio probabilizable (Ω,A) se llama variablealeatoria en (E,S) a una funcion X : Ω → E tal que la preimagen de todoconjunto S de S es un suceso.

Para indicar que X es una variable aleatoria de (Ω,A) en (E,S), puedeescribirse X : (Ω,A) → (E,S).

En particular, cuando E sea R y no se indique lo contrario, se convendraen tomar como σ-algebra S, la de Borel, descrita en el Ejercicio 1.1.8, cuyadefinicion se indica a continuacion.

Definicion 3.1.2 Llamamos σ-algebra de Borel de R a la mınima σ-algebraque contiene los intervalos.

25

Page 37: Cabaña - Probabilidad y aplicaciones estadisticas

26Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

Nota 1. Cuando se haga referencia a una variable aleatoria real, se so-breentendera que es una variable aleatoria en (R,B) donde B es la σ-algebrade Borel de R.

Nota 2. A las variables aleatorias del espacio probabilizable (Ω,A) enel espacio probabilizable (E,S), se las llama tambien funciones medibles de(Ω,A) en (E,S), particularmente cuando el contexto en el que se las utilizano es el de la teorıa de las probabilidades.

Ejercicio 3.1.1 Observar que la definicion de variable aleatoria X : (Ω,A) →(E,S) es tanto mas exigente cuanto mas rica es S, mientras que, cuando S es muyreducida, la definicion es poco exigente. En el caso extremo S = ∅, Ω, cualquierfuncion de Ω en E es una variable aleatoria, no impoorta cual sea la σ-algebra A.

Observar tambien que ocurre un fenomeno inverso con A: ¿Puede elegirse Ade manera que cualquier funcion de Ω en E sea una variable aleatoria? ¿Puedeelegirse A de manera que ninguna funcion de Ω en E sea una variable aleatoria? Sila respuesta es afirmativa, indicar como se elige A, y si es negativa, describir cual esel caso extremo.

Ejercicio 3.1.2 (i) Dada una funcion X : Ω → E, mostrar que la familia SX =S ⊂ E : X−1(S) ∈ A (subconjuntos de E cuya preimagen es un suceso), esuna σ-algebra.

(ii) Verificar que X es una variable aleatoria en (E,SX).

(iii) Mostrar que es equivalente que X : (Ω,A) → (E,S) sea una variable aleatoria,a que S este incluido en SX .

(iv) Mostrar que la familia AX = X−1(S) : S ∈ S es una σ-algebra, y que X esuna variable aleatoria de (Ω,AX) en (E,S).

(v) Mostrar que es equivalente que X : (Ω,A) → (E,S) sea una variable aleatoriaa que AX este incluida en A.

A la familia AX se la llama σ-algebra generada por X. De acuerdo a suconstruccion, es la mınima σ-algebra respecto de la cual X es medible.

Ejercicio 3.1.3 Mostrar que si X : (Ω,A) → (E,S) es una variable aleatoria,entonces, cualquiera sea la funcion medible g : (E,S) → (E,S), g X : (Ω,A) →(E,S) es una variable aleatoria.

Lema 3.1.1 Una funcion X : Ω → R es una variable aleatoria (en (R,B)) siy solo si para todo par de numeros reales a, b, el conjunto ω : a ≤ X(ω) ≤ bes un suceso.

Page 38: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.1. Introduccion. 27

Demostracion. Cuando X : (Ω,A) → (R,B) es una variable aleatoria, ω :a ≤ X(ω) ≤ b ∈ A, porque [a, b] es un conjunto de Borel. Recıprocamente,ω : a ≤ X(ω) ≤ b ∈ A implica [a, b] ∈ SX , de modo que la mınima σ-algebraB que contiene a [a, b] : a, b ∈ R, esta en SX y se aplica la proposicion (iii)del Ejercicio 3.1.2.

Definicion 3.1.3 Dada una variable aleatoria X : (Ω,A)→ (E,S), la funcionPX : S → R definida por medio de PX(S) = P(X−1(S)) = P(ω : X(ω) ∈ S)se llama distribucion de probabilidad de la variable aleatoria X.

Teorema 3.1.1 La terna (E,S,PX) es un nuevo espacio de probabilidad.

Demostracion. Para demostrar el Teorema hay que verificar que PX cumplelas propiedades (p1) y (p2) de la Definicion 1.2.1.

La primera es consecuencia de X−1(R) = Ω, y la segunda, de que paracada sucesion de conjuntos disjuntos (Sn)n=1,2,... en S, se cumple

PX

(

∞⋃

n=1

Sn

)

= P

(

X−1

(

∞⋃

n=1

Sn

))

= P

(

∞⋃

n=1

X−1(Sn)

)

=∞∑

n=1

P(X−1(Sn)).

Definicion 3.1.4 Se llama funcion de distribucion de probabilidad de unavariable aleatoria real X a la funcion FX : R → R+ definida por FX(x)= PX((−∞, x]) = P(X−1((−∞, x]) = P(ω : X(ω) ≤ x).

Notacion. En lo sucesivo, denotaremos un suceso de la forma

ω : X(ω) cumple la propiedad “P”,

en la forma abreviada

X cumple la propiedad “P”.

Para recordar el origen de la abreviatura, mantendremos las llaves ,pero eliminaremos en cambio la mencion explıcita del punto generico ω de Ω.

En particular, escribiremos X ≤ x en lugar de ω : X(ω) ≤ x, yaligeraremos algo mas las notaciones, escribiendo PX cumple “P” en vez deP(X cumple “P”).

Teorema 3.1.2 La funcion de distribucion de probabilidad FX de una variablealeatoria real X, satisface las propiedades:

Page 39: Cabaña - Probabilidad y aplicaciones estadisticas

28Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

(d1) FX es no decreciente,

(d2) FX es continua por la derecha,

(d3) FX(−∞)(= limx→−∞ F (x)) = 0, FX(+∞)(= limx→+∞ F (x)) = 1.

Demostracion. Si x < y, entonces FX(x) = PX ≤ x ≤ PX ≤ x +Px < X ≤ y = PX ≤ y = FX(y), y esto prueba (d1). Para demostrar(d2), nos damos una sucesion decreciente xn → x, y aplicamos el Teorema 1.2.1a la sucesion decreciente de conjuntos de Borel (−∞, xn] y a la probabilidad PX

. Obtenemos limn→∞ FX(xn) = limn→∞ PX((−∞, xn]) = PX(⋃∞

n=1(−∞, xn])= PX((−∞, x]) = FX(x). La demostracion de (d3) es similar.

Observacion. A partir de la funcion de distribucion de X se calcula laprobabilidad de que X pertenezca a un intervalo semiabierto (a, b] en la forma

Pa < X ≤ b = FX(b) − FX(a),

como resulta del calculo realizado para la demostracion de (d1).

Ejercicios.

Ejercicio 3.1.4 Verificar que, si FX es la funcion de distribucion de X, se cumplen

(i) Pa < X ≤ b = FX(b) − FX(a),

(ii) PX = x = FX(x) − FX(x−),

(iii) Pa ≤ X ≤ b = FX(b) − FX(a−), Pa < X < b = FX(b−) − FX(a),Pa ≤ X < b = FX(b−) − FX(a−).

Ejercicio 3.1.5 Mostrar que, si X ≤ Y , entonces FX ≥ FY .

3.2 Dos teoremas de existencia.

Enunciamos a continuacion dos teoremas cuyas demostraciones, que puedenser salteadas en una primera lectura, incluimos en §13.1.

Teorema 3.2.1 Teorema de extension de probabilidades de Kolmogorov.Dada una funcion p en un algebra A0 de subconjuntos de Ω con las propiedades

Page 40: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3. N2.- Kolmogorov. 29

• p(Ω) = 1,

• para cualquier sucesion A1, A2, . . . , An, . . . de conjuntos disjuntos en A0

cuya union tambien esta en A0, se cumple p(⋃∞

n=1 An) =∑∞

n=1 p(An),

existe una unica probabilidad P en la mınima σ-algebra que contiene al algebradada, cuya restriccion al algebra es p, definida por

P (A) = inf

∞∑

j=1

p(Aj) : (Aj)j∈N cubrimiento disjunto de A en A0

. (3.1)

Un cubrimiento disjunto de A en A0 es cualquier sucesion disjunta (Aj)j∈Nde conjuntos contenidos en A0, cuya union contiene a A.

El teorema precedente permite concluir un recıproco del Teorema 3.1.2,que expresa lo siguiente:

Teorema 3.2.2 Si F : R → R satisface las propiedades (d1), (d2) y (d3) delenunciado 3.1.2, entonces existe una probabilidad P(F ) en (R,B) tal que

F (x) = P(F )((−∞, x]).

Corolario 3.2.2.1 En las condiciones del Teorema 3.2.2, existe una variablealeatoria XF cuya funcion de distribucion es F .

Demostracion del corolario: La construccion de una XF es inmediata apartir del Teorema 3.2.1 pues basta tomar como espacio de probabilidad (R,B, P(F )) y como variable aleatoria XF : R → R a la identidad. De esta manerasu funcion de distribucion en x es P(F )XF ≤ x = P(F )((−∞, x]) = F (x).

N2.- Kolmogorov, A. N. (1903-1987).

Andrei Nicolaievich Kolmogorov fue uno de los matematicos mas creativosdel siglo pasado, con aportes en muy diversas ramas de la matematica.Nacio en Tambov (Rusia) en 1903 y murio en Moscu en 1987.

En un artıculo publicado en 1933 realizo una construccion rigurosa de la teorıa de la probabilidad. Antesya habıa obtenido condiciones necesarias y suficientes para la Ley de los Grandes Numeros, y publicado las

Page 41: Cabaña - Probabilidad y aplicaciones estadisticas

30Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

bases de la teorıa moderna de los procesos de Markov. En trabajos posteriores enfatizo el papel de laprobabilidad en el analisis de muchos fenomenos fısicos, realizo aportes al estudio de la turbulencia, y a lossistemas dinamicos en vinculacion con el movimiento de los planetas. Otra de sus contribuciones mayoresfue la introduccion de la medida de complejidad de algoritmos que lleva su nombre. Una lista detallada delos temas de la matematica a los que realizo aportes originales, dejarıa muy pocos sin mencionar.

En muchos casos, sus trabajos senalaron profundas vinculaciones entre temas que solıan estudiarseseparadamente. Otros de sus aportes fundamentales a la probabilidad y a la estadıstica matematica, ademasde su trabajo pionero de fundamentacion de la probabilidad, fueron sus estudios de la dependencia y suscontribuciones a la teorıa de los procesos estocasticos. Su celebrada prueba de ajuste basada en la utilizacionde una distancia entre la distribucion empırica y la distribucion hipotetica, data de 1937.

Ademas de su actividad como investigador, por la que fue designado integrante de la Academia deCiencias de Moscu, y por la que recibio el Premio Lenin, dedico muchos esfuerzos al mejoramiento de laensenanza de la matematica en los colegios secundarios, y a la formacion en matematica de los estudiantesmas destacados.

3.3 Variables discretas y absolutamente con-

tinuas.

Definicion 3.3.1 (i) Una variable aleatoria se dice discreta cuando surecorrido es un conjunto discreto S, es decir, un conjunto de puntosde R cuya interseccion con cualquier intervalo contiene una cantidadfinita de elementos. A la funcion que a cada punto x de S le asocia laprobabilidad PX = x, se la suele llamar funcion de cuantıa de ladistribucion de probabilidad.

(ii) Una variable se dice absolutamente continua cuando su funcion dedistribucion tiene derivada seccionalmente continua, y, por lo tanto, lafuncion de distribucion puede escribirse como integral de su derivada. Ala derivada de la funcion de distribucion se la llama funcion de densi-dad de la distribucion de probabilidad.

Observemos que cuando el recorrido de una variable aleatoria discreta X esel conjunto S = xi : i = 1, 2, . . ., entonces las probabilidades pi = PX = xibastan para determinar la distribucion de probabilidades de X, y, en particular,la funcion de distribucion FX(x) =

xi≤x pi. La funcion de distribucion resultaser una funcion de saltos o en escalera.

Para el caso de una variable absolutamente continua, si la densidad dedistribucion de probabilidad es fX , entonces

FX(x) =∫ x

−∞fX(t)dt, Pa < X ≤ b =

∫ b

afX(t)dt.

Como FX resulta continua, para cualquier x se cumple PX = x = 0, demodo que los intervalos (a, b], [a, b], [a, b), [a, b] tienen la misma probabilidad.

Page 42: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.3. Variables discretas y absolutamente continuas. 31

1

0xnxn−1xix3x2x1

p1

p2

p3

pi

pn−1

pn

Figura 3.1: La funcion de distribucion de probabilidades de una variable Xdiscreta es una funcion en escalera con salto en cada punto xi del recorridoigual a la cuantıa pi = PX = xi. El esquema de la figura corresponde a unavariable con recorrido finito.

Obviamente, toda densidad de distribucion de probabilidades debe ser nonegativa y satisfacer

∫ ∞

−∞fX(t)dt = 1.

Recıprocamente, si f satisface esas condiciones, es claro que

F (x) =∫ x

−∞fX(t)dt

satisface (d1), (d2) y (d3), y por consiguiente f es una funcion de densidad deprobabilidad.

Analogamente, toda funcion de cuantıa p : S → R debe ser no negativa ysatisfacer

x∈S

p(x) = 1,

y, recıprocamente, toda funcion con esas propiedades define una distribucionde probabilidades que a cada A asocia

x∈S∩A p(x), de la cual es funcion decuantıa.

Page 43: Cabaña - Probabilidad y aplicaciones estadisticas

32Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

a b

fX

Figura 3.2: Para una distribucion absolutamente continua, el area bajo elgrafico de la funcion de densidad de distribucion en un intervalo representa laprobabilidad de que la variable este en ese intervalo.

Ejercicios.

Ejercicio 3.3.1 Se arroja una moneda hasta que salga cara por primera vez. Lla-mamos X al numero necesario de lanzamientos. Calcular: (a) PX = par, (b)PX ≥ 5, (c) PX = multiplo de 3

Ejercicio 3.3.2 Encontrar la distribucion de la variable aleatoria X del enunciadoprecedente.

Ejercicio 3.3.3 Se dice que X tiene distribucion geometrica (y se abrevia X ∼Geo(p)) cuando PX = h = (1 − p)hp (h = 0, 1, 2, . . .).

(a) Calcular PX ≥ h,

(b) Si Y es el mınimo entre X y M , calcular PY = h.

(c) Calcular PX − Y = par.

Ejercicio 3.3.4 Se eligen al azar e independientemente cuatro puntos X1, X2, X3,X4 en una circunferencia. Calcular la probabilidad de que la cuerda que une X1 conX2 y la que une X3 con X4 se corten.

Ejercicio 3.3.5 Se realizan n repeticiones independientes de un experimento. Encada una de ellas, la probabilidad de que ocurra un cierto resultado A es p. Calcularla probabilidad de que al cabo de las n repeticiones, el numero de veces que ocurreA sea h, para cada h = 0, 1, 2, . . . , n.

Page 44: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.4. Algunos ejemplos de variables aleatorias. 33

Ejercicio 3.3.6 Llamemos X a la duracion de un componente electronico, y su-pongamos que X se puede representar como una variable aleatoria continua condensidad exponencial: f(x) = λe−λx, x ≥ 0. Mostrar que pj = Pj ≤ X < j + 1 esde la forma (1 − a)aj . Determinar a.

Ejercicio 3.3.7 X tiene densidad constante en [0, 1] y cero, fuera de ese intervalo.

(i) Hallar la distribucion de probabilidad de la n-esima cifra decimal de X.

(ii) Hallar la distribucion de la n-esima cifra del desarrollo binario de X.Comparar con los resultados del Ejercicio 2.3.8.

Ejercicio 3.3.8 X tiene distribucion absolutamente continua FX y se define unanueva variable aleatoria Y por medio de Y = g(X), donde g es una funcion deri-vable, estrictamente creciente. Calcular las funciones de distribucion y de densidadde probabilidad de Y . Repetir el calculo para el caso en que g es estrictamentedecreciente.

Ejercicio 3.3.9 Si X tiene funcion de distribucion F en (R,B), encontrar la fun-cion de distribucion de F (X).

3.4 Algunos ejemplos de variables aleatorias.

Vamos a describir expresamente las distribuciones de algunas variables alea-torias de frecuente aplicacion, que ya han intervenido en ejercicios propuestosmas arriba.

3.4.1 Variables asociadas a ensayos repetidos.

Distribucion de Bernoulli

Convengamos en describir la ocurrencia de un suceso A mediante su funcionindicatriz

1A(ω) =

1 si ω ∈ A,0 si ω ∈ A.

1A es una variable aleatoria, con valores posibles 0 y 1, y su distribucion deprobabilidades es discreta, con probabilidades 1 − P(A) y P(A) concentradasen 0 y 1 respectivamente. A esta distribucion se la denomina de Bernoulli, deparametro P(A), y abreviaremos 1A ∼ Ber(P(A)).

Page 45: Cabaña - Probabilidad y aplicaciones estadisticas

34Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

Distribucion binomial

Consideremos un experimento aleatorio que se repite sucesivamente con inde-pendencia de las repeticiones anteriores. Llamemos A a uno de sus resultadosposibles, y p a la probabilidad de que ocurra A. Llamamos Xn a la variable ale-atoria (de Bernoulli) indicatriz del suceso “A ocurre en la n-esima repeticion”,es decir, Xn vale 1 si A ocurre en la n-esima repeticion, y vale 0 si no ocurre.

Llamamos binomial con parametros n, p (abreviado Bin(n, p)) a la variableB =

∑nj=1 Xj, o a cualquiera que tenga su misma distribucion de probabilida-

des. Se trata obviamente de una variable discreta, pues sus valores posiblesson 0, 1, 2, . . . n. Su distribucion queda determinada por los valores PB = h= PBin(n, p) = h.

Para n > 1, el suceso Bin(n, p) = h = ∑n

j=1 Xj = h se descompone

como union (disjunta) de ∑n−1

j=1 Xj = h ∩ Xn = 0 y ∑n−1

j=1 Xj = h− 1 ∩Xn = 1. En ambos casos los sucesos que se interceptan son independientes, ysus probabilidades son PBin(n−1, p) = h, 1−p, PBin(n−1, p) = h−1, p,respectivamente. Resulta entonces la relacion de recurrencia PBin(n, p) = h= PBin(n − 1, p) = h(1 − p) + PBin(n − 1, p) = h − 1p.

Se observara que en el caso h = n, el suceso ∑n−1

j=1 Xj = h es vacıo, pero laecuacion sigue siendo valida, ya que PBin(n−1, p) = h = 0. Analogamente,si h = 0,

∑n−1j=1 Xj = h − 1 es vacıo, pero la ecuacion tambien sigue siendo

valida.Con las nuevas variables gn,h = PBin(n, p) = h/[ph(1 − p)(n−h)], la

ecuacion precedente se reduce a gn,hph(1−p)(n−h) = gn−1,hp

h(1−p)(n−1−h)(1−p)+ gn−1,h−1p

h−1(1 − p)(n−h)p, es decir,

gn,h = gn−1,h + gn−1,h−1.

Esto muestra que para obtener los numeros gn,h se puede proceder dela misma manera que para obtener los numeros binomiales por medio deltriangulo de Tartaglia.

En efecto, en el triangulo:

g1,0 g1,1

g2,0 g2,1 g2,2

g3,0 g3,1 g3,2 g3,3

. . . . . . . . . . . . . . . . . . . . . . . . . . .

gn,0 gn,1 gn,2 . . . gn,h . . . gn,n

Page 46: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.4. Algunos ejemplos de variables aleatorias. 35

cada elemento se obtiene sumando los dos inmediatos que estan arriba a laizquierda y arriba a la derecha. Cuando se trata de los extremos de la fila,se procede como si la fila anterior estuviera continuada con ceros hacia amboslados.

Para terminar el calculo, basta observar que PBin(1, p) = 0 = PX1 =0 = 1−p, y que PBin(1, p) = 1 = PX1 = 1 = p, de donde deducimos quelos elementos g1,0, g1,1 de la primera fila del triangulo son precisamente iguales

a los numeros combinatorios(

10

)

,(

11

)

, lo que implica que todo el triangulocoincide con el Triangulo de Tartaglia. Naturalmente, puede agregarse unaprimera fila con un unico elemento igual a 1, que corresponde a la variableBin(0, p) trivialmente igual a cero.

Dado que gn,h =(

n

h

)

, resulta PBin(n, p) = h =(

n

h

)

ph(1 − p)(n−h). Estaultima formula puede obtenerse tambien a partir de la relacion de recurrenciaoriginal, por induccion completa, sin necesidad de introducir las variables gn,h

y utilizar el Triangulo de Tartaglia.

Distribucion geometrica

Repetimos un experimento con las mismas caracterısticas que en el caso ante-rior, es decir, las sucesivas repeticiones son independientes, y en cada una deellas ocurre A, con probabilidad p.

Llamamos variable geometrica con parametro p, abreviado Geo(p), al nu-mero de ensayos que deben realizarse antes de obtener por primera vez elresultado A, o a cualquier variable con la misma distribucion.

El suceso Geo(p) = h se cumple cuando en las primeras h−1 repeticionesno ocurre A y en la siguiente (la h-esima) ocurre.

La probabilidad de que esto suceda es PGeo(p) = h = (1 − p)h−1p, porla independencia de las sucesivas repeticiones.

Advertencia. Supongamos que Y tiene distribucion geometrica con parame-tro p de acuerdo a la definicion precedente, es decir, que puede interpretarsecomo el numero de intentos hasta el primer exito en la sucesion de ensayosdescrita arriba. Tambien suele decirse que tiene distribucion geometrica conparametro p la variable Z = Y − 1, que corresponde al numero de fracasosantes del primer exito, y no cuenta el ultimo intento exitoso. Se trata de dosdistribuciones diferentes, la de Z con valores posibles 0, 1, 2, 3, . . ., y la de Ycon valores posibles 1, 2, 3, . . ., y con probabilidades PZ = h = (1 − p)hp,PY = h = (1 − p)(h−1)p.

Cuando se encuentren referencias a distribuciones geometricas, sera nece-sario en cada caso referirse al contexto, para saber cual de las situaciones

Page 47: Cabaña - Probabilidad y aplicaciones estadisticas

36Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

mencionadas es la aludida.

N3.- Bernoulli, Jacob (1654-1705).

Jacob Bernoulli, nacido el 27 de diciembre de 1654 in Basilea,Suiza, fue uno de los integrantes de una familia de cientıficos,varios de los cuales realizaron importantes aportes a la proba-bilidad.La familia Bernoulli, de origen belga, debio emigrar a Suizahuyendo, como muchos protestantes, de la persecucion de loscatolicos espanoles que reinaban en los Paıses Bajos.Aunque debio graduarse en filosofıa (1671) y teologıa (1676)por imposicion paterna, fue tambien el primero en la familiaen dedicarse al estudio de la matematica y de la astronomıa,siguiendo su vocacion. Estudio con Malebranche en Francia,y con Boyle y con Hooke en Inglaterra.A partir de 1683 enseno mecanica en la Universidad de Basilea,y a partir de 1687, tambien matematica. El y su hermanomenor y discıpulo Johann, fueron los primeros en estudiar yaplicar las teorıas de Leibniz sobre el calculo diferencial. La co-laboracion entre los hermanos se transformo pronto en una ri-validad, alimentada por la competencia por el reconocimientoa sus propios meritos, y por las posiciones a ocupar, que losllevo a romper relaciones en 1697.

Un resumen de las contribuciones de Jacob Bernoulli incluye trabajos sobre vınculos entre el algebra yla logica, probabilidad, geometrıa, series y el calculo de variaciones y las ecuaciones diferenciales.

Entre otros resultados, publico la Ley de los Grandes Numeros para las frecuencias de ocurrencia de unresultado en observaciones repetidas, en 1689.

La publicacion mas importante de Bernoulli fue su opus postumo Ars Conjectandi (Basilea, 1713), uncelebre tratado de teorıa de la probabilidad, que incluye contribuciones de van Schooten y Leibniz, ademasde las propias, en particular, su analisis de los resultados probabilısticos asociados a ensayos repetidos.

Enseno matematica en la Universidad de Basilea hasta su muerte en 1705. Su catedra fue luego de-sempenada por su hermano Johann.

La familia Bernoulli.

La importancia para la matematica y la fısica del trabajo cientıfico de parientes cercanos de Jacob Bernoulli

justifica un breve esquema (indicado con apenas alguna palabra clave) de la naturaleza de esos aportes, y

de los vınculos de parentesco entre los cientıficos que los produjeron:

Page 48: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3 N3.- Bernoulli. 37Nicolaus

(1623-1708)

Jacob Nicolaus Johann

(1654-1705) (1662-1716) (1667-1748)Ensayos repetidos, Calculo diferencial,

Ley de los series, calculo

Grandes Numeros de variaciones.

Nicolaus Nicolaus Daniel Johann

(1687-1759) (1695-1726) (1700-1782) (1710-1790)Series, calculo, Curvas, ecuacio- Vibraciones, pro- Calor,

ecuaciones nes diferenciales, babilidad, seguros, optica.

diferenciales. probabilidad. hidrodinamica.

Johann Daniel Jacob(1744-1807) (1751-1834) (1759-1789)Probabilidad, Elasticidad,

astronomıa. hidrostatica.

La siguiente cronologıa muestra las coincidencias en el tiempo de los miembros de la familia con otros

notables matematicos.

Page 49: Cabaña - Probabilidad y aplicaciones estadisticas

38Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

3.4.2 Dos distribuciones absolutamente continuas.

Distribucion uniforme.

Decimos que X tiene distribucion uniforme en el intervalo (a, b) (abreviado,X ∼ Uni(a, b)) cuando su densidad de distribucion de probabilidades es con-stante en (a, b) y cero fuera de ese intervalo. Se deduce que el valor de esaconstante debe ser 1/(b − a), para que la integral de la densidad en toda larecta sea 1. Observese, por ejemplo, que la variable X del Ejercicio 2.3.8tiene distribucion uniforme en (0, 1). Se observara que la probabilidad quela distribucion uniforme asocia a cada conjunto de (a, b) es invariante bajotraslaciones.

La funcion F (x) =

0, si x < a,x−ab−a

, si a ≤ x ≤ b,

1, si b < x,cumple las propiedades de una

funcion de distribucion, de modo que, por el corolario del Teorema 3.2.2, exis-te una variable aleatoria en (R,B) con esa funcion de distribucion, es decir,uniforme en (a, b).

Observacion: Es interesante notar, sin embargo, que es necesario dotar a R de unaσ-algebra mas pequena que 2R (como lo es la de Borel, de acuerdo a lo que resultade los argumentos que siguen), para poder asegurar la existencia de variables con ladistribucion uniforme. En efecto, vamos a verificar que no existe una variable aleatoriaU en (R, 2R), con valores en un intervalo (a, b), cuya distribucion de probabilidad seainvariante bajo traslaciones, es decir, tal que si A, B son dos subconjuntos de (a, b)y B se obtiene como resultado de aplicar a A una traslacion, entonces PZ ∈ A =PZ ∈ B.

Por comodidad, tomamos a = 0, b = 2π, e identificamos los puntos x del intervalo[0, 2π) con los puntos (cos x, sinx) de la circunferencia C de radio 1. A cada punto(cos x, sinx) asociamos el conjunto Ax = (cos(n + x), sin(n + x)) : n entero . Esinmediato verificar que el giro que lleva el punto (cosx, sinx) en el punto (cos y, sin y)aplica Ax en Ay. Como cada Ax es un conjunto numerable, no llena C, y es claroque si (cos y, sin y) no pertenece a Ax, entonces Ax ∩ Ay = ∅. Vamos a partir Cen conjuntos de la forma Ax, y vamos a llamar Γ a un subconjunto de C formadocon un punto de cada uno de los Ax, es decir, tal que (cos x, sinx), (cos y, sin y) ∈ Γ,(cos x, sinx) = (cos y, sin y) implica Ax = Ay, y

(cos x,sin x)∈Γ Ax = C.

Este conjunto Γ es infinito, porque lo contrario implicarıa que C serıa numerable. Porla construccion, la circunferencia C se obtiene como union (disjunta) de los conjuntosΓn = (cos(n + x), sin(n + x)) : (cos x, sinx) ∈ Γ, que se obtienen girando Γ en unangulo n, para cada n entero. Como estos conjuntos se obtienen uno de otro pormedio de un giro en C, que equivale a una traslacion modulo 2π en el intervalo, ladistribucion uniforme debe atribuir a cada uno de ellos la misma probabilidad.

Page 50: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3 N3.- Bernoulli. 39

De allı resultarıa 1 = P([0, 2π)) = P(C) = P(⋃

n=−∞Γn

)

=∑

n=−∞P(Γn), y esta

serie cuyos sumandos son todos iguales no puede converger a 1.

Esta contradiccion muestra que no puede pretenderse definir una distribucion uni-forme sobre todos los subconjuntos del intervalo. No hay contradiccion con la exis-tencia de la distribucion uniforme sobre la σ-algebra de Borel. Lo que necesariamenteocurre, es que los conjuntos Γn no son de Borel. En particular, de este argumento sededuce que la σ-algebra de Borel es estrictamente mas pequena que la de todos lossubconjuntos de R.

Distribucion exponencial.

Llamemos T a una variable aleatoria que representa la duracion de una piezaque no envejece, pero que puede ser destruida accidentalmente. Vamos a des-cribir un modelo para la distribucion de probabilidades de T que correspondeal caso en que la propension a la ocurrencia de accidentes que pueden destruirla pieza es constante en el tiempo, y no depende de la historia anterior delproceso que estamos considerando. En tal caso, como la pieza no envejece,cuando sabemos que en el instante t aun no se ha destruido, desde entoncesen adelante tenemos para ella la misma expectativa de duracion que en el mo-mento en que la colocamos en el sistema. (Se trata, por ejemplo, de un modelobastante natural para describir la vida de una componente electronica del tipode un transistor, o un diodo, cuya duracion depende de las sobreintensidadesaccidentales que circulan por ella por causa del funcionamiento del circuitoen el que estan incluidas, pero no de efectos de envejecimiento propios de lapieza.)

Esto nos lleva a exigir PT > t + s|T > t = PT > s, para cualesquieras, t ≥ 0, es decir,

P(T > t + s ∩ T > t)

PT > t= PT > s.

De aquı resulta, teniendo en cuenta que T > t+s∩T > t = T > t+s,que para s, t ≥ 0 se cumple PT > t + s = PT > s.PT > t, o, cong(t) = log PT > t,

g(s + t) = g(s) + g(t). (3.2)

Como PT > t decrece con T , lo mismo ocurre con g y las unicas solu-ciones monotonas de la ecuacion funcional (3.2) (ver Lema 3.6.1) son de laforma g(t) = −λt, donde λ es una constante (positiva, para que g sea monotonadecreciente). Deducimos que PT > t = e−λt.

Page 51: Cabaña - Probabilidad y aplicaciones estadisticas

40Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

Cuando una variable aleatoria T tiene funcion de distribucion de probabi-lidad PT ≤ t = 1 − e−λt(t ≥ 0), decimos que su distribucion es exponencialcon parametro λ. Lo abreviaremos Exp(λ).

3.5 Construccion explıcita de variables alea-

torias en R, con funcion de distribucion F

dada, a partir de U ∼Uni(0, 1).

Al resolver el Ejercicio 3.3.9 se habra observado que cuando X tiene funcionde distribucion F continua, U = F (X) es uniforme en (0, 1). Esto sugiereque para construir una variable aleatoria real X con funcion de distribucionF , a partir de una variable aleatoria U uniforme en (0, 1) basta invertir lacorrespondencia U = F (X) al menos cuando F es continua, y ademas existela funcion inversa. El siguiente enunciado introduce una inversa generalizadade F , e indica un resultado algo mas general.

Teorema 3.5.1 Si U ∼ Uni(0, 1) y F es una funcion de distribucion en R,entonces X = F−1(U) ∼ F , con

F−1(u) = infx : F (x) ≥ u.

Demostracion. PF−1(U) ≤ x = Pinfy : F (y) ≥ U ≤ x = PU ≤F (x) = F (x).

Nota: El resultado anterior interesa cuando se quiere simular variables aleatorias pormedio de una computadora o una calculadora manual, porque unas y otras suelen te-ner procedimientos que simulan sucesiones de variables aleatorias uniformes en (0, 1),independientes. Se trata de procedimientos determinısticos, que producen sucesionesde numeros del intervalo (0, 1) totalmente previsibles, pero cuyo comportamiento seasemeja al de variables uniformes independientes obtenidas por algun procedimientode sorteo. Uno de los metodos mas simples y mas utilizados para dicha generacion denumeros seudo aleatorios, como se les suele llamar, es el siguiente: Se elige un enteropositivo p muy grande, dos enteros positivos A, B, y un valor inicial X0, tambienentero, comprendido entre 0 y p − 1. A partir de estos valores iniciales, se calculansucesivamente Xn = A + BXn−1[mod p], y se toma la sucesion Un = Xn/p comosalida del proceso.

Cuando los numeros p, A, B estan bien elegidos, la sucesion U1, U2, . . . que se obtienese comporta de manera similar a una sucesion de variables uniformes en (0, 1) inde-pendientes. Un comentario sobre el significado de expresiones tales como “se comporta

de manera similar”, puede encontrarse en la nota biografica sobre Karl Pearson, alfin de este capıtulo, donde se menciona la aparicion de la primera prueba de ajuste.

Page 52: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.6. Solucion de una ecuacion funcional. 41

Ejercicios.

Ejercicio 3.5.1 Si U1, U2, . . . son variables aleatorias independientes e identica-mente distribuidas con distribucion uniforme en (0, 1) (lo abreviamos U1, U2, . . .i.i.d. ∼ Uni(0, 1)), y Xi = − log Ui, (i = 1, 2, . . .) entonces (Xi)i=1,2,... son i.i.d. ∼Exp(1), y (τXi)i=1,2,... son i.i.d. ∼ Exp(1/τ).

Ejercicio 3.5.2 Si U1, U2, . . . son i.i.d. ∼ Uni(0, 1), entonces

(a)

ni∑

j=n(i−1)+1

1Uj≤p

i=1,2,...

y

(b)

n∑

j=0

j1∑j−1

h=0pn,h<Ui≤

∑j

h=0pn,h

i=1,2,...

, con pn,h = PBin(n, p) = h

son i.i.d. ∼ Bin(n, p).

Ejercicio 3.5.3 Si U1, U2, . . . son i.i.d. ∼ Uni(0, 1), entonces la sucesion definida

recursivamente H0 = 0, Hi = min

j :

Hi−1+j∑

k=Hi−1+1

1Uk≤p ≥ 1

es i.i.d. ∼ Geo(p).

Ejercicio 3.5.4 Si X1, X2, . . . son i.i.d. ∼ Exp(λ), entonces ([Xi])i=1,2,... ([X]designa la parte entera de X) son i.i.d. con distribucion geometrica. ¿Cual es elparametro?

3.6 Solucion de la ecuacion funcional g(s + t)

= g(s) +g(t), s, t > 0. Probabilidad e infor-

macion.

Completamos este capıtulo con la demostracion del Lema utilizado para re-solver la ecuacion funcional (3.2) y con otra aplicacion de la misma ecuacion.

3.6.1 Las soluciones de la ecuacion.

Lema 3.6.1 Cuando g : R+ → R es solucion de la ecuacion funcional

g(s + t) = g(s) + g(t), s, t > 0

o bien es de la forma g(t) = tg(1) o bien su grafico es denso en un angulo convertice en el origen.

Page 53: Cabaña - Probabilidad y aplicaciones estadisticas

42Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

Demostracion. Observemos que, aplicando (3.2) con s = 1/m, 2/m, 3/m, . . ., t =1/m, se obtiene respectivamente

g(2/m) = g(1/m) + g(1/m) = 2g(1/m),

g(3/m) = g(2/m) + g(1/m) = 3g(1/m),

g(4/m) = g(3/m) + g(1/m) = 4g(1/m),

. . . . . . . . . . . . . . . . . . . . . . . .

g(n/m) = ng(1/m). (3.3)

En particular, con n = m en esta ultima igualdad, obtenemos g(1) = mg(1/m), demodo que g(1/m) = (1/m)g(1). Reemplazamos ahora esta expresion de g(1/m) en(3.3), y obtenemos g(r) = rg(1), que vale para todo racional positivo r puesto que my n son enteros positivos arbitrarios.

Finalmente, o bien esta formula vale para todo t en R+, o bien existe un irracional

u tal que g(u) = cu con c = g(1). Como la funcion h(t) = g(tu) satisface la mismaecuacion (3.2), se cumple h(r) = rh(1) para todo r racional positivo, es decir, g(ru) =rg(u) = cru. Tomemos un punto cualquiera del angulo formado por las combinacioneslineales con coeficientes no negativos de los vectores (1, g(1)) y (u, g(u)). Si las coor-denadas de este punto son (λ + µu, λg(1) + µg(u)), con λ, µ ≥ 0, podemos encontrarun par de sucesiones (rn), (sn) de racionales no negativos tales que limn→∞ rn = λ;limn→∞ sn = µ. Se cumple entonces g(rn + snu) = g(rn)+ g(snu) = rng(1)+ sng(u).Esto indica que la sucesion de puntos (rn + snu, rng(1)+ sng(u)) esta en el grafico deg y por la construccion de las sucesiones (rn), (sn), converge a (λ+µu, λg(1)+µg(u)).

3.6.2 La informacion.

La probabilidad de un suceso esta vinculada a la cantidad de informacionque proporciona saber que ha ocurrido. Es por eso que saber que hemos sidofavorecidos en un sorteo realizado entre un numero muy grande de postulantesque participan en condiciones de equitatividad - una loterıa, por ejemplo - nosresulta mucho mas informativo que saber que no fuimos favorecidos, ya que,sin duda, esto ultimo era lo que, razonablemente, esperabamos que ocurriera.

Lo que vuelve sorprendente el hecho de haber ganado no es el tamanodel premio, sino su escasa probabilidad. Y si en vez de un premio, lo quese sorteara con iguales probabilidades fuera un castigo, tambien resultarıaigualmente sorprendente.

Convengamos entonces en medir la informacion que nos aporta saber queha ocurrido un suceso A por medio de una funcion g(P(A)) que decrece cuandocrece P(A).

Page 54: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3.6. Solucion de una ecuacion funcional. 43

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··········

··

··········

··········

··········

··········

··········

·········

··········

··········

··········

··········

··········

·······

··········

··········

··········

··········

··········

····

··········

··········

··········

··········

··········

··

··········

··········

··········

··········

·········

··········

··········

··········

··········

·······

··········

··········

··········

··········

····

··········

··········

··········

··········

··

··········

··········

··········

·········

··········

··········

··········

·······

(1, g(1))

1 rn λ snu

(u, g(u))

µu

λ(1, g(1)) + µ(u, g(u))

· · · · ·· · · · ·

· · · · ·· · · · ·

· ·

· ·· ·

· ·· ·

· ·· ·

Figura 3.3: El grafico de la solucion de g(s+ t) = g(s)+ g(t) es una semirrectao es denso en un angulo.

Resulta razonable ademas establecer que si A y B son sucesos indepen-dientes, la informacion proporcionada por saber que ocurren ambos sucesoses la suma de las informaciones correspondientes a saber que ocurre cada unode ellos. Esta propiedad, que podemos expresar en la forma g(P(A)P(B))= g(P(A))+g(P(B)) una vez que hemos convenido en expresar la informacioncomo una funcion de la probabilidad, se justifica porque cuando A y B sonindependientes, la informacion “ocurre A” no cambia nuestra composicion delugar respecto de la ocurrencia de B, y por lo tanto agregar a ella la informacion“ocurre B” nos aporta tanto despues de saber que ocurre A como nos hubieraaportado antes de saberlo. En cambio, si A y B no fueran independientes yya sabemos que ocurre A, nuestra sorpresa al enterarnos que tambien ocurreB sera funcion de P(B|A) (= P(B)) y no de P(B), que, despues de saber queocurrio A, ya no es relevante.

Estas dos propiedades, (i) que la informacion que aporta “ocurre A” esg(P(A)), con g monotona, y (ii) que

g(pq) = g(p) + g(q) (3.4)

para cualesquiera p, q ∈ (0, 1) determinan la forma de la informacion g. Enefecto, el cambio de variables p = e−s, q = e−t, s, t ≥ 0 transforma (3.4) en

Page 55: Cabaña - Probabilidad y aplicaciones estadisticas

44Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

g(e−s−t) = g(e−s) +g(e−t) de modo que concluimos g(e−t) = λt, para algunvalor de λ (positivo para que la informacion misma sea no negativa).

La medida de la informacion de “ocurre A” es entonces −λ log P(A).

Se suele convenir que la unidad de informacion es la que aporta saber cualde dos sucesos complementarios de probabilidad 1/2 es el que ocurre, es decir,1 = −λ log 1/2, de modo que, si hacemos esa convencion binaria, estaremoseligiendo λ = 1/ log 2 y g(P(A)) = − log P(A)/ log 2 = − log2 P(A).

N4.- Pearson, Karl (1857-1936).

Karl Pearson nacio en Coldharbour, Surrey, Inglaterra. Fue un estudiante destacado, tercero en la listade honores de matematica en Cambridge (1879), y luego estudio en Alemania, donde se volvio un expertoen literatura en idioma aleman (y cambio la ortografıa del nombre Carl con el que habıa sido bautizado paratransformarse en homonimo de Karl Marx).

En 1884 fue designado Goldsmid Professor de matematica aplicada y mecanica en el University Collegede Londres. Sus clases con conceptos modernos sobre la ciencia, constituyeron la base de The Grammar ofScience que publico en 1892, y sus clases sobre probabilidades y la filosofıa del azar fueron una solida basepara sus posteriores trabajos en biometrıa y estadıstica. Motivado por el estudio de la evolucion y de laherencia, fue uno de los fundadores de la estadıstica moderna, y su trabajo llevo a la estadıstica a ser unarama de estudio independiente.

Pearson fue atraıdo al estudio de la biometrıa por su trabajo como profesor de matematica aplicada.Fue Walter Weldon, que habıa sido designado Profesor de Zoologıa en el University College quien lo interesoen el tema, al pedir su ayuda para resolver problemas estadısticos. Francis Galton, que habıa arbitradoartıculos de Weldon, conocio a Pearson y le proveyo el apoyo intelectual y economico para la creacion delLaboratorio de Biometrıa. En el, entre 1893 y 1901, Pearson produjo mas de treinta artıculos sobre metodosestadısticos. En ese perıodo completo la derivacion del coeficiente de correlacion iniciada por Francis Galton,para ayudarlo a mostrar cuantitativamente la relacion entre las variables que intervenıan en sus experimentos,e introdujo el termino “desviacion tıpica” (“standard deviation”). En 1899 publico la prueba “chi-cuadrado”.

Aplico los metodos estadısticos que el mismo contribuyo a desarrollar al estudio de muchos problemasde la sociedad de su epoca, tales como la tuberculosis, el alcoholismo, y el retardo mental. Los resultadosque obtuvo, a menudo contradecıan el pensamiento corriente de sus contemporaneos, lo que le atrajo lacrıtica de autoridades de la medicina y de la administracion publica.

A pesar de la importancia de sus aportes a la teorıa, probablemente su mayor contribucion a la es-tadıstica fue poner de manifiesto la importancia de la aplicacion de los metodos estadısticos, y lo hizo consingular capacidad y habilidad, en particular, como fundador y editor de la revista Biometrika (1901-1936).

Se retiro del University College en 1933 tres anos antes de su muerte.

Page 56: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

3. N4.- Karl Pearson. 45

Los modelos aleatorios y las pruebas de ajuste.Hasta fines del siglo XIX era habitual pensar todos los fenomenos naturales de manera determinıstica.Los modelos aleatorios para los fenomenos naturales se desarrollaron desde entonces, y posibilitaron unaverdadera revolucion en la manera de pensar los problemas de la fısica, la biologıa, la economıa, por ejemplo.Todo el pensamiento cientıfico del Siglo XX esta permeado por la utilizacion de modelos aleatorios, e inclusolos intentos de volver al viejo determinismo, asociados al estudio de los sistemas “caoticos”, si bien tienenimportancia filosofica y han motivado interesantes avances matematicos, no han aportado alternativas quereemplacen a los modelos aleatorios.

Pearson, por su aporte cientıfico y por su influencia como editor, fue uno de los grandes precursores deesta nueva forma de pensar la naturaleza, gracias a la cual las observaciones empıricas aparecen como unreflejo de una distribucion de probabilidad subyacente, que es el verdadero objeto de estudio.

Como consecuencia, el objeto de interes que es la distribucion de probabilidades nunca puede observarse.Lo que puede observarse son resultados de fenomenos naturales, que proporcionan variables aleatorias conla distribucion que, en definitiva, es lo que nos interesa conocer.

Dentro de este contexto, Pearson introdujo la primera prueba de ajuste que se conoce en la bibliografıa,aparecida en un artıculo suyo de 1999. Se trata de un procedimiento estadıstico por el cual, dadas las obser-vaciones X1, X2, . . . , Xn de un fenomeno natural, que, como tales pueden considerarse variables aleatoriascon cierta distribucion F , se decide si es plausible que esa distribucion F sea cierta distribucion dada F0.

A tales procedimientos, se los llama pruebas de ajuste a la distribucion F0. El resultado de una pruebade ajuste puede ser, o bien rechazar por inverosımil que F sea F0, o bien no rechazarlo, por considerar quela informacion proporcionada por las observaciones X1, . . . , Xn no refuta esa suposicion.

Page 57: Cabaña - Probabilidad y aplicaciones estadisticas

46Enrique M. Cabana.

Capıtulo 3: Variables aleatorias.

Page 58: Cabaña - Probabilidad y aplicaciones estadisticas

4. ∗ Tres aplicaciones vinculadascon la distribucion binomial.

4.1 Un modelo probabilıstico: El paseo al azar

simple.

Se llama en general paseo al azar a la sucesion de sumas parciales Sn =∑n

i=1 Xi

de una sucesion dada Xn, n = 1, 2, . . . de variables aleatorias. Cada incrementoXn = Sn−Sn−1 se interpreta como un paso realizado por el sistema (Sn)n=0,1,...

en el instante n.Llamamos realizacion o trayectoria de un paseo, a cada una de las sucesiones

(Sn(ω))n=0,1,... que se obtienen eligiendo ω ∈ Ω.

Esto sugiere que un paseo puede pensarse como una variable aleatoria con valoresen el espacio de las sucesiones. Para que los elementos de la sucesion sean variablesaleatorias, dotamos al espacio de las sucesiones de la mınima σ-algebra que contienea los conjuntos de la forma ω : Sj ∈ Bj , j = 1, 2, . . . , n, para cualquier n ∈ N ycualesquiera conjuntos de Borel Bj .

Vamos a estudiar a continuacion algunas propiedades del paseo al azarsimple, que corresponde a tomar los pasos independientes e identicamente dis-tribuidos, con valores 1 o −1.

Definicion 4.1.1 Se llama paseo al azar simple con probabilidades p, q,p + q = 1, a la sucesion Sn =

∑ni=1 Xi, n = 0, 1, 2, . . . obtenida a partir de

las variables independientes Xn con la misma distribucion PXn = 1 = p,PXn = −1 = q.

Dado que el cambio Xn = 2Bn − 1 permite representar las variables Xn enterminos de variables Bn ∼ Ber(p), las sumas parciales Sn = 2Hn−n, con Hn =∑n

i=1 Bi ∼ Bin(n, p) tienen una distribucion de probabilidades que se describede manera inmediata a partir de la distribucion binomial con parametros (n, p).

47

Page 59: Cabaña - Probabilidad y aplicaciones estadisticas

48Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

Figura 4.1: Representaciones graficas de la trayectoria de un paseo al azar.

Resulta igualmente inmediato que incrementos Snj− Smj

, j = 1, 2, . . . , kcorrespondientes a intervalos disjuntos del ındice (m1 < n1 ≤ m2 < n2 ≤ . . . ≤mk < nk) son independientes, con distribucion Bin(nj − mj, p).

Cada realizacion o trayectoria de un paseo suele representarse por mediodel grafico de los puntos de la sucesion, o tambien alguno de los dos graficosde funciones de dominio R+ que muestra la Figura 4.1. Uno de ellos es lapoligonal que une los puntos (n − 1, Sn−1) y (n, Sn), y el otro es el grafico deS[t], 0 ≤ t, donde [·] designa a la parte entera. (La trayectoria representada es laque corresponde a n = 6 pasos con X1 = X2 = X3 = X5 = 1, X4 = X6 = −1.)

Cada una de las trayectorias que une (0, 0) con (n1 + n2, n1 − n2) tiene

la misma probabilidad pn1qn2 . Hay

(

n1 + n2

n1

)

trayectorias que unen esos

puntos, de modo que PSn1+n2= n1 − n2 =

(

n1 + n2

n1

)

pn1qn2 como surge

tambien de aplicar directamente los resultados conocidos para la distribucionbinomial.

Ejercicios.

Ejercicio 4.1.1 Llamemos pm,n(h, k) = PSn = k | Sm = h, con m ≤ n, |h| ≤m, de la misma paridad que m. Mostrar que pm,n(h, k) = p0,n−m(0, k − h).

Ejercicio 4.1.2 Verificar que las probabilidades pm,n(h, k) definidas en el ejercicioprecedente satisfacen las ecuaciones:

pm,n+1(h, k) = ppm,n(h, k − 1) + qpm,n(h, k + 1),

que, junto a las condiciones iniciales p0,0(0, k) = 1k=0, permiten calcular las pro-babilidades p0,n(0, k) : |k| ≤ n recursivamente en n.

Page 60: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.1. Paseo al azar simple. 49

Ejercicio 4.1.3 Verificar que, con la convencion pm,n(h, k) = 0 si |h| > m o si|k − h| > n − m, entonces pm,n(h, k) =

l pm,ν(h, l)pν,n(l, k), para cualquier ν(m ≤ ν ≤ n). Deducir en particular el resultado del ejercicio anterior.

Ejercicio 4.1.4 Verificar que para todo n, E(q/p)Sn = 1. (Se sugiere procederpor induccion, calculando E[E((q/p)Sn | Sn−1)].

4.1.1 Paseo al azar simetrico simple. Principio de Re-flexion.

El caso particular p = q tiene especial interes:

Definicion 4.1.2 Al paseo al azar simple con iguales probabilidades p = q =1/2, se le llama paseo al azar simetrico simple.

Para el paseo simetrico, el calculo de probabilidades y el recuento de trayec-torias son equivalentes, porque cada trayectoria particular de lon gitud n tienela misma probabilidad que cualquier otra de la misma longitud, a saber, 2−n.

Una propiedad interesante del paseo al azar, que vamos a describir a con-tinuacion, es el llamado Principio de Reflexion de Desire Andre:

Teorema 4.1.1 (Principio de Reflexion.) La probabilidad de que el paseo alazar simetrico simple S1, S2, . . . , Sn satisfaga Sn = m, maxj≤n Sj ≥ k, donden, m, k son enteros positivos, m < k, es igual a PSn = 2k − m.

Demostracion: Por cada trayectoria que une (0, 0) con (n, m) cuyo maximoes mayor o igual que k, hay otra que une (0, 0) con (n, 2k −m) que se obtienesimetrizando la anterior respecto de Lk = (t, k) : t ∈ R a partir del primerpunto (h, k) en que la trayectoria alcanza el valor k: h = minj : Sj = k(Ver Figura 4.2). Recıprocamente, por cada trayectoria que une (0, 0) con(n, 2k − m) (y necesariamente alcanza k por primera vez en algun h < n,puesto que 2k − m > k), su simetrica respecto de la misma horizontal Lk une(0, 0) con (n, m).

La simetrıa respecto del primer punto en que una trayectoria alcanza aLk, establece entonces una correspondencia biunıvoca entre las trayectoriasque unen (0, 0) con (n, m) y alcanzan el nivel k, y las que unen (0, 0) con(n, 2k − m). Esta correspondencia conserva trivialmente la probabilidad, yaque cada una de esas trayectorias tiene probabilidad 2−n. Se deduce entoncesel resultado indicado en el enunciado.

Page 61: Cabaña - Probabilidad y aplicaciones estadisticas

50Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

k k

m

n

2k − m

0

Figura 4.2: Reflexion respecto del nivel k.

Corolario 4.1.1.1 (i) La probabilidad de que el paseo (Si)0≤i≤n alcance elnivel k (k > 0) es PSn = k + 2PSn > k.

(ii) La probabilidad de que (Si)0≤i≤n permanezca por debajo del nivel k es1 − PSn = k − 2PSn > k = P−k ≤ Sn < k.

(iii) En particular, la probabilidad de que el paseo (Sn)n=0,1,2,... no alcanceel nivel k es 0 para cualquier k.

Demostracion. Por el Principio de Reflexion, la probabilidad de que elpaseo alcance el nivel k y termine en k + h es igual a la probabilidad de quealcance k y termine en k − h. Por lo tanto, con Mn = maxSj : j ≤ n,

PMn ≥ k, Sn < k = PMn ≥ k, Sn > k = PSn > k,y de aquı resulta (i):

PMn ≥ k = PMn ≥ k, Sn < k + PMn ≥ k, Sn > k+PMn ≥ k, Sn = k = 2PSn > k + PSn = k.

La probabilidad (ii) de que el paseo permanezca por debajo del nivel seobtiene como complemento de la anterior. Por la simetrıa de la distribucionde Sn se puede escribir por medio de la suma finita P−k ≤ Sn < k =

−k≤j<k,n−j par

(

n(n − j)/2

)

2−n. Cada una de las probabilidades binomiales

PBin(n, p) = j tiende a cero para p ∈ (0, 1), j fijos, cuando n → ∞, y estoimplica (iii).

Page 62: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.1. Paseo al azar simple. 51

4.1.2 El paseo con dos barreras. Principio de ReflexionMultiple.

El Principio de Reflexion nos da una manera de contar cuantas de las 2n

trayectorias de un paseo de longitud n alcanzan el nivel k. Vamos a contarahora cuantas de esas trayectorias alcanzan alguno de los niveles −a o b, dondea, b son dos enteros positivos.

Las notaciones siguientes se refieren a cantidades de trayectorias de longitudn que cumplen las condiciones que se indican: Vamos a llamar

• N(j) a la cantidad de trayectorias que terminan en Sn = j,

• N+m(j) a la cantidad de trayectorias para las cuales existen ındices n1,

n2, . . ., nm tales que Sn1= b, Sn2

= −a, Sn3= b, Sn4

= −a, Sn5= b, . . .,

Snm= b, si nm es impar, o −a, si es par, y terminan en Sn = j,

• N−m(j) a la cantidad de trayectorias para las cuales existen ındices n1,

n2, . . ., nm tales que Sn1= −a, Sn2

= b, Sn3= −a, Sn4

= b, Sn5= −a,

. . ., Snm= −a, si nm es impar, o b, si es par, y terminan en Sn = j,

• N++m (j) a la cantidad de trayectorias que cumplen las condiciones de la

definicion de N+m(j), y alcanzan el nivel b antes que el nivel −a,

• N−−m (j) a la cantidad de trayectorias que cumplen las condiciones de la

definicion de N−m(j), y alcanzan el nivel −a antes que el nivel b.

Entre las funciones de j ası definidas existen las siguientes relaciones:

N+m = N++

m + N−−m+1, N−

m = N−−m + N++

m+1,

y de ellas podemos obtener recursivamente

N++1 + N−−

1 = (N+1 + N−

1 ) − (N++2 + N−−

2 )

= (N+1 + N−

1 ) − (N+2 + N−

2 ) + (N++3 + N−−

3 ) = . . .

=∞∑

m=1

(−1)m−1(N+m + N−

m)

donde la serie es en realidad una suma finita, ya que al menos para m > n, lossumandos se anulan.

Para calcular N+m establecemos una correspondencia biunıvoca entre las

trayectorias con Sn = j que alcanzan sucesivamente los niveles b, −a, b, −a,. . . al menos en m oportunidades, y las trayectorias que llegan a Sn = j∗m, donde

Page 63: Cabaña - Probabilidad y aplicaciones estadisticas

52Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

bj∗0 = j

j∗1 = 2b − j

j∗2 = j + 2(a + b)

j∗3 = 2b − j + 2(a + b)

j∗−1 = −2a − j

j∗−2 = j − 2(a + b)

j∗−3 = 2a − j − 2(a + b)

−a

−a − (a + b)

−a − 2(a + b)

−a − 3(a + b)

b + (a + b)

b + 2(a + b)

b + 3(a + b)

(+)

(−)

(+)

(−)

(−)

(+)

(−)

Figura 4.3: Reflexiones sucesivas de j respecto del par de niveles −a y b.

j∗m es el punto que se obtiene reflejando j m veces, sucesivamente respecto de b,la primera vez que alcanza ese nivel, luego respecto del reflejado a1 = b+(a+b)de −a respecto de b, la primera vez que lo alcanza despues de haber alcanzadob, luego del reflejado b1 = b + 2(a + b) de b respecto de a1, del reflejadoa2 = b+3(a+b) de a1 respecto de b1, etc. hasta haber alcanzado m reflexiones.Mas precisamente, j∗2h = j + 2h(a + b), j∗2h+1 = 2b − j + 2h(a + b), parah = 0, 1, . . ., si convenimos en que j∗0 = j.

Como consecuencia, N+m(j) = N(j∗m).

De la misma manera, con notaciones analogas, se procede para calcularN−

m(j) = N(j∗−m), con j∗−2h = j − 2h(a + b), j∗−2h−1 = −2a − j − 2h(a + b).

La cantidad de trayectorias que alcanzan alguno de los dos niveles y ter-

Page 64: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.2. Formula de Stirling. 53

minan en j es por lo tanto

N++1 + N−−

1 =∞∑

m=1

(−1)m−1(N+m + N−

m) =∞∑

m=1

(−1)m−1(N(j∗m) + N(j∗−m)),

y la cantidad de trayectorias que terminan en Sn = j sin haber alcanzadoninguno de los dos niveles −a y b es, por complemento,

∞∑

m=−∞

(−1)mN(j∗m) =∞∑

m=−∞

(−1)m

(

n

(n − j∗m)/2

)

, (4.1)

con la convencion de que(

n

h

)

= 0 cuando h < 0, h > n, y cuando h no es entero. (4.2)

Resumimos lo que precede en el siguiente enunciado:

Teorema 4.1.2 (Principio de Reflexion Multiple).El numero de trayectorias de un paseo al azar de longitud n que no alcanza

ninguno de los dos niveles −a y b (a, b, > 0) y termina en Sn = j es el queindica (4.1), con la convencion (4.2) y los valores de j∗m indicados en la Figura4.3.

4.2 La formula de Stirling y el lımite de las

probabilidades binomiales.

La formula de Stirling describe el comportamiento asintotico de n! cuando ntiende a infinito:

Teorema 4.2.1 Para cada n, se cumple

n!

nn+ 1

2 e−n=

√2πeλn/12n, 0 ≤ λn ≤ 1,

y, como consecuencia,

limn→∞

n!

nn+ 1

2 e−n=

√2π.

Demostracion. Esta contenida en los ejercicios del final de esta seccion.

Como ejemplo de una aplicacion de esta formula, vamos a calcular el lımitecuando n tiende a infinito de las probabilidades asociadas a la distribucionbinomial:

Page 65: Cabaña - Probabilidad y aplicaciones estadisticas

54Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

Ejemplo 4.2.1 Verificar el siguiente Teorema de De Moivre:

Teorema 4.2.2 Para a < b cualesquiera, y Bn ∼ Bin(n, p),

limn→∞

P

a <Bn − np

np(1 − p)≤ b

=∫ b

a

1√2π

e−t2/2dt.

Demostracion. Se cumple

P

a <Bn − np

np(1 − p)≤ b

=∑

a<(h−np)/√

np(1−p)≤b

pn,h, (4.3)

donde pn,h =(

nh

)

pn(1 − p)n−h es la probabilidad binomial.

Para obtener el resultado del enunciado, vincularemos la suma del segundo miembrode (4.3) con la suma de Riemann

a<(h−np)/√

np(1−p)≤b

1√

2πnp(1 − p)e−γ2/2, γ = (h − np)/

np(1 − p),

que tiene por lımite la integral del enunciado del Teorema.

Mas precisamente, mostraremos que la diferencia entre las dos sumas tiene lımitecero. Dado que el numero de sumandos es la parte entera de (b − a)

np(1 − p),basta mostrar que

√n max

a<(h−np)/√

np(1−p)≤b

(pn,h − e−γ2/2/√

2πnp(1 − p))

tiende a cero o, lo que es equivalente, que√

2πnp(1 − p)pn,h − e−γ2/2 tiene una cota(uniforme en h o γ) que tiende a cero cuando n → ∞. Para que esto suceda, bastaque la diferencia de los logaritmos cumpla una propiedad analoga.

Vamos a calcular entonces log√

2πnp(1 − p)pn,h + γ2/2 utilizando la Formula deStirling escrita en la forma

log n! = (n + 1/2) log n − n + log√

2π + λn/12n,

y trataremos de acotar esta diferencia por una expresion que tienda a cero,

Obtenemos

log√

2πnp(1 − p)pn,h − γ2

2= log

√2π +

1

2log np(1 − p)

+ log n! − log h! − log(n − h)! + h log p + (n − h) log(1 − p) +γ2

2

=1

2log np(1 − p) + (n + 1/2) log n − (h + 1/2) log h − (n − h + 1/2) log(n − h)

Page 66: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.2. Formula de Stirling. 55

+λn

12n− λh

12h− λn−h

12(n − h)+ h log p + (n − h) log(1 − p) +

γ2

2

=1

2log

p(1 − p)

(h/n)(1 − h/n)− n

[

h

nlog

h/n

p− (1 − h

n) log

1 − h/n

1 − p

]

+ An,h +γ2

2(4.4)

conAn,h = λn/12n − λh/12h − λn−h/12(n − h). (4.5)

La expresion precedente incluye las variables h y γ, que estan vinculadas por γ =(h−np)/

np(1 − p). Vamos a eliminar h introduciendo una variable intermedia γn =hn −p = γ

p(1 − p)/√

n. Dado que los sumandos que intervienen en nuestros calculosson aquellos para los que a < γ ≤ b resulta como consecuencia que limn→∞ γn = 0.

Reemplacemos primeramente h/n por p + γn en (4.5). Para esta ultima expresion,obtenemos

nAn,h = λn − λh

12(p + γn)− λn−h

12((1 − p) − γn)

que nos permite concluir que, para n suficientemente grande, |An,h| ≤ C/n, dondeC es una constante adecuada que depende de p (0 < p < 1), pero no de n, ni de h,cuando se cumple a < γ ≤ b.

Recordemos que nuestra meta es mostrar que (4.4) tiende a cero uniformemente en γ,es decir, esta acotado por una expresion independiente de γ que tiende a cero cuandon tiende a infinito. Acabamos de mostrar que esto ocurre con el termino An,h. Vamosa verificarlo ahora separadamente para los dos otros sumandos que componen (4.4):

1

2log

p(1 − p)hn (1 − h

n )(4.6)

yγ2

2− n

[

h

nlog

h/n

p− (1 − h

n) log

1 − h/n

1 − p

]

. (4.7)

Al reemplazar h/n = p + γn en (4.6), resulta

−1

2log(1 + γn/p) − 1

2log(1 − γn/(1 − p)),

que tiende a cero uniformemente en γ.

Al reemplazar h/n = p + γn en (4.7), y aplicar el desarrollo (1 + x) log(1 + x) =

(1+x)(x− x2

2 + x3

3 − x4

4 + . . .) = x +x2

2 +B(x)x3, B(x) uniformemente acotada para|x| < const. < 1, se obtiene:

γ2

2− np(1 + γn/p) log(1 + γn/p) − n(1 − p)(1 − γn/(1 − p)) log(1 − γn/(1 − p))

=γ2

2−np

(

γn

p+

γ2n

2p2+ B(

γn

p)γ3

n

p3

)

−n(1− p)

( −γn

1 − p+

γ2n

2(1 − p)2+ B(

−γn

p)−γ3

n

p3

)

=γ2

2− 1

2nγ2

n

(

1

p+

1

1 − p

)

− nγ3n

(

B(γn/p)

p2− B(−γn/p)

(1 − p)2

)

Page 67: Cabaña - Probabilidad y aplicaciones estadisticas

56Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

−γ2p(1 − p)γn

(

B(γn/p)

p2− B(−γn/p)

(1 − p)2

)

,

y esta expresion tambien tiende uniformemente a cero.

N5.- de Moivre, Abraham (1667-1754).

Abraham de Moivre, nacio el 26 de mayo de 1667 en Vitry, Francia.Pertenecio a una familia protestante. Luego de realizar estudios delogica, tomo lecciones privadas de matematica con un tutor, al tiempoque realizaba estudios en el College de Harcourt en Parıs.A los 18 anos de edad, tuvo que emigrar a Inglaterra, por razonespolıticas y religiosas, luego de la expulsion de los Hugonotes de Fran-cia. Como extranjero, tuvo dificultades en ser reconocido, y trabajocomo tutor privado.En 1697 fue elegido miembro de la Royal Society, y en 1710 integrouna comision de la Sociedad que debıa dirimir una controversia entreNewton y Leibniz, acerca de quien era el creador del calculo.

Su tratado The Doctrine of Chance publicado en 1718 estudia diversos problemas relativos a juegosde azar, y define la independencia. En 1730 descubrio la llamada Formula de Stirling (que lleva el nombrede Stirling porque este obtuvo una version mejorada), y la uso en 1733 para encontrar el lımite de lasprobabilidades binomiales. Tambien obtuvo la famosa formula (cos x + ı sin x)n = cos nx + ı sin nx.

Ejercicio 4.2.1 (i) Utilizando el desarrollo

1

2log

1 + x

1 − x= x +

x3

3+

x5

5+

x7

7+ . . . ,

calcular dn − dn+1, donde dn = log n! − (n + 12) log n + n y deducir que la sucesion

dn es decreciente.(ii) Deducir tambien que dn − dn+1 ≤ 1

3(2n+1)2= 1

12n − 112(n+1) y a partir de esta

desigualdad, concluir que la sucesion dn − 112n es creciente.

(iii) De (i) y (ii), deducir que dn tiene un lımite, que llamaremos ℓ, y acotar lavelocidad de convergencia.

(iv) Obtener la Formula de Stirling limn→∞n!

nn+12 e−n

= eℓ

Ejercicio 4.2.2 Dado un paseo al azar simetrico, simple Sj , j = 0, 1, 2, . . .,(i) Mostrar que la probabilidad u2n = PS2n = 0 coincide con la probabilidad

de que Sj no se anule para j = 1, 2, . . . , 2n.(ii) Calcular la probabilidad α2k,2n = PS2k = 0, Si = 0, 2k < i ≤ 2n.(iii) Para cada n, llamamos Kn a la variable aleatoria definida por las condiciones:

S2Kn= 0, Si = 0, 2Kn < i ≤ 2n. Encontrar la distribucion de probabilidades de

Kn. Expresar la probabilidad de 0 ≤ Kn ≤ n, que vale 1, como suma de lasprobabilidades individuales, y, pasando al lımite en cada sumando, deducir que laconstante ℓ que interviene en la Formula de Stirling (ver el ejercicio anterior) valelog

√2π.

(iv) Dadas las constantes a, b, 0 ≤ a < b ≤ 1, calcular limn→∞ Pa < Kn/n ≤ b.(Al resultado que se obtendra se le suele llamar Ley del Arcoseno ).

Page 68: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.3. Una aplicacion estadıstica. 57

4.3 Una aplicacion estadıstica: inferencia so-

bre el parametro en un modelo de Ber-

noulli.

La estadıstica constituye una importante motivacion para el estudio de laprobabilidad, y es ademas una fuente de interesantes problemas probabilısticos.Nos adelantamos desde ya a plantear algunas aplicaciones de los elementos deprobabilidad que estamos estudiando, a situaciones que podran ser descritas yestudiadas como problemas de inferencia estadıstica.

Lo haremos en relacion a un ejemplo, sin pretender mayor generalidad.

4.3.1 Introduccion.

Supondremos dadas n observaciones independientes de una distribucion deBernoulli con parametro p (es decir, n variables i.i.d. ∼ Ber(p)) y buscaremosargumentos probabilısticos que nos ayuden a tomar decisiones en relacion conp.

Ejemplo 4.3.1 Preferencias de consumidores ante una opcion binaria.Supongamosque se admite que los integrantes de cierta poblacion tan grande que podemos suponerinfinita, consumen cierto producto que viene presentado de dos maneras diferentes,“A” y “B”, y que no tienen preferencia por ninguna de esas dos presentaciones, demodo que si se elige al azar un integrante de la poblacion, la probabilidad de queprefiera “A” es 1/2 (y la de que prefiera “B” es tambien 1/2).

A partir de esa situacion, se ha hecho una campana publicitaria en favor de la opcion“A”. Se desea verificar el exito de la campana. y para ello se consulta a n integrantesde la poblacion elegidos al azar, independientemente, sobre su preferencia. LlamemosH al numero de respuestas favorables a “A”.

Una campana exitosa estara indicada por un alto valor de H. El problema que nosplanteamos es como usar el resultado H de nuestra consulta para medir el exito dela campana.

En cualquier caso, la variable H tiene distribucion binomial con parametros (n, p),donde p es la proporcion de integrantes de la poblacion que optan por “A”, y porconsiguiente, es tambien la probabilidad de respuesta “A” cuando se pregunta a unindividuo elegido al azar.

La campana es exitosa cuando p es mayor que 1/2, y tanto mas exitosa cuanto mayorsea p. Por lo tanto, se nos plantea dar respuesta a la pregunta ¿Cuanto vale p? o almenos a la pregunta ¿Es p mayor que 1/2?

Page 69: Cabaña - Probabilidad y aplicaciones estadisticas

58Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

La segunda pregunta es mas simple, porque admite solo dos respuestas: “Sı” o “No”,mientras que a la primera se puede responder al menos con cualquiera de los infinitosnumeros reales del intervalo [1/2, 1], o del intervalo [0, 1] si se admitera que la campanapuede ser contraproducente.

4.3.2 Un primer esquema de solucion.

Intentaremos dar una respuesta binaria, que dependera del valor de H, pero previa-mente reformularemos la pregunta, para adaptarla mejor a la situacion que, dadala naturaleza del problema y de la informacion que poseemos, seremos capaces deresolver. Nos haremos, en vez de la pregunta ¿Es p mayor que 1/2?, la nueva pregunta¿Nos alcanza la evidencia experimental dada por el valor de H para concluir quep > 1/2? La respuesta adecuada a esta pregunta es tambien binaria. Para ciertosvalores de H responderemos “Sı” y concluiremos p > 1/2, y para otros valores de Hresponderemos “No” y no concluiremos p > 1/2.

Ya hemos observado intuitivamente que los valores grandes de H son los que corres-ponden a una campana exitosa, de modo que resulta natural elegir una constantec adecuada, y concluir p > 1/2 si y solo si H > c. Para saber si un c dado esadecuado, evaluemos las consecuencias de nuestro procedimiento. Cuando p = 1/2,el suceso H > c que nos lleva a concluir erroneamente p > 1/2 tiene probabilidad α= PBin(n, 1/2) > c, mientras que para cada p > 1/2, el mismo suceso que ahoranos conduce a la respuesta correcta, tiene probabilidad π(p) = PBin(n, p) > c.Se concluye que el valor de c sera adecuado cuando α resulte pequeno, puesto que esuna probabilidad de error, y π(p) resulte grande, puesto que es una probabilidad deacierto. Sin embargo, es inmediato verificar que π(p) es una funcion continua de p, yque π(1/2) = α, de modo que es imposible conseguir simultaneamente ambas metas.

La Figura 4.4 muestra la forma de π(p) para α aproximadamente igual a .05, y variosvalores de n.

Conviene tener en cuenta que para obtener el valor aparentemente optimo α = 0, espreciso elegir c ≥ n, lo que tiene por consecuencia π(p) = 0 para todo p, y en esecaso el procedimiento es inoperante. Por ese motivo se descarta utilizar α = 0, yes preciso elegir para α algun valor tolerablemente pequeno, que para nuestra figurahemos fijado en aproximadamente 5%. El valor 5% no puede obtenerse de maneraexacta en general, ya que solo hay un conjunto finito de sucesos de la forma H > c,a saber, Ω (para c < 0), ∅ (para c ≥ n) y cada uno de los sucesos H > c para c= 0, 1, . . . , n− 1, y por lo tanto solo n+2 valores posibles de α. Para la figura hemoselegido para cada n, el valor de c que induce el valor de α mas proximo a 5% (con

n = 10, obtenemos c = 7 y α =∑10

j=8

(

10j

)

2−10 = 56/1024 = 5.47%, con n = 20,

obtenemos c = 13 y α = 5.77%, y con n = 50, c = 30 y α = 5.95%).

Ejercicio 4.3.1 Para n = 10, verificar que el valor de c para el que α es lomas proximo posible a 5% es 7. Para ese valor de c, y p = 0.5, 0.6, 0.7, 0.8,0.9 y 1, calcular π(p). Aprovechar los resultados para constatar la correccionde la Figura 4.4.

Page 70: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.3. Una aplicacion estadıstica. 59

n = 10

n = 20

n = 50

Figura 4.4: Probabilidad de decidir que la propaganda es efectiva, para n =10, 20, 50 en funcion de p.

Como resumen de resultados de nuestro analisis, podemos concluir que un procedi-miento razonable para decidir si la campana ha sido exitosa consiste en (a) fijar unnivel de probabilidad α que se considere relativamente pequeno, correspondiente ala probabilidad de decidir que la campana ha tenido exito cuando en la realidad lasprobabilidades de respuesta siguen inalteradas, iguales a (1/2, 1/2), (b) elegir unaprobabilidad p0 > 1/2 tal que, cuando p > p0, se considere importante reconocerque la campana ha tenido exito, al menos con probabilidad π0, y, por ultimo, en unabaco como el de la Figura 4.4, correspondiente al valor de α elegido, y completadocon un mayor numero de curvas correspondientes a otros valores de n, para queresulte efectivo, elegir el n adecuado para que π(p0) ≥ π0 (es decir, el mınimo n -para abaratar el costo de la decision - para el que se cumpla esa desigualdad). Seconsultan entonces n individuos independientemente, y se toma la decision de acuerdoal procedimiento descrito arriba.

Por ejemplo, con α = 5%, p0 = 70%, π0 = 60%, la Figura 4.4 nos lleva a concluir quebasta tomar n ≥ 20.

4.3.3 Algunas generalidades sobre la prueba de hipote-sis.

El procedimiento que hemos llevado a cabo en nuestro ejemplo suele llamarse prueba

de la hipotesis p = 1/2 contra la alternativa p > 1/2. El termino contra debe inter-

Page 71: Cabaña - Probabilidad y aplicaciones estadisticas

60Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

pretarse como sinonimo de en comparacion con, y es simplemente una abreviaturafrecuente en el lexico de los estadısticos.

En efecto, es claro que hemos comparado ambas posibilidades o hipotesis. Tambienes claro que ambas hipotesis no juegan un papel intercambiable en el problema, yvale la pena enfatizar que tampoco lo han jugado en el esbozo de solucion que hemospropuesto. La hipotesis p = 1/2 estaba aceptada como valida antes de aplicar el pro-cedimiento sobre cuyo resultado hay incertidumbre, en nuestro ejemplo: la campanapublicitaria. Si la campana fuese inoperante, p continuarıa valiendo 1/2. Nuestrointeres es demostrar, si es posible, que se cumple otra hipotesis diferente, en nuestrocaso, p > 1/2, con lo que mostrarıamos que la campana ha surtido efecto. A laprimera hipotesis suele llamarsele hipotesis nula, y a la que querrıamos demostrar (entanto sea verdadera), hipotesis alternativa.

La solucion que hemos propuesto, conduce a una decision binaria y asimetrica: (1)rechazar la hipotesis nula y adoptar como verdadera la hipotesis alternativa, o bien(2) entender que no hay evidencia experimental que justifique ese rechazo, y por lotanto, no rechazar la hipotesis nula.

La asimetrıa de la decision esta en general justificada por razones practicas: al expe-rimentador interesado en demostrar que cierto procedimiento, sobre cuyos resultadoshay a priori incertidumbre, opera de la manera deseada, no le interesa en cambioaportar argumentos para demostrar que ese procedimiento es inoperante. Le interesademostrar que es operativo, si lo es, porque en ese caso estara justificado para darlos pasos necesarios para ponerlo en practica. Y mientras no este convencido que esoperativo, le podra interesar mejorarlo o cambiarlo, pero le resultarıa inutil gastaresfuerzos en demostrar que el procedimiento no es operativo.

De acuerdo al esquema que hemos utilizado para plantear el problema y para aportaruna solucion, tenemos que comparar dos situaciones. La realidad desconocida, ynuestra decision basada en la informacion experimental. En la realidad, la hipotesisnula puede ser falsa o verdadera. En nuestra decision, podemos darla por falsa o nohacerlo. Cada una de las dos posibilidades reales puede aparecer combinada con cadauna de las dos decisiones posibles.

Dos de estas combinaciones son deseables, rechazar la hipotesis nula cuando es falsa,y no rechazarla cuando es verdadera.

En cambio, las otras dos combinaciones son indeseables: Dar por falsa la hipotesisnula cuando es verdadera, y esto es claramente un error, que suele llamarse error de

tipo I, y no rechazarla cuando es falsa, y a esta situacion se la llama error de tipo II.Puede argumentarse que cuando se produce un error de tipo II, no se esta cometiendotecnicamente un error, sino que se esta desaprovechando la oportunidad de tener unacierto.

Al procedimiento utilizado para adoptar la decision, se lo llama una prueba de lahipotesis nula. Tambien se utiliza el termino contraste como sinonimo de prueba.Cuando se contrasta o se pone a prueba una hipotesis nula, se lo hace con ciertahipotesis alternativa como referencia, que es la hipotesis que se adoptara cuando serechaza la hipotesis nula. Si llamamos H0 a la hipotesis nula y H1 a la hipotesisalternativa, al procedimiento de decision se lo llama abreviadamente una prueba de

H0 contra H1.

Page 72: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.3. Una aplicacion estadıstica. 61

Naturaleza

H0 es cierta

H0 es falsa Error de tipo II

Error de tipo I

No rechazamos H0Rechazamos H0

Decision

Figura 4.5: Errores de tipos I y II en una prueba de hipotesis.

Como hemos visto, el procedimiento consiste en dividir el conjunto de los resultadosposibles de la experimentacion, en dos regiones. Una de ellas es la region de rechazo oregion crıtica, que denotaremos S, y la otra es su complemento. Si la muestra resultaen S, se adopta la decision de rechazar H0, y si resulta en Sc no se rechaza H0.

Supondremos que la informacion experimental es un punto en cierto conjunto E deresultados posibles de los experimentos realizados, en nuestro caso, E = 0, 1, . . . , n,y la informacion experimental es H con valores en E.

Supondremos que E esta dotado de una σ-algebra (en este caso 2E) de modo que H esuna variable aleatoria, y que S es un subconjunto de E perteneciente a la σ-algebra.

A menudo, H0 especifica una unica distribucion de probabilidad. Cuando una hipo-tesis, sea H0 o H1, contiene una sola distribucion de probabilidades, se dice que esuna hipotesis simple. En caso contrario, se dice que es una hipotesis compuesta.

Cuando H0 es simple, una vez dada S queda determinada la probabilidad

α = P(X1, . . . , Xn) ∈ S : (Xi) i.i.d. ∼ F, F especificada por H0

de cometer un error de tipo I. A esa probabilidad se la llama nivel de la prueba.

Cuando H0 es compuesta, se llama nivel de la prueba al supremo

supF∈H0

P(X1, . . . , Xn) ∈ S : (Xi) i.i.d. ∼ F.

Para cada F compatible con H1,

π(F ) = P(X1, . . . , Xn) ∈ S : (Xi) i.i.d. ∼ F

se llama potencia de la prueba asociada a F .

La Figura 4.4 describe las potencia de las pruebas asociadas a tres valores diferentesde n. Cada distribucion F compatible con H1 esta identificada por un valor delparametro p, y en vez de la notacion π(Bin(n, p)) se ha optado por la notacion massimple π(p).

Page 73: Cabaña - Probabilidad y aplicaciones estadisticas

62Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

4.3.4 Estimacion de p.

Estimacion puntual clasica.

Volvamos ahora sobre la pregunta ¿cuanto vale p? que formulamos al comienzo, cuyaconsideracion pospusimos para considerar inicialmente una pregunta aparentementemas simple, por admitir solo dos respuestas, a diferencia de esta, que puede serrespondida con cualquier numero en el intervalo [0, 1]. La informacion experimentalque disponemos es la variable aleatoria H, cuya distribucion es Bin(n, p). Es razonableque una respuesta a la pregunta formulada dependa de H, y solo de H, ya que estaes la unica informacion que poseemos. Por lo tanto, la manera de elegir un valor de

p en respuesta a la pregunta, es definir una funcion T : 0, . . . , n → [0, 1] que paracada H especifique un valor T (H) para p. Diremos en ese caso que T es un estimador

de p y que T (H) es la estimacion de p correspondiente al valor experimental obtenidoH.

Nos limitamos ahora a indicar un par de criterios para elegir un estimador, para losque puede encontrarse una interpretacion heurıstica:

• De todos los valores posibles de p, elijamos el que hace mas probable el resultadoH obtenido. En nuestro ejemplo, dado que la probabilidad del resultado H es(

nH

)

pH(1 − p)n−H , elegiremos entonces como estimador de p el valor p que

maximiza(

nH

)

pH(1−p)n−H para 0 ≤ p ≤ 1, a saber: p = H/n, como se deducesin dificultad. Este criterio fue introducido por R. A. Fisher y a el se asocia elnombre de maxima verosimilitud.

• Cuando hemos realizado m observaciones independientes de una variable ale-atoria, llamamos distribucion empırica a la distribucion de probabilidades queasocia iguales probabilidades (con valor 1

m ) a cada una de las m observaciones.De todos los valores posibles de p, elijamos aquel p para el que la esperanzade la distribucion y la de la distribucion empırica coinciden. Si esto no fuesesuficiente para determinar el (los) parametro(s), se busca la igualdad de lasvariancias, luego de los momentos de tercer orden, y ası hasta que resulte su-ficiente para determinar el o los parametros. En nuestro caso tenemos unaunica observacion H de Ber(n, p), de modo que la distribucion empırica estaconcentrada en H, y basta igualar np = H para obtener p = H/n.

En ambos casos hemos obtenido el mismo resultado. Interesa saber que propiedadestiene nuestro estimador. Por ejemplo, cual es su distribucion de probabilidades,y cuan concentrada esta esa distribucion alrededor del parametro que pretende-mos estimar. En proximos capıtulos estudiaremos medidas de la concentracion deesa distribucion respecto a p que muestran que el estimador obtenido tiene buenaspropiedades.

Se podrıa aducir que una vez obtenido H, la estimacion resultante esta determinada, ysu error H

n −p ya no esta sujeto a ninguna distribucion de probabilidad. Sin embargo,puesto que no conocemos p, esa distribucion es lo (unico!) que nos permite valorar

Page 74: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

4.3. Una aplicacion estadıstica. 63

las propiedades del estimador, de la misma manera que el valor de venta o reventade un billete de loterıa depende de la probabilidad de que ese billete gane el premio,no solo antes de realizado el sorteo, sino aun despues, si la operacion ha de realizarsecon total desconocimiento del resultado del sorteo.

Estimacion bayesiana.

Existe tambien una posibilidad alternativa: en vez de elegir un valor de p como res-puesta, podemos asumir que existe incertidumbre sobre el valor de p y describirlamediante un modelo probabilıstico: nuestra respuesta serıa una distribucion de pro-babilidades para p.

Esta distribucion debera depender de los resultados experimentales, en nuestro caso,de H. Esta forma de proceder tiene un antecedente en el Ejemplo 2.6.1. En aquelcaso conocıamos las probabilidades (a priori) de que un paciente tomado al azar en-tre los que acuden a una consulta padeciera la enfermedad Ei (i = 1, 2, 3), y nospreguntabamos por la probabilidad condicional (a posteriori) de que padeciera la en-fermedad E1, dado que posee ciertos sıntomas vinculados a las tres enfermedades decierta manera conocida. En el caso presente, podemos dar una respuesta analoga:si conocemos una distribucion de probabilidades para p que describa nuestra incer-tidumbre a priori sobre el valor de ese parametro, una vez que conozcamos el valorde H, nuestra composicion de lugar a posteriori sobre p pasara a estar descrita porla distribucion condicional de p dada H.

Por ejemplo, supongamos que nuestra distribucion a priori para p tiene densidadfp(u) proporcional a u2(1 − u)2, que esta concentrada alrededor de 1/2. Llamemos

c = (∫ 1

0u2(1 − u)2du)−1, de modo que fp(u) = cu2(1 − u)2.

La integral que nos permite calcular c es un caso particular de

B(α, β) =

∫ 1

0

uα−1(1 − u)β−1du =(α − 1)!(β − 1)!

(α + β − 1)!.

Esta formula es inmediata para β = 1. Una induccion en β a partir de B(α, β)= B(α, β − 1) −B(α + 1, β − 1) permite completar la verificacion.

En particular, c = B(3, 3) = 2!2!5! = 1

30 .

La distribucion condicional de H dado p es Bin(n, p), de manera que la distribucionconjunta de p, H atribuye al suceso a < p < b, H = h (0 ≤ a ≤ b ≤ 1) la

probabilidad∫ b

acu2(1 − u)2

(

nh

)

uh(1 − u)n−hdu. Eligiendo a = 0 y b = 1, obtenemos

PH = h = c(

nh

)

B(h + 3, n = h + 3). Podemos observar ahora que la distribucioncondicional de p dado H = h tiene densidad fp|H=h(u) que satisface

Pa < p < b, H = h = PH = h∫ b

a

fp|H=h(u)du.

Al igualar las dos expresiones obtenidas para la probabilidad de a < p < b, H = h,validas para toda pareja a, b, resulta la igualdad de los integrandos:

cu2(1 − u)2(

n

h

)

uh(1 − u)n−h = PH = hfp|H=h(u).

Page 75: Cabaña - Probabilidad y aplicaciones estadisticas

64Enrique M. Cabana.

Capıtulo 4∗ Tres aplicaciones.

Como consecuencia, fp|H=h(u) es proporcional a uh+2(1− u)n−h+2. La constante de

proporcionalidad c(

nh

)

(PH = h)−1 queda determinada para que la integral en (0, 1)valga 1, y debe valer (B(h+3, n−h+3))−1, de manera que los calculos ya realizadosde c y de la probabilidad de H = h son innecesarios.

Como resultado de nuestro proceso de estimacion, en vez de describir nuestra incer-tidumbre sobre p por medio de la distribucion a priori con densidad fp, lo haremos pormedio de la distribucion a posteriori fp|H(u) = uH+2(1−u)n−H+2/B(H+3, n−H+3).El valor mas probable a posteriori del parametro es entonces (H + 2)/(N + 4).

Page 76: Cabaña - Probabilidad y aplicaciones estadisticas

5. ∗ Cadenas de Markov

5.1 Algunos ejemplos.

Los paseos al azar estudiados en capıtulo §4 pueden replantearse como ejemplosde cadenas de Markov, como resulta de la definicion que veremos mas adelante.El Ejemplo 3 de la siguiente lista corresponde precisamente a un paseo alazar con un par de barreras absorbentes. Vamos a considerar tambien otrosejemplos, para luego introducir una definicion formal.

Ejemplo 1. Un jugador arroja un dado. Si el resultado es 1, gana. Si elresultado es a = 1 realiza un nuevo lanzamiento independiente. Cuando elresultado de este nuevo lanzamiento es 1, pierde. Cuando es a, gana, y cuandono es 1 ni a, vuelve a realizar un lanzamiento independiente, con el cual seprocede de la misma manera, hasta que por primera vez el resultado sea 1 o a.

A lo largo de este juego se pueden producir cuatro situaciones, o estadosdel juego:

I: El jugador se dispone a arrojar el dado por primera vez.

G: El jugador acaba de realizar un lanzamiento exitoso y por lo tanto ganael juego.

N: El jugador ha obtenido un resultado desfavorable y por lo tanto pierde.

R: El ultimo lanzamiento no define el resultado del juego, y por lo tanto eljugador se dispone a realizar un nuevo lanzamiento. En este caso ganarasi obtiene a, perdera si obtiene 1 y volvera a la misma situacion si obtienecualquier otra cara del dado.

El diagrama de la Figura 5.1 indica los estados posibles, y las flechas que losvinculan indican las transiciones entre estados que pueden ocurrir a medida quetranscurre el juego, ası como sus respectivas probabilidades, con la suposicionde que el dado es simetrico.

65

Page 77: Cabaña - Probabilidad y aplicaciones estadisticas

66Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

G

N

RI

1/61/6

1/6

4/6

5/6

Figura 5.1: Diagrama de estados y transiciones de la cadena del Ejemplo 1.

Ejemplo 2. Un laboratorio de computacion tiene una sala con una red de Ncomputadoras personales. Se observa la sala a intervalos regulares de tiempo,y se registra el numero de computadoras ocupados.

Este sistema tiene N + 1 estados posibles: 0, 1, . . ., N computadorasocupadas en cada instante.

Ejemplo 3. Un jugador llega a una casa de juego con un capital C, quesuponemos un numero entero de unidades monetarias, y apuesta en sucesivasinstancias una unidad. Si gana recibe dos unidades, y si pierde, ninguna (Suganancia neta es 1 o −1, segun gane o pierda). Continua este procedimientohasta obtener una ganancia G, es decir, hasta retirarse con un capital C + G(correspondiente, por ejemplo, a la ganancia maxima que la casa de juego estadispuesta a cubrir), o bien hasta perder todo su capital, luego de lo cual nopuede seguir arriesgando. Los estados del sistema que describe las sucesivasinstancias de esta situacion son los posibles montos en poder del jugador altermino de cada apuesta, a saber, 0, 1, 2, . . ., C + G.

5.2 Cadenas finitas homogeneas en el tiempo

El modelo que describimos a continuacion puede utilizarse para estudiar lassituaciones de los ejemplos precedentes. Se tiene un conjunto o espacio deestados finito E = E1, E2, . . . , Ek. En E hay un estado inicial, posiblementedeterminıstico, o bien sujeto a un modelo aleatorio que asigna a cada estadoEj de E la probabilidad πj de ser el estado inicial. A este estado lo llamaremosX0.

En un instante dado que llamaremos 1, el sistema pasa de X0 a un nuevo

Page 78: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

5.2. Cadenas finitas. 67

estado X1, no necesariamente distinto del anterior, que tambien es un elementodel espacio de estados E . A este pasaje lo llamamos una transicion del sistema.Luego, en sucesivos instantes prefijados que llamaremos 2, 3, . . ., n, . . ., elsistema pasa de X1 a X2, de X2 a X3, . . ., de Xn−1 a Xn, . . . .

Las sucesivas transiciones son aleatorias. Lo que caracteriza al modelo queestamos considerando es la forma sencilla en que se describen las probabilidadesasociadas a las transiciones:

La probabilidad condicional de que el sistema pase en los instantes 1, 2,. . ., n a los estados Ei1, Ei2, . . . , Ein dado que parte de Ei0 es

PXh = Eih , h = 1, 2, . . . , n|X0 = Ei0 =n

h=1

Pih−1,ih (5.1)

donde Pi,j es una funcion exclusiva de Ei y Ej, que llamamos probabilidadde transicion de Ei a Ej.

Definicion 5.2.1 Llamamos cadena de Markov con espacio de estados E =Ei : i = 1, 2, . . . , k y matriz de probabilidades de transicion

P = ((Pi,j))i,j=1,2,...,k

a cualquier sucesion de variables aleatorias X0, X1, . . . , Xn, . . . que cumpla(5.1) para cualquier n y cualquier sucesion de estados (Eih)h=0,1,2,....

Nota. Como consecuencia de (5.1), para cualesquiera ındices i, j y cualquiersucesion finita de estados (Eih)h=0,1,2,...,n−2,

PXn = Ej|Xn−1 = Ei, Xh = Eih , h = 0, 1, . . . , n − 2 = Pi,j.

En palabras, la probabilidad condicional de que la transicion n-esima sea deEi a Ej, dado que la trayectoria inicial llega a Ei en la n− 1-esima transicion,es siempre la misma, Pi,j, no importa cual haya sido la trayectoria que condujoal estado Ei al cabo de las primeras n − 1 transiciones.

Esto significa que el conocimiento de la posicion del sistema luego de lan− 1-esima transicion permite saber la distribucion (condicional) de probabi-lidades de la posicion luego de la siguiente transicion, con independecia de lahistoria del proceso, antes de llegar a Ei en el instante n − 1.

Notemos que la matriz P = (pi,j)i,j=1,...,k de las probabilidades de transiciontiene la propiedad de que los elementos de cada una de sus filas suman 1,dado que si en un instante la cadena se encuentra en cualquier estado Ei, laprobabilidad pi,1 + pi,2 + . . . + pi,k de que luego de la proxima transicion este

Page 79: Cabaña - Probabilidad y aplicaciones estadisticas

68Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

en alguno de los estados del sistema (E1, E2, . . ., Ek) es necesariamente iguala 1.

El vector π = (π1, π2, . . . , πk) de probabilidades iniciales y la matriz P delas probabilidades de transicion definen el comportamiento probabilıstico delsistema. Veremos como, a partir de ellos, pueden calcularse por ejemplo lasprobabilidades π

(n)j = PXn = Ej.

Para uniformizar la notacion, al vector π de probabilidades iniciales lodenotaremos π(0) = (π

(0)1 , π

(0)2 , . . . .π

(0)k )

Para encontrar π(n) conviene proceder de manera inductiva: Supongamosque conocemos π(n−1)= (π

(n−1)1 , π

(n−1)2 , . . . , π

(n−1)k ).

Se deduce para cada j que π(n)j = PXn = Ej = P

⋃ki=1Xn−1 = Ei, Xn =

Ej =∑k

i=1 PXn−1 = Ei, Xn = Ej =∑k

i=1 PXn−1 = EiPXn = Ej |Xn−1 = Ei =

∑ki=1 π

(n−1)i pi,j.

De aquı resulta la igualdad π(n) = π(n−1)P , que vale para n ≥ 1 y permitededucir por induccion completa

π(n) = π(0)P n. (5.2)

Esta formula muestra que si sabemos como se comportan las sucesivas po-tencias de P , podemos deducir como evoluciona π(n). Por ejemplo, si existierael lımite limn→∞ P n = P∞, entonces existe el lımite de π(n) y vale π(0)P∞.

En la seccion que sigue vamos a ver que este es el caso del Ejemplo 1.

5.3 Cadenas finitas con estados absorbentes.

Comencemos analizando el Ejemplo 1: Los estados son I = E1, R = E2,G = E3, N = E4, el vector de probabilidades iniciales es π(0) = (1, 0, 0, 0) y lamatriz de probabilidades de transicion es:

P =

0 5/6 1/6 00 4/6 1/6 1/60 0 1 00 0 0 1

Se observara que para inscribir el juego dentro del modelo general de unaCadena de Markov homogenea, se ha anadido artificialmente a la descripcionoriginal del problema que cuando el jugador llega al estado G que correspondea ganar el juego, continuan realizandose las transiciones, pero son triviales,con estado de llegada G despues de cada una de ellas. De la misma manera,

Page 80: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

5.3. Cadenas con estados absorbentes. 69

una vez que el sistema llega a N , queda absorbido allı, pues las transicionessiguientes son obligatoriamente de N a N .

Las probabilidades π(1) se obtienen de manera inmediata: dado que concerteza X0 = I = E1, se cumple π(1) = (p1,1, p1,2, p1,3, p1,4) = (0, 5/6, 1/6, 0).

Para calcular cada componente de π(2) podemos calcular probabilidades alo largo de cada uno de los caminos posibles que llevan de I a cada uno de losotros estados, en exactamente dos transiciones.

El diagrama ayuda a enumerarlos. Hay un solo camino que lleva a R endos pasos: I − R − R, y su probabilidad es (5/6)(4/6). Tambien hay un solocamino que lleva a N , con probabilidad (5/6)(1/6), y hay dos que llevan a G:I−R−G, con igual probabilidad que el anterior, e I−G−G con probabilidad(1/6). Finalmente, no hay ningun camino de longitud 2 (ni de ninguna otramayor que cero) que lleve a I. En resumen, π(2) = (0, (5/6)(4/6), (5/6)(1/6)+(1/6), (5/6)(1/6)) = (0, 20/36, 11/36, 5/36).

El mismo resultado se encuentra aplicando 5.2, y tambien se obtienen por lamisma formula los vectores de probabilidades correspondientes a los instantesque siguen.

5.3.1 Particion en bloques de la matriz de probabilida-des de transicion

Vamos a introducir una notacion que nos simplificara la verificacion de que laspotencias de P tienen lımite. Observemos que la matriz P puede escribirse

en la forma P =

[

Q R0 I

]

, donde Q =

[

0 5/60 4/6

]

, R =

[

1/6 01/6 1/6

]

, I =[

1 00 1

]

, 0 =

[

0 00 0

]

.

De ello resulta que las sucesivas potencias son:

P 2 =

[

Q2 (I + Q)R0 I

]

, P 3 =

[

Q3 (I + Q + Q2)R0 I

]

, . . . ,

P n =

[

Qn (I + Q + Q2 + . . . + Qn−1)R0 I

]

,

y el lımite se calcula facilmente cuando Qn → 0, y existe (I −Q)−1, porque enese caso

(I − Q)(I + Q + Q2 + . . . + Qn−1) = I − Qn → I,

y entonces(I + Q + Q2 + . . . + Qn−1) → (I − Q)−1.

Page 81: Cabaña - Probabilidad y aplicaciones estadisticas

70Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

En nuestro caso, la verificacion de que I − Q es no singular es inmediata.En cuanto al lımite, basta verificar que cualquiera sea el vector z, Qnz → 0.Si | z | denota el maximo de los valores absolutos de las componentes de z,entonces | Qz |≤ (5/6) | z |, lo que implica | Qnz |≤ (5/6)n | z |→ 0.

Se concluye que existe el lımite, y vale P∞ =

[

0 (I − Q)−1R0 I

]

.

Para calcular esta matriz observemos que (I − Q)−1R es la matriz Msolucion de la ecuacion R = (I − Q)M , que en nuestro caso se reduce a

[

1 −5/60 2/6

]

M =

[

1/6 01/6 1/6

]

,

cuya solucion es

[

7/12 5/121/2 1/2

]

.

El analisis precedente nos muestra condiciones bajo las que existe el lımitede las potencias de P , y nos dice cuanto vale. Estos resultados estan resumidosen el enunciado siguiente.

Teorema 5.3.1 Cuando la matriz de probabilidades de transicion de una ca-

dena de Markov homogenea finita es de la forma P =

[

Q R0 I

]

, donde Q es

una matriz cuadrada con (I−Q) no singular y con la propiedad limn→∞ Qn = 0,entonces

limn→∞

P n =

[

0 (I − Q)−1R0 I

]

.

Ejercicios.

Ejercicio 5.3.1 Proponer modelos para describir las situaciones descritas en losejemplos 2 y 3 de 5. En el caso del Ejemplo 2, suponer que cada usuario utilizael sistema un numero entero de unidades de tiempo. Al cabo de cada unidad detiempo, deja el equipo con probabilidad p y permanece por una unidad mas conprobabilidad 1 − p. Al principio de cada unidad de tiempo puede llegar un nuevousuario, con probabilidad q, o ninguno, con probabilidad 1− q. Cuando estan todaslas computadoras ocupadas, si llega un nuevo usuario, este se retira sin utilizar elsistema. Cada individuo, procede con independencia del resto.

Ejercicio 5.3.2 ¿Cual es la probabilidad de ganar en el siguiente juego de dados?El jugador arroja dos dados simultaneamente. Si obtiene suma 7 u 11, gana, en casocontrario, llamemos a a la suma. Si no gana luego de la primera jugada, vuelve aarrojar los dos dados, y gana cuando vuelve a sacar a, pierde cuando saca 7 u 11, yrepite la operacion cuando el resultado no es 7, 11, ni a.

Page 82: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

5.4. Teorema de convergencia de probabilidades. 71

Ejercicio 5.3.3 En la situacion del Ejemplo 2, con N = 3, p = .5 y q = .5,identificar el lımite π∞, si existe, pasando al lımite en la igualdad π(n) = π(n−1)P .

Ejercicio 5.3.4 Verificar que la existencia del lımite en el Ejemplo 2, esta garan-tizada por el Teorema 5.4.1, que se enuncia mas abajo.

Ejercicio 5.3.5 Un conjunto de M individuos (M > 0), que llamaremos 1, 2, . . .,M , esta distribuido en dos compartimientos, que llamaremos A, B. En el instante0 hay X0 individuos en A (y n−X0 en B). Inmediatamente antes de cada instanten (= 1, 2, . . .) se elige uno de los individuos al azar, con independencia de lo ocu-rrido anteriormente, y este individuo cambia de compartimiento, de manera que elnumero Xn de individuos en A en el instante n es Xn−1 + 1 si el individuo elegidoinmediatamente antes de n estaba en B, y Xn−1 − 1 si estaba en A.

(a) Describir el fenomeno mediante una cadena de Markov.

(b) Si π(n) es el vector cuyas componentes son las probabilidades PXn = kk = 0, 1, . . . , M , mostrar que no existe limn→∞ π(n).

(c) Si P es la matriz de probabilidades de transicion de la cadena obtenida en(a), observar que P 2 es la matriz de probabilidades de transicion de otra cadenacuyos estados son solo una parte de los de la cadena anterior. Mostrar que a estanueva cadena se aplica el Teorema 5.4.1, y deducir cuanto vale el lımite del vectorde probabilidades.

Nota: Al modelo del ejercicio precedente se la llama Dog-Flea Model, porque suelepresentarse reemplazando los individuos por pulgas y los compartimientos por pe-rros. Tambien puede pensarse que los compartimientos son dos recipientes cerradosintercomunicados por un pequeno orificio circular, dentro de los cuales se muevenesferas elasticas que rebotan en las paredes, con diametro ligeramente menor que eldel orificio. En los instantes 1, 2, 3 . . ., una de las esferas atraviesa el orificio.

Este modelo fue propuesto por Ehrenfest, dentro del contexto de la Teorıa Cineticade los Gases.

5.4 Teorema de convergencia de probabilida-

des en una cadena de Markov finita.

Teorema 5.4.1 Cuando existe una potencia de la matriz P de probabilidadesde transicion de una cadena de Markov finita que tiene una columna de ele-mentos estrictamente positivos, existe el lımite de P n y es de la forma 1π∞,donde 1 designa un vector cuyas componentes son todas iguales a 1.

El vector fila π∞ es solucion de la ecuacion π∞P = π∞.

Page 83: Cabaña - Probabilidad y aplicaciones estadisticas

72Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

Mas abajo enunciaremos un teorema de convergencia de probabilidades enuna Cadena de Markov, del que el Teorema 5.4.1 es un caso particular, que serefiere a una cadena cuyo conjunto de estados puede ser infinito. Sin embargo,deberemos posponer su demostracion hasta el Capıtulo 10.

Por el momento, vamos a adelantar una demostracion que se basa fuerte-mente en la finitud del numero de estados.

Demostracion del Teorema. El conjunto de los valores posibles del vectorπ(0) es el simplejo S = π : π ≥ 0, π1 = 1 (donde la desigualdad se interpretacomponente a componente), formado por las combinaciones convexas de losvectores fila etr

1 , . . ., etrk de la base canonica.

Su imagen SP = πP : π ∈ S esta contenida en S. La inclusion esinmediata porque P tiene componentes no negativas y P1 = 1. De SP ⊂S deducimos aplicando nuevamente P que SP 2 ⊂ SP , y por extension deeste razonamiento encontramos que la sucesion SP n de subconjuntos de S esdecreciente por inclusion, y tiene por lo tanto un lımite A ⊂ S que es no vacıoporque las sucesivas imagenes por cada nueva aplicacion de P son conjuntoscerrados. Notemos por otra parte que estos conjuntos tambien son convexos,de modo que tambien lo es A. El conjunto A es invariante bajo P , ya que A= limn→∞ SP n = (limn→∞ SP n−1)P = AP .

La hipotesis del Teorema expresa que para algun n0 y algun j0, todos loselementos de la columna j0 de P n0 son positivos. De allı resulta que SP n0

esta estrictamente contenido en S. Mas aun, solo puede tener en comun conel borde de S el punto ej0 . Si B es un conjunto de la variedad lineal (k − 1-dimensional, se trata de un hiperplano) generada por S, el area (o volumenk − 1-dimensional) de BP es igual al area de B multiplicada por | det P | (verEjercicio 5.4.1) y la inclusion estricta de SP n0 en S implica | det P | < 1, demanera que el area de A es necesariamente cero. Por tratarse de un convexo,tiene interior no vacıo relativo al hiperplano generado por S, y necesariamentegenera una variedad de dimension menor que k − 1.

Para terminar la demostracion del Teorema basta verificar que A contieneun unico punto, que es el lımite de las probabilidades π(n) cuando n tiende a∞, cualquiera sea π(0).

Si A no fuera un punto, llamemos V a la variedad que genera, contenidaestrictamente en el hiperplano que genera S. La interseccion de V con S esnecesariamente llevada al cabo de n0 aplicaciones de P en un subconjuntoestricto de V ∩ S, y una repeticion del argumento originalmente aplicado alas sucesivas imagenes de S para concluir que A tiene area 0, lleva ahora aconcluir que el lımite de las sucesivas imagenes de V ∩S tiene volumen dimV -dimensional nulo, y esto es una contradiccion porque lim(V ∩ S)P n ⊃ A, a

Page 84: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

5.4. Teorema de convergencia de probabilidades. 73

menos que A se reduzca a un punto.

Ejercicio 5.4.1 (a) Mostrar que el volumen del paralelepıpedo de Rk de ladosu1, u2, . . . , uk es |detU |, donde U es la matriz de columnas u1, u2, . . . , uk.

Se sugiere fraccionar la demostracion en dos pasos:Paso 1. u1, . . . , uk ortogonales. En ese caso, el volumen es ‖u1‖.‖u2‖. . . . .‖uk‖.

Por la ortogonalidad, U trU= diag(‖u1‖2, ‖u2‖2, . . . , ‖uk‖2) y entonces (det U)2 =‖u1‖2 · ‖u2‖2 · . . . · ‖uk‖2.

Paso 2. En el caso general, ni el determinante de U ni el volumen del para-lelepıpedo cambian cuando el conjunto de vectores se ortogonaliza por el siguienteprocedimiento (de Gram-Schmidt): Se deja u1 incambiado. Se reemplaza u2 por esemismo vector mas un multiplo de u1 para que el resultado sea ortogonal a u1. Sereemplaza u3 por u3 mas una combinacion lineal de u1 y u2 de modo que el resultadosea ortogonal a u1 y a u2,etc.

(b) Deducir que, si P es una matriz de k×k, entonces el paralelepıpedo de ladosPu1, Pu2, . . ., Puk tiene volumen |detU |.|detP |, y extender el resultado a unafigura medible cualquiera: Si C tiene volumen V, entonces PC = Pu : u ∈ Ctiene volumen V|detP |.

(c) Si H es el hiperplano determinado por e1, e2, . . . , ek y PH = H entonces paracada region medible A en H, el area o volumen k − 1-dimensional de PA es |detP |por el area de A.

Se sugiere observar que si, para cualquier B ∈ H, definimos C(B) = λx : x ∈B, 0 ≤ λ ≤ 1, entonces C(PA) = PC(A) y vol(C(B)) = dist(O,H)area(C(B)),donde dist(O,H) (= 1/

√k) es la distancia del origen al hiperplano H.

Ejemplo 5.4.1 Consideremos el siguiente paseo al azar con barreras reflec-toras:

Una partıcula parte del nivel (estado) X0 = 0, y en cada instante 1, 2, . . . sedesplaza al nivel una unidad superior o una unidad inferior, con probabilidadesrespectivas p y q (p + q = 1), a menos que haya alcanzado los niveles −a o b.En ese caso, si esta en −a pasa a −a + 1 con probabilidad 1, y si esta en b,pasa a b−1 con probabilidad 1. Los numeros a y b son enteros positivos dados.Se propone calcular el vector de probabilidades lımite, si existe.

La primera observacion que podemos hacer es que X0 es par, X1 es impar, y, engeneral, Xn tiene la paridad de n y como consecuencia las probabilidades no pueden

tener lımite, ya que, para cada n de distinta paridad que i, π(n)i

es cero. Si existiera

el lımite limn→∞ π(n)i

deberıa ser cero, pero esto no es posible, porque hay un numerofinito de estados y sus probabilidades para cada n suman 1.

Esta observacion responde por la negativa a la cuestion planteada. Sin embargo,parece natural plantearse pequenas variantes, por ejemplo, si es posible modificarligeramente la cadena de manera que las probabilidades tengan lımite, o si es posible

Page 85: Cabaña - Probabilidad y aplicaciones estadisticas

74Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

pasar al lımite en la cadena que se obtiene observando exclusivamente los valores deXn para n par, o para n impar, por separado.

En el primer caso, supongamos que la matriz de probabilidades de transicion, en vezde

P =

0 1 0 0 . . . 0 0 0q 0 p 0 . . . 0 0 00 q 0 p . . . 0 0 00 0 q 0 . . . 0 0 0

. . . . . . . . . . . . . . . . . . . . . . . .0 0 0 0 . . . q 0 p0 0 0 0 . . . 0 1 0

es

P =

q + r p 0 0 . . . 0 0 0q r p 0 . . . 0 0 00 q r p . . . 0 0 0

. . . . . . . . . . . . . . . . . . . . . . . .0 0 0 0 . . . q r p0 0 0 0 . . . 0 q r + p

, (5.3)

con q + r + p = 1.

Al menos cuando r es pequeno, las dos matrices son muy parecidas, pero bastaque r sea positivo para que existan caminos de longitud maxa, b, por ejemplo,de probabilidad positiva, que unen cualquier estado con el 0.

El Teorema 5.4.1 es aplicable, como consecuencia, y las probabilidades lımite π∞

= (π∞

−a, π∞

−a+1, . . . , π∞

b−1, π∞

b) son soluciones del sistema de ecuaciones:

π−a(q + r) + π−a+1q = π−a,

πi−1p + πir + πi+1q = πi (i = −a + 1,−a + 2, . . . , b − 1),

πb−1p + πb(r + p) = πb.

La ecuaciones extremas nos dan π−a+1 = (p/q)π−a, πb−1 = (q/p)πb, mientras quelas ecuaciones centrales se pueden escribir en la forma pπi−1 − (p + q)πi + qπi+1 = 0,con soluciones πi = C1m

i1 + C2m

i2 (i = −a . . . , b), donde m1 y m2 son las raıces de

p − (p + q)m + qm2 = 0, es decir, m1 = p/q, m2 = 1 (ver Ejercicio 5.4.2). Estas sontodas las soluciones, cuando p = q.

Reemplazando estas expresiones en las dos primeras ecuaciones, obtenemos:

C1(p/q)−a+1 + C2 = C1(p/q)−a+1 + (p/q)C2,

C1(p/q)b−1 + C2 = C1(p/q)b−1 + (p/q)−1C2.

Cada una de estas dos expresiones implica C2 = 0 y ambas dejan C1 indeterminada.

Concluimos entonces que π∞

i= C1(p/q)i, y el valor de C1 se obtiene imponiendo que

la suma de las probabilidades C1

b

i=−a(p/q)i valga 1.

Es interesante observar que las probabilidades lımite no dependen de r.

Page 86: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

5 N6.- Markov. 75

Consideremos ahora las observaciones de la cadena para tiempos pares: X0, X2, X4,. . .. Las probabilidades de transicion para esta cadena son

P 2 =

q 0 p 0 0 . . . 0 0 00 q + pq 0 p2 0 . . . 0 0 0q2 0 2pq 0 p2 . . . 0 0 0. . . . . . . . . . . . . . . . . . . . . . . . . . .0 0 0 0 0 . . . 2pq 0 p2

0 0 0 0 0 . . . 0 pq + p 00 0 0 0 0 . . . q 0 p

.

Los estados de ındice par, por una parte, y los de ındice impar por otra, constituyendos clases de equivalencia que no se comunican entre si, de modo que pueden estudiar-se separadamente la restriccion de la cadena a los estados pares, correspondiente avectores de probabilidades iniciales que atribuyen probabilidad cero a todos los esta-dos impares, y la restriccion complementaria, que corresponde a poner probabilidadesiniciales nulas a los estados pares.

Cada una de las matrices de las restricciones es muy similar a (5.3), y las probabili-dades lımite se obtienen de la misma manera.

Dejamos como ejercicio completar los detalles de estos casos, y estudiar el caso p = q,excluido en el tratamiento que precede.

Ejercicio 5.4.2 (a) Mostrar que el conjunto de las soluciones del sistema de ecua-ciones

απi+1 + βπi + γπi−1 = 0; (i = −a,−a + 1, . . . , b, α, γ = 0)

es un subespacio vectorial de Rb−a+1, es decir que, si llamamos π′ = (π′

−a, . . . , π′

b),π′′

= (π′′

−a, . . . , π′′

b ) a dos soluciones, entonces Aπ′ + Bπ′′ es tambien solucion paracualesquiera A y B.

(b) Observar, despejando sucesivamente π−a+2, π−a+3, . . . que existe una unicasolucion π que cumple π−a = 1, π−a+1 = 0, y que existe una unica solucion π quecumple π−a = 0, π−a+1 = 1.

(c) Deducir que el conjunto de todas las soluciones es Aπ + Bπ : A,B ∈ R,de manera que el subespacio de las soluciones tiene dimension 2.

(d) Buscar soluciones de la forma πi = mi. Deducir que cuando la ecuacionαm2 + βm + γ = 0 tiene raıces distintas m1, m2, las soluciones son de la formaAmi

1 + Bmi2.

(e) Verificar que cuando la ecuacion αm2 +βm +γ = 0 tiene una raız doble m,π′

i = mi, π′′

i = imi y sus combinaciones lineales son las soluciones del sistema.

Page 87: Cabaña - Probabilidad y aplicaciones estadisticas

76Enrique M. Cabana.

Capıtulo 5∗ Cadenas de Markov.

N6.- Markov, Andrei A. (1856-1922).

Andrei Markov nacio en Ryazan (Rusia), fue alumno deChebyshev, se graduo en la Universidad de San Petersburgo,y fue profesor de esa misma Universidad.Sus primeros trabajos matematicos se refieren a la teorıa denumeros y al analisis. Entre otros temas, contribuyo al estu-dio de las fracciones continuas, las series y las integrales. Suaporte mas importante a la probabilidad se refiere al estudiode procesos estocasticos, particularmente el tipo de dependen-cia de sucesiones de variables aleatorias que lleva su nombre(Cadenas de Markov).

Page 88: Cabaña - Probabilidad y aplicaciones estadisticas

6. Valor esperado de unavariable aleatoria.

6.1 Introduccion.

El juego de azar que utilizamos como ejemplo para motivar la definicion de probabi-lidad, nos servira tambien para introducir la definicion del valor esperado o esperanzamatematica de una variable aleatoria. En ese ejemplo el jugador decide que cantidadcierta π(A) estima equivalente a la ganancia aleatoria 1A; supongamos ahora que laganancia aleatoria es una variable X, no necesariamente tan sencilla como la funcionindicatriz del suceso A. En ese caso, la composicion de lugar analoga de nuestrojugador, podra llevarlo a estimar que una determinada cantidad cierta (es decir, noaleatoria) e(X) es intercambiable con la ganancia aleatoria X.

Esta aplicacion e del conjunto de las variables aleatorias en los reales, debe cumpliralgunas condiciones de coherencia con la interpretacion que pretendemos darle.

En primer lugar, es lo mismo participar simultaneamente en el juego de ganancia Xy en el juego de ganancia Y , que participar en el juego de ganancia X + Y . Porlo tanto, debe cumplirse e(X + Y ) = e(X) +e(Y ). Esta observacion se extiende acualquier numero de sumandos, por induccion.

Veamos, antes de continuar, un ejemplo que senala una dificultad que debera tenerseen cuenta.

Ejemplo 6.1.1 Se arroja una moneda equilibrada, sucesiva e independientemente,hasta que sale “cara” por primera vez. (La independencia significa que, con la no-tacion Yi = 1 si sale “cara” la i-esima vez, Yi = 0 en caso contrario, entonces lossucesos Yi = ui i = 1, 2, . . . son independientes, cualesquiera sean los valores (1 o0) de u1, u2, . . ..)

Llamemos H al orden del primer intento en que sale “cara” (H ∈ 1, 2, . . ., H = hsi la primera cara ocurre en el h-esimo intento). Definimos la variable X = xH , ynos preguntamos que cantidad cierta es intercambiable por una “ganancia” inciertaX.

Comparemos este juego con el que tiene por ganancia Xn = xH1H≤n. Intervenir

en este ultimo equivale a hacerlo en n juegos con ganancias respectivas xh si H = h,

77

Page 89: Cabaña - Probabilidad y aplicaciones estadisticas

78Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

para h = 1, 2, . . . , n. Para cada uno de ellos la apuesta equitativa es xhPH = h= (x/2)h, de modo que la apuesta equitativa para ganar Xn sera la suma: e(Xn)=

∑nh=1(x/2)h.

Este antecedente hace que resulte natural asociar al juego de duracion indefinida con

ganancia X la apuesta equitativa e(X) =∑∞

h=1(x/2)h. Esta serie suma x/21−(x/2)

cuando |x| < 2, pero no converge cuando |x| ≥ 2. Si x > 2, podemos convenir en quee(X) es +∞. Cuando x < −2, no hay ningun valor admisible para e(X).

El resultado del ejemplo anterior, nos lleva a tener en cuenta que puede no habersolucion al problema de encontrar una cantidad cierta, intercambiable con X. Enalgunos casos es posible que esta dificultad se resuelva agregando la convencion deque e(X) puede ser +∞ o −∞, y el ejemplo sugiere que esto ocurrira al menos cuandoX ≥ 0 o X ≤ 0, respectivamente. Pero en general es posible que no exista ningunacantidad e(X) adecuada, ni siquiera en R ∪ −∞ ∪ +∞.

Convendremos entonces desde ya en limitarnos en lo sucesivo a variables aleatorias nonegativas, para evitar una parte de la dificultad, y a extender los resultados a variablescualesquiera mediante e(X) = e(X+) − e(X−), con X+ = X ∨ 0, X− = X+ − X,formula que resulta de e(X + Y ) = e(X) + e(Y ) con X− en el lugar de Y , siempreque las cantidades que intervienen sean finitas.

Con X ≥ 0, debe cumplirse e(X) ≥ 0, para que el juego sea equitativo. Esto implica,junto con la observacion anterior, que cuando X ≤ Y , debe ocurrir e(X) ≤ e(Y ).

Argumentos parecidos a los que se utilizan para demostrar el Lema 3.6.1, que no vamosa detallar en esta oportunidad, muestran que para todo racional r debe cumplirsee(rX) = re(X), como consecuencia de que la aplicacion de e conmuta con las sumas.

Nuevamente, como en la mencionada demostracion, la monotonıa permite concluirque la formula se extiende para todo r real. Esto, junto con la primera de laspropiedades establecidas, implica que e debe ser lineal. Podemos observar por ana-didura que cuando X se reduce a la funcion indicatriz de A, entonces e(X) se reducea π(A). En particular, si X es constante, e(X) debe coincidir con esa constante.

6.2 Una definicion descriptiva de la esperanza.

Los elementos considerados en §6.1 sugieren la siguiente definicion de la espe-ranza.

Definicion 6.2.1 (i) Llamamos esperanza o valor esperado a la aplicacionE definida en el conjunto de las variables aleatorias no negativas, con valoresen R

+= R+ ∪ +∞ que satisface:

(e1): E(1A) = P(A), y

Page 90: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.2. Definicion de la esperanza. 79

(e2): Si λ, X ≥ 0, entonces EλX = λEX. Si Xn ≥ 0, n = 1, 2, . . ., entoncesE

∑∞n=1 Xn =

∑∞n=1 EXn. En particular, si λ, µ, X, Y ≥ 0, entonces

E(λX + µY ) = λEX + µEY .

(ii) La aplicacion anteriormente definida se extiende a la familia de lasvariables aleatorias que satisfacen E(|X|) < ∞, mediante

E(X) = E(X+) − E(X−).

Nota 1: Para el enunciado anterior y en lo que sigue, convenimos enque, con a ∈ R, valen las formulas a + (+∞) = +∞, (+∞) + (+∞) =(+∞), a.(+∞) = +∞, si a > 0 y −∞ si a < 0. En cambio no atribuimosningun significado a las expresiones (+∞) − (+∞), 0.(+∞).

Nota 2: De |X| = X++X−, resulta que E(|X|) < ∞ implica E(X+) < ∞,E(X−) < ∞, de modo que la diferencia E(X+) − E(X−) que aparece al finalde la definicion precedente, esta bien definida.

Nota 3: El mismo tipo de razones tecnicas que conducen a definir lasprobabilidades con la propiedad de aditividad, motivada por consideracionesheurısticas, reforzada con la σ-aditividad, lleva en este caso a reforzar la lineal-idad mediante la formulacion de (e2), en la que la aditividad de la esperanzatambien se exige para sumas de sucesiones de variables aleatorias no negativas,y no solo para sumas finitas.

Nota 4: No es obvio que exista alguna aplicacion que cumpla las condi-ciones de la Definicion 6.2.1, pero si existe, tiene que estar dada de la maneraque indica la definicion constructiva (Definicion 6.3.2) que se indica mas abajo.Para garantizar la coherencia de las dos definiciones, resultara necesario de-mostrar el teorema siguiente.

Teorema 6.2.1 Existe una unica aplicacion que cumple las condiciones de laDefinicion 6.2.1.

La demostracion esta contenida en lo que sigue: la unicidad es consecuen-cia de la construccion que se describe en la Definicion 6.3.2 y la existenciaresulta de establecer que la esperanza definida a partir de la Definicion 6.3.2cumple con las propiedades que establece la Definicion 6.2.1. Esto ultimo esel contenido del Teorema 6.3.1.

De la Definicion 6.2.1 resultan estas dos importantes consecuencias:

Teorema 6.2.2 (Convergencia Monotona) Si (Xn) es una sucesion de va-riables aleatorias, que cumplen 0 ≤ X1 ≤ X2 ≤ X3 ≤ . . . ≤ Xn ≤ . . . ylimn→∞ Xn = X, entonces limn→∞ E(Xn) = E(X).

Page 91: Cabaña - Probabilidad y aplicaciones estadisticas

80Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Demostracion: Es una consecuencia inmediata de la segunda parte de lapropiedad (e2) de la definicion, aplicada a las diferencias Xn − Xn−1 (n = 1,2, . . ., X0 = 0).

Nota: Recıprocamente, este Teorema de Convergencia Monotona, aplicadoa la sucesion creciente de reducidas de la serie

∑∞n=1 Xn cuyos sumandos son

variables aleatorias no negativas, implica para este caso la interversion de laesperanza con la suma, es decir, E

∑∞n=1 Xn =

∑∞n=1 EXn.

Teorema 6.2.3 (Linealidad) La linealidad E(λX+µY ) = λEX+µEY que laDefinicion 6.2.1 establece en (i-e2) para λ, µ, X, Y no negativos, vale tambiencualquiera sea el signo de λ, µ, X e Y , cuando E(|X|) < ∞, E(|Y |) < ∞.

Demostracion: Basta verificar por separado (a): EλX = λEX y (b):E(X + Y ) = EX + EY .

Para (a), podemos suponer λ no negativo, porque en caso contrario, reem-plazamos λ por −λ y X por −X. Entonces, EλX = E(λX)+ −E(λX)−

= EλX+ −EλX− = λEX+ −λEX− = λEX.Para establecer (b), notemos en primer lugar que cuando U , V y U − V

son no negativas, entonces E(U − V ) = EU −EV , ya que la descomposicionde U en sumandos no negativos nos permite escribir EU = E((U − V ) + V )= E(U − V ) +EV .

Con la abreviatura Z = 1X+Y ≥0, podemos escribir

E(X + Y ) = E(X + Y )+ − E(X + Y )−

= E((X+ − X−) + (Y + − Y −)Z − E(−(X+ − X−) − (Y + − Y −))(1 − Z).

Puesto que U ′ = (X+ + Y +)Z y V ′ = (X− + Y −)Z satisfacen U ′ ≥ 0, V ′ ≥ 0,U ′ − V ′ ≥ 0, se cumple

E((X+ − X−) + (Y + − Y −)Z = E(X+ + Y +)Z − E(X− + Y −)Z

= EX+Z + EY +Z − EX−Z − EY −Z.

Analogamente, tambien U ′′ = (X− + Y −)(1 − Z) y V ′′ = (X+ + Y +)(1 − Z)satisfacen U ′′ ≥ 0, V ′′ ≥ 0, U ′′ − V ′′ ≥ 0, de modo que

E(−(X+−X−)−(Y +−Y −))(1−Z) = E(X−+Y −)(1−Z)−E(X++Y +)(1−Z)

= EX−(1 − Z) + EY −(1 − Z) − EX+(1 − Z) − EY +(1 − Z).

Restando las dos ecuaciones obtenidas, encontramos

E(X + Y ) = EX+Z + EY +Z − EX−Z − EY −Z

Page 92: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.3. Definicion constructiva de la esperanza. 81

−EX−(1 − Z) − EY −(1 − Z) + EX+(1 − Z) + EY +(1 − Z).

Por ser Z y 1 − Z no negativas, EX+ = E(X+Z + X+(1 − Z)) = EX+Z +EX+(1 − Z). Analoga descomposicion se aplica a X− para obtener EX−

= EX−Z + EX−(1 − Z), y de la misma manera se procede con Y +, Y −. Seconcluye entonces

E(X + Y ) = EX+ + EY + − EX− − EY − = EX + EY.

6.3 Definicion constructiva de la esperanza.

Definicion 6.3.1 Se llama variable aleatoria simple, a cualquier combinacionlineal finita de funciones indicatrices de sucesos.

Definicion 6.3.2 (i) La esperanza de la funcion indicatriz de un suceso A es

E1A = P(A).

(ii) Las esperanzas de las variables aleatorias simples se calculan mediante laformula

Ek

i=1

xi1Ai=

k∑

i=1

xiP(Ai).

(iii) Cuando X es una variable aleatoria no negativa tomamos una sucesionmonotona creciente Xn =

j xj,n1Aj,n, n = 1, 2, . . . de variables aleatorias

simples, cuyo lımite es X. Entonces

EX = limn→∞

EXn = limn→∞

j

xj,nP(Aj,n).

En particular, por ejemplo,

EX = limn→∞

n2n∑

j=0

j2−nPj2−n < X ≤ (j + 1)2−n. (6.1)

(iv) Cuando E|X| < ∞,

E(X) = E(X+) − E(X−).

Page 93: Cabaña - Probabilidad y aplicaciones estadisticas

82Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

La construccion particular de la esperanza de X ≥ 0 que indica la definicionprecedente, resulta de aproximar X por la sucesion de variables aleatoriassimples Xn =

∑n2n

j=0 j2−n1j2−n<X≤(j+1)2−n.La parte (ii) de la Definicion 6.3.2 es coherente, porque cuando una misma

variable aleatoria simple se representa de dos maneras diferentes como combi-nacion lineal de indicatrices de sucesos, las esperanzas resultantes coinciden,como indica el lema siguiente.

Lema 6.3.1 Si∑I

i=1 ai1Ai=

∑Jj=1 bj1Bj

, son dos representaciones para la

misma variable aleatoria simple, entonces∑I

i=1 aiP(Ai) =∑J

j=1 bjP(Bj).

Demostracion. Cada combinacion lineal finita de indicatrices de sucesos se puedeescribir de manera unica como una combinacion lineal con coeficientes diferentes entresı, de las indicatrices de sucesos de una particion de Ω.

Supongamos∑I

i=1 ai1Ai=

∑Kk=1 ck1Ck

, donde los ck son diferentes entre sı, y(Ck)k=1,2,...,K es una particion de Ω. Se deduce que para cada k, ck =

Ck⊂Aiai,

de modo que

K∑

k=1

ckP(Ck) =

K∑

k=1

Ck⊂Ai

aiP(Ck) =

I∑

i=1

ai

Ck⊂Ai

P(Ck),

y esto coincide con∑I

i=1 ai1Aidado que

Ck⊂AiP(Ck) = P(Ai). De manera analoga

se verifica que∑K

k=1 ckP(Ck) coincide con∑J

j=1 bjP(Bj).

La parte (iii) de la Definicion 6.3.2 es coherente, porque las sucesiones de lasesperanzas de sucesiones crecientes de variables aleatorias simples no negativasque convergen a una variable aleatoria X, tienen todas el mismo lımite, quees lo que se define como la esperanza de X. La unicidad del lımite de lasaproximaciones simples y monotonas esta expresada en el siguiente lema.

Lema 6.3.2 Si X es no negativa, y las sucesiones crecientes de funcionessimples no negativas Yn =

j yj,n1Aj,n, Zn =

j zj,n1Bj,ntienen lımite X,

entonces limn→∞∑

j yj,nP(Aj,n) = limn→∞∑

j zj,nP(Bj,n).

Demostracion: Basta mostrar que

Yn ↑, limYn ≥ Z =∑

j

zj1Bjimplica lim

n→∞EYn ≥ EZ, (6.2)

ya que esta propiedad, aplicable a cada Zm conduce a limn→∞ EYn ≥ EZm, paracada m, y al pasar al lımite cuando m tiende a infinito en esta ultima desigualdad, seobtiene limEYn ≥ limEZm. Al intercambiar los papeles de (Yn) y (Zm) se obtienela desigualdad contraria, y ambas implican la conclusion requerida.

Page 94: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.4. Calculo de esperanzas. 83

Para establecer (6.2), observemos que es suficiente proceder por separado, para cadaj, con cada una de las sucesiones 1

zjYn1Bj

=∑

hyh,n

zj1Ah,n∩Bj

, n = 1, 2, . . ., cuyo

lımite es mayor o igual que 1Bj, de modo que no perdemos generalidad al limitarnos

al caso Z = 1B .

Para cada δ ∈ (0, 1), y Dn = ω ∈ B : Yn(ω) > 1− δ ↑ B, P(Dn) ↑ P(B) y entoncesEYn ≥ (1 − δ)P(Dn) → (1 − δ)P(B) = (1 − δ)EZ. Puesto que δ es arbitrario,concluimos EYn ≥ EZ.

Teorema 6.3.1 La esperanza a la que se refiere la Definicion 6.3.2, cumplelas propiedades del operador esperanza de la Definicion 6.2.1.

Demostracion. La propiedad (e1) de la Definicion 6.2.1 coincide con (i) de laDefinicion 6.3.2. La propiedad (e2) equivale a las siguientes tres propiedades:

(e2,1) EλX = λEX, para λ, X, no negativos,

(e2,2) E(X + Y ) = EX +EY , para X, Y no negativos, y

(e2,3) la propiedad del Teorema 6.2.2, que demostramos en §6.5.3.

La validez de (e2,1) y de (e2,2) para variables aleatorias no negativas cua-lesquiera resulta de establecer que esas mismas formulas valen para variablessimples, y de aproximar variables arbitrarias por sucesiones monotonas de va-riables simples.

La linealidad en el caso de variables simples es trivial, en virtud de la propiadefinicion de la esperanza, y del resultado del Lema 6.3.1.

6.4 Calculo de esperanzas.

Observemos que la parte (ii) de la Definicion 6.3.2 nos permite calcular laesperanza de una variable aleatoria X con recorrido finito x1, x2, . . . , xk, pormedio de la formula

E(X) =k

j=1

xjPX = xj. (6.3)

En la Figura 6.1 se muestra una interpretacion grafica para el sumandoxjPX = xj, como area de un rectangulo vinculado al grafico de la funcionde distribucion FX de la variable X. Como consecuencia de esa interpretacion,encontramos que la esperanza puede expresarse como la diferencia entre el arealimitada por el grafico de FX y el de la constante 1, del lado derecho del ejede ordenadas, menos el area comprendida entre el eje de abscisas y el graficode FX del lado izquierdo (ver la Figura 6.2).

Page 95: Cabaña - Probabilidad y aplicaciones estadisticas

84Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

xj

PX = xj

Figura 6.1: Interpretacion grafica de un sumando en la esperanza de unavariable discreta.

Teorema 6.4.1 (i) Si X es no negativa, E(X) =∫ +∞0 (1 − FX(t))dt.

(ii) Si las integrales que aparecen en la formula siguiente convergen, enton-ces: E(X) =

∫ +∞0 (1 − FX(t))dt −

∫ 0−∞ FX(t)dt.

Demostracion. Estas formulas valen en caso que X sea una variable discretacon recorrido finito, por la observacion anterior.

Si X es no negativa, la aproximamos por la sucesion monotona crecientede variables discretas Xn = (2−n[2nX])∧n, donde [ ] designa a la parte entera.La Figura 6.4 muestra un esquema de las funciones de distribucion de X y deXn.

Vamos a verificar que cuando n tiende a infinito, el area sobre el grafico deFXn

, que es la esperanza de Xn, tiende al area sobre el grafico de FX , que eslo que se requiere probar, ya que por el Teorema 6.2.2 sabemos que tiende ala esperanza de X.

Para ello, pasamos al lımite cuando n tiende a +∞ en las desigualdades

∫ +∞

0(1−FXn

(t))dt=∫ n

0(1−FXn

(t))dt≤∫ n

0(1−FX(t))dt≤

∫ n

0(1−FXn

(t))dt+2−n

y esto termina la demostracion de (i).El caso general enunciado en (ii) se puede resolver separando X como

diferencia de sus partes positiva y negativa, como en otros casos ya tratados,y no lo detallamos.

Page 96: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.4. Calculo de esperanzas. 85

xj

PX = xj

Figura 6.2: Interpretacion grafica de la esperanza de una variable discreta.

Figura 6.3: Interpretacion de la esperanza como diferencia de areas.

Page 97: Cabaña - Probabilidad y aplicaciones estadisticas

86Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Distribucion de Xn

2−n

Distribucion de X

Figura 6.4: Aproximacion de la esperanza por esperanzas de aproximacionesdiscretas.

Teorema 6.4.2 Si X tiene distribucion absolutamente continua con densidadfX , y la integral que aparece en la formula siguiente es absolutamente conver-gente, entonces

E(X) =∫ +∞

−∞tfX(t)dt.

Demostracion Separemos la integral en dos terminos, correspondientes acada una de las semirrectas determinadas por el cero, e integremos por partesen cada una de ellos de la manera siguiente.

∫ +∞

0tfX(t)dt = lim

t→∞t(FX(t) − 1) −

∫ +∞

0(FX(t) − 1)dt

∫ 0

−∞tfX(t)dt = lim

t→−∞(−tFX(t)) −

∫ 0

−∞FX(t)dt.

Las acotaciones t(1−FX(t)) = t∫ +∞t fX(s)ds ≤

∫ +∞t sfX(s)ds, valida para

t > 0, y −tFX(t) = −t∫ t−∞ fX(s)ds ≤

∫ t−∞ sfX(s)ds, para t < 0, y la hipotesis

sobre la convergencia absoluta de la integral impropia∫ +∞−∞ tfX(t)dt, muestran

que limt→∞ t(FX(t) − 1) = limt→−∞(−tFX(t)) = 0. Sumando las igualdadesobtenidas anteriormente y aplicando el Teorema 6.4.1, se obtiene el resultadodeseado.

Los vınculos entre el calculo de esperanzas y el calculo de integrales queaparecen en los resultados previos son un sıntoma de una relacion mucho masestrecha entre unas y otras, que se discute en el proximo capıtulo. En par-ticular, la formula (6.3) y la que aparece en el Teorema 6.4.2, se generalizan

Page 98: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.4. Calculo de esperanzas. 87

como indica el enunciado siguiente, que resulta muy util para el calculo deesperanzas.

Teorema 6.4.3 (i) Si X es una variable discreta, con valores x1, x2, . . .,xn, . . . y g es una funcion tal que

∑∞j=1 |g(xj)|PX = xj < ∞, entonces

E(g(X)) =∑∞

j=1 g(xj)PX = xj

(ii) Si X es una variable con distribucion absolutamente continua, y g esuna funcion seccionalmente continua tal que

∫ +∞−∞ |g(t)|fX(t)dt < ∞, en-

tonces E(g(X)) =∫ +∞−∞ g(t)fX(t)dt.

Demostracion de (i). La formula EX =∑m

i=1 pixi vale cuando X toma los valorestodos diferentes xi (i = 1, . . . , m) con probabilidades respectivas pi, pero tambienvale aun cuando los xi no sean necesariamente diferentes, cuando PX = xi =∑

xj=xipj , como es inmediato verificar.

La variable g(X) toma los valores g(xi) con probabilidades pi = PX = xi, si sontodos diferentes, o bien Pg(X) = g(xi) =

g(xj)=g(xi)pj en general, de modo

que la observacion precedente establece el resultado a demostrar.

Demostracion de (ii). Paso 1. Cuando g = 1B , el resultado a demostrar se reduce aE1X∈B =

Bf(t)dt, que es cierto pues ambos miembros coinciden con PX ∈ B.

Paso 2. Dado que ambos miembros son lineales en g, la validez del resultado seextiende a funciones g que son combinaciones finitas de funciones indicatrices. Paso3. Cuando g es no negativa, y gn es una sucesion de combinaciones lineales deindicatrices que converge monotonamente a g, 0 ≤ gn ↑ g, entonces gn(X) ↑ g(X),y gn(t)f(t) ↑ g(t)f(t), de modo que, por pasaje al lımite de las igualdades entreesperanzas e integrales de las sucesiones aproximantes, el resultado a establecer seextiende a g ≥ 0. Para la validez de este argumento es preciso establecer un Teoremade Convergencia Monotona para las integrales. A tal efecto, nos referimos a 7.3.4.Paso 4. Finalmente, la descomposicion g = g+ −g− permite reducir el caso generalal de g no negativa, ya demostrado en el Paso 3.

Revemos este teorema en §13.4, dentro del contexto de los cambios de variableen una integracion.

Ejercicios.

Ejercicio 6.4.1 Demostrar que, si X solo toma valores enteros positivos, E(X) =∑∞

n=1 PX ≥ n. Calcular mediante esta formula E(Y ), si Y ∼ Geo(p).

Ejercicio 6.4.2 Una urna contiene N bolas numeradas de 1 a N . Se extrae unamuestra con reposicion X1, X2, . . . , Xn de n bolas. Suponemos que las extraccionesson independientes y que cada bola tienen la misma probabilidad de ser extraıdaque cualquier otra.

Page 99: Cabaña - Probabilidad y aplicaciones estadisticas

88Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Hallar las distribuciones de probabilidad de las variables aleatorias

Mn = maxX1, X2, . . . , Xn y mn = mınX1, X2, . . . , Xn.

Calcular E(Mn) y comprobar que si N es grande E(Mn) vale aproximadamenteNn/(n + 1).

Ejercicio 6.4.3 Dada X ∼ Uni(−π/2, π/2), calcular E(Y ) cuando:(a) Y = sinX, (b) Y = cos X, (c) Y = 3X + 2, (d) Y = 1/(|X|a) (Para que

valores de a es E(Y ) < ∞?)

Ejercicio 6.4.4 Si X tiene funcion de distribucion F absolutamente continua,hallar la funcion de distribucion de: − log F (X).

Ejercicio 6.4.5 Si X ∼ Bin(n, p), calcular E(1/(1 + X))

Ejercicio 6.4.6 Se escriben n cartas y sus respectivos sobres, y se ensobran lascartas al azar de modo que la probabilidad de cualquiera de las posibles permuta-ciones de las cartas en sus sobres es la misma.

Calcular la esperanza del numero H de cartas que se ensobran correctamente.Sugerencia:

H =∑n

i=1 Xi , con Xi =

1, si la i-esima carta va al i-esimo sobre0 en caso contrario.

Ejercicio 6.4.7 Si X ∼ Geo(p) y M > 0, entero, calcular la esperanza de Y =mınX, M.

Ejercicio 6.4.8 Calcular la esperanza del estimador p del parametro p obtenidoen §4.3.4. Verificar que, si llamamos sesgo de p a la diferencia b = Ep−p, y decimosque un estimador es insesgado cuando su sesgo es cero, entonces p es insesgado.

6.5 Algunas propiedades de las esperanzas.

6.5.1 Variables constantes con probabilidad 1.

De la definicion de esperanza, se deduce sin dificultad que cuando una varia-ble aleatoria vale 0 con probabilidad 1, su esperanza es 0, lo mismo que laesperanza de su valor absoluto, y la de su cuadrado. En el siguiente teoremay en sus corolario, encontramos criterios basados en esperanzas que permitenconcluir que una variable aleatoria es cero con probabilidad uno.

Page 100: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.5. Calculo de lımites. 89

Teorema 6.5.1 (Corolario de la Definicion 6.3.2.) Si X ≥ 0 y EX = 0,entonces PX = 0 = 1.

Demostracion. La sucesion cuyo lımite se calcula en (6.1) es no negativa y nodecreciente. Si el lımite es cero, necesariamente cada termino es cero, y comose trata de una suma de sumandos no negativos, cada sumando es cero. Sededuce que para cada n, (2−n, n + 2−n] tiene probabilidad nula, y, pasando allımite, que P0 < X = 0.

Corolario 6.5.1.1 (i) EX2 = 0 si y solo si PX = 0 = 1.

(ii) E(X − EX)2 = 0 si y solo si PX = EX = 1.

(iii) Si EH = 0 (= EH+ − EH−), entonces E log(1 + H) ≤ 0, y la igualdadsolo se cumple si PH = 0 = 1.

Demostracion. Con X2, (X−EX)2 en lugar de X, el Teorema permite concluirinmediatamente (i) y (ii). Para obtener (iii), observamos que la nueva variablealeatoria K = log(1+H) tiene el mismo signo que H, y satisface K ≤ H. Porla monotonıa, se cumple EK ≤ EH. La igualdad corresponde a E(H − K)= 0, y por el Teorema precedente, esto implica PH = K = 1. Por otraparte, esta igualdad se cumple si y solo si H = 0.

6.5.2 Desigualdad de Jensen.

Definicion 6.5.1 (Funcion convexa) Una funcion F : A ⊂ R → R se diceconvexa cuando por cada punto (a, f(a)) de su grafico pasa una recta g(x)= f(a) + ca(x − a) con la propiedad g(x) ≤ f(x) para todo x ∈ A.

Teorema 6.5.2 (Desigualdad de Jensen) Si X es una variable aleatoria convalores en el dominio de una funcion f convexa, entonces Ef(X) ≥ f(EX).

Demostracion. Tomemos la recta de ecuacion g(x) = f(EX) + c(x−EX) quesatisface g(X) ≤ f(X) para todo X. Tomando esperanzas en esta desigualdadobtenemos Eg(X) = f(EX) +cE(X −EX) = f(EX) ≤ Ef(X), que es lo quese requiere verificar.

Page 101: Cabaña - Probabilidad y aplicaciones estadisticas

90Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

6.5.3 Calculo de lımites

Teorema de Convergencia Monotona de Beppo Levi (ver 6.2.2).

Dada una sucesion creciente de variables aleatorias no negativas Xn con lımite X,tenemos que demostrar que EXn ↑ EX.

Aproximemos X1 por una sucesion creciente de variables aleatorias simples: 0 ≤X1,n ↑ X1. Luego aproximamos X2 de la misma manera: 0 ≤ X2,n ↑ X2 y

reemplazamos la aproximacion X2,n por la nueva sucesion X2,n = maxX1,n, X2,nque es tambien creciente, y tambien converge a X2. Continuamos de la mismamanera: para cada m, elegimos Xm,n ↑ Xm(n → ∞), y la reemplazamos por

Xm,n = maxXm−1,n, Xm,n. De esta manera se construye una sucesion Xm,n cre-ciente en cada uno de sus ındices, con la propiedad Xm,n ↑ Xm, (n → ∞).

Para m ≤ n, Xm,n ≤ Xn,n. La sucesion de variables aleatorias simples Xn,n escreciente, de modo que tiene un lımite Z, y cada elemento esta acotado por X, demodo que Z ≤ X.

Pasando al lımite cuando n tiende a infinito en Xm,n ≤ Xn,n ↑ Z ≤ X resulta Xm

≤ Z ≤ X, y pasando al lımite cuando m tiende a infinito, se obtiene X ≤ Z ≤ X, demodo que Z = X.

Tomando esperanzas en las desigualdades Xm,m ≤ Xm,n ≤ X, tambien validas param ≤ n, obtenemos EXm,m ≤ EXm,n ≤ EX, y pasando al lımite cuando n tiende ainfinito resulta EXm,m ≤ EXm ≤ EX, por la definicion constructiva de la esperanza,ya que la sucesion Xm,n(↑ Xm) es simple. Tambien Xm,m(↑ X) es simple, de modoque pasamos al lımite con m → ∞ en la ultima desigualdad, y obtenemos EX ≤limm→∞ EXm ≤ EX.

Lema de Fatou.

Teorema 6.5.3 (Lema de Fatou) Cuando (Xn)n∈N es una sucesion de va-riables aleatorias no negativas, se cumple

E lim infn→∞

Xn ≤ lim inf EXn.

Suponemos ahora 0 ≤ Xn. Dado que lim infn→∞ Xn = limn→∞ infm≥n Xm, es ellımite ordinario de la sucesion Yn = infm≥n Xm no decreciente, por el Teorema deConvergencia Monotona se cumple limEYn = E limYn = E lim infn→∞ Xn.

Para obtener la conclusion requerida, basta observar que Yn ≤ Xn, de modo queEYn ≤ EXn, y E lim infn→∞ Xn = limEYn ≤ lim inf EXn.

6.5.4 Teorema de Convergencia Dominada de Lebesgue.

Teorema 6.5.4 (de Convergencia Dominada) Cuando Y, Z, (Xn)n=1,2,... sonvariables aleatorias que satisfacen E|Y | < ∞, E|Z| < ∞, Y ≤ Xn ≤ Z,(n =

Page 102: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.6. Momentos, variancia. 91

1, 2, . . .) y limn→∞ = X, entonces

limn→∞

EXn = EX.

Suponemos ahora Y ≤ Xn ≤ Z, E|Y | < ∞, E|Z| < ∞. El Lema de Fatou aplicadoa las variables no negativas Xn−Y conduce a E(lim inf Xn−Y ) ≤ lim inf EXn−EY ,de modo que se deduce:

E lim inf Xn ≤ lim inf EXn. (6.4)

El mismo Lema aplicado a las variables no negativas Z − Xn, nos lleva a concluirE lim inf(Z − Xn) ≤ lim inf E(Z − Xn), que es lo mismo que EZ − E lim supXn ≤EZ − lim supEXn, de modo que

E lim supXn ≥ lim supEXn. (6.5)

Reuniendo (6.4) y (6.5) con la existencia del lımite Xn → X establecida en la hipotesisdel Teorema, obtenemos

EX = E lim inf Xn ≤ lim inf EXn ≤ lim supEXn ≤ E lim supXn = EX.

6.6 Momentos, variancia.

Definicion 6.6.1 (Momentos de una distribucion de probabilidades)Cuando E(|X|n) < ∞, decimos que E(Xn) es el momento de orden n

de la variable X o de la distribucion de probabilidad de X . Los momentos de|X| se llaman momentos absolutos de X. Los momentos de X − E(X) sellaman momentos centrales de X.

En particular, el momento central de orden 2 de X, se llama variancia

Var(X) = E([X − E(X)]2).

Nota. Si definimos en la recta real una distribucion de masas para la cual la masa dela semirrecta (−∞, x] es PX ≤ x = FX(x), entonces el baricentro de la distribucionde masas tiene abscisa E(X). Los momentos de segundo orden corresponden a losmomentos de inercia. En particular, la variancia es el momento de inercia respectodel baricentro.

Ası como el baricentro y el momento de inercia tienen especial importancia paradescribir propiedades mecanicas de la distribucion de masas, lo mismo ocurre con laesperanza y la variancia, respecto de las distribuciones de probabilidades.

Page 103: Cabaña - Probabilidad y aplicaciones estadisticas

92Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Ejercicios.

Ejercicio 6.6.1 Mostrar que vale la siguiente formula para el calculo de la vari-ancia

Var(X) = E(X2) − (EX)2

Ejercicio 6.6.2 Calcular las variancias de las distribuciones:Geo(p), Uni(0, 1), Uni(a, b), Bin(n, p), Exp(λ).

Ejercicio 6.6.3 Si X ∼ Uni(0, 1), hallar las distribuciones de X2 y de eX , ycalcular en cada caso la esperanza y la variancia.

Ejercicio 6.6.4 Calcular la variancia de la variable H del Ejercicio 6.4.6.

Ejercicio 6.6.5 Si X tiene distribucion discreta con recorrido 0, 1, . . . y pro-babilidades PX = h = e−λ(λ)h/h!(h = 0, 1, 2, . . .), calcular su esperanza y suvariancia. Calcular E((1 + X)−1).

Nota: La distribucion discreta del ejercicio 6.6.5, se denomina distribucion dePoisson con parametro λ.

6.7 Medidas de posicion y medidas de disper-

sion de una distribucion de probabilida-

des.

Ya hemos indicado en §6.1 que la esperanza de una variable aleatoria X dauna idea del valor de esta variable aleatoria, a saber, puede interpretarse comoel valor cierto intercambiable por el valor incierto de la variable.

Si en vez de aplicar la esperanza a X, la aplicamos a las variables aleatorias|X − c|p, p > 0, obtenemos medidas de la magnitud del apartamiento entrela variable X y el numero c, o, en otras palabras, medidas de la dispersionde la distribucion de probabilidades de la variable alrededor del punto c. Enparticular, esta interpretacion es aplicable a los momentos absolutos de primeroy segundo orden, para los cuales el calculo es relativamente simple.

Consideremos las dispersiones E|X − c| y E(X − c)2 como funciones de c.El siguiente enunciado identifica para que valor de c resultan mınimas.

Teorema 6.7.1 (i) El momento absoluto de primer orden de X respecto dec es finito si y solo si E|X| < ∞, y alcanza el mınimo cuando c satisfacePX < c ≤ 1/2, PX > c ≤ 1/2.

Page 104: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.8. EXY , X, Y independientes. 93

(ii) El momento de segundo orden de X respecto de c es finito si y solo siEX2 < ∞, y alcanza el mınimo cuando c es la esperanza EX.

Definicion 6.7.1 Cuando c satisface las condiciones de la parte (i) del teo-rema precedente, se dice que es mediana de la distribucion de X.

Demostracion del Teorema 6.7.1. La parte relativa a la esperanza es la massimple: basta escribir

E(X − c)2 = E[(X − EX) + (EX − c)]2 = VarX + (EX − c)2,

puesto que la esperanza del doble producto es cero. El termino de la derechaes obviamente mınimo cuando c = EX.

Para demostrar la parte (i), llamemos m a una mediana y c a un numerocualquiera. Supongamos c < m (si c > m se procede analogamente) y calcule-mos

E|X − c| − E|X − m| = E((c − m)1X ≤ c

+(2X − c − m)1c < X < m + (m − c)1m ≤ X)

≥ E((c − m)1X ≤ c + (c − m)1c < X < m + (m − c)1m ≤ X)

= (m − c)(Pm ≤ X − PX < m) ≥ 0.

La primera desigualdad se debe a que en c < X < m se cumple 2X − c−m≥ c − m, y la segunda a la definicion de m.

Los valores de c que minimizan los momentos, es decir, la esperanza EXy la mediana MedX, son indicadores de la posicion de la distribucion de pro-babilidades de X. Pueden interpretarse como centros alrededor de los cualesesta distribuida la probabilidad asociada a X. Los valores mınimos de losmomentos, es decir, E|X − MedX| y VarX son utilizados como medidas dela dispersion de la distribucion de X respecto de los valores centrales MedX,EX.

6.8 Esperanza del producto de variables inde-

pendientes.

6.8.1 Independencia de variables aleatorias.

Definicion 6.8.1 La familia de variables aleatorias X = Xi : i ∈ I (Idenota un conjunto de ındices arbitrario) es independiente cuando para cua-lesquiera conjuntos medibles Bi en el recorrido de Xi, (i ∈ I), la familia desucesos Xi ∈ Bi : i ∈ I es independiente.

Page 105: Cabaña - Probabilidad y aplicaciones estadisticas

94Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Nota: En ese caso, se suele decir que las variables Xi, (i ∈ I) son indepen-dientes, aunque la independencia sea una propiedad de la familia, y no de lasvariables.

Ejemplo 6.8.1 Las variables 1A, 1B son independientes si y solo si A, B sonindependientes.

Ejemplo 6.8.2 Cuando las variables X, Y son independientes, entonces tam-bien Xn =

∑22n

i=1i−12n 1i−1<2nX≤i, Yn =

∑22n

i=1i−12n 1i−1<2nY ≤i son independien-

tes.

Ejercicio 6.8.1 Verificar los enunciados de los dos ejemplos precedentes.

Teorema 6.8.1 Si X, Y son independientes, y tienen esperanzas finitas, en-tonces

E(XY ) = E(X)E(Y ).

Demostracion. Consideremos primero el caso en que X, Y son discretas, conrecorridos respectivos xi : i = 1, 2, . . ., yj : j = 1, 2, . . .. Se deduce queel recorrido de la pareja esta contenido en (xi, yj) : i, j = 1, 2, . . ., y laesperanza del producto es

E(XY ) =∑

i,j

xiyjPX = xi, Y = yj =∑

i,j

xiyjPX = xiPY = yj =

i

xiPX = xi∑

j

yjPY = yj = E(X)E(Y ).

Cuando X, Y son no negativas, las aproximamos por sucesiones crecientesde variables discretas Xn = (2−n[2nX])∧ n, Yn = (2−n[2nY ])∧ n . Por el Teo-rema 6.2.2, se cumple E(XY ) = limn→∞ E(XnYn). Ademas, como el recorridode la variable Xn es j2−n : j = 0, 1, . . . , n2n, si A es un conjunto de Borel,el suceso Xn ∈ A se escribe como union de los sucesos Xn = j2−n paraaquellos j para los cuales j2−n ∈ A. Se deduce que, dados A, B de Borelen R, los sucesos Xn ∈ A, Yn ∈ B son independientes. Para verificarlo,basta ver que cualquier suceso del conjunto Xn = j2−n(0≤j≤n2n) es indepen-diente de cualquier suceso del conjunto Yn = k2−n(0≤k≤n2n). Esto es conse-cuencia de la independencia de las variables X e Y , y de que Xn = j2−n= j2−n ≤ X < (j + 1)2−n, para 0 ≤ j < n2n, y Xn = n = n ≤ X, y delas expresiones analogas para los sucesos Yn = k2−n.

Podemos escribir entonces E(XnYn) = E(Xn)E(Yn) de modo que E(XY ) =limn→∞ E(Xn)E(Yn) = E(X)E(Y ).

Page 106: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.9. Funciones generatrices. 95

La demostracion para el caso general se hace descomponiendo cada variableen diferencia de su parte positiva y su parte negativa, a los productos de lascuales es aplicable el resultado ya demostrado.

Ejemplo 6.8.3 La covariancia de dos variables independientes es cero.

En efecto, si X, Y son independientes, tambien lo son X − EX, Y − EY , demodo que E(X − EX)(Y − EY ) = E(X − EX)E(Y − EY ) = 0.

6.9 Funciones generatrices.

Definicion 6.9.1 Se llama funcion generatriz de probabilidades de una varia-ble X o de su distribucion, a la funcion g : R+ → R definida por la formulag(t) = E(tX). Tambien se la llama funcion generatriz de momentos factoria-les.

Se llama funcion generatriz de momentos de X o de su distribucion, a lafuncion p : R → R definida por p(t) = E(etX).

Se llama funcion caracterıstica de X o de su distribucion, a la funcionψ : R → C definida por ψ(t) = E(eıtX).

Ejemplo 6.9.1 La funcion generatriz de probabilidades de la distribucion delEjercicio 6.6.5 es g(t) =

∑∞j=0 tjλje−λ/j! = e(t−1)λ.

Ejemplo 6.9.2 La funcion generatriz de momentos de una variable Bin(n, p)

es p(t) =∑n

j=0 etj(

n

j

)

pj(1 − p)n−j = (pet + 1 − p)n.

Ejemplo 6.9.3 La funcion caracterıstica de la distribucion uniforme en (0, 1)es ψ(t) =

∫ 10 eıtxdx = eıt−1

ıt.

Cuando las esperanzas que aparecen arriba no esten definidas en todo eldominio, llamaremos de la misma manera a las funciones dadas por la mismacorrespondencia, en el dominio en que esta este definida.

Ejemplo 6.9.4 La funcion generatriz de momentos de la distribucion Exp(λ)es p(t) =

∫ ∞0 e−λxetxdx = e(t−λ)x/(t− λ)|∞0 =(λ− t)−1, para t < λ. La funcion

no esta definida para t ≥ λ.

Teorema 6.9.1 Cuando X es una variable discreta con recorrido en N, lafuncion generatriz de probabilidades es un polinomio (recorrido acotado) o unaserie de potencias (recorrido no acotado). El coeficiente del termino de gradon es la probabilidad del suceso X = n.

Page 107: Cabaña - Probabilidad y aplicaciones estadisticas

96Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Demostracion. Es inmediata a partir de la definicion de la funcion genera-triz de probabilidades.

Nota 1: Se deduce en particular que la funcion generatriz caracteriza a ladistribucion.

Ejemplo 6.9.5 Funcion generatriz de probabilidades de la distribucion bino-mial.

La funcion generatriz de probabilidades de X ∼ Bin(n, p) es g(t) = EtX =Et(X1+X2+...+Xn) = EtX1tX1 . . . tXn , con X1, X2, . . ., Xn ∼ Ber(p) independien-tes.

Se deduce que tX1 , tX1 , . . . tXn son independientes, y entonces

g(t) = (EtX1)(EtX1) . . . (EtXn)

= (EtX1)n = [(1 − p) + pt]n =n

j=0

(

n

j

)

pj(1 − p)n−jtj.

Esta es una forma de obtener PX = j, que es el coeficiente de tj, inde-pendiente de la utilizada en §3.4.1.

Nota 2: Cuando la derivacion respecto de t conmuta con el calculo de espe-ranzas en las definiciones de funciones generatrices o de funcion caracterıstica(y esto puede ser verificado en cada caso particular), se cumplen

g′(1) = E(X), g′′(1) = E(X(X − 1)), . . . , g(n)(1) = E(n−1∏

j=0

(X − j)), . . .

p′(0) = E(X), p′′(0) = E(X2), . . . , p(n)(0) = E(Xn), . . .

f ′(0) = ıE(X), f”(0) = −E(X2), . . . , f (n)(0) = ınE(Xn), . . .

La dos primeras lıneas justifican las denominaciones generatriz de momentosfactoriales, y generatriz de momentos, respectivamente.

Nota 3: La funcion caracterıstica esta definida para todo t, pues el modulode la variable eıtX es 1, y por lo tanto tiene esperanza finita. Esta funcioncaracteriza a la distribucion, es decir, dos variables con la misma funcion car-acterıstica, tienen necesariamente la misma distribucion (Ver §13.10).

Teorema 6.9.2 Dadas las variables independientes X1, X2, . . . , Xn, llamamosS a su suma. Designemos respectivamente por gX , ψX , φX , a las funcionesgeneratriz de probabilidades, generatriz de momentos, y caracterıstica de cierta

Page 108: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.11. Funciones generatrices. 97

variable X. Entonces, cuando las funciones que aparecen en las formulas sigu-ientes eston definidas, valen las igualdades

gS =n

i=1

gXi, ψS =

n∏

i=1

ψXi, φS =

n∏

i=1

φXi

Demostracion: Calculamos gS(t) = E(tS) = E(t(∑n

i=1Xi)) = E(

n∏

i=1

tXi ) =

n∏

i=1

E(tXi), donde la ultima igualdad es consecuencia del Teorema 6.8.1 El re-

sultado obtenido prueba la primera igualdad de la tesis. Las otras dos severifican de la misma manera.

6.10 Ejercicios.

Ejercicio 6.10.1 A partir de la sucesion de variables independientes equidistri-buidas (Xi)i=1,2,... se define X = 1

n(∑n

i=1 Xi). Demostrar que E(∑n

i=1(Xi − X)2) =(n − 1)σ2, donde σ2 = Var(X1).

Ejercicio 6.10.2 Utilizando la funcion generatriz de probabilidades, demostrarque si las variables Xi son independientes, de Poisson con parametro λi(i = 1, 2, . . .),entonces

∑ni=1 Xi tiene distribucion de Poisson con parametro λ =

∑ni=1 λi.

Ejercicio 6.10.3 ¿Cual es la distribucion de la suma de variables aleatorias inde-pendientes binomiales de parametros (ni, p) ? (i = 1, 2, . . . , n).

Ejercicio 6.10.4 Verificar la informacion contenida en la Tabla 6.1.

6.11 * Una aplicacion: Calculo de probabili-

dades en el paseo al azar con barreras.

6.11.1 Paseo al azar con dos barreras absorbentes.

Hemos definido en §4.1 el paseo al azar simple como la sucesion Sn =∑n

i=1 Xi

de las sumas parciales de las variables independientes Xn con la misma dis-tribucion PXn = 1 = p, PXn = −1 = q.

Page 109: Cabaña - Probabilidad y aplicaciones estadisticas

98Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Tabla 6.1: Esperanzas, variancias y funciones generatrices de momentos dealgunas distribuciones.

f: facto-

Funcion de distribucion Esperanza Variancia Funcion riales

densidad o cuantıa. generatriz u o: ordi-

de momentos narios

Bernoulli: Ber(p)PX = 0 = 1 − p p p(1 − p) 1 − p + pt f

PX = 1 = p

Binomial: Bin(n, p)PX = h =

(nh

)

ph(1 − p)n−h, np np(1 − p) (1 − p + pt)n fh = 0, 1, . . . , n

Geometrica: Geo(p)

PX = h = (1 − p)hp, 1−pp

1−pp2

p1−t(1−p) f

h = 0, 1, . . .

Geometrica alternativa: Geo(p)

PX = h = (1 − p)h−1p, 1p

1−pp2

pt1−t(1−p) f

h = 1, 2, . . .

Poisson: Pois(λ)

PX = h = λhe−λ/h! λ λ e−λ(1−t) fh = 0, 1, . . .

Uniforme: Uni(0, 1)

fX(x) =

1 si 0 ≤ x ≤ 1;0 en caso contrario.

1/2 1/12 et−1t

o

Exponencial: Exp(λ)FX(x) = 1 − e−λx, x > 0 1/λ 1/λ2 λ/(λ − t) ofX(x) = λe−λx, x > 0

Gamma: Γ(n, λ)

fX(x) = λnxn−1e−λx

(n−1)! , (x > 0) n/λ n/λ2(

λλ−t

)no

Page 110: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.11. Funciones generatrices. 99

Nos damos ahora dos enteros a, b que satisfacen −∞ ≤ −a < 0 < b ≤ +∞,y llamamos T al tiempo de llegada a las barreras−a, b (o tiempo de absorcionen el contexto de la definicion siguiente):

T = minn : Sn = −a o Sn = b, (6.6)

con la convencion habitual min ∅ = +∞, es decir, cuando la trayectoria noalcanza ninguna de las barreras, decimos que T es infinito. (Este serıa segu-ramente el caso cuando a = b = ∞. En cualquier otro caso, tal resultado esimprobable: PT = ∞ = 0, como consecuencia del Corolario 4.1.1.1, parte(iii).)

Definicion 6.11.1 Llamamos paseo al azar con barreras absorbentes−a, b, a S−a,b

n = Sn∧T , con n ∧ T = minn, T, con T dado por (6.6).

De otra manera: una vez que la trayectoria del paseo original alcanza algunade las barreras −a o b, el nuevo paseo es absorbido por la barrera alcanzada,y permanece constante en el nivel de esa barrera.

Ejercicios y un ejemplo complementario.

Ejercicio 6.11.1 Observar que el resultado del Ejercicio 4.1.4 es trivial en el casodel paseo simetrico. Mostrar que para este caso, valen para todo n, ESn = 0,ES2

n − n = 0.

Ejercicio 6.11.2 Verificar que la esperanza del paseo al azar simetrico simple

S−a,bn absorbido por las barreras −a, b es ES

−a,bn = 0 para todo n.

Ejercicio 6.11.3 Deducir de la parte (iii) del Corolario 4.1.1.1 que existe el lımite

limn→∞ S−a,bn .

Ejercicio 6.11.4 El lımite del ejercicio precedente es una variable aleatoria S∞.

¿Cual es su recorrido? Obtener la distribucion de S∞ pasando al lımite en ES−a,bn

= 0.

Ejemplo 6.11.1 Los ejercicios que siguen al 6.11.1, desarrollan consecuen-cias de la primera igualdad de ese ejercicio, en el contexto del paseo detenidopor una doble barrera. Veamos ahora el equivalente respecto de la otra igualdad,es decir, ES2

n − n = 0.Dado el paseo al azar simetrico simple S−a,b

n absorbido por las barreras−a, b, vamos a verificar en primer lugar que E(S−a,b

n )2 − n ∧ T = 0 paratodo n.

Page 111: Cabaña - Probabilidad y aplicaciones estadisticas

100Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

El incremento [(S−a,bn+1 )2 − (n + 1)∧ T ] −[(S−a,b

n )2 −n∧ T ] vale 0 cuandoT ≤ N , y dado T > n vale (Sn + 1)2 − S2

n − 1 con probabilidad condicional1/2, y (Sn − 1)2 − S2

n − 1 con probabilidad condicional 1/2. La esperanza esentonces PT > n[1

2((Sn + 1)2 − S2

n − 1) + 12((Sn − 1)2 − S2

n − 1)] = 0.De lo que precede podemos deducir el siguiente resultado:

Teorema 6.11.1 La esperanza del tiempo de absorcion T = minn : Sn =−a o Sn = b del paseo al azar simetrico simple Sn en las barreras −a, b esET = ab.

Como (S−a,bn )2 tiene lımite (S∞)2 y esta acotada uniformemente por (a∨

b)2, el Teorema de Convergencia Dominada nos permite calcular E(S∞)2 =E lim(S−a,b

n )2 = limE(S−a,bn )2 = limEn ∧ T . El Teorema de Convergencia

Monotona nos permite completar el calculo: limEn ∧ T = E lim n ∧ T = ET .Por otra parte, como conocemos la distribucion de S∞, estamos en condi-

ciones de calcular E lim(S−a,bn )2 = a2b+b2a

a+b= ab.

Ejercicio 6.11.5 Deducir de los resultados del ejemplo anterior, que la esperanzadel tiempo de llegada del paseo al azar simetrico simple a una barrera unica es ∞.

6.11.2 Paseo al azar con una barrera

Definicion 6.11.2 Dados a > 0 y T = minn : Sn = −a, llamamos paseoal azar con barrera absorbente −a, a S−a

n = Sn∧T .

De acuerdo a la parte (iii) del Corolario 4.1.1.1, si p = q(= 1/2), entoncesPT < ∞ = 1.

De ello resulta que para p < q, tambien se cumple PT < ∞ = 1, ya quecuando Sn =

∑ni=1 Xi es un paseo al azar con probabilidades p < q, podemos

definir un nuevo paseo al azar simetrico S∗n =

∑ni=1 X∗

i con

Xi =

1, si Xi = 1 o Xi = −1 y Zi = 1,0, si Xi = −1 y Zi = 0,

donde las nuevas variables (Zi)i=1,2,... son independientes entre sı e independi-entes de (Xi)i=1,2,..., con distribucion de Bernoulli ((q − 1/2)/q). Por ser (S∗

n)simetrico alcanza el nivel −a con probabilidad 1, y lo mismo ocurre con Sn

puesto que, en virtud de la construccion, para cada ω se cumple S∗n ≥ Sn.

Cuando p > q, en cambio, hay probabilidades positivas y complementariasde que Sn sea absorbido en −a o tenga lımite +∞. La demostracion se proponecomo ejercicio.

Page 112: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

6.11. Funciones generatrices. 101

Ejercicio.

Ejercicio 6.11.6 (i) Mostrar, de manera analoga a la utilizada en el Ejercicio4.1.4 que cuando T ∗ es el tiempo de llegada al par de barreras −a, b, se cumple

E(

qp

)Sn∧T∗

= 1. Deducir la distribucion del lımite limn→∞ Sn∧T ∗ .

(ii) Si T es el tiempo de llegada de Sn a la unica barrera −a, mostrar queel suceso limn→∞ Sn∧T = ∞ coincide con

b∈NSn∧T ∗ = b, y deducir que su

probabilidad es 1 −(

qp

)a.

Page 113: Cabaña - Probabilidad y aplicaciones estadisticas

102Enrique M. Cabana.

Capıtulo 6: Valor esperado de una variable aleatoria.

Page 114: Cabaña - Probabilidad y aplicaciones estadisticas

7. Medidas, integrales,

densidades.

7.1 Espacios de medida.

Las funciones de conjunto σ-aditivas tienen un interes que trasciende la teorıade las probabilidades.

Definicion 7.1.1 Se llama medida en (Ω,A) a una funcion µ : A → R+

=R+ ∪ +∞, σ-aditiva.

Nota: Se observara que las probabilidades son las medidas µ con la propie-dad µ(Ω) = 1.

Definicion 7.1.2 Una medida µ en (Ω,A) es σ-finita cuando existe una par-ticion (An)

n∈N de Ω con la propiedad µ(An) < ∞ para todo n ∈ N.

Cuando µ es σ-finita, y (An) es una particion de Ω con cn = µ(An) < ∞,podemos introducir las probabilidades Pn(A) = µ(A∩An)/cn, que nos permitenescribir µ =

∑∞n=1 cnPn.

Ejemplo 7.1.1 Dada una sucesion de puntos S = (xn)n∈N ⊂ Ω, la funcionνS que a cada A ∈ A asocia la cantidad de puntos de S contenidos en A:

νS(A) = #xn : xn ∈ A, n ∈ N

es una medida. La llamaremos medida de recuento asociada a S.En particular, νN(A) = #n : n ∈ A, n ∈ N es una medida en (R,B),

y se trata de una medida σ-finita que puede escribirse en la forma νN(A) =∑

n∈N 1n∈A.

103

Page 115: Cabaña - Probabilidad y aplicaciones estadisticas

104Enrique M. Cabana.

Capıtulo 7: Medidas, integrales, densidades.

Ejemplo 7.1.2 Introducimos las probabilidades Pn(A) = PU − n ∈ A, conU uniforme en (0, 1) y n ∈ Z. Entonces λ =

n∈Z Pn es una medida σ-finitaen R con la σ-algebra de Borel.

Se observara que, para cada n, la probabilidad Pn definida en el ejemploprecedente esta concentrada en (n, n+1], y para cada intervalo (x, y] ⊂ (n, n+1]Pn((x, y]) = y − x es su longitud. Mas en general, para cualquier intervalo(x, y], Pn((x, y]) es la longitud de la interseccion (x, y] ∩ (n, n + 1]. Dado quelos conjuntos ((n, n + 1])n∈N son una particion de R, λ((x, y]) =

n Pn((x, y])es la suma de las longitudes de las intersecciones de (x, y] con cada intervalode la particion, y por consiguiente vale y − x, la longitud total.

Definicion 7.1.3 A la medida λ que se introduce en el Ejemplo 7.1.2, cuyarestriccion a los intervalos es la longitud, se la llama medida de Lebesgue

en R.

7.2 Probabilidades y medidas completas.

Una vez definida una probabilidad P en (Ω,A), si

A0 = A ⊂ Ω : existe B ∈ A tal que A ⊂ B, P (B) = 0

es la familia de todos los subconjuntos de Ω contenidos en algun suceso deprobabilidad nula, entonces A = A : existe B ∈ A tal que A∆B ∈ A0 esuna nueva σ-algebra, y la extension P (A) = P (B) cuando B ∈ A y B ∈ A, esuna probabilidad en (Ω, A).

Se dice que P completa a P , y cuando una probabilidad P coincide con sucompletada P , se dice que P es completa.

De manera analoga, se define una medida completa.

Definicion 7.2.1 Llamaremos tambien Medida de Lebesgue a la que se ob-tiene completando la medida introducida en la definicion 7.1.3. Habitualmentees a esta ultima a la que se hace referencia con este nombre, es decir, se so-breentiende que la medida de Lebesgue es completa.

Ejercicio 7.2.1 Verificar que A definida en el contexto previo es una σ-algebra, y

que la extension P de P es una probabilidad.

Page 116: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

7.3. Integral respecto de una medida. 105

7.3 Integral respecto de una medida.

Dada la medida µ en (Ω,A) y la funcion medible (o variable aleatoria) X :Ω→ R+, definimos, imitando la Definicion 6.3.2, integral de X respecto de µ, alresultado de reemplazar en esa definicion la probabilidad P por la medida µ:

Definicion 7.3.1 (i) La integral de la indicatriz del conjunto medible A re-specto de µ es

1Adµ = µ(A).(ii) La integral de una combinacion lineal finita de indicatrices de conjuntos

medibles es∫

∑kj=1 aj1Aj

∑kj=1 ajµ(Aj).

(iii) Dada la funcion medible no negativa X, tomemos una sucesion mo-notona creciente Xn =

j xj,n1Aj,n, n = 1, 2, . . . de funciones simples, cuyo

lımite es X. Entonces∫

Xdµ = limn→∞∑

j xj,nµ(Aj,n). En particular, porejemplo,

Xdµ = limn→∞

n2n∑

j=0

j2−nµ(j2−n < X ≤ (j + 1)2−n).

(iv) Cuando X es una funcion medible no necesariamente no negativa, yX+ y X− tienen integral finita respecto de µ, entonces

Xdµ =∫

X+dµ −∫

X−dµ.

(v) Llamamos integral de X en un conjunto A medible, a la integral deX1A.

Observacion. La coherencia de la partes (ii) y (iii) de la definicion, requiereestablecer resultados analogos a los de los Lemas 6.3.1 y 6.3.2. Tales resultadostambien son validos en el presente contexto, y omitimos sus demostraciones,porque son identicas a las de los lemas mencionados.

Notacion. Decimos que X es integrable respecto de µ, cuando∫

|X|dµ < ∞.

Teorema 7.3.1 Si∫

A Xdµ = 0 para todo A medible, entonces µX = 0 =µω : X(ω) = 0 = 0.

Demostracion: Basta mostrar que el resultado es cierto cuando X ≥ 0, pues sino se trabaja por separado con X+ y X− a las que se aplica la misma hipotesiscomo surge de considerar las integrales extendidas a los conjuntos mediblesA ∩ X > 0 o A ∩ X < 0.

Con X ≥ 0, la hipotesis implica en particular∫

X dµ = 0. Esto significa, deacuerdo a la parte (i) de la Definicion 7.3.1 que cada termino de la sucesion no

Page 117: Cabaña - Probabilidad y aplicaciones estadisticas

106Enrique M. Cabana.

Capıtulo 7: Medidas, integrales, densidades.

negativa y no decreciente∑n2n

j=0 j2−nµ(j2−n < X ≤ (j + 1)2−n), cuyo lımitees cero, es el mismo igual a cero, y por lo tanto lo es cada sumando. Se deduceinmediatamente que para cada j positivo, µ(j2−n < X ≤ (j+1)2−n) es cero,y entonces µ(2−n < X ≤ n) = 0, de donde, por continuidad, µ(X = 0) =µ(limn2

−n < X ≤ n) = 0.

Por medio de los enunciados siguientes, indicamos algunas propiedadesimportantes de la integral. Omitimos las demostraciones porque son similaresa las de las correspondientes propiedades de las esperanzas.

Teorema 7.3.2 La integral es una funcion monotona y lineal del integrando:

0 ≤ X ≤ Y oX ≤ Y, X, Y integrables,

implican∫

Xdµ ≤∫

Y dµ,

X, Y, α, β ≥ 0, o bienX, Y integrables

implican∫

(αX + βY )dµ = α∫

Xdµ + β∫

Y dµ.

Teorema 7.3.3 Cuando X es no negativa o integrable, la integral∫

A Xdµ esuna funcion σ-aditiva del dominio A:

jAj

Xdµ =∑

j

Aj

Xdµ, A1, A2, . . . , disjuntos.

Corolario 7.3.3.1 Cuando X es no negativa, la funcion

τ(A) =∫

AXdµ (7.1)

es una medida, con la propiedad τ(A) = 0 para todo A tal que µ(A) = 0.Cuando X es integrable, τ es una diferencia de dos medidas, con la misma

propiedad.

Demostracion del Corolario. La σ-aditividad es una consecuencia inmedi-ata del Teorema. Si Yn =

j yj,n1Aj,nes una sucesion monotona creciente

de funciones simples no negativas con lımite X1A (y con los coeficientes yj,n

estrictamente positivos), cada Aj,n debe estar contenido en A porque en casocontrario no se cumplirıa Yn ≤ X1A. Entonces µ(A) = 0 implica µ(Aj,n) = 0y por lo tanto

Yndµ = 0 para todo n. Se concluye τ(A) =∫

A Xdµ =limn→∞

Yn1Adµ = 0.Cuando X cambia de signo, la funcion τ(A) =

A Xdµ =∫

A X+dµ −∫

A X−dµ es una diferencia de dos medidas, y se la llama una medida consigno.

Page 118: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

7.4. Ejemplos: Integral de Lebesgue, e integral respecto de νS. 107

Los teoremas que siguen se refieren al pasaje al lımite bajo el signo de inte-gracion. Sus demostraciones coinciden con las de los correspondientes teoremasde pasaje al lımite bajo el signo de esperanza (§6.5.3), y no las repetiremos.

Teorema 7.3.4 (Teorema de convergencia monotona de Beppo Levi). Si Xn

es una sucesion monotona creciente de funciones medibles no negativas conlımite X, entonces

limn→∞

Xndµ =∫

Xdµ.

Teorema 7.3.5 (Lema de Fatou). Si Xn es una sucesion de funciones medi-bles no negativas, entonces

lim infn→∞

Xndµ ≥∫

Xdµ.

Teorema 7.3.6 (Teorema de convergencia dominada de Lebesgue). Si Xn esuna sucesion de funciones medibles con lımite X, y existen funciones inte-grables Y , Z tales que Y ≤ Xn ≤ Z para todo n, entonces

limn→∞

Xndµ =∫

Xdµ.

7.4 Dos ejemplos: Integral de Lebesgue e in-

tegral respecto de una medida discreta.

7.4.1 Integral respecto de la medida de Lebesgue

Vamos a verificar que, en un sentido bastante amplio, la integral de Lebesgue,como se llama a la integral respecto de la medida de Lebesgue, es una gener-alizacion de la integral de Riemann.

Teorema 7.4.1 Si f es una funcion acotada en [a, b] y existe la integral deRiemann

∫ ba f(t)dt, entonces esta integral coincide con la integral de Lebesgue

de f en [a, b], es decir, la integral de f1[a,b] respecto de la medida de Lebesgueλ (ver Definicion 7.1.3).

Demostracion Por hipotesis, existe una sucesion de particiones de [a, b]en subintervalos Jj,n : j = 1, 2, . . . , kn tal que las sumas inferiores S−

n =∑kn

j=1 inff(t) : t ∈ Jj,nλ(Jj,n) y las sumas superiores S+n =

∑kn

j=1 supf(t) :

t ∈ Jj,nλ(Jj,n) convergen a la integral∫ ba f(t)dt, cuando n tiende a infinito.

Page 119: Cabaña - Probabilidad y aplicaciones estadisticas

108Enrique M. Cabana.

Capıtulo 7: Medidas, integrales, densidades.

Para la escritura de las sumas se ha aprovechado que la medida de Lebesguede un intervalo es su longitud.

En particular, si abreviamos mj,n = inff(t) : t ∈ Jj,n y Mj,n = supf(t) :t ∈ Jj,n, e introducimos las funciones simples f−

n =∑kn

j=1 mj,n1Jj,n, f+

n =∑kn

j=1 Mj,n1Jj,n, encontramos que, por una parte, f−

n ≤ f ≤ f+n , de modo

que∫

[a,b] f−n dλ ≤

[a,b] fdλ ≤∫

[a,b] f+n dλ, y, por otra parte,

[a,b] f−n dλ = S−

n ,∫

[a,b] f+n dλ = S+

n , lo que nos lleva a concluir que S−n ≤

[a,b] fdλ ≤ S+n , y,

pasando al lımite cuando n tiende a infinito, resulta que∫

[a,b] fdλ coincide conel lımite de las sumas de Riemann que es la integral de Riemann.

Nota. En §13.6 se hace referencia a la extension a Rn de la medida deLebesgue y de la correspondiente integral.

7.4.2 Integral respecto de la medida νS del Ejemplo

7.1.1.

Es inmediato verificar que∫

A fdνS =∑

xj∈A∩S f(xj).

Resulta en particular, por ejemplo, que si X es una variable discreta conrecorrido S y probabilidades PX = xj = pj, entonces PX ∈ A =

A pdνS ,donde p es cualquier funcion con la propiedad p(xj) = pj, para cada xj ∈ S.

7.5 La esperanza como caso particular de la

integral.

De la definicion de integral resulta que la esperanza de X : (Ω,A,P) → (R,B)es la integral en Ω:

E(X) =∫

XdP.

Del Teorema 13.4.1 resulta que la esperanza puede expresarse tambien pormedio de una integral en R:

E(X) =∫

xdPX(x) =∫

xdFX(x),

respecto de la distribucion de probabilidad PX de la variable X. La expresionen terminos de la funcion de distribucion de probabilidad FX , es una notacionpara esa misma integral.

Page 120: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

7.6. Densidad. 109

7.6 Densidad de una medida respecto de otra

medida.

El Corolario 7.3.3.1 indica una relacion entre medidas que resulta de interes:

Definicion 7.6.1 Cuando τ y µ son dos medidas en un mismo espacio demedida (Ω,A), y para todo A ∈ A con µ(A) = 0 se cumple τ(A) = 0, se diceque τ es absolutamente continua respecto de µ . Cuando τ(A) =

A Xdµ,se dice tambien que X es la densidad de τ con respecto a µ.

Observacion. Con esta nomenclatura, el Corolario 7.3.3.1 expresa que lamedida τ definida por (7.1) es absolutamente continua respecto de µ.

Ahora es posible rever, y generalizar en cierta medida, la Definicion 3.3.1.Las definiciones introducidas en este capıtulo nos permiten reemplazar (i) porotra formulacion equivalente. En cuanto a (ii), lo esencial es que la funcion dedistribucion sea la integral de una densidad. En el Capıtulo 3 se sobreentiendeque se utiliza la integral de Riemann, pero si esta se reemplaza por la integralde Lebesgue, resulta una formulacion algo mas general. La Definicion 3.3.1puede en consecuencia reemplazarse por la siguiente:

Definicion 7.6.2 Cuando se dice que una variable aleatoria X o su distri-bucion de probabilidades es absolutamente continua, se sobreentiende quela distribucion de probabilidades es absolutamente continua respecto de la

medida de Lebesgue. Una variable o su distribucion de probabilidades sedicen discretas cuando esta ultima es absolutamente continua respecto de lamedida νS de recuento de un conjunto discreto S.

Se llama densidad de la distribucion de X a la densidad respecto de lamedida de Lebesgue, en el primer caso, y a la densidad respecto de νS en elsegundo. A esta ultima tambien se la llama funcion de cuantıa.

De lo que precede surge que la practica de tratar separadamente a las distribuciones

absolutamente continuas y a las distribuciones discretas, responde a la comodidad

de formular enunciados que aprovechan las propiedades particulares de la medida

o la integral de Lebesgue, en el primer caso, o bien de las medidas discretas y las

correspondientes integrales respecto de medidas de recuento de conjuntos discretos,

que se reducen a sumas, en el segundo.

Esta practica puede asimismo tener, como contrapartida, el inconveniente de dar

formas diferentes a resultados de naturaleza identica, cuando se refieren a una u otra

medida. Ademas, deja fuera a las distribuciones que no son absolutamente continuas

respecto de λ o de alguna νS .

Page 121: Cabaña - Probabilidad y aplicaciones estadisticas

110Enrique M. Cabana.

Capıtulo 7: Medidas, integrales, densidades.

El siguiente resultado, recıproco del Corolario 7.3.3.1, cuya demostracionse incluye en §13.9.1, tiene una importante aplicacion en el Capıtulo 9.

Teorema 7.6.1 (de Radon-Nikodym). Cuando τ es una medida σ-finita abso-lutamente continua respecto de la medida σ-finita µ, existe la densidad de τ conrespecto a µ, es decir, existe una funcion medible g (que se denota dτ/dµ), talque para todo A medible, τ(A) =

A gdµ. La densidad es esencialmente unica,es decir, si h es tambien una densidad (porque es una funcion medible quecumple τ(A) =

A hdµ para todo A medible), entonces µg = h = 0.

Page 122: Cabaña - Probabilidad y aplicaciones estadisticas

8. Distribuciones conjuntas,independencia.

8.1 Distribucion conjunta de una pareja de va-

riables aleatorias.

Dadas dos variables aleatorias X, Y , ası como cada una de ellas induce unadistribucion de probabilidad en (R,B), descrita por la correspondiente funcionde distribucion, es posible verificar (mediante el Teorema 3.2.1) que la parejainduce una probabilidad en la mınima σ-algebra de subconjuntos B(2) de R×Rque contiene a los rectangulos (a, b]× (c, d], que se llama distribucion conjuntade X, Y . Esta distribucion conjunta, que denotaremos PX,Y , asocia a cadarectangulo (a, b] × (c, d] la probabilidad

PX,Y ((a, b] × (c, d]) = P(a < X ≤ b ∩ c < Y ≤ d).

En lo sucesivo, intersecciones tales como a < X ≤ b ∩ c < Y ≤ d seabreviaran por medio de la notacion a < X ≤ b, c < Y ≤ d.

Definicion 8.1.1 Se llama funcion de distribucion de probabilidad dela pareja de variables aleatorias X,Y a la funcion FX,Y : R × R → R+

definida por FX,Y (x, y) = PX ≤ x, Y ≤ y.

Teorema 8.1.1 La funcion de distribucion de probabilidades FX,Y de unapareja de variables aleatorias reales X, Y satisface las propiedades:

(1) FX,Y es no decreciente, y continua por la derecha como funcion de cadauno de sus argumentos,

(2) FX,Y (−∞, y) = FX,Y (x,−∞) = 0, para todo x, y,

(3) FX,Y (x,∞) = FX(x), FX,Y (∞, y) = FY (y),

111

Page 123: Cabaña - Probabilidad y aplicaciones estadisticas

112Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

(4) Para cualquier rectangulo semiabierto R = (a, b] × (c, d], se cumpleP(X,Y ) ∈ R = FX,Y (b, d) + FX,Y (a, c) − FX,Y (b, c) − FX,Y (a, d). Aesta expresion la llamamos incremento doble de FX,Y en R.

Demostracion. Se extiende el procedimiento utilizado para verificar el Teo-rema 3.1.2.

Las definiciones de distribucion discreta y distribucion absolutamente con-tinua se suelen extender al caso de la distribucion de una pareja, de la siguientemanera:

Definicion 8.1.2 (i) Diremos que una pareja X,Y de variables aleatoriastiene distribucion de probabilidades discreta cuando su recorrido es unconjunto discreto, es decir, un conjunto de puntos de R2 cuya inter-seccion con cualquier rectangulo contiene una cantidad finita de elemen-tos.

(ii) Diremos que X, Y es absolutamente continua cuando su funcion dedistribucion FX,Y puede representarse por medio de la integral (de Rie-mann)

FX,Y (x, y) =∫ x

−∞dx′

∫ y

−∞fX,Y (x′, y′)dy′.

A la funcion fX,Y se la llama funcion de densidad de la distribucionconjunta.

Observemos que cuando el recorrido de una variable aleatoria discretaX es el conjunto xi : i = 1, 2, . . ., y el de una variable discreta Y esyj : j = 1, 2, . . ., entonces las probabilidades pi,j = PX = xi, Y = yjbastan para determinar la distribucion de la pareja X, Y , y, en particular,la funcion de distribucion FX,Y (x, y) =

xi≤x

yj≤y pi,j, y la probabilidad∑

a<xi≤b

c<yj≤d pi,j de que (X, Y ) pertenezca al rectangulo (a, b] × (c, d].Para el caso de una distribucion conjunta absolutamente continua, se ob-

servara que la propiedad (3) del Teorema 8.1.1 implica que cada una de lasvariables por separado tiene distribucion absolutamente continua, con densi-dades respectivas

fX(x) =∫ ∞

−∞fX,Y (x, y)dy, fY (y) =

∫ ∞

−∞fX,Y (x, y)dx. (8.1)

A las distribuciones de X y de Y se las llama distribuciones marginalesde la distribucion conjunta de (X, Y ), y a las densidades (8.1) se las llamadensidades marginales.

Page 124: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.2. Integral de Lebesgue en el plano. 113

xa b

y = c(x)

y = d(x)

y

x

c

d

x = a(y)x = b(y)

y

Figura 8.1: Dominios de integracion.

La probabilidad de que (X, Y ) pertenezca a (a, b] × (c, d] esta dada por

∫ b

adx

∫ d

cfX,Y (x, y)dy.

Es facil verificar que en este caso el borde del rectangulo tiene probabili-dad nula, de modo que la probabilidad de que la pareja (X, Y ) pertenezca alrectangulo abierto (a, b)× (c, d) y al rectangulo cerrado [a, b]× [c, d] coinciden.

Se deduce de lo anterior que para un conjunto S que sea una union derectangulos, se cumple

P(X,Y ) ∈ S =∫ ∫

SfX,Y (x, y). (8.2)

Cuando S es el lımite de una sucesion creciente de uniones de rectangulosSn, P(X,Y ) ∈ S = limn→∞ P(X, Y ) ∈ Sn = limn→∞

∫∫

SnfX,Y (x, y)dx dy.

Esta consecuencia de la monotonıa de la probabilidad puede aprovecharse paraextender (8.2) a regiones S para las que limn→∞

∫∫

SnfX,Y (x, y)dx dy coincide

con∫∫

S fX,Y (x, y)dx dy, como es el caso, por ejemplo, cuando S es la regiondel plano limitada por x = a, x = b y los graficos de un par de funciones c(x),d(x) continuas en [a, b], (Figura 8.1, parte superior), cuando es una regionanaloga con intercambio de los papeles que juegan la x y la y, (Figura 8.1,parte inferior), o cuando es una union finita de regiones como estas. Al menospara regiones de este tipo vale entonces (8.2).

Page 125: Cabaña - Probabilidad y aplicaciones estadisticas

114Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

8.2 La integral de Lebesgue en R2.

La medida de Lebesgue en (R2,B(2)) puede definirse de manera similar a laque utilizamos en el Ejemplo 7.1.2.

Supongamos en primer lugar una variable aleatoria U = (U1, U2)tr en R2

con distribucion uniforme en [0, 1]× [0, 1]. Esto significa que para 0 ≤ a < b ≤1, 0 ≤ c < d ≤ 1, se cumple PU ∈ (a, b] × (c, d] = (b − a)(d − c). Vamos adenotar Pm,n a la distribucion de probabilidad de U + (m, n)tr.

Definicion 8.2.1 La medida de Lebesgue en R2 es la medida λ definida por

λ(A) =∞∑

m=−∞

∞∑

n=−∞Pm,n(A),

donde, para cada m, n, Pm,n es la probabilidad uniforme en el cuadrado Cm,n

=[m, m + 1] × [n, n + 1] definida en el contexto previo.

En particular, la restriccion de λ a cada Cm,n, es la probabilidad Pm,n.

Definicion 8.2.2 La integral de Lebesgue en R2, es la integral respecto de laMedida de Labesgue en R2.

Dentro de este contexto, si para cada rectangulo C = (a, b] × (c, d], laprobabilidad PX,Y (C) coincide con la medida definida mediante la integralde Lebesgue

∫∫

1CfX,Y dλ, entonces coinciden sobre todo conjunto de Borel,como consecuencia del Teorema de Extension de Probabildades de Kolmogorov(3.2.1).

Los comentarios que preceden muestran que la expresion para el calculode la distribucion de probabilidad de una variable absolutamente continua apartir de la integral de la densidad, vale para cualquier S en la σ-algebra deBorel B(2).

Obviamente, toda densidad de distribucion de probabilidades debe ser nonegativa y debe satisfacer

∫ ∞

−∞dx

∫ ∞

−∞fX,Y (x, y)dy = 1.

Recıprocamente, si f satisface esas condiciones, la funcion

FX,Y =∫ x

−∞dx′

∫ y

−∞fX,Y (x′, y′)dy′

es la funcion de distribucion conjunta de una pareja con distribucion PX,Y (S)=

∫∫

S fX,Y dλ.

Page 126: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.3. Integral de Lebesgue en el plano. 115

8.3 Calculo de esperanzas.

Teorema 8.3.1 (Regla para el calculo de E(g(X, Y ))).

(i) Si g es una funcion de R2 en R , y X, Y son variables aleatorias discretas,entonces g(X, Y ) es una nueva variable aleatoria discreta y su esperanzase calcula en la forma E(g(X, Y )) =

i,j pi,jg(xi, yj) cuando g ≥ 0 ocuando

i,j pi,j|g(xi, yj)| < ∞.

(ii) Si g es una funcion continua de R2 en R , y X, Y son variables aleato-rias con distribucion conjunta absolutamente continua, entonces g(X, Y )es una nueva variable aleatoria y su esperanza se calcula en la formaE(g(X, Y )) =

∫ ∞−∞ dx

∫ ∞−∞ g(x, y)fX,Y (x, y)dy cuando g ≥ 0 o cuando

∫ ∞−∞ dx

∫ ∞−∞ |g(x, y)|fX,Y (x, y)dy < ∞.

Este Teorema es consecuencia del Teorema 13.4.1. Una verificacion directade la parte (i) no ofrece dificultades especiales.

8.3.1 Momentos asociados a una pareja de variables.

Definicion 8.3.1 Llamamos momentos mixtos de una pareja de variablesaleatorias X, Y a esperanzas de productos de potencias de ambas.

Momentos mixtos centrales de X, Y son los momentos mixtos de X −E(X), Y − E(Y ). Un caso particular es la covariancia.

Se llama covariancia de las variables X, Y a

Cov(X, Y ) = E((X − E(X))(Y − E(Y ))),

y coeficiente de correlacion a

ρ(X, Y ) =Cov(X, Y )

Var(X)Var(Y ).

Ejercicios

Ejercicio 8.3.1 Las variables X, Y tienen momentos absolutos de segundo ordenE(|X|2), E(|Y |2), E(|XY |) finitos. Probar las desigualdades

(E(X))2 ≤ E(|X|)2 ≤ E(X2),

(E(XY ))2 ≤ E(X2)E(Y 2)(Cauchy-Schwarz).

Page 127: Cabaña - Probabilidad y aplicaciones estadisticas

116Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

Ejercicio 8.3.2 Verificar que, para cualesquiera X, Y con momentos de segundoorden finitos, se cumple Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Ejercicio 8.3.3 Dos variables se dicen no correlacionadas cuando su coeficientede correlacion es cero. Probar que si las variables X1, X2, . . . , Xn, estan dos a dosno correlacionadas, entonces Var(

∑ni=1 Xi) =

∑ni=1 VarXi.

8.4 Distribucion de variables aleatorias inde-

pendientes. Producto de probabilidades.

8.4.1 Independencia de variables aleatorias.

La definicion de la independencia de variables aleatorias ha sido adelantada en§6.8.1.

Teorema 8.4.1 (i) Si X, Y son independientes, entonces

FX,Y (x, y) = FX(x)FY (y).

(ii) Si la distribucion conjunta de (X, Y ) es absolutamente continua,

fX,Y (x, y) = fX(x)fY (y).

(iii) Si X, Y son discretas, con recorridos respectivos xi : i = 1, 2, . . ., yj :j = 1, 2, . . ., entonces las probabilidades pi,j = PX = xi, Y = yjse obtienen por producto de las probabilidades PX = xi,PY = yjcorrespondientes a cada variable.

Demostracion. Los sucesos X ≤ x, Y ≤ y son independientes, demodo que PX ≤ x, Y ≤ y = PX ≤ xPY ≤ y, y esto demuestra (i).

En el caso en que (X, Y ) es absolutamente continua, lo son X e Y porseparado, y podemos derivar (i) con respecto a x y con respecto a y. Elresultado es (ii).

La igualdad PX = xi, Y = yj = PX = xiPY = yj de (iii) esconsecuencia de la independencia de X = xi, Y = yj.

Page 128: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.4. Variables aleatorias independientes. 117

8.4.2 Producto de probabilidades.

Definicion 8.4.1 (Producto de espacios de probabilidad.)Dados los espacios de probabilidad (Ω1,A1, P1) y (Ω2,A2, P2), llamamos

espacio de probabilidad producto de ambos a (Ω1 × Ω2,A1 × A2, P1 × P2)donde

• Ω1 × Ω2 es el producto cartesiano de Ω1 y Ω2,

• A1 × A2 es la mınima σ-algebra que contiene los productos cartesianosA1 × A2 con A1 ∈ A1, A2 ∈ A2,

• P = P1×P2 es la probabilidad que vale P (A1×A2) = P1(A1)P2(A2) paraA1 ∈ A1, A2 ∈ A2.

Nota 1: Cuando decimos que P es el producto P1 × P2, se sobreentiendeque su dominio es la σ-algebra producto de los dominios de P1 y P2.

Nota 2: La coherencia de la definicion de probabilidad producto requiereestablecer un teorema de existencia y unicidad. Mas precisamente, requieremostrar que existe una y una sola probabilidad P en la σ-algebra producto(que es la mınima que contiene al algebra de las uniones finitas de rectangulosA1 × A2 con A1 ∈ A1, A2 ∈ A2, y sus complementos) que en A1 × A2 valeP1(A1)P2(A2). Esto es consecuencia del Teorema de Extension de Probabili-dades de Kolmogorov (3.2.1).

Ejemplo 8.4.1 Cuando X, Y son independientes, PX,Y es la probabilidad pro-ducto de PX y PY .

8.4.3 La medida de Lebesgue en R2, como medida pro-ducto.

La definicion de producto de probabilidades se extiende sin dificultad a medi-das σ-finitas. En particular, el producto de dos medidas de Lebesgue λ(1) enR se puede obtener a partir de la serie λ(1) =

∑∞n=−∞ Pn, con Pn igual a la pro-

babilidad uniforme en [n, n+1], mediante la serie λ(2) =∑∞

m=−∞∑∞

n=−∞ Pm,n,donde Pm,n = Pm×Pn es la distribucion uniforme en el cuadrado Cm,n definidomas arriba. Es inmediato verificar que esta definicion de λ(2) como medida pro-ducto es equivalente a la Definicion 8.2.1.

Las definiciones de producto, y en particular de la medida de Lebesgue, seextienden sin dificultad a Rd para cualquier d ∈ N.

Page 129: Cabaña - Probabilidad y aplicaciones estadisticas

118Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

Notacion: Cuando resulte claro del contexto cual es el espacio donde lamedida de Lebesgue esta definida, la denotaremos simplemente por λ, sinindicar por medio de un superındice cual es la dimension.

8.5 Ejercicios.

Ejercicio 8.5.1 (a) Si X e Y son variables aleatorias independientes con reco-rrido contenido en N, y sus funciones generatrices de probabilidades son gX

y gY respectivamente, entonces la funcion generatriz de la suma, gX+Y es:gX+Y (t) = gX(t)gY (t).

(b) Considerar ahora X1, X2, . . . variables aleatorias i.i.d. (independientes e iden-ticamente distribuidas) con recorrido contenido en N, y N otra variable aleato-ria con valores enteros no negativos, independiente de las anteriores. DefinirS0 = 0, Sn = X1 + . . . + Xn. Verificar que la funcion generatriz de SN

= X1 + . . . + XN es gSN(t) = gN (gX1(t)).

Ejercicio 8.5.2 Hallar la densidad de la suma y del producto de dos variablesindependientes con igual distribucion uniforme en (a): (0, 1); (b): (−1/2, 1/2).

Ejercicio 8.5.3 Si X, Y tienen densidad conjunta

fX,Y (x, y) = ce−(x2+y2)/2,

(a) Verificar integrando fX,Y en R2 mediante coordenadas polares, que c vale 1

y deducir que ϕ(t) = 1√2π

e−t2/2 es una densidad en R y que X e Y tienen

densidad ϕ.

Nota: A la distribucion con densidad ϕ, se la llama normal tıpica o gaussiana

(Ver §12).

(b) Hallar la densidad de R =√

X2 + Y 2.

(c) Hallar la densidad conjunta de R, A tales que X = R cos A, Y = R sinA.

Ejercicio 8.5.4 Calcular E(Xm) si X tiene distribucion normal tıpica (Ver Ejer-cicio 8.5.3), y m es un numero natural.

Ejercicio 8.5.5 Si X1, X2, . . . , Xn son variables independientes, con distribucionnormal tıpica (Ver Ejercicio 8.5.3), calcular E(X2

1 + . . .+X2n) y Var (X2

1 + . . .+X2n).

Nota: La distribucion de Y = X21 + . . . + X2

n se conoce como χ2n (“Ji”-cuadrado con

n grados de libertad)

Page 130: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8. N7.- Buffon. 119

Ejercicio 8.5.6 Se supone que (X, Y ) tiene distribucion uniforme en (0, 1)×(0, 1),esto es, si A ⊂ (0, 1) × (0, 1), entonces P(X, Y ) ∈ A =area(A).

(a) Hallar la distribucion de X, la de Y , y probar que X, Y son independientes.

(b) Hallar la distribuciones de min(X, Y ), max(X, Y ) y max(X, Y ) −min(X, Y ).

(c) Calcular la probabilidad de que min(X, Y ), max(X, Y ) −min(X, Y ), y 1−max(X, Y ) sean los lados de un triangulo.

Ejercicio 8.5.7 (Problema de la aguja de Buffon). Se arroja al azar una agujade longitud 2b sobre un plano en el que se han trazado lıneas paralelas que distan2a(a > b). Supondremos que la distancia X del centro de la aguja a la lınea masproxima y el angulo agudo Y que forma la direccion de la aguja con la de laslıneas son variables independientes, respectivamente uniforme en (0, a) y uniformeen (0, π/2).

Calcular la probabilidad de que la aguja corte a alguna lınea, integrando ladensidad conjunta de (X, Y ) en b sinY > X.

N7.- Buffon, Georges Louis Leclerc, Comte de (1707 -1788).

Nacio en Montbard, en la Costa de Oro francesa, el 7 de sep-tiembre de 1707.Aunque el campo de la ciencia por el que mas merece ser recor-dado es el de las ciencias de la naturaleza, su experimento con-sistente en arrojar baguettes por encima del hombro y observarsi caen encima de alguna de un conjunto de lıneas paralelasequidistantes marcadas en el pavimento, ha merecido abun-dante discusion entre los probabilistas. Llama la atencion queese procedimiento ofrece una manera experimental de calcularel numero π.

8.6 Una aplicacion de la esperanza. Otra so-

lucion al problema de la aguja de Buffon.

En el Ejercicio 8.5.7 se ha planteado el siguiente problema, conocido comoProblema de la aguja de Buffon: Se arroja al azar una aguja de longitud 2bsobre un plano en el que se han trazado lıneas paralelas que distan 2a (a > b).La interpretacion que se da a la expresion arrojar al azar es que la distanciaX del centro de la aguja a la lınea mas proxima y el angulo agudo Y queforma la direccion de la aguja con la de las lıneas son variables independientes,respectivamente uniforme en (0, a) y uniforme en (0, π/2). A partir de esa

Page 131: Cabaña - Probabilidad y aplicaciones estadisticas

120Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

interpretacion, puede observarse que el el suceso “la aguja corta un lınea”equivale a X < b sin Y . Dado que la pareja X, Y es uniforme en el rectangulo(0, a)×(0, π/2), la probabilidad del suceso X < b sin Y es el cociente entre el

area de la region ((x, y) : 0 < x < b sin y, 0 < y < π/2 (que vale∫ π/20 b sin ydy

= b) y el area del rectangulo (que vale πa/2), es decir, 2b/(πa).

Una manera alternativa de resolver este ejercicio es la siguiente: observemosque la condicion a > b implica que el numero de cortes de la aguja con las lıneassolo puede ser 0 o 1. Como consecuencia, la probabilidad de cortar coincidecon el numero esperado de cortes.

Para calcular la esperanza del numero de cortes, observamos que este esaditivo respecto de una particion de la aguja en segmentos: con esto queremosdecir que si partimos la aguja en segmentos (es decir, interpretamos a la agujacomo una union de segmentos o pequenas agujas, que ni siquiera tienen porque tener todos la misma direccion, o incluso estar unidos) entonces el numerode cortes de la aguja a las lıneas es la suma del numero de cortes de cadasegmento. Por lo tanto, la esperanza del numero de cortes de la aguja es lasuma de las esperanzas del numero de cortes de cada segmento. Dado quesegmentos iguales tienen esperanzas iguales, por la geometrıa del problema, sededuce (haciendo uso del Lema 3.6.1) que la esperanza del numero de cortes deuna aguja es proporcional a su longitud, digamos, kℓ, donde k es la constantede proporcionalidad, y ℓ es la longitud de la aguja.

Para encontrar k vamos a elegir una aguja especial: un aro de diametro2a. Para esa aguja, el numero de cortes es (casi) seguramente 2, y por lotanto eso mismo vale la esperanza, de modo que, como la longitud es 2πa,tenemos la ecuacion k×2πa = 2, de la que deducimos k = 1/(πa). Finalmente,para la aguja de longitud 2b, la esperanza (y la probabilidad de corte) vale(n)2b × 1/(πa), como habıamos encontrado antes.

Se observara que esta solucion no requiere calcular ninguna integral. Sinembargo, en la medida que la aditividad es obvia para poligonales, pero nopara curvas, se requiere un argumento que permita aplicar la misma formula kℓpara la esperanza del numero de cortes, tambien a una circunferencia, cuandose acepta como valida para una poligonal. Basta considerar una sucesion depoligonales Cn, de longitudes ℓn, que tienda a la circunferencia C cuya longi-tud es 2πa. En particular, limn→∞ ℓn = 2πa. El numero Nn de cortes de lapoligonal Cn esta acotado por 2, y converge al numero de cortes de la circun-ferencia (que es 2), de modo que ENn → 2, por el Teorema de ConvergenciaDominada de Lebesgue. Por otra parte, ENn = kℓn → 2kπa, y esto terminanuestra argumentacion.

(La idea de esta ingeniosa solucion al Problema de la Aguja de Buffon es

Page 132: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.7. Distribucion de la suma de variables independientes. 121

del matematico espanol - argentino Luis Santalo (1911-2001).)

8.7 Distribucion de la suma de variables inde-

pendientes.

Cuando X e Y son variables aleatorias independientes, la funcion de dis-tribucion de la suma FX+Y (z) = FX,Y ((x, y) : x + y ≤ z) esta determinadapor las distribuciones marginales FX , FY . Vamos a verificar como puede cal-cularse FX+Y a partir de FX , FY en los casos en que FX,Y es absolutamentecontinua, o discreta.

En el primer caso, fX,Y (x, y) = fX(x)fY (y) y entonces

FX,Y ((x, y) : x + y ≤ z) =∫ ∫

(x,y):x+y≤zfX(x)fY (y)dx dy =

∫ ∞

−∞fX(x)dx

∫ z−x

−∞fY (y)dy =

∫ ∞

−∞fX(x)FY (z − x)dx,

de modo que

FX+Y (z) =∫ ∞

−∞FY (z − x)dFX(x),

y, por simetrıa,

FX+Y (z) =∫ ∞

−∞FX(z − y)dFY (y).

La densidad se obtiene derivando respecto a z:

fX+Y (z) =∫ ∞

−∞fX(x)fY (z − x)dx =

∫ ∞

−∞fX(z − y)fY (y)dy.

Cuando X e Y son discretas, con recorridos respectivos

x1, . . . , xk, . . ., y1, . . . , yl, . . .,

sus distribuciones estan determinadas por las probabilidades PX = xi, i =1, . . ., k, . . . y PY = yj, j = 1, . . ., l, . . ..

La distribucion de la suma esta dada por

PX + Y ≤ z =∑

xi+yj≤z

PX = xiPY = yj.

En el caso particular en que las variables tienen a los naturales por recorri-do, la expresion se reduce a PX + Y = n =

∑ni=0 PX = iPY = n − i.

Page 133: Cabaña - Probabilidad y aplicaciones estadisticas

122Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

Ejercicio.

Ejercicio 8.7.1 Si X, Y son independientes, con distribucion Exp(λ),

(a) ¿Cual es la distribucion de X + Y ?

(b) ¿Cual es la distribucion de min(X, Y )?

(c) Busquense generalizaciones de los resultados precedentes, al caso en queX, Y son independientes, con distribucion exponencial, pero no necesa-riamente con el mismo parametro.

(d) En este ultimo caso, calcular PX > Y .

8.8 Un ejemplo: Suma de variables geometri-

cas, distribucion binomial negativa.

Una lınea de fabricacion produce sucesiva e independientemente piezas conprobabilidad p de no ser defectuosas. ¿Cual es la distribucion del numero Nh

de piezas defectuosas que es necesario desechar antes de obtener h buenas?Cuando h vale 1, dicho numero N1 tiene distribucion Geo(p). Si X1, X2, . . .

designan las cantidades de piezas defectuosas que preceden a cada pieza buena,desde la anterior pieza buena fabricada, entonces cada Xi tiene distribucionGeo(p), son variables independientes, y Nh =

∑hi=1 Xi. La distribucion de N2

esta dada por

PN2 = n =n

i=0

PX1 = iPX2 = n − i

=n

i=0

(1 − p)ip(1 − p)n−ip = (n + 1)p2(1 − p)n.

Para h = 3 utilizamos el resultado anterior:

PN3 = n =n

i=0

PN2 = iPX3 = n − i

=n

i=0

(i + 1)p2(1 − p)i(1 − p)n−ip =(n + 1)(n + 2)

2p3(1 − p)n.

De la misma manera,

PN4 = n =n

i=0

PN3 = iPX4 = n − i = C3(n)p4(1 − p)n,

Page 134: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.9. Suma de exponenciales. Distribuciones Γ y de Poisson. 123

con C3(n) =∑n

i=0(i+1)(i+2)

2, y, en general, PNh = n = Ch−1(n)ph(1 − p)n,

con Ch(n) =∑n

i=0 Ch−1(i), para h = 4, 5, . . . .

Por induccion en h y en n verificaremos que Ch(n) = (n+1)(n+2)...(n+h)h!

. Paraello, basta observar que para cualesquiera h, n, Ch(n) − Ch(n − 1) = Ch−1(n),que equivale a (n + 1)(n + 2) . . . (n + h) − n(n + 1)(n + 2) . . . (n + h − 1) =h(n + 1)(n + 2) . . . (n + h− 1), y esta ultima igualdad se cumple trivialmente.

El mismo resultado podrıa haberse obtenido de manera directa, por mediodel siguiente razonamiento: Dado que Nh representa el numero de fracasoshasta el h-esimo exito, el suceso Nh = n es la union de los sucesos disjuntosque consisten en que en los n + h− 1 primeros ensayos hay exactamente h− 1exitos, y, ademas, el n + h -esimo ensayo es un exito. La probabilidad de queen los n + h − 1 primeros ensayos haya exactamente h − 1 exitos es

PBin(n + h − 1, p) = h − 1 =

(

n + h − 1

h − 1

)

ph−1(1 − p)n,

y esta probabilidad debe ser multiplicada por la probabilidad p de exito en elultimo ensayo. El resultado es Ch−1(n).

A la distribucion de la variable Nh se la llama binomial negativa conparametros h, p.

8.9 Otro ejemplo: Suma de variables expo-

nenciales. Distribucion Gamma y distri-

bucion de Poisson.

Si T1, T2, . . . , Tk son variables independientes con distribucion Exp(λ), la fun-cion de densidad de cada una de ellas es f(t) = λe−λt1t≥0, y la densidad dela suma de T1 y T2 es

f2(t) =∫ ∞

−∞λe−λx1x≥0λe−λ(t−x)1t−x≥0dx =

∫ t

0λ2e−λtdx = λ2te−λt,

para t ≥ 0.Una vez obtenida la densidad f2, calculamos la densidad f3 de T1 +T2 +T3

mediante

f3(t) =∫ ∞

−∞f2(x)f(t − x)dx =

∫ t

0λ2xe−λxλe−λ(t−x)dx =

λ3t2

2!e−λt.

Por induccion completa, se obtiene la formula general para la densidad fk dela suma Sk =

∑ki=1 Ti de k variables independientes Exp(λ): fk(t) = λktk−1

(k−1)!e−λt.

Page 135: Cabaña - Probabilidad y aplicaciones estadisticas

124Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

Este resultado muestra que Sk tiene la distribucion Γ(k, λ) definida en el cuadrode la pagina 98.

Por integracion del resultado anterior, se encuentra la funcion de dis-tribucion de la sumaSk :

Fk(t) =∫ t

0fk(s)ds =

∫ t

0

(λs)k−1

(k − 1)!λe−λsds

=

[

− (λs)k−1

(k − 1)!e−λs

]t

0

+∫ t

0

(λs)k−2

(k − 2)!λe−λsds

= − (λt)k−1

(k − 1)!e−λt +

∫ t

0fk−1(s)ds = Fk−1(t) −

(λt)k−1

(k − 1)!e−λt.

En esta relacion de recurrencia puede reemplazarse Fk−1(t) en funcion deFk−2(t), y ası sucesivamente hasta obtener una formula para Fk(t) en funcionde t.

Si las variables Ti representan los tiempos de duracion de los sucesivosrepuestos de un componente de un sistema, Sk es el tiempo total de fun-cionamiento del sistema con utilizacion de k repuestos, y el numero necesarioH de reemplazos para que el sistema funcione durante un lapso t es aquel en-tero h tal que Sh < t pero Sh+1 ≥ t. De allı se deduce que la distribucion dela variable aleatoria H esta dada por

PH = h = PSh < t ≤ Sh+1 = PSh < t − PSh+1 < t =(λt)k

k!e−λt,

por la relacion de recurrencia obtenida mas arriba. Esto muestra que H tienela distribucion de Poisson con parametro λt, definida tambien en el cuadro dela pagina 98.

Ejercicios.

Ejercicio 8.9.1 Supongamos que Th(h = 1, 2, . . .) son variables independientes,con distribucion Exp(λ), que representan los tiempos de duracion de sucesivas piezasque son reemplazadas en un sistema en funcionamiento permanente tan pronto comola anterior falla. Si el sistema comienza a funcionar en el instante 0, la primera piezaactua en el intervalo (0, T1), y en T1 es reemplazada por la segunda que dura hastaT1 + T2, y ası sucesivamente.

¿Cual es la probabilidad de que en el intervalo (0, a) se agoten las primeras npiezas?

¿Cual es la probabilidad de que se agoten las primeras n piezas pero en el instantea todavıa este funcionando la n + 1-esima pieza?

Page 136: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.10. Distribucion multinomial. 125

Ejercicio 8.9.2 Calcular la distribucion de la suma de dos variables independi-entes con distribucion de Poisson,

(a) de manera directa,

(b) por medio del vınculo con las sumas parciales de variables exponencialesindependientes (§8.9).

Ejercicio 8.9.3 Verificar el resultado del ejemplo en §8.8 aprovechando la formaconocida de la funcion generatriz de momentos factoriales de la distribucion Geo(p)que se indica en la tabla de la pagina 98.

Ejercicio 8.9.4 Calcular la esperanza y la variancia de la distribucion binomialnegativa con parametros h, p.

Ejercicio 8.9.5 Una tarjeta de circuito impreso tiene un cierto numero de huecosque se hacen usando un taladro numerico controlado automaticamente. El controltiene un numero de fallas aleatorio l con distribucion de Poisson (λ). Si el controlfalla, la probabilidad de que el taladro no haga el hueco correspondiente es p. Latarjeta se descarta cuando le falta al menos un hueco.

(a) Calcular la probabilidad de que una tarjeta resulte aceptable.

(b) Aprovechar el resultado del Ejercicio 8.5.1 para deducir la distribuciondel numero de tarjetas aceptables.

(c) Calcular la probabilidad directamente.

8.10 Ensayos repetidos, cuando hay mas de

dos resultados posibles: la distribucion

multinomial

Cuando se realiza n veces un experimento que puede dar lugar a cierto resul-tado A, o bien a su complemento Ac, las realizaciones son independientes, y encada una de ellas la probabilidad de que ocurra A es la misma, digamos p, lacantidad B de veces que ocurre A tiene distribucion binomial con parametros(n, p). Si Ai es el suceso A ocurre en el i-esimo intento, entonces B =

∑ni=1 1Ai

.Las variables 1Ai

son Ber(p) independientes. Esta descripcion bien conocida(§3.4.1) singulariza uno de los resultados posibles: A. Si se hubiera contadoen cambio el numero de veces que no ocurre A se hubiera obtenido la variablen−B con distribucion Bin(n, 1−p). La informacion completa de cuantas veces

Page 137: Cabaña - Probabilidad y aplicaciones estadisticas

126Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

ocurre A y cuantas Ac requerirıa utilizar la variable vectorial (B, n−B), perola redundancia obvia vuelve innecesario trabajar con variables en R2.

Cuando el resultado de cada realizacion del experimento, en vez de descri-birse de manera binaria (ocurre A o no ocurre A) se describe indicando cualde k resultados posibles A1, A2, . . . Ak ocurre, la informacion relevante esahora un vector de k componentes M = (M1, M2, . . . , Mk)

tr (que convenimosen escribir como una columna, por eso la trasposicion), cada una de las cualescuenta cuantas veces ocurrio el correspondiente resultado.

Vamos a suponer que los resultados A1, . . ., Ak son mutuamente excluyen-tes, y que necesariamente uno de ellos ocurre en cada realizacion del experi-mento. Suponemos tambien que las realizaciones son independientes, y que encada una de ellas las probabilidad de que ocurra Ah es ph. Las probabilidadesph necesariamente cumplen

∑kh=1 = 1. El vector (aleatorio) M que cuenta

cuantas veces ocurre cada resultado posible al cabo de las n repeticiones inde-pendientes puede escribirse como suma de los vectores Ui ∈ Rk (i = 1, . . . , n)cada uno de los cuales tiene todas las componentes iguales a cero menos la quecorresponde al resultado que ocurre en el h-esimo intento, que vale 1.

Si eh es el vector de componentes nulas excepto la h-esima que vale 1,entonces las variables aleatorias Ui son independientes, con distribucion deprobabilidades PUi = eh = ph, h = 1, . . . , k. El vector M resulta entoncesser la suma de los n vectores independientes U1, . . ., Un.

A la distribucion de probabilidades de M se la llama distribucion multino-mial de parametros n, p ∈ Rk, donde p = (p1, . . . , pk)

tr.

Como en el caso binomial la informacion es redundante, porque una cual-quiera de las componentes de M se obtiene restando las otras componentes deltotal n, pero la conveniencia de pasar de un vector en Rk a un vector en Rk−1

a expensas de tener que singularizar una de las componentes, aquella que seelimina, no justifica la reduccion en 1 de la dimension, y se suele trabajar conel vector de k componentes a pesar de la redundancia.

El calculo directo de PM = m donde m es un vector de Rk con com-ponentes enteras no negativas que suman n se hace observando que el sucesoM = m es la union de los sucesos

⋂ni=1Ui = ui para los cuales cada ui

tiene alguno de los valores e1, . . ., ek, y∑n

i=1 ui = m.

Para que esta ultima condicion se cumpla se requiere que m1 de los ui val-gan e1, que m2 valgan e2, . . ., que mk valgan ek. Por lo tanto, la probabilidadde cada una de las intersecciones

⋂ni=1Ui = ui de sucesos independientes es el

producto de las probabilidades de cada Ui = ui. Cada una de estas probabi-lidades vale ph cuando ui es eh. Dado que cada eh aparece mh veces, se cumpleP

⋂ni=1Ui = ui =

∏kh=1 pmh

h , resultado que no depende de cuales son los ui.

Page 138: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.11. Estadısticos de orden. 127

Se deduce entonces que la probabilidad de la union M = m es igual a lacantidad de elecciones posibles de los vectores ui compatibles con la condicionde que mh de ellos valgan eh (h = 1, . . . , k). De otra manera, tenemos quecontar de cuantas maneras pueden elegirse los n resultados de manera que mh

de ellos sean eh. Para ello, observemos, por ejemplo, que Los m1 vectores e1

pueden ubicarse en(

nm1

)

configuraciones diferentes. Por cada una de ellas,

los m2 vectores e2 pueden ubicarse en(

n−m1

m2

)

configuraciones diferentes cor-

respondientes a los n − m1 lugares aun no ocupados. Luego hay(

n−m1−m2

m3

)

configuraciones posibles para ubicar los m3 vectores que tienen que vales e3,etc., y de esta manera se encuentra que el numero total de configuraciones es

n!

m1!(n − m1)!

(n − m1)!

m2!(n − m1 − m2)!

(n − m1 − m2)!

m3(n − m1 − m2 − m3)!×

(n − m1 − m2 − m3)!

m4(n − m1 − m2 − m3 − m4)!. . .

(n − m1 − . . . − mk−1)!

mk(0)!=

n!∏k

h=1 mh!.

En resumen,

PM = m =n!

∏kh=1 mh!

k∏

h=1

pmh

h

Los momentos de primero y segundo orden de Ui son EUi =∑k

h=1 pheh = p,EUiU

tri =

∑kh=1 phehe

trh = diagp, donde la notacion diag aplicada a un vector

indica la matriz cuadrada que tiene las componentes del vector en la diagonaly ceros fuera de ella.

Llamemos Σ a la variancia de cada Ui. De los calculos precedentes resultaΣ = EUiU

tri − EUiEU tr

i = diagp − pptr.Como consecuencia, EM = np, VarM = nΣ.

8.11 Los estadısticos de orden de una muestra.

8.11.1 Definicion de los estadısticos de orden.

A un conjunto X1, X2, . . . , Xn de n variables independientes identicamentedistribuidas con distribucion de probabilidades F , se le llama muestra aleatoriasimple de la distribucion F . Consideremos una permutacion π de los numeros1, 2, . . . , n (es decir, una funcion biyectiva π : 1, 2, . . . , n → 1, 2, . . . , n)con la propiedad Xπ(1) ≤ Xπ(2) ≤ . . . ≤ Xπ(n). En otras palabras, π es lapermutacion de los subındices que ordena la muestra de manera creciente.

Page 139: Cabaña - Probabilidad y aplicaciones estadisticas

128Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

Definicion 8.11.1 (Estadısticos de orden.)

Llamamos estadıstico de orden h de la muestra X1, X2, . . . , Xn a la variableXπ(h), donde π es una permutacion que ordena la muestra.

Se utiliza habitualmente la notacion X(h) = Xπ(h)) (h = 1, 2, . . . , n) paralos estadısticos de orden.

Cuando las n variables de la muestra son diferentes entre sı, como ocurrecon probabilidad 1, por ejemplo, cuando la funcion de distribucion de F escontinua, hay una sola permutacion que ordena la muestra, pero, en general,puede haber mas de una. Aun en ese caso, los estadısticos de orden estan biendefinidos, aun cuando π no lo este, pues su valor es el mismo, cualquiera seala permutacion que se elija como π entre las que ordenan la muestra.

8.11.2 Distribucion de los estadısticos de orden.

Vamos a obtener la distribucion de probabilidades del estadıstico de orden h,para cada h = 1, 2, . . . , n.

Calculemos en primer lugar la probabilidad del suceso X(h) ≤ x < X(h+1)

que consiste en que exactamente h de las n variables de la muestra pertenecena la semirrecta (−∞, x]. El numero de variables en (−∞, x] es Bin(n, F (x))(con F (x) = F ((−∞, x]), como es habitual), de modo que

PX(h) ≤ x < X(h+1) = PBin(n, F (x)) = h =

(

n

h

)

(F (x))h(1 − F (x))n−h.

De aquı resulta

PX(h) ≤ x = PBin(n, F (x)) ≥ h =n

i=h

(

n

i

)

(F (x))i(1 − F (x))n−i.

Por lo tanto, cuando F tiene densidad f , obtenemos, derivando la expresionprecedente, que la densidad f(h) de X(h) es:

f(h)(x) =n

i=h

(

n

i

)

[i(F (x))i−1(1−F (x))n−i− (F (x))i(n− i)(1−F (x))n−i−1]f(x)

= n

(

n − 1

h − 1

)

(F (x))h−1(1 − F (x))n−hf(x) (h = 1, 2, . . . , n).

Page 140: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

8.11. Estadısticos de orden. 129

Ejemplo 8.11.1 La distribucion del h-esimo estadıstico de orden U(h) de unamuestra de tamano n de la distribucion uniforme en (0, 1), tiene densidad

n(

n−1h−1

)

xh−1(1− x)n−h. Consecuentemente, la esperanza de U(h) vale h/(n + 1)

(Ver Ejercicio 8.11.1). Los espaciamientos U(h+1)−U(h) tienen todos la mismaesperanza 1/(n + 1), aun para h = 0 y h = n, con la convencion U(0) = 0,U(n+1) = 1.

Ejercicio 8.11.1 Observese que, por ser n(n−1h−1

)

xh−1(1 − x)n−h la densidad delestadıstico de orden h de una muestra uniforme en (0, 1) de tamano n, la integralde esa funcion en (0, 1) vale 1.

Reemplazar n, h por n + 1, h + 1, y deducir que la esperanza del estadıstico deorden h de la muestra uniforme de tamano n vale

EU(h) =

∫ 1

0n

(

n − 1

h − 1

)

xh(1 − x)n−hdx = h/(n + 1).

8.11.3 Otra derivacion de la densidad del h-esimo es-tadıstico de orden.

Cuando F tiene densidad f , calculamos la densidad f(h) del h-esimo estadısticode orden en x mediante el lımite cuando δ tiende a cero del cociente incrementalF(h)(x+δ)−F(h)(x)

δ, si este lımite existe.

Para ello, calculamos F(h)(x + δ) − F(h)(x) = Px < X(h) ≤ x + δ obser-vando que los sucesos A(x, δ) = x < X(h) ≤ x+δ y B(x, δ) = X(h−1) ≤ x <X(h) ≤ x + δ < X(h+1) tienen probabilidades muy proximas, para δ pequeno.En efecto, el segundo esta contenido en el primero, y la diferencia esta con-tenida en el suceso hay al menos dos elementos de la muestra en (x, x + δ]cuya probabilidad esta acotada por n(n − 1)(F (x + δ) − F (x))2.

Se deduce

limδ→0

δ−1PA(x, δ) − limδ→0

δ−1PB(x, δ) ≤ limδ→0

n(n − 1)δ−1(F (x + δ) − F (x))2 = 0,

de modo que

f(h)(x) = limδ→0

δ−1PA(x, δ) = limδ→0

δ−1PB(x, δ)

= limδ→0

δ−1n(F (x + δ) − F (x))

(

n − 1

h − 1

)

(F (x))h−1(1 − F (x + δ))n−h

= n

(

n − 1

h − 1

)

f(x)(F (x))h−1(1 − F (x + δ))n−h.

Page 141: Cabaña - Probabilidad y aplicaciones estadisticas

130Enrique M. Cabana.

Capıtulo 8: Distribuciones conjuntas, independencia.

El interes de este procedimiento alternativo, es que basa el calculo en laobtencion de la probabilidad de B(x, δ) y en un pasaje al lımite muy senci-llo. La probabilidad de B(x, δ) surge de la enumeracion de los diversos casosposibles y de un calculo combinatorio trivial, de modo que, en definitiva, estemetodo de calculo de f(h) resulta convenientemente mnemotecnico.

Ejercicios.

Ejercicio 8.11.2 Verificar, mediante un procedimiento analogo al de esta seccion,que la densidad conjunta de (X(h), X(k)) en (x, y) (h < k, x < y) es

n!

(h − 1)!(k − h − 1)!(n − k)!f(x)f(y)(F (x))h−1(F (y) − F (x))k−h−1(1 − F (y))n−k.

Ejercicio 8.11.3 Calcular la covariancia de los estadısticos de orden h y k deuna muestra uniforme en (0, 1) de tamano n, para cada h, k ≤ n. (Se sugierecalcular E(U(h)(1 − U(k)) para h ≤ k, aprovechando la densidad obtenida en elejercicio anterior, y a partir del resultado de ese calculo, obtener Cov(U(h), U(k))

= h(n−k+1)(n+1)2(n+2)

.)

Ejercicio 8.11.4 Designemos la parte entera de un numero real x mediante [x]= maxn ∈ N : n ≤ x. Verificar en particular que, cuando n → ∞ y λ ∈ (0, 1),EU([λn]) tiende a λ y VarU([λn]) tiende a 0.

Page 142: Cabaña - Probabilidad y aplicaciones estadisticas

9. Distribuciones y esperanzas

condicionales.

9.1 Introduccion.

Cuando B es un suceso de probabilidad no nula y X es una variable aleatoria,resulta razonable definir distribucion condicional de X dado B a la probabili-dad PX|B que en cada suceso A vale PX|B(A) = PX ∈ A|B.

Cuando Y es una variable discreta con recorrido esencial Y1, . . . , Yn, . . .(llamamos recorrido esencial de una variable discreta con recorrido (numera-ble) R, al subconjunto del recorrido que contiene solo los puntos de probabi-lidad positiva) a partir de las distribuciones condicionales PX|Y =yj, resultaigualmente razonable llamar distribucion condicional de X dado Y a la dis-tribucion de probabilidades aleatoria

PX|Y (A) =n

j=1

1Y =yjPX|Y =yj(A), (9.1)

que, cuando se cumple Y = yj, vale PX|Y =yj. Esta definicion no da porresultado una probabilidad cuando Y no pertenece a su recorrido esencial, perotal suceso tiene probabilidad nula. Sobre un suceso de probabilidad 1, y paracada A, PX|Y (A) esta bien determinada.

Extender la definicion de PX|Y a un caso general en el que Y no estenecesariamente concentrada en un conjunto discreto, por ejemplo, cuando Y

tiene distribucion absolutamente continua, requiere una mayor elaboracion.

Un punto de vista a la vez mas intuitivo y menos restringido, correspondea introducir primero la idea de esperanza condicional, de la que podremosobtener como consecuencia particular la probabilidad condicional, de la mismamanera que las probabilidades de sucesos P(A) pueden obtenerse de las espe-ranzas E(1A).

131

Page 143: Cabaña - Probabilidad y aplicaciones estadisticas

132Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

9.2 Una interpretacion intuitiva para la espe-

ranza condicional.

Volvamos a considerar el modelo de un juego de azar, como el ya analizado en §1.2.2y en §2.1, pero ahora supondremos que el premio es la variable aleatoria X, cuandoocurre el suceso Y ∈ B y 0 en caso contrario. Vamos a suponer que la apuestase hace en el instante “0”, sin ninguna informacion sobre los resultados inciertos, seconoce el valor de la variable Y en el instante“1”, y el de la variable X en el instante“2”, a partir del cual el jugador conoce cual ha sido su premio X1Y ∈B.

Consideraremos tambien una segunda variante de este juego, en la que la apuesta sehace en el instante “1”, cuando el jugador ya conoce Y , pero aun no conoce X. Parala primera variante, la cantidad determinıstica que el jugador considera intercam-biable por el premio es E(X1Y ∈B), en ausencia de informacion adicional sobre Y .Agreguemos ahora la informacion de cual es el valor de la variable Y . Como en 2.1,resulta razonable pensar que el jugador, con esta informacion adicional, modifiqueeventualmente su apuesta, es decir, interprete que el valor determinıstico equivalentea X1Y ∈B es ahora una nueva cantidad, funcion del valor de Y . Evidentemente, siY ∈ B, la apuesta sera 0. Y cuando Y ∈ B, la eventual dependencia entre ambasvariables hara que la nueva apuesta sea ahora cierta funcion del valor y que hayaobtenido la variable Y , que denotaremos por g(y). Es tambien claro que, si cambia-mos el suceso B sin que deje de contener al punto y, la cantidad g(y) no cambia. Porlo tanto, para la segunda variante, en el instante “1”, el jugador considerara inter-cambiables las cantidades X1Y ∈B y g(y)1Y ∈B. Esto implica que en el instante“0” considerara intercambiables las variables aleatorias X1Y ∈B y g(Y )1Y ∈B, yademas la constante E(X1Y ∈B), que, por consiguiente, es tambien E(g(Y )1Y ∈B).

A esta funcion compuesta de g con la variable Y , considerada intercambiable a X,la vamos a llamar esperanza condicional de X dada Y . Al valor g(y) lo llamamosesperanza condicional de Xdado Y = y.

Antes de escribir las definiciones en forma resumida, consideremos un ejemplo. Su-pongamos que en una mesa de juego se arroja un dado (equilibrado) dos veces inde-pendientemente, y se denota por S a la suma de los puntos resultantes. El premio esX = 1S≥10. Sin mas informacion adicional, tenemos 36 resultados posibles equi-probables, de los cuales seis ((4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)) son favorables.La apuesta equitativa o esperanza de X = 1S≤10 es 1/6. Sin embargo, si el jugadorantes de apostar conoce la cara Y obtenida en el primer intento, su apuesta dependerade cual sea este resultado. Si es 1, 2 o 3, apostara 0, pues estara seguro de perder. Sies 4, apostara 1/6, pues solo gana si el segundo dado cae en 6. Si es 5, apostara 1/3,y si es 6, apostara 1/2. Tenemos entonces g(1) = g(2) = g(3) = 0, g(4) = 1/6, g(5)= 1/3, g(6) = 1/2.

Notemos por ultimo que cuando X, Y son independientes, el conocimiento de Y nodebe alterar la apuesta en favor de X, es decir, g(y) no debe variar con el valor y deY , sino que debe valer E(X) para todo y.

Page 144: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.3. Definicion de la esperanza condicional. 133

9.3 Definicion de la esperanza condicional.

Vamos a formalizar la definicion de esperanza condicional introducida en §9.2de manera intuitiva. Observemos que de esa introduccion resulta que la espe-ranza condicional de X dada Y es una variable aleatoria que puede escribirseen la forma g Y.

Para asegurar que esta funcion compuesta sea efectivamente una varia-ble aleatoria, admitiremos que g resulte ser una funcion de Borel, es decir,una funcion para la cual la correspondencia C → g−1(C) entre subconjuntosdel recorrido y del dominio establecida por las preimagenes, lleva cualquierconjunto de Borel C de R en un conjunto de Borel g−1(C). Esto implicaademas que la preimagen de C por la variable aleatoria g Y es un conjuntoY −1(g−1(C)) de la σ-algebra AY generada por la variable Y , es decir, la mınimaσ-algebra que contiene a los sucesos de la forma Y ∈ B, para B ∈ B.

Como resumen de lo que precede, podemos establecer que E(X|Y ) es unavariable aleatoria g(Y ) de (Ω,AY ) en (R,B) que para todo suceso Y ∈ B,B ∈ B, satisface E(E(X|Y )1Y ∈B) = E(X1Y ∈B).

De lo que precede recogemos la siguiente definicion:

Definicion 9.3.1 (i) Dadas las variables aleatorias X, Y , con valores en R

llamamos esperanza condicional de X dada Y a una nueva variable aleatoriag(Y ) que denotamos E(X|Y ), con la propiedades

g : (R,B) → (R,B) es medible,

E(g(Y )1Y ∈B) (= E(E(X|Y )1Y ∈B)) = E(X1Y ∈B), para todo con-junto B de B.

La medibilidad de g asegura que g(Y ) sea una variable aleatoria.(ii) Dadas la variable aleatoria X, en el espacio de probabilidad (Ω,A) y

la sub-σ-algebra C ⊂ A, llamamos esperanza condicional de X dada C a unanueva variable aleatoria en (Ω, C) que denotamos E(X|C), con la propiedadE(E(X|C)1C) = E(X1C), para todo conjunto C de C.

Nota 1: La parte (i) de la definicion precedente se extiende con los cam-bios obvios al caso de variables X, Y con valores en espacios de probabilidadcualesquiera, no necesariamente (R,B).

Nota 2: La definicion introduce de manera paralela la esperanza dada unavariable aleatoria Y y la esperanza dada una σ-algebra C. La variable aleatoriaE(X|Y ) definida en (i) satisface las condiciones de E(X|C) en (ii), cuando Ces la σ-algebra AY generada por Y . Para ese caso particular, la parte (i) del

Page 145: Cabaña - Probabilidad y aplicaciones estadisticas

134Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

enunciado agrega al contenido de la parte (ii) que la variable aleatoria E(X|Y )AY -medible se escribe en la forma g(Y ).

Teorema 9.3.1 (Existencia de las esperanzas condicionales).

(i) Si E(|X|) < ∞, las esperanzas condicionales E(X|Y ) de X dadaY y E(X|C) de X dada la σ-algebra C existen y son esencialmenteunicas. Mas precisamente, en el primer caso, si g1 y g2 son dos fun-ciones de Borel con la propiedad E(g1(Y )1Y ∈B) = E(g2(Y )1Y ∈B)= E(X1Y ∈B), para todo B en B, entonces Pg1(Y ) = g2(Y ) = 0;en el segundo caso, si Z1 y Z2 son dos variables aleatorias en (Ω, C)con la propiedad E(Z11C) = E(Z21C) = E(X1C), para todo con-junto C de C, entonces PZ1 = Z2 = 0.

(ii) En el primer caso, para cualquier variable aleatoria V de (Ω,AY ) en(R,B), con esperanza finita, se cumple E(V X|Y ) = V E(X|Y ) (AY

designa a la σ-algebra generada por Y ). En el segundo caso, paracualquier variable aleatoria V de (Ω, C) en (R,B), con esperanzafinita, se cumple E(V X|C) = V E(X|C).

Nota: A cualquiera de las funciones g en las condiciones de la definicionde E(X|Y ), la denotaremos g(y) = E(X|Y = y). Si g satisface las condicionesde la definicion, tambien las satisface cualquier funcion g1 tal que Pg1(Y ) =g(Y ) = 0, y por la parte (ii) del Teorema, las unicas otras funciones que lassatisfacen son precisamente las de la clase de equivalencia

g1 : R → R,Pg1(Y ) = g(Y ) = 0. (9.2)

Por ese motivo, extendemos la notacion E(X|Y ) que representa cualquiera delas variables aleatorias de la clase de equivalencia (9.2) a la clase misma, y delmismo modo llamaremos E(X|Y = y) a cualquiera de las funciones g1(y) dela clase (9.2) o bien a toda la clase conjuntamente, de acuerdo al contexto.

Demostracion de la parte (i).Existencia de la esperanza condicional de X dada C:Dadas la variable X ≥ 0 en (Ω,A,P) y la σ-algebra C ∈ A, buscamos una

nueva variable Z = E(X|C) en (Ω, C) tal que para todo C ∈ C,∫

C Z dP =∫

C X dP. La solucion esta dada por la densidad de la medida C →∫

C X dP

respecto de P que el Teorema 7.6.1 muestra que es esencialmente unica. La

Page 146: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.3. Definicion de la esperanza condicional. 135

medida cuya densidad calculamos es finita, por la acotacion E(|X|) < ∞indicada en la hipotesis.

En el caso general (X no necesariamente no negativa), se calculan porseparado las esperanzas condicionales de X+ y de X− y se restan.

Existencia de la esperanza condicional de X dada Y :Se aplica el caso anterior, con C = AY , σ-algebra generada por la variable

aleatoria Y . Solo resta verificar que una variable aleatoria Z en AY se puedeexpresar en la forma Z = g(Y ). Para ello, definimos en (R,B) la medidacon signo B → EZ1Y ∈B, que es absolutamente continua respecto de la dis-tribucion PY de Y . La densidad g respecto de la distribucion de Y cumpleentonces

EZ1Y ∈B =∫

Bg(y)dPY (y) = Eg(Y )1Y ∈B.

Dado que Z y g(Y ) son AY -medibles, la igualdad anterior implica que PZ =g(Y ) = 1.

Demostracion de la parte (ii).Basta considerar el segundo caso, porque el primero se reduce a este:Dada V : (Ω, C) → (R,B), con esperanza finita, tenemos que verificar que

la esperanza condicional E(V X|C) vale V E(X|C).Puesto que V E(X|C) es obviamente C-medible, solo resta verificar que para

cada C ∈ C,E(V E(X|C)1C) = E(V X1C).

Esto es cierto trivialmente cuando V es la indicatriz de un suceso A de C,porque en ese caso la igualdad se reduce a E(E(X|C)1A∩C) = E(X1A∩C) yse aplica la propiedad que caracteriza a la esperanza condicional E(X|C). Envirtud de la linealidad y del Teorema de Beppo Levi, la igualdad se extiendeprimero al caso en que V es una variable aleatoria simple, y luego a V ≥ 0.Finalmente, para V de signo cualquiera, se aplica la igualdad ya verificada aV + y a V −, y se obtiene el resultado requerido por diferencia. En esta instanciase aplica la hipotesis de finitud de la esperanza de V .

Teorema 9.3.2 Si X,Y son variables discretas, con recorridos respectivosx1, x2, . . . , xh, y1, y2, . . . , yk, entonces se cumple

E(X|Y = yj) =h

i=1

xiPX = xi|Y = yj

para j = 1, 2, . . . , k, y, por lo tanto,

E(X|Y ) =k

j=1

h∑

i=1

xiPX = xi|Y = yj1Y =yj.

Page 147: Cabaña - Probabilidad y aplicaciones estadisticas

136Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

Demostracion. La esperanza condicional de X dada Y es una variable ale-atoria que sobre cada uno de los sucesos Y = yj, j = 1, 2, . . . , k vale g(yj).Llamamos gj a g(yj), lo que nos permite escribir E(X|Y ) =

∑kj=1 gj1Y =yj.

La propiedad que caracteriza a la esperanza condicional es que para cada m,E(X1Y =ym) = E(1Y =ym

∑kj=1 gj1Y =yj).

Reemplazando X =∑h

j=1 xi1X=xi y calculando las esperanzas, encon-

tramos gm =∑h

j=1 xiPX = xi|Y = ym.

Nota. Se observara que la conclusion del teorema anterior equivale a decirque la esperanza condicional de X dado Y = y es la esperanza de X calcu-lada con la distribucion de probabilidad condicional dado el suceso Y = y.Esta caracterizacion de la esperanza condicional es apropiada en el caso devariables discretas. No resulta util en cambio para variables con distribucionabsolutamente continua, porque en ese caso PY = y es cero para cada y.

Teorema 9.3.3 Si X, Y tienen distribucion absolutamente continua con den-sidad conjunta f , entonces se cumple

E(X|Y = y) =∫ ∞

−∞xf(X|Y =y)(x)dx

con

f(X|Y =y)(x) =f(x, y)

∫ ∞−∞ f(x, y)dx

. (9.3)

Demostracion. Dado un conjunto de Borel B, tenemos que verificar laidentidad E(E(X|Y )1Y ∈B) = E(X1Y ∈B). El primer miembro vale

BfY (y)E(X|Y = y)dy =

B

fY (y)dy∫ ∞−∞ f(x, y)dx

∫ ∞

−∞xf(x, y)dx

=∫

Bdy

∫ ∞

−∞xf(x, y)dx,

ya que

fY (y) =∫ ∞

−∞f(x, y)dx.

La ultima expresion obtenida es precisamente E(X1Y ∈B).

Nota mnemotecnica. La expresion (9.3) se obtiene de

PX ∈ (x, x + δ)|Y ∈ (y, y + ε) =PX ∈ (x, x + δ), Y ∈ (y, y + ε)

PY ∈ (y, y + ε)

Page 148: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.4. La distribucion condicional. 137

aproximando, cuando δ y ε son pequenos, PX ∈ (x, x + δ)|Y ∈ (y, y + ε)por δfX|Y =y(x), PX ∈ (x, x + δ), Y ∈ (y, y + ε) por δεfX,Y (x, y) y PY ∈(y, y + ε) por εfY (y).

Los enunciados de los Teoremas 9.3.2 y 9.3.3 son un caso particular delsiguiente:

Teorema 9.3.4 Si (X, Y ) tiene densidad fX,Y respecto de la medida µ en R2

producto de las medidas σ-finitas µ1 y µ2 (es decir, para A, B cualesquierade Borel en R, µ(A × B) = µ1(A)µ2(B) (ver §§8.4.2, 8.4.3)), entonces ladistribucion condicional de X dado Y = y tiene densidad fX|Y =y respecto deµ1, que vale

fX|Y =y(x) =fX,Y (x, y)

fY (y)(9.4)

donde fY es la densidad de Y respecto de µ2.

Demostracion. Tenemos que verificar que para cualesquiera A, B de Borel,

E

AfX|Y (x)dµ1(x)1Y ∈B = E1X∈A1Y ∈B,

es decir

B

(∫

AfX|Y =y(x)dµ1(X)

)

fY (y)dµ2(y) =∫ ∫

A×BfX,Y (x, y)dµ(x, y),

y esta ultima igualdad se cumple como consecuencia del Teorema de Fubini(ver Teorema 9.6.2), cuando fX|Y esta dada por (9.4).

Teorema 9.3.5 Si X, Y son independientes, E(X|Y ) = E(X).

Demostracion. Para cada C en la σ-algebra del codominio de Y , E(X1Y ∈C)vale E(X)E(1Y ∈C) por la independencia, y este producto es E(E(X)1Y ∈C)por ser EX una constante.

9.4 La distribucion condicional.

Ya hemos notado que la distribucion de probabilidad de una variable alea-toria X puede describirse a partir de esperanzas, por medio de PX ∈ A= E(1X∈A). Esto sugiere la definicion siguiente.

Page 149: Cabaña - Probabilidad y aplicaciones estadisticas

138Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

Definicion 9.4.1 Se llama distribucion condicional de X dado Y = ya la probabilidad PX|Y =y en (R,B) con funcion de distribucion

FX|Y =y(x) = E(1X≤x|Y = y).

La expresion que define FX|Y =y(x) es aplicable a todo x ∈ R, peropara determinar la distribucion de probabilidades PX|Y =y basta conocerFX|Y =y(x) sobre el conjunto numerable de los racionales.

Para cada x, FX|Y =y(x) no esta totalmente determinada como funcion dey, sino a menos de una clase de equivalencia, de acuerdo a lo indicado en laNota que sigue al Teorema 9.3.1. Por lo tanto, si nos damos dos represen-tantes F (x, y) y F ∗(x, y) de E(1X≤x|Y = y), estos pueden diferir solo paray ∈ Cx con PY ∈ Cx = 0. Por lo tanto, las funciones F (x, y) y F ∗(x, y)son identicas sobre el dominio Q de los x racionales, para y en el comple-mento de C =

x∈Q Cx. Esta union numerable de sucesos de probabilidadnula, tiene probabilidad cero, de modo que concluimos que las distribucionescondicionales, que estan determinadas por sus funciones de distribucion eval-uadas en Q, son todas esencialmente la misma, es decir, dos de ellas difieren alo sumo para y en C y PY ∈ C = 0.

Notacion: Es habitual denotar la probabilidad condicional PX|Y =y(A)por PX ∈ A|Y = y.

Teorema 9.4.1 La distribucion condicional PX ∈ A|Y = y es una proba-bilidad, como funcion de A, excepto posiblemente para y en un conjunto C deprobabilidad PY ∈ C nula.

Cuando Y es la funcion indicatriz de un suceso B, la distribucion de X

dado Y = 1 en A coincide con la probabilidad condicional dado B de X ∈ A.

La primera parte esta demostrada en el contexto previo al enunciado delTeorema. El segundo resultado del enunciado es consecuencia del Teorema9.3.2, y muestra la coherencia de la notacion que se utiliza.

Ejercicios

Ejercicio 9.4.1 Supongamos que (X, Y ) tiene distribucion conjunta absolutamen-te continua con densidad fX,Y continua, y densidad marginal fY continua. Mostrarque PX|y−δ<Y <y+δ es absolutamente continua, y que su densidad tiene lımitefX|Y =y cuando δ → 0.

Page 150: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.5. Esperanzas condicionales iteradas. 139

Ejercicio 9.4.2 Mostrar que si X tiene distribucion con recorrido x1, . . . , xm . . .e Y tiene distribucion condicional dado X = xi absolutamente continua para cadai = 1, . . . , m, . . ., entonces PX = xi|y − δ < Y < y + δ tiene lımite que coincidecon PX|Y =y(xi).

Ejercicio 9.4.3 Si X, Y son independientes, entonces PX|Y =y(A) = PX(A) (ladistribucion condicional de X dado Y = y es la distribucion de X, a la que,dentro del contexto de distribuciones condicionales, suele llamarsele la distribucion

incondicional de X).

Ejercicio 9.4.4 Dadas las variables i.i.d.Y1, Y2, . . . , Yn+1, con distribucion expo-nencial de parametro 1, escribir la densidad conjunta fY1,...,Yn+1

(t1, . . . , tn+1) y ladensidad condicional fY1,...,Yn|Yn+1=tn+1

(t1, . . . , tn).Dados 0 < a1 < b1 < a2 < b2 < . . . < an < bn < 1, calcular la probabilidad

condicional dado Yn+1 = tn+1 del suceso

a1tn+1 < Y1 < b1tn+1, a2tn+1 < Y2 < b2tn+1, . . . , antn+1 < Yn < bntn+1.

Deducir que los cocientes Y1/Yn+1, . . . , Yn/Yn+1 tienen la distribucion conjuntade los estadısticos de orden de la distribucion uniforme en [0, 1].

9.5 Esperanzas condicionales iteradas.

Denotaremos AY,Z a la σ-algebra generada por los sucesos Y ∈ B, Z ∈ CB, C, de Borel.

Definicion 9.5.1 Dadas tres variables aleatorias X, Y , Z, llamamos espe-

ranza condicional de X dadas Y, Z, a la esperanza condicional de X dadala variable aleatoria Y, Z con valores en R2.

E(X|Y, Z) es una variable aleatoria en (Ω,AY,Z), funcion de las variablesY, Z, que denotaremos tambien E(X|Y, Z) = g (Y, Z), y para cualesquieraB, C, de Borel, E(E(X|Y, Z)1Y ∈B,Z∈C) = E(X1Y ∈B,Z∈C).

Consideremos el juego con premio X1Y ∈B,Z∈C, y supongamos que Y , Z y Xse dan a conocer respectivamente en los instantes “1”, “2” y “3”. La apuesta eq-uitativa en “0” es E(X1Y ∈B,Z∈C), en “1”, una vez que se conoce Y = y es1Y ∈BE(X1Z∈C|Y = y), y en “2”, luego de conocer ademas el valor de la va-riable Z = z, es 1Y ∈B,Z∈CE(X|Y = y, Z = z). Se deduce de esta interpretacionheurıstica que deben cumplirse las identidades

E(X1Y ∈B,Z∈C) = E(1Y ∈BE(X1Z∈C|Y )) = E(1Y ∈B,Z∈CE(X|Y,Z)),

Page 151: Cabaña - Probabilidad y aplicaciones estadisticas

140Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

para cualesquiera conjuntos de Borel B, C, pero tambien que para cada y, debecumplirse

E(X1Z∈C|Y = y) = E(1Z∈CE(X|Y,Z)|Y = y),

como resulta de aplicar la propiedad de la Definicion 9.3.1 con la distribucion deprobabilidades condicional dado Y = y que es la aplicable luego de“1” y antes de“2”.

Lo que precede sugiere el enunciado del siguiente teorema.

Teorema 9.5.1 (i) Dadas las variables X, Y , Z, cuando X ≥ 0 o E|X| <

∞, se cumple E(E(X|Y, Z)|Y ) = E(X|Y ).

(ii) Dadas X no negativa o con esperanza finita y las σ-algebras C,D (C ⊂D ⊂ A), se cumple E(E(X|D)|C) = E(X|C).

El vınculo con la observacion que precede, y entre ambas partes del enuncia-do, se obtiene con C = AY , σ-algebra generada por Y , y D = AY,Z , σ-algebragenerada por Y , Z, que es mas rica que AY .

Demostracion. Basta demostrar (ii), que contiene a (i) a partir de laobservacion previa. Por la unicidad (Teorema 9.3.1), basta verificar que paracada conjunto C de C se cumple E(E(E(X|D)|C)1C) = E(X1C). Esto es ciertoporque, de la definicion de esperanza condicional, resulta E(E(E(X|D)|C)1C)= E(E(X|D)1C) y, debido a la inclusion C ⊂ D, C es un conjunto de D, demodo que E(E(X|D)1C) = E(X1C).

Ejercicios.

Ejercicio 9.5.1 Diez cajas numeradas del 0 al 9 contienen cada una, nueve fichas.La caja No. i contiene i fichas rojas, y las restantes blancas.

Se elige al azar una caja, que resulta ser la No. X, y de ella se extrae una fichaal azar. Si la ficha es roja, definimos Y = 1, y si es blanca, Y = 0.

(a) Hallar la distribucion conjunta de X, Y .

(b) Hallar la distribucion (marginal ) de Y .

(c) Calcular EX, EY , E(Y |X=x), E(X|Y =y), VarX, VarY , Var(X|Y =y),Var(Y |X = x), E(E(X|Y )), E(E(Y |X)), Var(E(X|Y )), Var(E(Y |X)),E(Var(X|Y )), E(Var(Y |X)).

(d) Si tuvieramos que adivinar X, ¿que valor elegirıamos a priori (sin cono-cer Y ) para maximizar la probabilidad de acierto? ¿que valor elegirıamosa posteriori (despues de conocer Y ), cuando Y = 1? ¿cual cuando Y = 0?

Page 152: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.5. Esperanzas condicionales iteradas. 141

Ejercicio 9.5.2 La pareja de variables (X, Y ) tiene densidad de distribucion con-junta

fX,Y (x, y) =

x + y si 0 < x, y < 10 en caso contrario.

(a) Hallar la densidad fX de la distribucion de X. Calcular PX ≤ 1/2,PX + Y ≤ 1/2.

(b) Hallar la densidad condicional fX|Y =y, E(X|Y = y), Var(X|Y = y).

Ejercicio 9.5.3 Un pasajero llega al terminal de autobuses en el instante T , condistribucion uniforme entre las 11 y las 12 horas. De acuerdo a lo anunciado, estaprevisto que del terminal partan un autobus a las 11 y otro a las 12, pero estos salencon retardos X e Y , con igual funcion de distribucion F que satisface F (1 hora) = 1.

Si ambos autobuses le sirven al pasajero, y T, X, Y son independientes, cual esla esperanza del tiempo que el pasajero permanecera en el terminal?

Ejercicio 9.5.4 A dos taquillas desocupadas llegan simultaneamente las personasA y B, cuyos respectivos tiempos de atencion son variables aleatorias independientescon distribucion exponencial, y con esperanza igual a una hora. Inmediatamentedespues llega la persona C, que sera atendida en la primera taquilla que quede libre.Se supone que el tiempo de atencion de C tambien es una variable aleatoria condistribucion exponencial, independiente de las anteriores, pero con esperanza iguala dos horas.

Calcular la probabilidad de que C no sea el ultimo en retirarse.

Ejercicio 9.5.5 Se considera el siguiente juego de azar entre dos jugadores:El primer jugador elige al azar un punto X en el intervalo (0, 2) con distribucion

uniforme, y el segundo jugador un punto al azar Y en (1, 3), tambien con distribucionuniforme. Suponemos que X e Y son variables aleatorias independientes.

Si X < Y , el primer jugador paga a(Y − X) al segundo; si X ≥ Y , el segundojugador paga b(X − Y ) al primero. (a y b son constantes positivas).

(i) Hallar la relacion b/a para que el juego sea equitativo, es decir para quela ganancia esperada de cada jugador sea cero.

(ii) Con la relacion b/a calculada en la parte anterior, calcular la varianciade la ganancia del primer jugador.

Ejercicio 9.5.6 El tiempo T que demora en caer un sistema de procesamiento dedatos tiene distribucion con densidad fT (t) = (t(hora−1) exp(−thora−1)(0 < t < ∞).

Si se procesan sucesivamente trabajos con tiempos de procesamiento X1, X2, . . .independientes, con igual distribucion exponencial con media 6 minutos, calcular laesperanza del numero de trabajos que se pueden procesar completamente antes quecaiga el sistema.

Page 153: Cabaña - Probabilidad y aplicaciones estadisticas

142Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

Ejercicio 9.5.7 Cuanto vale la esperanza condicional de X dadas las σ-algebrastriviales ∅,Ω y 2Ω.

Ejercicio 9.5.8 Rever el Ejercicio 8.5.1(b) a la luz del Teorema 9.5.1.

9.6 La esperanza de una funcion de una pareja

de variables independientes, y el Teorema

de Fubini.

Vamos a aplicar el Teorema 9.5.1 al calculo de la esperanza de una funciong(X,Y ) de variables independientes X,Y .

Por una parte (ver§13.4) Eg(X, Y ) vale∫

g(x, y)dPX,Y (x, y). Por otra,el Teorema 9.5.1 permite calcular Eg(X, Y ) = E(E(g(X, Y )|Y )) mediante laintegral

E(g(X, Y )|Y = y)dPY (y). Ademas, la independencia implica quela distribucion condicional de X dada Y = y coincide con la distribucionincondicional PX , de modo que E(g(X, Y )|Y = y) =

g(x, y)dPX(x).Estas observaciones permiten concluir el enunciado siguiente:

Teorema 9.6.1 Si X ∼ PX e Y ∼ PY son independientes,

Eg(X, Y ) =∫ ∫

g(x, x)dPX(x)dPY (y)

=∫

(∫

g(x, y)dPX(x))

dPY (y) =∫

(∫

g(x, y)dPX(x))

dPY (y),

donde dPX(x)dPY (y) es una notacion para dPX,Y (x, y) cuando PX,Y = PX ×PY .

Demostracion. La primera expresion de la integral respecto de la medidaproducto como integral iterada esta justificada en el contexto previo al enun-ciado, y la segunda se obtiene intercambiando el papel de la X y la Y.

Corolario 9.6.1.1 (Teorema de Fubini para la Integral de Lebesgue).(i) Si g : [0, 1]× [0, 1] → R es no negativa o integrable respecto de la medida

de Lebesgue en R2, entonces∫ ∫

[0,1]×[0,1]g(x, y)dλ(x, y) =

∫ 1

0dx

∫ 1

0g(x, y)dy =

∫ 1

0dy

∫ 1

0g(x, y)dx.

(ii) Un resultado analogo vale cuando se reemplaza el dominio por el planoR2 = R × R:

∫ ∫

R×Rg(x, y)dλ(x, y) =

∫ ∞

−∞dx

∫ ∞

−∞g(x, y)dy =

∫ ∞

−∞dy

∫ ∞

−∞g(x, y)dx.

Page 154: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

9.6. Teorema de Fubini. 143

Demostracion. La parte (i) resulta del Teorema 9.6.1 con X e Y uniformesen [0, 1]. La parte (ii) resulta de desarrollar las integrales en la forma

∫ ∫

R2g(x, y)dλ(x, y) =

∞∑

m=−∞

∞∑

n=−∞

Eg(X + m, Y + n)

con X, Y ∼ Unif(0, 1), y, analogamente,

Rh(t)dt =

∞∑

m=−∞

Eh(X + m),

con X ∼ Unif(0, 1).

Teorema 9.6.2 (Teorema de Fubini). Cuando µ1, µ2 son medidas σ-finitasen R, µ = µ1 × µ2 es la medida producto en R2, y f : R2 → R es no negativao integrable respecto de µ, entonces

R

(∫

Rf(x, y)dµ1(x)

)

dµ2(y) =∫

R

(∫

Rf(x, y)dµ2(y)

)

dµ1(x),

y, si el soporte de f esta en el rectangulo [a, b] × [c, d],

∫ d

c

(

∫ b

af(x, y)dµ1(x)

)

dµ2(y) =∫ b

a

(

∫ d

cf(x, y)dµ2(y)

)

dµ1(x).

Demostracion. Cuando µ1, µ2 son probabilidades, el presente Teorema coin-cide con el Teorema 9.6.1. El caso general se obtiene por un argumento similaral que demuestra la parte (ii) del Corolario precedente a partir de la parte (i)del mismo Corolario:

Cuando µ1 es una medida σ-finita, se puede escribir mediante una seriede la forma µ1 =

m c1,mP1,m, donde P1,m son probabilidades. De la mismamanera, µ2 =

n c2,nP2,n, donde P2,n son tambien probabilidades.Entonces µ =

m,n c1,mc2,nP1,m × P2,n, y a cada producto P1,m × P2,n seaplica el Teorema 9.6.1. Esto permite llegar sin dificultad al resultado delenunciado.

Nota: El Capıtulo 13 incluye una demostracion del Teorema de Fubini,independiente de la precedente (ver 13.5.1).

Page 155: Cabaña - Probabilidad y aplicaciones estadisticas

144Enrique M. Cabana.

Capıtulo 9: Distribuciones y esperanzas condicionales

Page 156: Cabaña - Probabilidad y aplicaciones estadisticas

10. ∗ Convergencia de

probabilidades en una cadena de

Markov.

El presente capıtulo es una continuacion natural del Capıtulo 5. Esta cen-trado alrededor de un teorema de convergencia de las probabilidades de unacadena de Markov con un conjunto numerable de estados (Teorema 10.2.1),cuyo tratamiento ha sido necesario posponer hasta haber introducido la espe-ranza, ya que las esperanzas de los tiempos de llegada a estados de la cadenaintervienen de manera crucial en el enunciado y en la demostracion del men-cionado teorema.

10.1 Cadenas con una cantidad numerable de

estados.

La definicion de una Cadena de Markov con un conjunto numerable de estadosE = E1, E2, . . . , En, . . ., es una extension natural de la definicion de unacadena finita. Tambien las notaciones matriciales se extienden a este caso,utilizando matrices infinitas.

Una matriz infinita es una sucesion doble P = P·,· = (Pi,j : i, j ∈ N).Un vector infinito x = x· = (xk : k ∈ N) es una sucesion. Si convenimos endecir que x es un vector columna, multiplicamos Px =

j P·,jxj y convenimosen que la sucesion resultante es tambien un vector columna. En cambio, siconvenimos en que π = π· es un vector fila, entonces tambien convenimos enque πP es un vector fila, a saber, πP =

i πiPi,·.

Omitimos detallar otras operaciones entre matrices infinitas, por ejemplo,suma o producto, que son tambien generalizacion natural de las mismas ope-raciones en el caso finito.

145

Page 157: Cabaña - Probabilidad y aplicaciones estadisticas

146Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

Aunque no sean formalmente correctas, utilizaremos a menudo las nota-ciones ((Pi,j)) en vez de P·,· y (xj) o (πi) para los vectores (x·), (π·). Una vezreservados los nombres i y j para los ındices de fila y columna de la matriz, lautilizacion de la i en (πi) indica que se trata de un vector fila, y la de la j en(xj) indica que es un vector columna.

Podemos dentro de este contexto reescribir la Definicion 5.2.1:

Definicion 5.2.1, version numerable.Llamamos cadena de Markov con es-pacio de estados E = Ei : i = 1, 2, . . . , n, . . . y matriz (infinita) de probabili-dades de transicion

P = (Pi,j : i, j ∈ N)

a cualquier sucesion de variables aleatorias X0, X1, . . . , Xn, . . . que cumpla(5.1) para cualquier n y cualquier sucesion de estados (Eih)h=0,1,2,....

Como en el caso finito, si 1 es el vector columna de componentes todasiguales a 1, entonces P1 = 1. El vector π(n) = (PXn = Ei : i ∈ N) secalcula mediante la formula formalmente identica a la del caso finito

π(n) = πP n.

Notacion: En lo sucesivo, para abreviar, supondremos a menudo que losestados de una cadena son Ei = i, es decir, identificaremos cada estado con suındice.

10.2 Teorema de convergencia de probabilida-

des en una cadena de Markov numerable.

El siguiente enunciado contiene varios terminos cuyas definiciones se indicanluego del mismo:

Teorema 10.2.1 (Teorema de convergencia de probabilidades.) Si (Xn)n=1,2,...

es una cadena de Markov con probabilidades de transicion P = ((Pi,j)) y espa-cio de estados E (finito o numerable) que forman una unica clase de equiva-

lencia, recurrente, aperiodica, entonces existe el lımite limn→∞ P(n)i,j = π∞

j , queno depende de i.

Ademas, ocurre una de estas dos alternativas:

(a) la esperanza del tiempo de llegada o retorno Tj = minn ≥ 1 : Xn = jes infinita para todo j, y en ese caso π∞

j = 0 para todo j, o bien

Page 158: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

10.2. Cadenas numerables. 147

(b) la esperanza del tiempo de llegada o retorno Tj = minn ≥ 1 : Xn = j esfinita para todo j, y en ese caso el vector π∞ = (π∞

h )h∈E es un vector deprobabilidades estacionarias: π∞P = π∞. El valor de cada componentede π∞ es π∞

j = (ETj)−1.

Con la convencion (ETj)−1 = 0 cuando ETj = ∞, la expresion π∞

j =(ETj)

−1 vale para ambas alternativas.

Notacion: Si 1 es el vector columna de componentes todas iguales a 1,entonces limn→∞ P n = 1π∞.

10.2.1 Significado de las hipotesis del enunciado.

Definicion 10.2.1 Los estados i, j de una cadena con probabilidades de tran-

sicion ((Pi,j)) son equivalentes, cuando existen ni,j ≥ 0 tal que P(ni,j)i,j > 0 (y

en este caso se dice que i precede a j), y nj,i tal que P(nj,i)j,i > 0 (tambien j

precede a i).

Nota: La relacion de la definicion precedente es en efecto una relacionde equivalencia, como es inmediato verificar (Ejercicio 10.3.1), de modo queclasifica a los estados de una cadena en clases de equivalencia. Dos estadosestan en la misma clase cuando la probabilidad de que el sistema pase decualquiera de ellos al otro es positiva.

Notacion: Cuando i precede a j, lo denotaremos i j.

Definicion 10.2.2 El estado i de la cadena con probabilidades de transicion((Pi,j)) es recurrente cuando

n P(n)i,i = ∞.

Para interpretar esta definicion, llamemos f(n)i,j a la probabilidad de que la

cadena pase de i a j por primera vez en n pasos:

f(n)i,j = PXn = j, Xh = j, h = 1, 2, . . . , n − 1|X0 = i.

La probabilidad de que la cadena alcance el estado j cuando parte de i esentonces Fi,j =

n=1 f(n)i,j . Por otra parte,

P(n)i,j =

n∑

m=1

f(m)i,j P

(n−m)j,j , (10.1)

ya que el suceso X0 = i, Xn = j es la union disjunta de los sucesos X0 =i, Xℓ = j para 0 < ℓ < m, Xm = j, Xn = j, (m = 1, 2, . . . , n) y cada sumandoes la probabilidad de cada uno de esos sucesos.

Page 159: Cabaña - Probabilidad y aplicaciones estadisticas

148Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

Sumando (10.1) en n e introduciendo la notacion Pi,j =∑

n=1 P(n)i,j , encon-

tramos Pi,j =∑

n=1 P(n)i,j =

n=1

∑nm=1 f

(m)i,j P

(n−m)j,j =

m=1 f(m)i,j

n=m P(n−m)j,j

= Fi,j(1 + Pj,j).Poniendo j = i, se deduce en particular que la recurrencia de i implica

Fi,i = 1. Interesa notar que Fi,i = PXn = i para algun n|X0 = i.Recıprocamente, podemos despejar

Pi,i =Fi,i

1 − Fi,i

y deducir que la condicion PXn = i para algun n|X0 = i = 1 equivale a larecurrencia de i. En otras palabras, i no es recurrente (y en ese caso se llamatransitorio) cuando la probabilidad de retornar es menor que 1.

Los calculos que preceden muestran que vale el enunciado siguiente:

Lema 10.2.1 El estado i es recurrente (Pi,i = ∞) si y solo si la probabilidadde retorno Fi,i es 1.

El siguiente lema muestra que la recurrencia es una propiedad de las clasesde equivalencia:

Lema 10.2.2 Cuando una clase de equivalencia tiene un estado recurrente,todos los estados de la clase son recurrentes.

Demostracion. Si i es recurrente y j es equivalente a i, entonces existen m1

y m2 tales que P(m1)j,i > 0, P

(m2)i,j > 0, y entonces P

(m1+n+m2)j,j ≥ P

(m1)j,i P

(n)i,i P

(m2)i,j ,

lo que implica∑

n=1 P(n)j,j ≥

n=1 P(m1+n+m2)j,j ≥ P

(m1)j,i

n=1 P(n)i,i P

(m2)i,j = ∞.

Definicion 10.2.3 El estado i de la cadena con probabilidades de transicion((Pi,j)) es aperiodico cuando el maximo comun divisor del conjunto n : P

(n)i,i >

0 es 1, es decir, cuando no existe ningun entero k > 1 tal que el sistema (conprobabilidad uno) solo pueda retornar a i al cabo de un numero de pasos quees multiplo de k.

10.2.2 ∗ Demostracion del Teorema 10.2.1.

La siguiente demostracion, que incluimos para no dejar incompleta la ex-posicion del tema, es considerablemente elaborada, y puede ser omitida enuna primera lectura, ya que los argumentos en ella utilizados no seran objetode referencias posteriores.

Page 160: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

10.2. Cadenas numerables. 149

Llamemos ℓ+j = lim supn→∞ P(n)j y ℓ−j = lim infn→∞ P

(n)j , y tomemos dos suce-

siones n+m, n−

m estrictamente crecientes de ındices tales que limm→∞ P(n+

m)

j = ℓ+j ,

limm→∞ P(n−

m)

j = ℓ−j .

Puesto que Fj =∑∞

n=1 f(n)j,j =1, dado ε>0, podemos encontrar nε tal que

∑∞n=nε

f(n)j,j

< ε.

Como consecuencia, a partir de (10.1), obtenemos la acotacion

P(n+

m)

j,j ≤ f(k)j,j P

(n+m−k)

j,j +∑

ν≤nε,ν =k

f(ν)j,j P

(n+m−ν)

j,j + ε,

en la que k designa un ındice para el que f(k)j,j > 0.

Para m suficientemente grande, se cumple

ℓ+j − ε ≤ P(n+

m)

j,j ≤ f(k)j,j P

(n+m−k)

j,j + (1 − f(k)j,j )(ℓ+j + ε) + ε

y de esas desigualdades se deduce

ℓ+j + ε −3ε

f(k)j,j

≤ P(n+

m−k)

j,j .

Por ser ℓ+j el lımite superior de P(n)j,j , concluimos que limm→∞ P

(n+m−k)

j,j = ℓ+j . En

resumen, hemos mostrado que si (n+m) es una sucesion tal que limm→∞ P

(n+m−k)

j,j = ℓ+j ,

y f(k)j,j > 0, entonces limm→∞ P

(n+m−k)

j,j = ℓ+j .

Repitiendo el razonamiento, obtenemos que, si k′ se elige de modo que f(k′)j,j > 0,

entonces limm→∞ P(n+

m−k−k′)

j,j = ℓ+j , y, mas aun, que si f(kh)j,j > 0 (h = 1, 2, . . . , H),

entonces limm→∞ P(n+

m−∑

H

h=1kh)

j,j = ℓ+j .

Interrumpimos ahora la demostracion para establecer el siguiente lema:

Lema 10.2.3 Si K es un conjunto de numeros naturales con maximo comun divisor

igual a 1, entonces existe M tal que todo n ≥ M puede escribirse como suma de

elementos de K.

Demostracion. El algoritmo de Euclides para obtener el maximo comun divisor dedos numeros naturales m y n esta basado en que, si m > n y r es el resto de la divisionentera de m entre n, entonces, (a) o bien r es cero, y n es el maximo comun divisor, o(b) r > 0 y los divisores comunes de m y n son tambien los de n y r. Se concluye quepara obtener el maximo comun divisor de m y n se puede proceder a buscar el de ny r, y esta observacion permite trabajar con un conjunto de numeros estrictamentemenores (n < m y r < n). Iterando el procedimiento, termina por darse el caso (a),con lo que finaliza el calculo.

Page 161: Cabaña - Probabilidad y aplicaciones estadisticas

150Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

La ecuacion que vincula m, n y r es m = qn+r, es decir, r = m−qn puede escribirsecomo combinacion lineal de m y n con coeficientes enteros. Lo mismo ocurre conlos sucesivos restos, de modo que, en particular, el maximo comun divisor d puedeescribirse en la forma d = am + bn con a, b enteros.

Consideremos ahora un conjunto K de numeros naturales con maximo comun divisor1. Entonces, o bien 1 ∈ K, y en ese caso cualquier numero natural ν es suma deelementos de K, basta sumar ν veces 1, o bien podemos elegir k0 > k1, k0, k1 ∈ K demodo que k0 no sea multiplo de k1. Se obtiene el maximo comun divisor d1, que escombinacion lineal con coeficientes enteros de k0 y k1. Si d1 = 1 se da por terminadaesta etapa del procedimiento. Si no, se busca k2 en K que no sea multiplo de d1 (tieneque existir, porque si no existiera, d1 - y no 1 - serıa el maximo comun divisor delos elementos de K). Se obtiene ahora el maximo comun divisor d2 de d1 y k2, quees combinacion lineal con coeficientes enteros de d1 y k2, y por lo tanto de k0, k1, k2.Nuevamente, si d2 = 1 se da por terminada esta etapa, y si no se busca k3 que nosea multiplo de d2 y se continua hasta obtener un maximo comun divisor dh = 1,combinacion lineal con coeficientes enteros de k0, k1, . . . , kh.

Si m es el mınimo elemento en K, 1 =∑h

i=0 aiki es la combinacion lineal con co-eficientes enteros obtenida anteriormente, y s = max|ai| : ai < 0, i = 0, 1, . . . , h,

entonces todo n ≥ M = (m − 1)s∑h

i=0 ki puede escribirse como combinacion linealde coeficientes naturales de m, k0, k1, . . ., kh. En efecto, dado n ≥ M , se escriben = M +qm +r con r ≤ m − 1 y se reemplaza r por

∑h

i=0 raiki, de manera que n

=∑h

i=0((m−1)s+ rai)ki +qm. Por la forma de elegir s, cada uno de los coeficientes(m − 1)s + rai es no negativo.

Continuamos la demostracion del Teorema 10.2.1 observando que, luego del lemaprecedente, el resultado que hemos llegado a establecer se puede expresar de la sigu-iente manera:

Toda vez que (n+m) sea una sucesion parcial para la que limm→∞ P

(n+m−k)

j,j = ℓ+j , se

cumple tambien limm→∞ P(n+

m−k)

j,j = ℓ+j para k ≥ M , donde M es el numero al que

hace referencia el Lema 10.2.3 relativo al conjunto K = k : f(k)j,j > 0.

En lo que sigue, utilizaremos la propiedad

limm→∞

Pn+

m−M−ν

j,j = ℓ+j , para todo ν ≥ 0.

Introducimos ahora la esperanza del tiempo de retorno a j, a saber,

τj =

∞∑

n=1

nf(n)j,j =

∞∑

n=1

n∑

m=1

f(n)j,j =

∞∑

m=1

∞∑

n=m

f(n)j,j =

∞∑

m=1

S(m)j ,

con S(m)j =

∑∞n=m f

(n)j,j . La ecuacion (10.1) con i = j se escribe en la forma

P(n)j,j =

n∑

ν=1

(S(ν)j − S

(ν+1)j )P

(n−ν)j,j ,

Page 162: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

10.2. Cadenas numerables. 151

que equivale an

ν=0

S(ν+1)j P

(n−ν)j,j =

n∑

ν=1

S(ν)j P

(n−ν)j,j ,

debido a que S(1)j = 1. Cambiando ν en ν + 1 en la segunda suma, obtenemos

n∑

ν=0

S(ν+1)j P

(n−ν)j,j =

n−1∑

ν=0

S(ν+1)j P

(n−ν−1)j,j ,

y como esta igualdad vale para cada n ≥ 1, se deduce, aplicandola iteradamente, que

n∑

ν=0

S(ν+1)j P

(n−ν)j,j = S

(1)j P

(0)j,j = 1.

Con n+m − M en lugar de n, tenemos

n+m−M

ν=0

S(ν+1)j P

(n+m−M−ν)

j,j = 1,

y con un n fijo menor o igual que n+m − M ,

n∑

ν=0

S(ν+1)j P

(n+m−M−ν)

j,j ≤ 1.

Pasando al lımite cuando m → ∞ resulta

n∑

ν=0

S(ν+1)j ℓ+j ≤ 1,

y pasando ahora al lımite cuando n → ∞, deducimos∑∞

ν=0 S(ν+1)j ℓ+j = τjℓ

+j ≤ 1, de

manera que ℓ+j ≤ 1/τj .

En el caso τ = ∞, se concluye ℓ+j = 0, y esto termina la demostracion.

Cuando τ < ∞, un argumento similar al anterior servira para mostrar que ℓ−j ≥ 1/τj .Nuevamente partimos de (10.1), esta vez para acotar

ℓ− + ε ≥ P(n−

m)

j,j ≥ f(k)j,j P

(n−

m−k)

j,j + (1 − f(k)j,j )(ℓ−j − ε),

y deducir

ℓ−j − ε +2ε

f(k)j,j

≥ P(n−

m−k)

j,j ,

para m suficientemente grande, y f(k)j,j > 0.

Se concluye que limm→∞ P(n−

m)

j,j = ℓ−j implica limm→∞ P(n−

m−k)

j,j = ℓ−j para todo k en

K = k : f(k)j,j > 0, y entonces existe M tal que

limm→∞

P(n−

m−M−ν)

j,j = ℓ−j

Page 163: Cabaña - Probabilidad y aplicaciones estadisticas

152Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

se cumple para todo ν ≥ 0.

Escribimos la igualdadn−

m−M

ν=0

S(ν+1)j P

(n−

m−M−ν)

j,j = 1

en la forma

n∑

ν=0

S(ν+1)j P

(n−

m−M−ν)

j,j +

n−

m−M

ν=n+1

S(ν+1)j P

(n−

m−M−ν)

j,j = 1

para acotarn

ν=0

S(ν+1)j P

(n−

m−M−ν)

j,j ≥ 1 −

∞∑

ν=n+1

S(ν+1)j .

Pasamos al lımite cuando m tiende a infinito, y luego cuando n tiende a infinito.

Resulta τjℓ−j ≥ 1, ya que la serie

ν S(ν+1)j converge por la hipotesis τ < ∞. El

resultado implica ℓ−j ≥ 1/τj , y esto termina de demostrar que el lımite de las proba-

bilidades P(n)j,j es 1/τj .

Para cualesquiera i, j, volvemos a utilizar 10.1 para obtener

|P(n)i,j −

nε∑

m=1

f(m)i,j P

(n−m)j,j | < ε

y pasamos al lımite cuando n tiende a infinito. Resulta

nε∑

m=1

f(m)i,j (1/τj) − ε ≤ lim inf

n→∞P

(n)i,j ≤ lim sup

n→∞P

(n)i,j leq

nε∑

m=1

f(m)i,j (1/τj) + ε

y como a su vez 1 − ε ≤∑nε

m=1 f(m)i,j ≤ 1, se concluye

(1 − ε)(1/τj) − ε ≤ lim infn→∞

P(n)i,j ≤ lim sup

n→∞P

(n)i,j leq(1/τj) + ε.

Haciendo tender ε a 0 se obtiene la conclusion requerida, a saber, que limn→∞ P(n)i,j =

1/τj .

Solo resta mostrar que el vector π(∞) = (1/τ1, 1/τ2, . . .) es un vector propio a laizquierda de la matriz de probabilidades de transicion. Para hacerlo, si E es el conjunto

de estados y H es un subconjunto finito de E , acotamos P(n)i,j =

h∈E P(n−1)i,h Ph,j

≥∑

h∈H P(n−1)i,h Ph,j y pasamos al lımite cuando n tiende a infinito:

(1/τj) ≥∑

h∈H

(1/τh)Ph,j .

Dado que la desigualdad precedente vale para todo H finito, tambien se cumple

(1/τj) ≥∑

h∈E

(1/τh)Ph,j .

Page 164: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

10.4. Un ejemplo. 153

Por reduccion al absurdo, si para algun j se cumpliera la desigualdad estricta (1/τj) >∑

h∈E(1/τh)Ph,j , sumando en j obtendrıamos

j∈E

(1/τj) >∑

j∈E

h∈E

(1/τh)Ph,j =∑

h∈E

(1/τh)∑

j∈E

Ph,j =∑

h∈E

(1/τh),

y esta contradiccion muestra que debe cumplirse

(1/τj) =∑

h∈E

(1/τh)Ph,j

para todo j.

10.3 Ejercicios.

Ejercicio 10.3.1 Verificar que la relacion de la Definicion 10.2.1 es una equiva-lencia. En otras palabras, si abreviamos i ≡ j cuando i j y j i, mostrar (a)que i ≡ i, (b) que i ≡ j y j ≡ i expresan lo mismo, y (c) que i ≡ j, j ≡ k implicani ≡ k.

Ejercicio 10.3.2 Verificar que, si C,C ′ son dos clases de equivalencia, i ∈ C,i′ ∈ C” y ademas i i′, entonces cualquier estado de C precede a cualquier estadode C ′. En ese caso, diremos que la clase C precede a C ′ y lo denotaremos C C ′.Observemos que C C ′ y C ′

C implican C = C ′.

Ejercicio 10.3.3 Indicar cuales son las clases de equivalencia y cuales sus rela-ciones de precedencia en los ejemplos del comienzo de §5.

Ejercicio 10.3.4 Otra demostracion del Teorema 5.4.1, por reduccion del casofinito al caso general: Mostrar que las hipotesis del Teorema 5.4.1 implican las delTeorema 10.2.1.

Ejercicio 10.3.5 Mostrar que cuando una cadena tiene una unica clase de estadosrecurrentes, entonces Ti = minn : n ≥ 1, Xn = i es c.s. finito.

Sugerencia: Observar que basta verificar que Fj,i = 1 para cada j.

Page 165: Cabaña - Probabilidad y aplicaciones estadisticas

154Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

10.4 Un ejemplo: Obtencion de las probabili-

dades de absorcion, y de las esperanzas

de los tiempos de absorcion a partir del

Teorema de convergencia de probabilida-

des.

Vamos a describir una aplicacion del Teorema 10.2.1 al estudio de una cadenacon estados transitorios y absorbentes. Lo haremos para el Ejemplo 1 de §5.1.

Modifiquemos la cadena reemplazando las absorciones en los estados G yN por transiciones con probabilidad 1 hacia el estado I. Esto significa quecada vez que el juego termina, inmediatamente recomienza. La nueva cadenatiene una unica clase de estados recurrentes aperiodicos, y la nueva matriz deprobabilidades de transicion es

P =

0 5/6 1/6 00 4/6 1/6 1/61 0 0 01 0 0 0

De acuerdo al Teorema 10.2.1, las probabilidades tienen lımite π(∞) queson solucion del sistema de ecuaciones

π(∞) = π(∞)P, π(∞)1 = 1.

Las primeras cuatro ecuaciones del sistema, escritas con notacion escalarson:

π(∞)I = π

(∞)G + π

(∞)N

π(∞)R =

5

(∞)I +

4

(∞)R

π(∞)G =

1

(∞)I +

1

(∞)R

π(∞)N =

1

(∞)R

o bien

π(∞)N =

1

(∞)R , π

(∞)I =

2

(∞)R , π

(∞)G = (

2

5−

1

6)π

(∞)R =

7

30π

(∞)R ,

Page 166: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

10.5. Tiempos esperados de absorcion. 155

y a ellas se agrega

(2

5+ 1 +

7

30+

1

6)π

(∞)R = 1

de donde π(∞) = (12/54, 30/54, 7/54, 5/54).Cuando el juego se repite indefinidamente, las probabilidades de ganar y de

perder son proporcionales a las probabilidades de estar en G y en N, es decir,a 7 y a 5, de modo que valen respectivamente 7/12 y 5/12. El tiempo esperadode retorno a I es 54/12, que es igual a una unidad mas el tiempo esperado deabsorcion, a saber

54

12= 1 +

7

12τG +

5

12τN,

donde τG es la esperanza del tiempo de absorcion cuando se gana el juego, yτN es la esperanza del tiempo de absorcion cuando se pierde.

Esta ecuacion no basta para obtener las dos incognitas. Agreguemos laobservacion de que la probabilidad de ganar por el tiempo esperado de ganares la suma de la probabilidad de ganar en un solo paso multiplicada por 1mas la probabilidad de ganar pasando por R ((5/6) × (1/2)) por el tiempoesperado de ganar pasando por R, que es igual al tiempo esperado de perder,por la simetrıa una vez que se llega a R. Esto es:

7

12τG =

1

6+

5

12τN.

Las dos ecuaciones nos dan τG = 22/7, y τN = 4.

10.5 Uso de los metodos matriciales de §5.3

para el calculo de los tiempos esperados

de absorcion.

Vamos a retomar el estudio de las probabilidades asociadas a una cadena con

matriz de probabilidades de transicion de la forma P =

[

Q R0 I

]

, cuyas

potencias

P n =

[

Qn (I + Q + Q2 + . . . + Qn−1)R0 I

]

,

hemos calculado en §5.3.1.Para cada estado absorbente j, la probabilidad f

(n)i,j de llegar por primera

vez en n pasos partiendo de un estado no absorbente i es p(n)i,j −p

(n−1)i,j , de

Page 167: Cabaña - Probabilidad y aplicaciones estadisticas

156Enrique M. Cabana.

Capıtulo 10: Convergencia de probabilidades en una C. de M.

manera que la matriz que indica esas probabilidades es

(I + Q + Q2 + . . . + Qn−1)R − (I + Q + Q2 + . . . + Qn−2)R = Qn−1R.

Cada fila de esta matriz corresponde a un estado no absorbente de partida, ycada columna a un estado absorbente de llegada.

Los tiempos esperados de llegada τi,j = E(minn : Xn = j|X0 = i, X∞ =

j) =∑

n=1 nf(n)i,j /π

(∞)j multiplicados por la correspondiente probabilidad de

absorcion π(∞)j son las componentes de la matriz

n=1 nQn−1R.Para obtener la suma de esta serie cuyos sumandos son matrices, vamos a

proceder por analogıa con el calculo de la serie numerica∑

n=1 nxn−1, que vale(1 − x)−2, como es inmediato verificar, para |x| < 1.

Esto sugiere que∑

n=1 nQn−1 = (I − Q)−2. Para verificarlo, calculamos

(I − Q)2∞∑

n=1

nQn−1 = (I − Q)∞∑

n=1

n(Qn−1 − Qn)

= (I − Q)[∞∑

n=1

nQn−1 −∞∑

n=2

(n − 1)Qn−1] = (I − Q)(I +∞∑

n=2

Qn−1),

y ya hemos verificado en §5.3.1 que este producto es la identidad, cuandoQn → 0 y existe (I − Q)−1.

En conclusion, los tiempos esperados de absorcion son las componentesde T = (I −Q)−2R divididas por las probabilidades de absorcion. En nuestro

ejemplo, Q =

[

0 5/60 2/3

]

, R =

[

1/6 01/6 1/6

]

, I−Q =

[

1 −5/60 1/3

]

, (I−Q)−1 =

[

1 5/20 3

]

, de modo que T =

[

1 5/20 3

]2 [

1/6 01/6 1/6

]

=

[

22/12 20/123/2 3/2

]

.

De π(∞)G = 7/12 resulta τG = 22/7, y de π

(∞)N = 5/12 resulta τN = 4. Con-

firmamos ası los resultados de los calculos realizados a partir de la aplicaciondel Teorema de Convergencia de Probabilidades.

Page 168: Cabaña - Probabilidad y aplicaciones estadisticas

11. Convergencia de variables

aleatorias. Leyes de Grandes

Numeros.

11.1 Desigualdades de Markov y de Cheby-

shev.

Teorema 11.1.1 (Desigualdad de Markov). Si X es una variable aleatoria,g es una funcion creciente, no negativa, y g(a) > 0, entonces

PX ≥ a ≤E(g(X))

g(a).

Demostracion. Eg(X) ≥ Eg(X)1X≥a ≥ Eg(a)1X≥a = g(a)PX ≥ a.

Corolario 11.1.1.1 (Desigualdad de Chebyshev). Si la variable Y tiene va-riancia finita, para cualquier a > 0 se cumple

P|Y − E(Y )| ≥ a ≤Var(Y )

a2.

Demostracion. Basta elegir X = |Y − E(Y )|2, g(x) = x+ = maxx, 0 yaplicar el Teorema 11.1.1.

Nota: Se observara que cuando α es positivo, y se eligen X = |Y −E(Y )|α yg(x) = x+, el Teorema 11.1.1 conduce a la desigualdad siguiente, que generalizael resultado del Corolario 11.1.1.1:

P|Y − E(Y )| ≥ a ≤E(|Y − E(Y )|α)

aα.

157

Page 169: Cabaña - Probabilidad y aplicaciones estadisticas

158Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

11.2 Distancias entre variables aleatorias ba-

sadas en momentos.

11.2.1 Distancia cuadratica.

Ya hemos senalado que la variancia de una variable aleatoria da una medidade su apartamiento de la esperanza, o bien de su dispersion. En particular,cuando una variable aleatoria tiene variancia nula, eso significa que coincidecasi seguramente con la esperanza:

Lema 11.2.1 Si VarX = 0, entonces PX = EX = 1.

Demostracion. Por la Desigualdad de Chebyshev (Corolario 11.1.1.1), pode-mos escribir P|X − EX| ≥ ε ≤ VarX/ε2 = 0, y entonces PX = EX= P

n|X − EX| ≥ 1/n = limn→∞ P|X − EX| ≥ 1/n = 0.

Corolario 11.2.1.1 Cuando EX2 = 0, entonces PX = 0 = 1.

Demostracion: Basta aplicar la relacion EX2 = VarX +(EX)2.Notacion Cuando un suceso tiene probabilidad uno, diremos que se cumple

casi seguramente.El corolario precedente muestra que cuando E(X − Y )2 = 0, entonces

PX = Y = 1, o, en otras palabras, X e Y coinciden casi seguramente.Vamos a mostrar que el momento de segundo orden E(X − Y )2 permite

definir una distancia, no exactamente entre variables aleatorias, pero entrelas clases de equivalencia que resultan de identificar variables aleatorias casiseguramente iguales entre sı.

Lema 11.2.2 La relacion X·= Y si y solo si PX = Y = 1 es una relacion

de equivalencia entre variables aleatorias.

Notacion: Llamaremos L2(Ω, P ) al conjunto formado por las clases deequivalencia de variables aleatorias X, con la propiedad EX2 < ∞. A la clasede equivalencia de una variable aleatoria X la llamaremos tambien X, cuandono haya riesgo de confusion.

Teorema 11.2.1 (i) La funcion ‖ · ‖2 :L2(Ω, P ) → R+ definida por ‖X‖2

= EX2 es una norma.

(ii) La funcion d2(X,Y ) = ‖X − Y ‖2 es una distancia en L2(Ω, P ).

(iii) La funcion 〈X, Y 〉2 = EXY es un producto interno en L2(Ω, P ).

Page 170: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.2. Distancias entre variables aleatorias. 159

El enunciado del Teorema 11.2.1 contiene casos particulares de dos propiedadesgenerales. Una de ellas establece que cuando (x, y) → 〈x, y〉 es un producto interno,entonces x →

〈x, x〉 es una norma. La otra, que cuando ψ es una norma, d(x, y) =ψ(y − x) es una distancia.

Las definiciones pertinentes son las siguientes:

Definicion 11.2.1 (Producto interno). La aplicacion (x, y) → 〈x, y〉, x, y ∈ E (Eespacio vectorial real) es un producto interno, cuando cumple:

• 〈·, y〉 y 〈x, ·〉 son funciones lineales, para cada y y para cada x respectivamente,

• 〈x, y〉 = 〈y, x〉,

• 〈x, x〉 es no negativo para cada x, y es cero si y solo si x = 0.

Definicion 11.2.2 (Norma). La aplicacion x → ψ(x), x ∈ E (E espacio vectorial)es una norma cuando cumple:

• ψ(x) ≥ 0 para todo x, y ψ(x) = 0 si y solo si x = 0.

• ψ(λx) = |λ|ψ(x) para cualesquiera x ∈ E y λ ∈ R.

• ψ(x + y) ≤ ψ(x) + ψ(y) para cualesquiera x, y ∈ E.

Definicion 11.2.3 (Distancia) La funcion d(x, y), x, y ∈ E (E conjunto cualquiera)es una distancia, cuando

• d(x, y) ≥ 0 para cualesquiera x, y, y d(x, y) = 0 si y solo si x = y,

• d(x, y) = d(y, x) para cualesquiera x, y,

• d(x, y) ≤ d(x, z) + d(z, y) para cualesquiera x, y, z.

Ejercicio 11.2.1 Dado el producto interno 〈·, ·〉, mostrar que la funcion ψ(x) =√

〈x, x〉 es una norma. (Se dice que esta norma esta inducida por el productointerno.)

Sugerencia: Para demostrar la llamada desigualdad triangular de las normas(ψ(x+y) ≤ ψ(x)+ψ(y)), conviene utilizar la llamada Desigualdad de Cauchy-Schwarz, que expresa

〈x, y〉 ≤ ψ(x)ψ(y).

La Desigualdad de Cauchy-Schwarz resulta como consecuencia de desarrollarel miembro de la derecha de

0 ≤ ψ2(ψ(y)x − ψ(x)y) = 〈ψ(y)x − ψ(x)y, ψ(y)x − ψ(x)y〉.

Page 171: Cabaña - Probabilidad y aplicaciones estadisticas

160Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

Ejercicio 11.2.2 Mostrar que si ψ es una norma inducida por un productointerno 〈·, ·〉, entonces este se puede obtener a partir de la norma mediante〈x, y〉 = 1

4(ψ2(x + y) − ψ2(x − y))

Ejercicio 11.2.3 Dada la norma ψ, mostrar que d(x, y) = ψ(y − x) es unadistancia. (Se dice que d es la distancia inducida por la norma ψ.)

Demostracion del Teorema 11.2.1. En virtud de los resultados de los ejer-cicios precedentes, basta mostrar que (X, Y ) → EXY es un producto interno.La linealidad de EXY separadamente en X y en Y es inmediata. La desigual-dad EX2 ≥ 0 es tambien inmediata, y la condicion EX2 = 0 implica que X esla clase de equivalencia que contiene e la constante 0, como consecuencia delCorolario 11.2.1.1.

11.3 Convergencias cuadratica y en probabili-

dad.

11.3.1 Convergencia cuadratica.

Definicion 11.3.1 Dadas una sucesion de variables aleatorias (Xn)n=1,2,... yuna variable Y , decimos que (Xn) converge cuadraticamente a Y , cuando

limn→∞

E((Xn − Y )2) = 0.

De manera equivalente, si Xn es la clase de equivalencia de Xn y Y la deY , entonces Xn converge cuadraticamente a Y si y solo si Xn converge a Y enL2(Ω,P), es decir, ‖Xn − Y ‖2 → 0.

11.3.2 Convergencia en probabilidad.

Definicion 11.3.2 Dadas una sucesion de variables aleatorias (Xn)n=1,2,... yuna variable Y , decimos que (Xn) converge en probabilidad a Y , y lo escribi-

mos en la forma plimn→∞Xn = Y , o tambien XnP

→ Y , cuando, para todo εpositivo,

limn→∞

P|Xn − Y | > ε = 0.

Ejemplo 11.3.1 Si las variables U1, U2, . . . son independientes, con distribu-cion uniforme en [0, α], entonces Xn = minU1, U2, . . . , Un converge en pro-babilidad a 0, e Yn = maxU1, U2, . . . , Un converge en probabilidad a α.

Page 172: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.3. Convergencias cuadratica y en probabilidad. 161

Dado ε positivo, calculamos P|Xn| > ε = P(⋂n

i=1Ui > ε = (1 − ε/α)n

→ 0. (Se ha supuesto ε < α; si no fuese ası, la probabilidad que hemoscalculado serıa cero, y el resultado no cambia).

Analogamente, P|Yn−α| > ε = PYn < α−ε = P(⋂n

i=1Ui < 1−ε/α= (1 − ε/α)n → 0.

La situacion del ejemplo anterior nos sugiere una aplicacion importante de laconvergencia en probabilidad. Supongamos que el extremo α del intervalo en quese distribuye la probabilidad de las variables Un es desconocido, y que queremosconocerlo, al menos con un error relativo, digamos, del 1%.

La informacion sobre la naturaleza que podemos disponer es la que resulta de laobservacion de las variables U1, U2, . . ., Un. La cantidad n de variables a observar,lapodemos elegir convenientemente. No tan grande que implique un gasto excesivo,dado que resulta natural suponer que cada observacion tiene un costo, pero tampocotan pequeno que el conjunto de las observaciones nos de una informacion insuficiente.

En virtud del resultado del ejemplo, proponemos tomar Yn como valor aproxi-mado de α. Al hacerlo ası, estaremos cometiendo un error relativo e = (α − Yn)/α.Es posible que este error relativo no cumpla la especificacion e < 1%, pero la pro-babilidad de fallar Pe > 1% = Pα−Yn > .01α tiende a cero cuando n tiende ainfinito, por la convergencia en probabilidad de Yn a α. Si elegimos n suficientementegrande, estaremos cumpliendo la especificacion con una probabilidad proxima a 1.

En nuestro caso particular, para obtener una probabilidad del 95% de cumplir

con la especificacion, basta tomar n tal que Pα − Yn > .01α = (1 − .01)n ≤ .05,

y esto ocurre para n > log .05/ log .99 = 298.07 . . .

Ejemplo 11.3.2 Si las variables X1, X2, . . . no estan correlacionadas y tienentodas igual esperanza µ e igual variancia σ2, entonces el promedio Xn =1

n

n∑

i=1

Xi converge en probabilidad al valor comun µ de las esperanzas.

La variancia de la suma de variables no correlacionadas es la suma de susvariancias (ver Ejercicio 8.3.3), de modo que VarXn = σ2/n. Por otra parte,la esperanza de Xn es µ. Por lo tanto,

E((Xn − µ)2) = VarXn → 0,

y esto establece la convergencia indicada.

Page 173: Cabaña - Probabilidad y aplicaciones estadisticas

162Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

11.3.3 Criterio de convergencia en probabilidad basado

en la convergencia cuadratica.

Teorema 11.3.1 Si (Xn) converge cuadraticamente a Y , entonces XnP

→ Y .

Demostracion. Por la desigualdad de Chebyshev, (Corolario 11.1.1.1)

P|Xn − Y | > ε ≤Var(Xn − Y )

ε2≤

E(Xn − Y )2

ε2→ 0.

Teorema 11.3.2 (Criterio de convergencia cuadratica a una constante). Silimn→∞ E(Xn) = c, y limn→∞ Var(Xn) = 0, entonces (Xn) converge cuadrati-camente a c.

Demostracion. E(Xn − c)2 = Var(Xn) + (E(Xn) − c)2. Ambos sumandostienen lımite cero, por las hipotesis.

Nota: Un ejemplo trivial permite observar que el recıproco del Teorema11.3.1 no es cierto. Si Xn ∼ n Ber(1/n), para cualquier ε positivo y n > ε,P|Xn| > ε = 1/n → 0, mientras que E(Xn)2 = n no tiende a cero. Estosignifica que Xn converge en probabilidad a cero, pero no cuadraticamente.

11.4 Convergencia casi segura.

Definicion 11.4.1 (Convergencia casi segura)Dadas la sucesion de variables aleatorias (Xn)n=1,2,... y la variable Y , dec-

imos que Xn converge casi seguramente a Y , y lo denotamos Xn → Y c.s.,cuando

PXn → Y = 1.

En palabras, la sucesion de funciones Xn con dominio Ω converge puntual-mente a la funcion Y , excepto quiza en un suceso de probabilidad 0.

Una pequena modificacion del ejemplo de la seccion precedente muestraque la convergencia casi segura no implica la convergencia cuadratica. Enefecto, basta definir U ∼ Uni(0, 1) y Xn = n1U<1/n. De esta manera,Xn → 0 = U > 0 tiene probabilidad 1, pero las variables Xn tienenla misma distribucion que en el ejemplo anterior, y por lo tanto no convergencuadraticamente.

Page 174: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.4. Convergencia casi segura. 163

Por otra parte, la sucesion Y2n+j−1 = 1(j−1)2−n<U≤j2−n, j = 1, 2, . . . , 2n,n = 0, 1, . . . definida a partir de la misma U ∼ Uni(0, 1) no converge conprobabilidad uno (solo converge si U = 0) pero converge cuadraticamente acero, ya que EY 2

2n+j−1 = 2−n → 0.El enunciado siguiente describe el vınculo entre la convergencia casi segura

y la convergencia en probabilidad.

Teorema 11.4.1 (i) Si Xn → Y c.s., entonces XnP

→ Y .

(ii) Si XnP

→ Y , entonces existe una sucesion parcial Xnide Xn que tiende

a Y c.s.

Demostracion. Consideremos el conjunto de no-convergencia N = Xn →Y . Dado que Xn → Y cuando para cualquier ε > 0 existe m ∈ N tal quepara todo n ≥ m se cumple |Xn − Y | < ε, podemos escribir

N c =⋂

ε>0

m∈N

n≥m

|Xn − Y | ≤ ε

o bienN c =

k∈N

m∈N

n≥m

|Xn − Y | ≤ 1/k

de modo queN =

k∈N

m∈N

n≥m

|Xn − Y | > 1/k.

De aquı resulta que Xn → Y c.s. equivale a P(N ) = 0, y esto se cumple siy solo si

P

m∈N

n≥m

|Xn − Y | > 1/k

= 0

para todo k.Dado que la sucesion

n≥m|Xn −Y | > 1/k es monotona, la condicion deconvergencia casi segura puede expresarse en la forma

limm→∞

P⋃

n≥m

|Xn − Y | > 1/k = 0 para todo k. (11.1)

Para obtener (i), tenemos que mostrar que la convergencia casi seguraimplica que para cualquier ε positivo, limm→∞ P|Xm − Y | > ε = 0. Dado ε,elegimos k > 1/ε de donde

|Xm − Y | > ε ⊂ |Xm − Y | > 1/k ⊂⋃

n≥m

|Xn − Y | > 1/k

Page 175: Cabaña - Probabilidad y aplicaciones estadisticas

164Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

y aplicamos (11.1) para obtener

limm→∞

P|Xm − Y | > ε ≤ limm→∞

P⋃

n≥m

|Xn − Y | > 1/k = 0.

Para establecer (ii) suponemos que Xn converge en probabilidad a Y . Porlo tanto, para cada i ∈ N, P|Xn − Y | > 2−i tiende a cero. Llamamos n1 alprimer entero positivo para el cual

P|Xn − Y | > 2−1 < 2−1,

e, inductivamente, ni al primer entero mayor que ni−1 tal que

P|Xni− Y | > 2−i < 2−i.

Se deduce que la sucesion Zi = Xni− Y cumple

P|Zi| > 2−i < 2−i. (11.2)

Completaremos la demostracion verificando que (11.2) implica que Zi → 0c.s.

En efecto, para m tal que 2m ≥ k,

P⋃

n≥m

|Zn| > 1/k ≤ P⋃

n≥m

|Zn| > 2−n ≤∑

n≥m

P|Zn| > 2−n

≤∑

n≥m

2−n = 2−m+1 → 0,

y esto implica la convergencia casi segura a cero de Zn de acuerdo a (11.1).

11.5 Completitud de L2(Ω,P).

Una sucesion fundamental o de Cauchy en un espacio E dotado de una metricao distancia d es una sucesion Zn de elementos de E con la propiedad

limn→∞

supm≥n

d(Zm, Zn) = 0.

Se verifica sin dificultad que una formulacion equivalente es la siguiente:Dado ε, existe N tal que si m, n ≥ N , entonces d(Zm, Zn) < ε.

Definicion 11.5.1 (Espacio completo.) Se dice que el espacio E con la dis-tancia d es completo, cuando toda sucesion fundamental tiene lımite.

Page 176: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.6. Completitud de L2(Ω,P). 165

Teorema 11.5.1 El espacio L2(Ω,P) es completo.

Demostracion. Se requiere verificar que, dada la sucesion fundamental declases de equivalencia Xn, existe una clase X tal que E(Xn −X)2 → 0. Comoya hemos indicado, usaremos indistintamente la notacion Xn para la clase opara una variable aleatoria que la representa.

Por hipotesis, dado ε > 0, existe N tal que para todo m, n ≥ N , se cumpleE(Xm − Xn)2 < ε. Vamos a elegir la sucesion no decreciente ni de modo que,para cada i, y para m, n ≥ ni, se cumpla E(Xm −Xn)2 < 1/8i. En particular,para cada i, E(Xni

− Xni+1)2 < 1/8i.

Por la Desigualdad de Markov, P|Xni− Xni+1

| > 1/2i ≤ 22i/23i = 1/2i.Como consecuencia,

P⋃

j≥i

|Xnj− Xnj+1

| > 1/2j ≤∑

j≥i

1

2j=

1

2i−1.

El suceso |Xni−Xnk

| > 12i−1 para algun k ≥ i esta contenido en la union

que aparece en el termino de la izquierda de la desigualdad precedente. Porconsiguiente,

P⋃

k≥i

|Xni− Xnk

| >1

2i−1 ≤

1

2i−1.

Dado ε > 0, tomemos i ≥ N tal que 12N−1 < 1

2ε. Para esos valores de i, se

cumple P⋃

k≥i|Xni− Xnk

| > 12ε ≤ 1

2i−1 y, como consecuencia,

P⋃

k,l≥i

|Xnk− Xnl

| > ε ≤1

2i−1.

Se deduce entonces que P⋂

i≥N

k,l≥i|Xnk− Xnl

| > ε = 0, de modoque el complemento

i≥N

k,l≥i|Xnk−Xnl

| ≤ ε tiene probabilidad 1, y estosignifica que, dado ε, casi seguramente existe i tal que para cualesquiera k, lmayores o iguales que i, se cumple |Xnk

−Xnl| ≤ ε. Esto es lo mismo que decir

que la sucesion Xnies casi seguramente de Cauchy, y por lo tanto existe casi

seguramente su lımite que llamaremos X.

Verifiquemos finalmente que X es el lımite cuadratico de Xm. Dado εelegimos Nε tal que para m, n ≥ Nε, se cumpla E(Xm−Xn)2 < ε. Calculamos‖Xm −X‖2 = E(Xm −X)2 = E(Xm − limi→∞ Xni

)2 = E limi→∞(Xm −Xni)2.

Por el Lema de Fatou (Lema 6.5.3), esta expresion esta acotada superiormentepor lim infi→∞ E(Xm − Xni

)2 ≤ ε para m ≥ Nε.

Page 177: Cabaña - Probabilidad y aplicaciones estadisticas

166Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

11.6 Ejercicios.

Ejercicio 11.6.1 Probar que, si Bn tiene distribucion Binomial (n, p), entoncesBn

n converge en probabilidad a p.

Ejercicio 11.6.2 Verificar que para el calculo de lımites en probabilidad valen lasmismas reglas que para el calculo de lımites ordinarios:

plimX = ξ, plimY = η ⇒ plimX + Y = ξ + η;

g continua en a, plimX = a ⇒ plimg(X) = g(a);

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Ejercicio 11.6.3 Para estimar la intensidad λ con que se producen accidentes enuna carretera, de acuerdo al modelo:

Pn accidentes en un intervalo de longitud t =(λt)ne−λt

n!,

se cuenta el numero de de accidentes N(t) en un perıodo de longitud t y se calcula

λ =N(t)

t.

(a) Calcular Eλ, Var λ.

(b) Deducir que λ converge en probabilidad a λ cuando t → ∞.

Ejercicio 11.6.4 Si U1, U2, . . . son variables independientes con distribucion uni-forme en [0, 1], y Mn = minU1, U2, . . . , Un, probar

(a) que Mn converge en probabilidad a cero.

(b) que PMn → 0 = 1.

(c) ¿Converge la sucesion PMn ≤ tE(Mn)? En caso afirmativo, ¿a quelımite?

11.7 Una aplicacion a la estadıstica. Coheren-

cia de una sucesion de estimadores.

A menudo se utilizan procedimientos de estimacion que conducen a familiasde estimadores (Tn)

n∈N, uno para cada tamano de muestra. Cuando cadamuestra consta de variables con valores en R, el espacio de muestras paramuestras de tamano n es En = Rn, y como consecuencia, el estimador Tn :En → Θ tiene por dominio ese espacio de muestras.

Page 178: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.7. Aplicacion estadıstica: Coherencia. 167

Para una sucesion de estimadores que aprovechen adecuadamente la infor-macion cada vez mayor que proporcionan las muestras cada vez mas grandes,es de esperar que ese aprovechamiento pueda describirse mediante algunapropiedad asintotica cuando n → ∞.

La coherencia de una sucesion de estimadores (consistency en ingles, tam-bien traducido al castellano por consistencia) es precisamente una propiedadque refleja un comportamiento asintotico deseable:

Definicion 11.7.1 La sucesion (Tn : En → Θ)n∈N de estimadores de θ∗ escoherente (o consistente) cuando

plimTn(X1, . . . , Xn) = θ∗.

Ejemplo 11.7.1 Si U1, . . . , Un son i.i.d. Unif(0, θ), la sucesion de estimadoresde maxima verosimilitud de θ Tn = maxU1 . . . , Un es coherente.

En efecto, Pθ − Tn > ε = P (⋂n

i=1Ui < θ − ε) =(

θ−εθ

)n→ 0 (n → ∞)

para cualquier ε > 0. (La escritura anterior es correcta solo para ε ∈ (0, θ]. Siε > θ, hay que cambiar θ − ε por la parte positiva (θ − ε)+ = maxθ − ε, 0.)

Ejemplo 11.7.2 Si X1, . . . , Xn, . . . son i.i.d. Exp(λ), la sucesion de estima-dores de maxima verosimilitud λn = n

X1+...+Xnde λ es coherente.

En vez de mostrar que plimλn = λ, basta verificar que plimXn = 1λ, con

Xn = 1n

∑ni=1 Xi = (λn)−1, como aplicacion del Ejercicio 11.6.2.

De EXn = λ−1, VarXn = n−1λ−2 y de los criterios de los Teoremas 11.3.1y 11.3.2 resulta la conclusion del enunciado.

Ejemplo 11.7.3 Es inmediato verificar, a partir del Teorema 11.3.1, que unasucesion de estimadores cuyo error cuadratico medio tienda a cero, es coher-ente. En el caso de los estimadores insesgados, esto mismo se expresa diciendoque una sucesion de estimadores insesgados cuya variancia tiende a cero, escoherente.

11.7.1 Estimacion coherente de las cuantilas de F a par-

tir de una muestra aleatoria simple.

Para cada p ∈ (0, 1), llamamos p-cuantila de una distribucion de probabilidaden R con funcion de distribucion F a cualquier xp tal que F (x−

p ) ≤ p ≤ F (xp).

Page 179: Cabaña - Probabilidad y aplicaciones estadisticas

168Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

Obviamente, si F tiene en una cuantila xp un punto de crecimiento, en-tonces xp es la unica p-cuantila. Recıprocamente, si x′

p < x′′p son dos p-

cuantilas, entonces F es constante (igual a p) en [x′p, x

′′p). Mas precisamente,

las p-cuantilas son los puntos del intervalo [supx : F (x) ≤ p, F−1(u) =infx : F (x) ≥ p], con la definicion de la inversa generalizada introducida enel Teorema 3.5.1.

Dada una sucesion U1, . . ., Un, . . . i.i.d.∼ Unif(0, 1), la sucesion (Xi =F−1(Ui))i∈N es i.i.d. ∼ F , de acuerdo al Teorema 3.5.1. Por la monotonıa deF−1, el estadıstico de orden h de la muestra uniforme de tamano n formadapor las primeras n variables, que denotaremos U

(n)(h) es llevado por F−1 en el

correspondiente estadıstico de orden h de (X1, . . . , Xn).

El calculo de las esperanzas y variancias de U(n)[np], donde [·] designa a la

parte entera (ver los Ejercicios 8.11.1 y 8.11.3) permite aplicar los Teoremas

11.3.1 para concluir que plimU(n)[np] = p. Como consecuencia, cuando p es un

punto de continuidad de F−1, y esto ocurre cuando la p-cuantila xp es un puntode crecimiento de F , se cumple

plimX(n)[np] = xp.

Tenemos de esta manera una sucesion coherente de estimadores de xp.

11.8 Una aplicacion al analisis: Teorema de

Weierstrass de aproximacion de funcio-

nes continuas por polinomios.

Como aplicacion de la Desigualdad de Chebyshev, podemos obtener una de-mostracion del siguiente teorema debido a Weierstrass, mediante un procedi-miento justificado por una heurıstica probabilıstica.

Teorema 11.8.1 (Aproximacion de funciones continuas por polinomios.)Si F es una funcion continua en el intervalo [a, b], y ε es un numero positivo

arbitrario, entonces existe un polinomio Q tal que para todo x ∈ [a, b], secumple |F (x) − Q(x)| ≤ ε.

Demostracion. Con el cambio de variables p = (x − a)/(b − a), bastamostrar que f(p) = F (a + (b − a)p), continua en [0, 1], se puede aproximaruniformemente en ese intervalo por medio de un polinomio qn de grado n.

Page 180: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.9. Leyes de Grandes Numeros. 169

Supongamos una muestra X1, . . . , Xn de tamano n de la distribucion deBernoulli con parametro p, de modo que el estadıstico Bn/n, con Bn =

∑ni=1 Xi

es un estimador coherente de p.Resulta entonces razonable esperar que cuando n tiende a ∞, la esperanza

de f(Bn/n) resulte proxima a f(p). Esta esperanza resulta ser un polinomio

qn(p) =n

j=0

f(j/n)

(

n

j

)

pj(1 − p)n−j.

Vamos a mostrar que cuando n tiende a infinito, qn converge uniformementea f : Por ser continua en el intervalo [0, 1], la funcion f esta acotada, y esuniformemente continua. Llamemos M a una cota de |f |, y encontremos δ talque, si |s − t| < δ, entonces |f(s) − f(t)| < ε/2.

Puesto que Bn/n converge en probabilidad a p, la probabilidad

P|Bn/n − p| > δ

tiende a cero, de modo que podemos encontrar n0 tal que para n ≥ n0,P|Bn/n − p| > δ < ε/(4M).

Se deduce entonces

|qn(p) − f(p)| = |Ef(Bn/n) − f(p)|

≤ |E(f(Bn/n) − f(p))1|Bn/n−p|≤δ| + |E(f(Bn/n) − f(p))1|Bn/n−p|>δ|

≤ (ε/2)P|Bn/n − p| ≤ δ + 2MP|Bn/n − p| > δ = ε,

para cualquier n > n0, uniformemente en p.

11.9 Leyes de Grandes Numeros.

11.9.1 Ley Debil de los Grandes Numeros.

Teorema 11.9.1 (Ley debil de los Grandes numeros para variables equidis-tribuidas, no correlacionadas).

Si (Xn)n=1,2,... es una sucesion de variables aleatorias no correlacionadas,todas con la misma esperanza µ, y con la misma variancia finita, entonces

plimn→∞Xn = µ, con Xn =1

n

n∑

i=1

Xi.

Page 181: Cabaña - Probabilidad y aplicaciones estadisticas

170Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

Demostracion. Si σ2 es la variancia comun a las variables Xi, un calculodirecto muestra que la esperanza y la variancia del promedio Xn son respecti-vamente µ y σ2/n. Los criterios de los Teoremas 11.3.1 y 11.3.2 terminan lademostracion.

Corolario 11.9.1.1 Si (Xn)n=1,2,... es una sucesion de variables aleatorias in-dependientes, identicamente distribuidas, con esperanza y variancia finitas,vale la conclusion del Teorema.

11.9.2 Ley Fuerte de los Grandes Numeros.

Teorema 11.9.2 Ley fuerte de los Grandes numeros para variables equidis-tribuidas, de A.N.Kolmogorov Si (Xn)n=1,2,... es una sucesion de variablesaleatorias independientes, todas con la misma distribucion, E|X1| < ∞, y µes el valor esperado comun de todas ellas, entonces

P

limn→∞

X1 + X2 + . . . + Xn

n= µ

= 1.

Demostracion La posponemos hasta §13.12, pero mostramos a continuacion que lamisma conclusion vale con la hipotesis agregada E(X1)

4 < ∞.

Abreviemos Xn = X1+X2+...+Xn

n, y reescribamos el suceso limn→∞ Xn = µ en la

forma

dado ε > 0, existe m tal que para todo n ≥ m se cumple |Xn − µ| < ε,

que equivale a

para todo h ∈ N, existe m tal que para todo n ≥ m, |Xn − µ| < 1/h

=⋂

h∈N

m∈N

n≥m

|Xn − µ| < 1/h.

Para probar que este suceso tiene probabilidad 1, verificaremos que su complemento⋃

h∈N

m∈N

n≥m

|Xn −µ| ≥ 1/h tiene probabilidad cero. Como se trata de una union

numerable en h ∈ N, basta probar que cada uno de los uniendos tiene probabilidadcero. Para ello fijamos h arbitrario y empezamos por acotar

P

m∈N

n≥m

|Xn − µ| ≥ 1/h

≤ P

n≥m

|Xn − µ| ≥ 1/h

,

para todo m.

Page 182: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11 N8.- Ars Conjectandi. 171

Hacemos un parentesis para acotar P|Xn−µ| ≥ 1/h usando la desigualdad parecidaa la de Chebyshev que se obtiene como ella del Teorema 11.1.1 (Ver Ejercicio 11.1):

P|Xn − µ| ≥ 1/h ≤E((Xn − µ)4)

(1/h)4= (h/n)4E((

n∑

i=1

(Xi − µ))4).

Calculamos por separado

E

(

n∑

i=1

(Xi − µ)

)4

=n

i,j,k,l=1

Ei,j,k,l,

donde abreviamos Ei,j,k,l = E(Xi − µ)(Xj − µ)(Xk − µ)(Xl − µ).

Cuando alguno de los cuatro ındices (i, j, k, l) es diferente a los otros, el correspon-diente factor, digamos (Xi − µ) es independiente del producto de los otros tres, yEi,j,k,l = E(Xi − µ) × E(Xj − µ)(Xk − µ)(Xl − µ) = 0, porque E(Xi − µ) = 0.

El cuarto momento de la suma se reduce entonces a

i=j=k=l

Ei,j,k,l +∑

i=j,k=l

Ei,j,k,l +∑

i=k,j=l

Ei,j,k,l +∑

i=l,j=k

Ei,j,k,l

=n

i=1

E(Xi − µ)4 + 3∑

i =j

E(Xi − µ)2(Xj − µ)2.

Usamos ahora la hipotesis de que todas las variables tienen la misma distribucion, delo que resulta

E

(

n∑

i=1

(Xi − µ)

)4

= nE(X1 − µ)4 + 3n(n − 1)(E(X1 − µ)2)2,

y continuamos con nuestra desigualdad inicial:

P

m∈N

n≥m

|Xn − µ| ≥ 1/h

≤ P

n≥m

|Xn − µ| ≥ 1/h

≤∑

n≥m

P|Xn − µ| ≥ 1/h ≤∑

n≥m

(h/n)4[nE(X1 − µ)4 + 3n(n − 1)(E(X1 − µ)2)2],

para todo m. Esta ultima expresion tiene lımite cero cuando m tiende a ∞, pues laserie es convergente.

Page 183: Cabaña - Probabilidad y aplicaciones estadisticas

172Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

N8.- El Ars Conjectandi de Jacob Bernoulli.

La primera Ley de los Grandes numeros se debe a Jacob Bernoulli. Es una ley debil, referida a varia-bles de Bernoulli, y se la encuentra en Ars Conjectandi, uno de los primeros tratados sobre el calculo deprobabilidades, publicado en 1713 despues de la muerte de su autor.

El primer texto sobre probabilidades que se publico fue De Ratiociniis in Ludo Aleae (1657) de ChristianHuygens (1629 - 1695), y su contenido esta esencialmente contenido en elArs Conjectandi. Otras obrascontemporaneas del libro de Bernoulli, fueron Essai d’analyse sur les jeux de hasard (1708) de Pierre deMontmort (1678 - 1719) y The Doctrine of Chances (1718) de Abraham De Moivre (1667 - 1754).

11.10 Distribucion empırica de una muestra.

Ley de Glivenko-Cantelli.

Consideremos una muestra aleatoria simple de una distribucion F (esta deno-minacion ya ha sido utilizada en §8.11.1), es decir, un conjunto X1, X2, . . .,Xn de variables aleatorias independientes con la distribucion F .

Dada la muestra X1, X2, . . . , Xn de F , llamamos funcion de distribucionempırica de dicha muestra a la funcion (aleatoria)

Fn(t) =1

n

n∑

i=1

1Xi≤t, t ∈ R. (11.3)

Page 184: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.11. Ley de los Grandes Numeros funcional. 173

Teorema 11.10.1 (Ley de Glivenko Cantelli) Para cada t ∈ R, la funcionde distribucion empırica Fn(t) converge en probabilidad a F (t).

En cada intervalo de continuidad de F , Fn converge a F uniformementecon probabilidad 1.

Demostracion. 1Xi≤t es para cada i una variable Ber(F (t)). Por lo tanto,por ser las variables (1Xi≤t)i=1,2,...,n independientes, nFn(t) es Bin(n, F (t)).Se deduce entonces que E(Fn(t)) = F (t), Var(Fn(t)) = 1

n(F (t)(1 − F (t)), y

los criterios de los Teoremas 11.3.1 y 11.3.2 permiten obtener la conclusiondeseada relativa a la convergencia en probabilidad.

De otra manera, por ser Fn(t) el promedio de n variables Ber(F (t)) in-dependientes, se le aplican las leyes de los grandes numeros de los Teoremas11.9.1 y 11.9.2; la ley debil nos da nuevamente la convergencia en probabilidad.La ley fuerte (la demostracion vista arriba es aplicable porque la distribucionde Bernoulli tiene momento de cuarto orden finito, puesto que la propia varia-ble es acotada), nos da la convergencia con probabilidad 1, para cada t. Estono basta para concluir la convergencia con probabilidad uno simultaneamentepara todo t, pero sı para todo t en un conjunto numerable, por ejemplo, elde los racionales, o, tambien, como nos conviene considerar para la aplicacioninmediata, en la union del conjunto de los racionales con un conjunto finitodado.

Dado el intervalo de continuidad [a, b] de F , vamos a verificar que si Fn(t) →F (t) para todo t en la union de los racionales con el conjunto finito a, b,entonces la convergencia es uniforme en todo el intervalo [a, b].

Por ser F continua en [a, b], es uniformemente continua, de modo que dadoε arbitrario, podemos encontrar una particion a = t0 < t1 < t2 < . . . <tm = b para la cual F (ti) − F (ti−1) < ε/2 (i = 1, 2, . . . , m), y, sin perdida degeneralidad podemos elegir t1, t2, . . ., tm−1 racionales.

Para todo t en [ti−1, ti] se cumple entonces, por la monotonıa de las fun-ciones de distribucion y por la construccion de la particion,

Fn(t) − F (t) ≤ Fn(ti) − F (ti) + F (ti) − F (t) ≤ Fn(ti) − F (ti) + ε/2

F (t)− Fn(t) ≤ F (t)− F (ti−1) + F (ti−1)− Fn(ti−1) ≤ ε/2 + F (ti−1)− Fn(ti−1)

y por la convergencia (casi segura) de Fn a F sobre la union del conjuntode los racionales, y del conjunto finito a, b, deducimos que se puede elegirn tan grande que para todo i = 0, 1, 2, . . . , m se cumplan Fn(ti) − F (ti) <ε/2, F (ti−1) − Fn(ti−1) < ε/2. Con estas desigualdades y las establecidasanteriormente se concluye que para todo t en [a, b], |Fn(t) − F (t)| < ε .

Page 185: Cabaña - Probabilidad y aplicaciones estadisticas

174Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

11.11 Reinterpretacion de la Ley de Glivenko

- Cantelli como una Ley de los Grandes

Numeros funcional.

A la variable aleatoria real X, con funcion de distribucion de probabilidadesF , asociaremos la funcion escalon

1X(x) = 1X≤x.

Esto define una correspondencia de Ω en el espacio de las funciones de R enR, que podremos interpretar como una variable aleatoria, si dotamos a esteultimo de una σ-algebra adecuada.

Dentro de ese contexto, resulta natural llamar esperanza de 1X a la funcionque a cada x ∈ R asocia E(1X(x)) = F (x), es decir, E1X = F .

Dada la sucesion de variables aleatorias (Xn)n=1,2,... independientes, confuncion de distribucion continua F , consideremos la sucesion de sus funcionesescalon 1Xn

. El promedio 1 = n−1 ∑ni=1 1Xi

es precisamente la funcion dedistribucion empırica Fn, de modo que la Ley de Glivenko-Cantelli (Teorema11.10.1) expresa que el promedio de las funciones escalon de variables alea-torias independientes con funcion de distribucion F converge a su esperanza,que es F , con probabilidad 1, uniformemente en los intervalos de continuidadde F . Cuando F es continua, la convergencia a la que alude el enunciadoprecedente es la convergencia uniforme.

Dotemos al espacio de las funciones de R en R de la norma del supremo‖ · ‖∞ definida por ‖f‖∞ = sup−∞<t<∞ |f(t)|.

La convergencia uniforme es precisamente la convergencia en esta norma,de modo que el enunciado precedente para la Ley de Glivenko-Cantelli es el deuna Ley fuerte de los Grandes Numeros, para variables aleatorias con valoresen el espacio de las funciones de R en R con la norma del supremo, cuando Fes continua.

No vamos a discutir aquı como elegir la σ-algebra para que las funcionesescalon sean variables aleatorias. Mas adelante volveremos sobre la inter-pretacion en espacios de funciones de los teoremas que se refieren al com-portamiento asintotico de los promedios de variables aleatorias independientesequidistribuidas.

Page 186: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

11.12. Aplicaciones de la convergencia de Fn a F . 175

11.12 Algunas aplicaciones estadısticas de la

convergencia de Fn a F .

Cuando se desea estimar un parametro de una distribucion F , y la informacionempırica que se dispone es una muestra aleatoria simple X1, X2, . . ., Xn deF , suele dar buenos resultados expresar el parametro de la distribucion enterminos de la funcion de distribucion F , y reemplazar F por Fn en esa ex-presion.

La convergencia de Fn a F implicara frecuentemente la convergencia de laexpresion ası obtenida al parametro que se desea describir. De esta manerase consigue un procedimiento asintoticamente adecuado (para n → ∞) dedescripcion del parametro de interes.

Vamos a considerar algunos ejemplos. Naturalmente, en cada caso seranecesario verificar la continuidad de la dependencia del parametro de interesrespecto de la distribucion, o, mas directamente, la convergencia de la ex-presion en Fn hacia la expresion en F .

Ejemplo 11.12.1 Supongamos que nos interesa obtener el valor del parame-tro p de una distribucion de Bernoulli de la que se conoce una muestra aleatoriasimple X1, . . ., Xn.

El parametro p es la esperanza de la distribucion, es decir, p =∫

xdF (x)con F (x) = 0 si x < 0, F (x) = 1 − p si 0 ≤ x < 1 y F (x) = 1 si x ≥ 1. Por lotanto, la integral que se obtiene con Fn en lugar de F

Tn =∫

xdFn(x) = n−1n

j=1

Xj

es calculable a partir de las observaciones, y es de esperar que converja a pcuando n tiende a infinito. En efecto es ası, como lo asegura la Ley de losGrandes Numeros.

Se observara que Tn es una razonable aproximacion de p, al menos para ngrande. Lo confirma, por ejemplo, el calculo de la distancia cuadratica entreTn y p:

E(Tn − p)2 = VarTn = p(1 − p)/n.

(Ver como antecedente §4.3.4).

Nota: Algunas observaciones del ejemplo precedente son generalizables:para estimar la esperanza de una distribucion de la que se posee una muestra(X1, . . . , Xn), es razonable utilizar el promedio Xn = X1+...+Xn

n. El estimador

Page 187: Cabaña - Probabilidad y aplicaciones estadisticas

176Enrique M. Cabana.

Capıtulo 11: Convergencia de variables aleatorias. LGN.

obtenido es insesgado, y si la esperanza de F es finita, la sucesion de promedioses coherente.

Podemos ir un poco mas lejos, e intentar una justificacion heurıstica delmetodo de estimacion de los momentos:

Ejemplo 11.12.2 Llamemos mi(θ) =∫

xidFθ(x) al momento de orden i dela distribucion Fθ. Es de esperar que el momento empırico T (i)

n =∫

xidFn(x)nos de un valor proximo a mi(θ) y que plimT (i)

n = mi(θ). Si la transformacionθ → m1(θ) es invertible y tiene una inversa continua m−1

1 , entonces m−11 (T (i)

n )nos dara un estimador coherente de θ.

Cuando θ = (θ1, θ2) ∈ R2, no es de esperar que θ → m1(θ) sea invert-ible, pero si (θ1, θ2) → (m1(θ1, θ2),m2(θ1, θ2)) lo es, y tiene inversa continuaθ1 = t1(m1,m2), θ2 = t2(m1,m2), entonces (t1(T

(1)n , T (2)

n ), t2(T(1)n , T (2)

n )) seraun estimador coherente de (θ1, θ2).

Ejemplo 11.12.3 Supongamos que queremos obtener un estimador de θ apartir de la muestra X1, . . ., Xn de la distribucion uniforme en (0, θ) cuyafuncion de distribucion llamaremos F .

Una primera observacion, a saber, que θ = 2∫ θ0 xdF (x) (notese que F (x) =

x/θ para 0 < x < θ), nos conduce al estimador Tn = 2∑n

j=1 Xj/n, cuyaconvergencia a θ es de nuevo consecuencia de la Ley de los Grandes Numeros.

Una segunda observacion, que θ es el extremo derecho del soporte de F ,nos lleva a proponer como estimador al extremo derecho del soporte de Fn, esdecir, X(n) = max1≤j≤n Xj.

Ejercicio 11.12.1 Mostrar que el estimador X(n) del ejemplo precedente convergecasi seguramente a θ cuando n → ∞.

Ejercicio 11.12.2 Comparar los dos estadısticos del ejemplo precedente desde elpunto de vista de su distancia cuadratica al parametro θ que pretenden estimar.

Page 188: Cabaña - Probabilidad y aplicaciones estadisticas

12. Convergencia en Ley.

Distribucion normal. Teorema

del Lımite Central.

12.1 Convergencia en ley o en distribucion,

para variables con valores en R.

Definicion 12.1.1 La sucesion Fn de funciones de distribucion de probabili-dad en R converge debilmente a la funcion de distribucion de probabilidad F ,cuando para cada punto de continuidad x de F se cumple

limn→∞Fn(x) = F (x).

La sucesion de variables aleatorias Xn converge en ley o en distribucion ala variable aleatoria X, cuando la sucesion de las distribuciones de probabilidadFXn de las variables Xn converge debilmente a la funcion de distribucion deprobabilidad F de la variable X.

Nota: Se observara que la convergencia en distribucion de una sucesion devariables aleatorias Xn ∼ Fn es una propiedad de la sucesion de sus distribu-ciones, y no requiere ningun tipo de convergencia de las variables aleatoriasconsideradas como funciones definidas en cierto espacio de probabilidad Ω.Mas aun, esas variables pueden tener diferentes espacios de probabilidad comodominio. Sin embargo, cuando todas ellas estan definidas en el mismo espacioy Xn → X c.s., esto implica la convergencia en distribucion, como lo expresael siguiente Teorema.

Teorema 12.1.1 Si X, Xn(n = 1, 2, . . .) son variables aleatorias de (Ω,A,P)en R y lim Xn = X c.s., entonces Xn converge a X en distribucion.

177

Page 189: Cabaña - Probabilidad y aplicaciones estadisticas

178Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

Demostracion. Si x es un punto de continuidad de la funcion de distribucionF de X, y ε es un numero positivo arbitrario, elegimos y > x tal que F (y) <F (x) + ε.

Se cumple entonces

P

m

n≥m

|Xn − X| ≤ y − x

= 1

por la convergencia casi segura de Xn a X, y, por tratarse de la probabilidadde una union creciente, existe m0 tal que

P⋂

n≥m0

|Xn − X| ≤ y − x > 1 − ε, (12.1)

o bien,

P(C) < ε, C =

n≥m0

|Xn − X| ≤ y − x

c

(12.2)

Observamos ademas que, para cualquier entero positivo n, las desigualdadesXn ≤ x y |Xn − X| < y − x implican X < y, de modo que

Xn ≤ x ∩ |Xn − X| < y − x ⊂ X ≤ y (12.3)

Por lo tanto, para n > m0, la definicion de C y (12.3) implican

Xn ≤ x ⊂ Xn ≤ x ∩ |Xn − X| < y − x ∪ C ⊂ X ≤ y ∪ C,

de donde resulta ( por (12.2) y (12.1))

PXn ≤ x ≤ PX ≤ y + ε ≤ PX ≤ x + 2ε. (12.4)

Tomando lımite superior en (12.4) resulta

lim supn→∞

PXn ≤ x ≤ PX ≤ x + 2ε,

y, por ser ε arbitrario, concluimos

lim supn→∞

PXn ≤ x ≤ PX ≤ x.

De manera analoga, o aplicando el mismo razonamiento a las variables−Xn,−X se establece la desigualdad complementaria

lim infn→∞ PXn ≤ x ≥ PX ≤ x.

y ambas implican la conclusion deseada.

Page 190: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.1. Convergencia en ley o en distribucion. 179

Ejercicios.

Ejercicio 12.1.1 Si Xn esta uniformemente distribuida en 1/n, 2/n, . . ., (n−1)/n,1, demostrar que Xn converge en distribucion, y hallar la distribucion lımite.

Si g es una funcion continua en R (o en [0, 1]), encontrar el lımite de Eg(Xn).

Ejercicio 12.1.2 Si Xn ∼ Fn converge en probabilidad a la constante a, entoncesconverge en distribucion a la constante a, es decir, las distribuciones Fn convergendebilmente a la probabilidad concentrada en a.

Verificar que, si g es continua y acotada, Eg(Xn) → Eg(a).

Ejercicio 12.1.3 Si Xn converge en probabilidad a X (es decir, si la sucesion delas diferencias Xn − X converge en probabilidad a la constante 0), entonces Xn

converge en distribucion a X.

Observar que la convergencia casi segura en la hipotesis del Teorema 12.1.1 puedereemplazarse por convergencia en probabilidad.

Ejercicio 12.1.4 Mostrar que si F es una funcion de distribucion, entonces el con-junto de los valores u : Existe mas de un valor de x con imagen u es numerable.

Sugerencia: Observar que cada uno de esos valores de u es imagen de puntos deun cierto intervalo, y que esos intervalos son disjuntos. La cantidad de intervaloscontenidos en (−n, n) constituyen un conjunto numerable, porque hay a lo sumo 2nde longitud mayor o igual que 1, luego a lo sumo 22n de longitud mayor o igual que2−1, 23n de longitud mayor o igual que 2−2, etc. A estos se agregan los que aun noesten considerados, que esten incluidos en (−n − 1, n + 1), que por un argumentoanalogo tambien son un conjunto numerable. Esto se aplica para n = 1, 2, . . . yresulta que el conjunto buscado es numerable, por ser union de una sucesion deconjuntos numerables.

12.1.1 Un recıproco del Teorema 12.1.1.

Teorema 12.1.2 Si la sucesion de variables aleatorias Xn converge en dis-tribucion a X, existe una sucesion de copias X∗

n, definidas en un mismo espaciode probabilidad, que converge casi seguramente a una copia X∗ de X.

(Llamamos copia de una variable Z a una variable Z∗ con la misma dis-tribucion de probabilidad).

Demostracion. Si Fn, F son las funciones de distribucion de Xn, X, y U esuna variable uniforme en [0, 1], construimos X∗

n = F−1n (U), X∗ = F−1(U). Uti-

lizamos para esta construccion, la inversa generalizada definida en el Teorema3.5.1: F−1(u) = infx : F (x) ≥ u.

Page 191: Cabaña - Probabilidad y aplicaciones estadisticas

180Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

Vamos a mostrar que Plimn→∞ X∗n = X∗ = 1. Para ello, empecemos

por observar que cuando x es un punto de crecimiento de F , es decir, cuandocualquiera sea ε > 0, existen y, z tales que x − ε < y < x < z < x + εy F (y) < F (x) < F (z), se cumple entonces F−1(F (x)) = x. En efecto,llamemos u = F (x). Se cumple, por una parte, z ∈ x′ : u ≤ F (x′) de modoque F−1(u) ≤ z ≤ x + ε, y por otra parte, y ∈ x′ : u ≤ F (x′), por loque F−1(u) ≥ y ≥ x − ε. Por ser ε arbitrario, necesariamente debe cumplirseF−1(u) = x.

Para n suficientemente grande, Fn(z) > u, puesto que tiene lımite F (z),y por el mismo argumento aplicado a F , tambien F−1

n (u) < z. De maneraanaloga, para n suficientemente grande, Fn(y) < u y esto implica y < F−1

n (u).Se concluye entonces que x − ε ≤ F−1

n (u) ≤ x + ε, y esto significa queF−1

n (u) tiende a x = F−1(u), porque ε es arbitrario.Para terminar la demostracion, basta verificar que el conjunto F (x) :

x punto de crecimiento de F tiene probabilidad 1 para la distribucion uni-forme en (0, 1), y es suficiente mostrar que tiene probabilidad mayor que 1− εpara ε > 0 arbitrario.

Cada punto x que no es de crecimiento, esta contenido en un intervalo[y, z) en el que F es constante. Como F es no decreciente y continua porla derecha, los intervalos de constancia constituyen un conjunto numerable(ver Ejercicio 12.1.4). Si u1, u2, u3, . . ., son los valores de F en la sucesionde intervalos donde es constante, entonces excluiremos de (0,1) el intervalode longitud 2−1ε centrado en u1, el intervalo de longitud 2−2ε centrado enu2, el intervalo de longitud 2−3ε centrado en u3, . . ., el intervalo de longitud2−iε centrado en ui, . . ., y lo que excluimos de esa manera es un conjunto deprobabilidad acotada por ε. Los puntos no excluidos son de crecimiento, esdecir, PU ∈ F (x) : x punto de crecimiento de F > 1 − ε.

12.1.2 Una caracterizacion de la convergencia en dis-

tribucion.

Teorema 12.1.3 Es condicion necesaria y suficiente para que la sucesion Fn

de funciones de distribucion de probabilidad converja debilmente a la funcionde distribucion de probabilidad F , que para cada funcion g continua y acotada

limn→∞

g(x)dFn(x) =∫

g(x)dF (x).

De manera equivalente, con otra notacion: es condicion necesaria y sufi-ciente para que las variables aleatorias reales Xn converjan en distribucion a

Page 192: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.1. Convergencia en ley o en distribucion. 181

la variable aleatoria X, que para cada funcion g : R → R continua y acotada,

limn→∞Eg(Xn) = Eg(X).

Demostracion de la suficiencia. Dados z de continuidad de F , y ε > 0,construimos las funciones auxiliares continuas y acotadas u−

z,ε(x) = 1x<z−ε+ε−1(z − x)1z−ε≤x≤z y u+

z,ε(x) = 1x<z +ε−1(z + ε − x)1z≤x≤z+ε, que sa-tisfacen las desigualdades 1x≤z−ε ≤ u−

z,ε(x) ≤ 1x≤z ≤ u+z,ε(x) ≤ 1x≤z+ε.

0

1

u−z,ε u+

z,ε

z z + εz − ε

Figura 12.1: Graficos de u−z,ε y de u+

z,ε.

Obtenemos, con Xn ∼ Fn y X ∼ F ,

Fn(z) = E1Xn≤z ≥ Eu−z,ε(Xn),

de donde deducimos

lim infn→∞ Fn(z) ≥ lim

n→∞Eu−z,ε(Xn) = Eu−

z,ε(X) ≥ E1X≤z−ε = F (z − ε),

y, analogamenteFn(z) ≤ Eu+

z,ε(Xn),

lim supn→∞

Fn(z) ≤ limn→∞

Eu+z,ε(Xn) = Eu+

z,ε(X) ≤ E1X≤z+ε = F (z + ε).

Dado que las desigualdades

F (z − ε) ≤ lim infn→∞

Fn(z) ≤ lim supn→∞

Fn(z) ≤ F (z + ε)

valen para todo ε > 0, pasamos al lımite con ε ↓ 0 y la continuidad de F en zimplica que ambos lımites coinciden con F (z).

Demostracion de la necesidad. supongamos g continua y acotada por M .Dado ε > 0 arbitrario, elegimos puntos de continuidad a, b de F tales que F (a)

Page 193: Cabaña - Probabilidad y aplicaciones estadisticas

182Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

< ε/(6M), 1 − F (b) < ε/(6M). La continuidad uniforme de g en [a, b] nospermite encontrar puntos de continuidad de F x0 = a < x1 < x2 < . . . < xk

= b de modo que para cualquier i = 1, 2, . . ., k, si y, z ∈ [xi−1, xi], entonces|g(y) − g(z)| < ε/6.

A partir de esta construccion, definimos las aproximaciones por defecto ypor exceso de g:

g−ε (x) = −M1x≤a +

k∑

i=1

(g(xi) − ε/6)1xi−1<x≤xi − M1b<x,

g+ε (x) = M1x≤a +

k∑

i=1

(g(xi) + ε/6)1xi−1<x≤xi + M1b<x.

Por ser g−ε y g+

ε funciones seccionalmente constantes, es posible expresarlas esperanzas Eg−

ε (Xn), Eg−ε (Xn) de manera sencilla:

Eg−ε (Xn) = −MFn(a) +

n∑

i=1

(g(xi) − ε/6)(Fn(xi) − Fn(xi−1)) − M(1 − Fn(b))

→ −MF (a) +n

i=1

(g(xi) − ε/6)(F (xi) − F (xi−1)) − M(1 − F (b)) = Eg−ε (X),

y, analogamente,

Eg+ε (Xn) → Eg+

ε (X).

Las desigualdades g−ε (x) ≤ g(x) ≤ g+

ε (x) implican

Eg−ε (Xn) ≤ Eg(Xn) ≤ Eg+

ε (Xn),

de modo que, pasando al lımite en n, obtenemos para cada ε

Eg−ε (X) ≤ lim inf Eg(Xn) ≤ lim supEg(Xn) ≤ Eg+

ε (x).

La diferencia entre los extremos Eg+ε (X) −Eg−

ε (X) esta acotada por

2MF (a) + (2ε/6)(F (b) − F (a)) + 2M(1 − F (b)) < ε,

que puede elegirse arbitrariamente pequeno, y ademas, la constante Eg(X)esta comprendida entre ambos extremos para cualquier ε, de modo que seconcluye que ambos lımites, inferior y superior, coinciden con Eg(X).

Page 194: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.2. Distribucion normal en R. 183

Ejercicios.

Ejercicio 12.1.5 Concluir, como consecuencia del Teorema 12.1.3, que, si la su-cesion de variables aleatorias reales (Xn) converge en distribucion a X, entoncessus funciones caracterısticas ψn(t) = EeıtXn convergen para cada t a la funcioncaracterıstica ψ(t) = EeıtX de X.

Ejercicio 12.1.6 (i) Dada la sucesion (Xn) de variables aleatorias i.i.d., expre-sar la funcion caracterıstica ψn(t) de Zn = (

∑ni=1 Xi)/

√n a partir de la funcion

caracterıstica ψ0(t) de X1.

(ii) De la desigualdad |eıy − 1| ≤ |y3|/2 y de un desarrollo de Taylor de segundoorden de eıy, deducir la acotacion |eıy − 1 − ıy + y2/2| ≤ |y|3/2.

(iii) Mostrar que, si X1 tiene esperanza cero, variancia uno y momento de tercerorden finito, entonces limn→∞ ψn(t) = e−t2/2.

(iv) Deducir que, si la sucesion (Zn) converge en distribucion, el lımite tiene quetener funcion caracterıstica ψ(t) = e−t2/2.

Ejercicio 12.1.7 Adaptar la demostracion del Teorema 12.1.3, para obtener elsiguiente resultado similar:

Teorema 12.1.4 Es condicion necesaria y suficiente para que la sucesion Fn de

funciones de distribucion de probabilidad converja a la funcion G en cada punto de

continuidad de G, que para cada funcion g continua con lımites 0 en −∞ y en +∞,

limn→∞

g(x)dFn(x) =

g(x)dG(x).

La funcion G es no decreciente, con recorrido en [0, 1], por ser lımite de unasucesion de funciones de distribucion, pero no es necesariamente una funcion dedistribucion de probabilidades, es decir, puede no tener lımites 0 y 1 en −∞ y en+∞ respectivamente.

12.2 Distribucion normal en R.

Definicion 12.2.1 Decimos que la variable aleatoria real Z tiene distribucionnormal tıpica cuando su densidad de distribucion de probabilidades es

ϕ(z) =1√2π

e−z2/2, z ∈ R.

Notacion: Llamamos Φ a la funcion de distribucion Φ(z) =∫ z

−∞ϕ(t)dt.

Page 195: Cabaña - Probabilidad y aplicaciones estadisticas

184Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-3 -2 -1 0 1 2 3

ϕ

Φ

Figura 12.2: Funcion de distribucion de probabilidades Φ y densidad ϕ (lla-mada campana de Gauss) de una variable normal tıpica.

La figura 12.2 describe la forma de ambas funciones, y la Tabla 12.2 indicaalgunos valores de la funcion de distribucion Φ.

Los valores de la Tabla 12.2 se han obtenido mediante integracion numerica. Las

desigualdades del Ejercicio 12.2.3 permiten obtener aproximaciones de Φ(x) para x

mayor que el maximo valor incluido en la tabla (x > 3).

Las variables normales tıpicas tienen esperanza cero, y variancia uno (verEjercicio 12.2.1). Por lo tanto, cuando Z es normal tıpica, X = µ + σZ tieneesperanza µ y variancia σ2. Esto justifica la definicion siguiente:

Definicion 12.2.2 Decimos que X tiene distribucion normal (µ, σ2), o dis-tribucion normal con media µ y variancia σ2, cuando (X − µ)/σ tiene dis-tribucion normal tıpica.

Nota: A las variables normales tambien se las llama gaussianas.

Ejercicios.

Ejercicio 12.2.1 Mostrar que la funcion generatriz de momentos de una variablegaussiana tıpica Z es

EetZ = et2/2

Page 196: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.2. Distribucion normal en R. 185

Tabla 12.1: Tabla de la funcion de distribucion normal tıpica: Φ(x) =∫ x−∞ ϕ(t)dt, ϕ(x) = e−x2/2√

(2π).

x Φ(x) x Φ(x) x Φ(x) x Φ(x) x Φ(x) x Φ(x).00 .5000 .50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937.01 .5039 .51 .6949 1.01 .8437 1.51 .9344 2.01 .9777 2.51 .9939.02 .5079 .52 .6984 1.02 .8461 1.52 .9357 2.02 .9782 2.52 .9942.03 .5119 .53 .7019 1.03 .8484 1.53 .9369 2.03 .9787 2.53 .9944.04 .5159 .54 .7054 1.04 .8508 1.54 .9382 2.04 .9792 2.54 .9945.05 .5199 .55 .7088 1.05 .8531 1.55 .9394 2.05 .9797 2.55 .9947.06 .5239 .56 .7122 1.06 .8554 1.56 .9406 2.06 .9802 2.56 .9948.07 .5279 .57 .7156 1.07 .8576 1.57 .9417 2.07 .9807 2.57 .9950.08 .5318 .58 .7190 1.09 .8621 1.58 .9429 2.08 .9811 2.58 .9951.09 .5358 .59 .7224 1.08 .8599 1.59 .9440 2.09 .9816 2.59 .9952.10 .5398 .60 .7257 1.10 .8643 1.60 .9452 2.10 .9820 2.60 .9954.11 .5437 .61 .7290 1.11 .8665 1.61 .9463 2.11 .9825 2.61 .9955.12 .5477 .62 .7323 1.12 .8686 1.62 .9473 2.12 .9829 2.62 .9956.13 .5517 .63 .7356 1.13 .8707 1.63 .9484 2.13 .9833 2.63 .9958.14 .5556 .64 .7389 1.14 .8728 1.64 .9494 2.14 .9837 2.64 .9959.15 .5596 .65 .7421 1.15 .8749 1.65 .9505 2.15 .9841 2.65 .9960.16 .5635 .66 .7453 1.16 .8769 1.66 .9515 2.16 .9845 2.66 .9961.17 .5674 .67 .7485 1.17 .8789 1.67 .9525 2.17 .9849 2.67 .9962.18 .5714 .68 .7517 1.18 .8809 1.68 .9535 2.18 .9853 2.68 .9963.19 .5753 .69 .7549 1.19 .8829 1.69 .9544 2.19 .9856 2.69 .9964.20 .5792 .70 .7580 1.20 .8849 1.70 .9554 2.20 .9860 2.70 .9965.21 .5831 .71 .7611 1.21 .8868 1.71 .9563 2.21 .9863 2.71 .9966.22 .5870 .72 .7642 1.22 .8887 1.72 .9572 2.22 .9867 2.72 .9967.23 .5909 .73 .7673 1.23 .8906 1.73 .9581 2.23 .9870 2.73 .9968.24 .5948 .74 .7703 1.24 .8925 1.74 .9590 2.24 .9874 2.74 .9969.25 .5987 .75 .7733 1.25 .8943 1.75 .9599 2.25 .9877 2.75 .9970.26 .6025 .76 .7763 1.26 .8961 1.76 .9607 2.26 .9880 2.76 .9971.27 .6064 .77 .7793 1.27 .8979 1.77 .9616 2.27 .9883 2.77 .9972.28 .6102 .78 .7823 1.28 .8997 1.78 .9624 2.28 .9886 2.78 .9973.29 .6140 .79 .7852 1.29 .9014 1.79 .9632 2.29 .9889 2.79 .9973.30 .6179 .80 .7881 1.30 .9031 1.80 .9640 2.30 .9892 2.80 .9974.31 .6217 .81 .7910 1.31 .9049 1.81 .9648 2.31 .9895 2.81 .9975.32 .6255 .82 .7938 1.32 .9065 1.82 .9656 2.32 .9897 2.82 .9976.33 .6292 .83 .7967 1.33 .9082 1.83 .9663 2.33 .9900 2.83 .9976.34 .6330 .84 .7995 1.34 .9098 1.84 .9671 2.34 .9903 2.84 .9977.35 .6368 .85 .8023 1.35 .9114 1.85 .9678 2.35 .9905 2.85 .9978.36 .6405 .86 .8051 1.36 .9130 1.86 .9685 2.36 .9908 2.86 .9978.37 .6443 .87 .8078 1.37 .9146 1.87 .9692 2.37 .9910 2.87 .9979.38 .6480 .88 .8105 1.38 .9162 1.88 .9699 2.38 .9912 2.88 .9980.39 .6517 .89 .8132 1.39 .9177 1.89 .9706 2.39 .9915 2.89 .9980.40 .6554 .90 .8159 1.40 .9192 1.90 .9712 2.40 .9917 2.90 .9981.41 .6590 .91 .8185 1.41 .9207 1.91 .9719 2.41 .9919 2.91 .9982.42 .6627 .92 .8212 1.42 .9221 1.92 .9725 2.42 .9921 2.92 .9982.43 .6664 .93 .8238 1.43 .9236 1.93 .9731 2.43 .9924 2.93 .9983.44 .6700 .94 .8263 1.44 .9250 1.94 .9738 2.44 .9926 2.94 .9983.45 .6736 .95 .8289 1.45 .9264 1.95 .9744 2.45 .9928 2.95 .9984.46 .6772 .96 .8314 1.46 .9278 1.96 .9750 2.46 .9930 2.96 .9984.47 .6808 .97 .8339 1.47 .9292 1.97 .9755 2.47 .9931 2.97 .9985.48 .6843 .98 .8364 1.48 .9305 1.98 .9761 2.48 .9933 2.98 .9985.49 .6879 .99 .8389 1.49 .9318 1.99 .9767 2.49 .9935 2.99 .9985.50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937 3.00 .9986

Page 197: Cabaña - Probabilidad y aplicaciones estadisticas

186Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

y que la funcion caracterıstica es

EeitZ = e−t2/2.

Calcular todos los momentos de una variable gaussiana tıpica. Verificar que si X esnormal (µ, σ2), entonces valen las formulas:

E(X − µ)2n = σ2n (2n)!

n!2n,E(X − µ)2n+1 = 0, n = 0, 1, 2, . . .

EetX = etµ+(tσ)2/2

y que la funcion caracterıstica es

EeitX = etµ−(tσ)2/2.

Ejercicio 12.2.2 Mostrar que la suma de dos variables gaussianas independienteses gaussiana. Deducir que cualquier combinacion lineal de dos o mas variablesgaussianas independientes es gaussiana.

Ejercicio 12.2.3 Mostrar que cuando Z es normal tıpica y x es positivo, la pro-babilidad 1 − Φ(x) del suceso Z ∈ (x,+∞) satisface las desigualdades :

xϕ(x)

1 + x2< 1 − Φ(x) <

ϕ(x)

x

Ejercicio 12.2.4 Verificar que los cocientes incrementales de ϕ:

ϕ(x + δ) − ϕ(x)

δ

estan uniformemente acotados en valor absoluto por ϕ(1).

12.3 Teorema del Lımite Central para varia-

bles equidistribuidas.

Teorema 12.3.1 Si las variables X1, X2, . . ., Xn, . . . son independientes,equidistribuidas, con esperanzas µ y variancias σ2, entonces para cada x secumple

limn→∞P

X1 + X2 + . . . + Xn − nµ√nσ2

≤ x

=1√2π

∫ x

−∞e−t2/2dt.

Page 198: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.3. TLC para variables equidistribuidas. 187

Ya sabemos, por la Ley de los Grandes Numeros, que, cualquiera sea la dis-tribucion (con esperanza finita) de una muestra aleatoria simple, el promedioXn converge a la esperanza, y por lo tanto, Xn − µ converge a cero. Lo queexpresa el teorema anterior, es que, si para cada n multiplicamos esa diferencia

(aleatoria), que tiende a cero, por el factor√

n/σ2 que tiende a infinito, losproductos resultantes constituyen una sucesion de variables aleatorias cuyasdistribuciones de probabilidad convergen en el sentido de la Definicion 12.1.1a la distribucion normal tıpica, distribucion cuya importancia es considerable,por esta entre otras razones.

Una demostracion parcial del Teorema 12.3.1. Es claro que basta demostrarel teorema en el caso en que las variables tienen esperanza cero y varianciauno. En tal caso, el Ejercicio 12.1.6 muestra que, con la hipotesis adicionalE|X1|3 < ∞, si

∑ni=1 Xi/

√n converge en distribucion, la distribucion lımite

debe tener funcion caracterıstica ψ(t) = e−t2/2. Esta es precisamente la funcioncaracterıstica de la distribucion normal tıpica (ver Ejercicio 12.2.1, y tener encuenta el Corolario 13.10.1.1). El mismo argumento es aplicable a cualquiersucesion parcial de

∑ni=1 Xi/

√n.

Supongamos, para hacer una demostracion por reduccion al absurdo, quela sucesion Fn de las funciones de distribucion de

∑ni=1 Xi/

√n no converge a

la funcion de distribucion Φ(t) de la normal tıpica. La suposicion precedenteimplica que para algun x0, Fn(x0) tiene una sucesion parcial (Fnν (x0))ν∈N queconverge a otro lımite G(x0) = Φ(x0).

El Lema 12.3.1 muestra que Fnν tiene a su vez una sucesion parcial queconverge a una funcion de distribucion G en todos sus puntos de continuidad.

Esta es la contradiccion que buscabamos, porque entonces la funcion ca-racterıstica de Fnν deberıa converger a la funcion caracterıstica de G, y noa e−t2/2. Esta demostracion del Teorema del Lımite Central para variablesequidistribuidas es parcial, porque ha requerido agregar la hipotesis de finituddel momento de tercer orden.

Lema 12.3.1 Bajo las hipotesis del Teorema 12.3.1, cualquier sucesion parcialGn = Fnν de la sucesion Fn de las funciones de distribucion de

∑ni=1 Xi/

√n

tiene una sucesion parcial que converge a una funcion de distribucion G entodos sus puntos de continuidad.

Demostracion. Tomemos una sucesion (xm)m∈N densa en R (por ejemplo,una sucesion que recorra a los racionales).

Verifiquemos en primer lugar que Gn tiene una sucesion parcial que con-verge en cada xm. Para ello utilizaremos una construccion a la que sueledenominarse “proceso diagonal”.

Page 199: Cabaña - Probabilidad y aplicaciones estadisticas

188Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

Como Gn(x1) : n ∈ N es un conjunto acotado (entre 0 y 1), existe unasucesion estrictamente creciente de naturales n1,i tal que Gn1,i

tiene lımite quellamaremos G(x1), cuando i → ∞.

Tambien Gn1,i(x2) : i ∈ N es acotado, de modo que existe una sucesion

parcial n2,i de n1,i tal que Gn2,i(x2) converge a un lımite G(x2) cuando i → ∞.

Ademas, por ser Gn2,i(x1) una sucesion parcial de Gn1,i

(x1), tambien convergea G(x1).

La acotacion de Gn2,i(x3) : i ∈ N asegura ahora la existencia de una

sucesion parcial n3,i de n2,i para la que existe limi→∞ Gn3,i(x3), que llamamos

G(x3). Se cumple ademas limi→∞ Gnj,i(xj) para j < 3.

La continuacion de este procedimiento lleva a construir sucesiones nh,i par-ciales de nh−1,i, para las que existe el lımite limi→∞ Gnh,i

(xh) que denominamosG(xh), y que por ser sucesiones parciales de todas las anteriores, cumplentambien limi→∞ Gnh,i

(xj) = G(xj) para j < h.

La llamada sucesion diagonal ni,i es una sucesion parcial de cada nh,i, apartir de i = h, y por lo tanto cumple

limi→∞

Gni,i(xj) = G(xj)

para cada j.

Dado que cada una de las funciones de distribucion Gni,ies no decreciente,

con valores en [0, 1], tambien el lımite G es no decreciente y tiene recorrido en[0, 1].

Solo resta para terminar la demostracion, verificar que G es una funcion dedistribucion de probabilidades, o, en otras palabras, que su recorrido contieneal intervalo abierto (0, 1). Para ello no basta que G sea lımite puntual defunciones de distribucion, como lo muestra el Ejercicio 12.3.1.

Vamos a mostrar que para cada ε positivo, el recorrido de G contiene alintervalo (ε, 1 − ε). Basta para ello mostrar que existe un intervalo [a, b] talque G(b) − G(a) ≥ 1 − ε. Esto se debe a que pueden encontrarse a, b talesque cada una de las funciones de distribucion Fn satisface la misma propiedad:Fn(b) − Fn(a) ≥ 1 − ε.

La demostracion de este ultimo hecho puede basarse en una aplicacion dela desigualdad de Chebyshev: Como cada Yn =

∑ni=1 Xi/

√n tiene esperanza 0

y variancia 1,

P|Yn| > 1/√

ε ≤ ε

y entonces Fn(1/√

ε) −Fn(−1/√

ε) ≥ 1 − ε, es decir, basta tomar b = −a= 1/

√ε cualquiera sea n.

Page 200: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.3. TLC para variables equidistribuidas. 189

Un mayor cuidado en las acotaciones dentro del mismo contexto permiteeliminar la hipotesis E|X1|3 < ∞, que fue utilizada en la demostracion prece-dente. Posponemos una demostracion del Teorema del Lımite Central paravariables equidistribuidas sin el agregado de esta hipotesis superflua, basadaen una argumentacion diferente, hasta §12.4.

Aprovechamos ahora algunos elementos de la demostracion precedente delTeorema del Lımite Central, para obtener el siguiente resultado, mas gene-ral, del que puede obtenerse nuevamente el Teorema del Lımite Central comocorolario:

Teorema 12.3.2 Si las funciones caracterısticas ψXn(t) = EeıtXn de la su-cesion de variables Xn con valores en R tienen por lımite la funcion carac-terıstica ψX(t) de una variable X, para cada t, entonces (Xn)n=1,2,... convergeen distribucion a X.

Demostracion. Para cada n, llamemos Fn a la funcion de distribucionde Xn. Si el enunciado no fuera cierto, el proceso diagonal utilizado en lademostracion del Lema 12.3.1 muestra que existirıa una sucesion parcial deFn que converge a una funcion G en sus puntos de continuidad, distinta de lafuncion de distribucion F de la variable X. Esta funcion G no tiene por queser una funcion de distribucion de probabilidades.

La hipotesis ψXn(t) → ψX(t) implica, para cada u > 0,

limn→∞

∫ u

0ψXn(t) =

∫ u

0ψX(t).

Por otra parte∫ u

0ψXn(t) =

∫ u

0

(∫ ∞

−∞eıtxdFn(x)

)

dt

=∫ ∞

−∞

[

eıtx

ix

]u

0

dFn(x) =∫ ∞

−∞

eıux − 1

ixdFn(x).

Para el calculo del lımite de esta ultima integral cuando n tiende a infinito, seaplica el Teorema 12.1.4, y esto conduce a

limn→∞

∫ u

0ψXn(t) =

∫ ∞

−∞

eıux − 1

ixdG(x) =

∫ u

0

(∫ ∞

−∞eıtxdG(x)

)

dt.

Concluimos entonces que para cada u vale∫ u

0ψX(t) =

∫ u

0

(∫ ∞

−∞eıtxdG(x)

)

dt

de manera que∫ ∞−∞ eıtxdG(x) es la funcion caracterıstica de X, y esto implica

que G coincide con F .

Page 201: Cabaña - Probabilidad y aplicaciones estadisticas

190Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

Ejercicios

Ejercicio 12.3.1 Mostrar que la sucesion de funciones de distribucion de las va-riables Xn = n + U , U ∼ Uniforme(0, 1) tiene lımite en cada punto de la rectareal, pero ese lımite no es una funcion de distribucion de probabilidades. Obser-var que lo mismo ocurre cualquiera sea la distribucion de probabildades de U , nonecesariamente uniforme.

12.4 Teorema del Lımite Central para arreglos

triangulares de variables independientes.

Teorema 12.4.1 (de Lindeberg) Si k(n) es una sucesion creciente de natura-les, para cada n, Xn,1, Xn,2, . . ., Xn,k(n) son variables independientes, EXn,j

= 0,∑k(n)

j=1 VarXn,j = 1, y lim∑k(n)

j=1 EX2n,j1|Xn,j |>ε = 0 para cada ε > 0,

entonces∑k(n)

j=1 Xn,j converge en distribucion a la normal tıpica N(0, 1).

Posponemos la demostracion hasta §13.13.

Corolario 12.4.1.1 Vale el Teorema del Lımite Central para variables equi-distribuidas (Teorema 12.3.1).

Demostracion. En efecto, es suficiente verificar que si las variables X1, X2,. . ., Xn, . . . son independientes, equidistribuidas, con esperanzas µ y varianciasσ2, entonces el arreglo triangular Xn,j = (Xj−µ)/(

√nσ), j = 1, . . . , n, satisface

las hipotesis del Teorema de Lindeberg.La unica verificacion no trivial es que para cada ε positivo,

limn

j=1

E[(Xj − µ)/(√

nσ)]21|Xj−µ|/(√

nσ)>ε = 0.

Calculamos

n∑

j=1

E[(Xj − µ)/(√

nσ)]21|Xj−µ|/(√

nσ)>ε = σ−2E(X1 − µ)21|X1−µ|>√nσε.

La variable aleatoria cuya esperanza se calcula en el termino de la derecha estauniformemente acotada por (X1 − µ)2, que tiene esperanza finita, y convergea cero cuando n tiende a infinito, de modo que el lımite de las esperanzas escero, por el Teorema de Convergencia Dominada de Lebesgue.

Page 202: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.5. Convergencia en distribucion de estadısticos de orden. 191

12.5 Aplicacion: Un ejemplo de convergencia

en distribucion asociado a los estadısticos

de orden.

En lo que sigue utilizamos las notaciones de §8.11.1, con el agregado de unsuperındice entre parentesis que indica el tamano de la muestra, por ejemplo,el estadıstico de orden h de una muestra U1, . . . , Un de la distribucion uniformeen [0, 1] lo denotaremos U

(n)(h) .

De acuerdo a lo visto en el Ejemplo 8.11.1, y en el Ejercicio 8.11.3, EU(n)(h)

= hn+1

y VarU(n)(h) = h(n−h+1)

(n+1)2(n+2), de modo que cuando se hace tender n a infinito,

con h = h(n) tal que h(n)/(n + 1) → p, la esperanza de U(n)(h) tiende a p y la

variancia tiende a cero, y esto implica que U(n)(h) converge en probabilidad a p.

La variancia del producto Zn(α) = nα(U(n)(h) − p) aun tiende a cero para

α < 1/2, de modo que si lim nα(

h(n)n+1

− p)

= 0, plimn→∞Zn(α) = 0, y esto da

una idea de la rapidez de la convergencia de U(n)(h) a p.

Cuando α es mayor que 1/2, en cambio, la variancia de Zn(α) tiende ainfinito, y en el caso lımite α = 1/2, limn→∞ VarZn(1/2) = p(1 − p). Vamosa verificar que en este caso la sucesion de variables aleatorias Zn = Zn(1/2)converge en distribucion, cuando la rapidez de la convergencia de h(n)/(n+1)a p es suficiente.

Teorema 12.5.1 Cuando 0 < p < 1 y se cumple

limn→∞

√n

(

h(n)

n− p

)

= 0 (12.5)

la sucesion 1√p(1−p)

Zn =√

np(1−p)

(U(n)(h(n)) − p) converge en distribucion a la

normal tıpica.

Demostracion. Tenemos que mostrar que, para todo x,

P

n

p(1 − p)(U

(n)(h(n)) − p) ≤ x

= P

U(n)(h(n)) ≤ p + x

p(1 − p)

n

converge a Φ(x) cuando n tiende a infinito, y, con Bn(p) =∑n

i=1 1Ui≤p ∼Bin(n, p), Bn(δn) =

∑ni=1 1p<Ui≤p+δn ∼ Bin(n, δn), y δn = x

p(1−p)n

, esto

Page 203: Cabaña - Probabilidad y aplicaciones estadisticas

192Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

equivale a verificar que

limn→∞

PBn(p) + Bn(δn) ≥ h(n) = Φ(x). (12.6)

Por el Teorema del Lımite Central aplicado a Bn(p) (suma de variables

independientes de Bernoulli(p)), sabemos que Wn = Bn(p)−np√np(1−p)

converge en

destribucion a la normal tıpica, de modo que para cada x, limPWn ≤ x =Φ(x).

Esto sugiere reescribir la probabilidad que aparece en (12.6) en la forma

P

Bn(p) − np√

np(1 − p)+

Bn(δn) − nδn√

np(1 − p)≥ h(n) − np − nδn

np(1 − p)

(12.7)

que abreviamos PWn + Yn + xn − x ≥ −x con

Yn =Bn(δn) − nδn√

np(1 − p),

xn = − 1√

p(1 − p)

[√n

(

h(n)

n− p

)

−√

nδn

]

→ x (n → ∞).

De EYn = 0, VarYn = nδn(1−δn)np(1−p)

→ 0 (cuando n → ∞), resulta que Yn

converge a cero en probabilidad, y lo mismo ocurre con Yn + xn − x.Para obtener el resultado requerido, basta aplicar la parte (i) del Lema

12.5.1 a la suma de Wn con Yn + xn − x. La conclusion que se obtiene es queWn + Yn + xn − x converge en ley a la normal tıpica, y, como consecuencia ellımite de (12.7) es Φ(x).

Corolario 12.5.1.1 La condicion (12.5) y por lo tanto la conclusion del Teo-rema se cumplen cuando h(n) = [np], h(n) = [np] + 1, o mas en general,cuando h(n) = [np]+m, para cualquier entero fijo m (la notacion [x] significala parte entera de x, esto es, [x] = maxi : i ∈ Z, i ≤ x).

La verificacion es inmediata.

Corolario 12.5.1.2 Cuando, para cada n, X(n)1 , . . . , X(n)

n es una muestra de

tamano n de F , X(n)(h) denota al estadıstico de orden h de la muestra, y F tiene

densidad positiva y continua f , entonces√

np(1−p)

f(F−1(p))(X(n)(h(n)) − F−1(p))

converge en distribucion a la normal tıpica cuando h(n) cumple la condiciondel enunciado del Teorema.

Page 204: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

12.5. Convergencia en distribucion de estadısticos de orden. 193

Demostracion. Podemos pensar que X(n)(h(n)) es el resultado de aplicar la

transformacion canonica F−1 al estadıstico de orden h(n) de una muestra detamano n de la distribucion uniforme en (0, 1). Un desarrollo de Taylor deprimer orden de

F−1(U(n)(h(n))) = F−1(p)) +

1

f(F−1(p + θ(U(n)(h(n)) − p)))

(U(n)(h(n)) − p), 0 < θ < 1

conduce a escribir la sucesion√

np(1−p)

f(F−1(p))(F−1(U(n)(h(n))) − F−1(p)) como

producto de√

np(1−p)

(U(n)(h(n)) − p), que converge a la normal tıpica como conse-

cuencia del Teorema 12.5.1, y el cociente f(F−1(p))

f(F−1(p+θ(U(n)

(h(n))−p)))

, que mostraremos

que converge en probabilidad a 1. La demostracion quedara completa estable-ciendo la parte (ii) del Lema 12.5.1.

Para verificar que plim f(F−1(p))

f(F−1(p+θ(U(n)

(h(n))−p)))

= 1, nos referimos al Ejercicio

11.6.2. De acuerdo a lo que allı se establece, nos basta mostrar que

plimf(F−1(p + θ(U(n)(h(n)) − p))) = f(F−1(p)),

y, por la continuidad de f F−1, basta que plim(U(n)(h(n)) − p) = 0. Esto ultimo

lo hemos verificado directamente en §12.5, y tambien es consecuencia de laparte (i) del Lema 12.5.1 aplicada al producto

√n(U

(n)(h(n)) − p) 1√

n.

Lema 12.5.1 (i) Si Zn converge en distribucion y Xn converge en probabi-lidad a cero, entonces ZnXn converge en probabilidad a cero, y Zn + Xn

converge en distribucion al mismo lımite que Zn.

(ii) Si Zn converge en distribucion y Xn converge en probabilidad a 1, en-tonces ZnXn converge en distribucion al mismo lımite que Zn.

Demostracion de (ii) a partir de (i). Basta escribir ZnXn = Zn+Zn(Xn−1),y notar que plimXn − 1 = 0

Demostracion de (i). Supongamos que Zn converge en distribucion a Zcon funcion de distribucion F y Xn converge en probabilidad a 0. Dado ε > 0,elegimos puntos de continuidad −M, M de F tales que 1−F (M)+F (−M) <ε/2. Luego elegimos N tal que, para n ≥ N , P|Xn| > ε/M < ε/2.

Deducimos que |ZnXn| > ε ⊂ |Zn| > M ∪ |Xn| > ε/M, y entoncesP|ZnXn| > ε ≤ P|Zn| > M + P|Xn| > ε/M < ε, para n ≥ N , y estomuestra que ZnXn converge a cero en probabilidad.

Page 205: Cabaña - Probabilidad y aplicaciones estadisticas

194Enrique M. Cabana.

Capıtulo 12: Convergencia en Ley. Dist. Normal. TLC.

Dado el punto de continuidad x de F , y ε > 0, elegimos δ > 0 tal queF (x + δ) < F (x) + ε/2, y F (x − δ) > F (x) − ε/2 y de modo que x + δ yx − δ sean tambien puntos de continuidad de F . Luego elegimos N tal quesi n ≥ N , P|Xn| > δ < ε/2. Concluimos, por una parte, que el sucesoZn + Xn ≤ x esta contenido en Zn ≤ x + δ ∪ |Xn| > δ y por lo tantoPZn + Xn ≤ x ≤ PZn ≤ x + δ +P|Xn| > δ, y, por otra parte, que sucomplemento Zn+Xn > x esta contenido en Zn > x−δ∪|Xn| > δ y porlo tanto PZn +Xn > x ≤ PZn > x−δ +P|Xn| > δ, y PZn +Xn ≤ x= 1−PZn +Xn > x ≥ 1−PZn > x− δ −P|Xn| > δ = PZn ≤ x− δ−P|Xn| > δ.

Para n ≥ N ,

PZn ≤ x − δ − ε/2 ≤ PZn + Xn ≤ x ≤ PZn ≤ x + δ + ε/2,

y, pasando al lımite cuando n tiende a infinito, resulta

F (x) − ε ≤ F (x − δ) − ε/2 ≤ lim infn→∞ PZn + Xn ≤ x

≤ lim supn→∞

PZn + Xn ≤ x ≤ F (x + δ) + ε/2 ≤ F (x) + ε.

Dado que ε es arbitrario, concluimos que existe el lımite de PZn+Xn ≤ xy que vale F (x).

Page 206: Cabaña - Probabilidad y aplicaciones estadisticas

13. Complementos ydemostraciones omitidas encapıtulos anteriores.

13.1 Teorema de Extension de Probabilidades

de A. N. Kolmogorov.

Repetimos el enunciado para facilitar la lectura: Teorema 3.2.1 Dada unafuncion p en un algebra A0 de subconjuntos de Ω con las propiedades

• p(Ω) = 1,

• para cualquier sucesion A1, A2, . . . , An, . . . de conjuntos disjuntos en A0

cuya union tambien esta en A0, se cumple p(⋃∞

n=1 An) =∑∞

n=1 p(An),

existe una unica probabilidad P en la mınima σ-algebra que contiene al algebradada, cuya restriccion al algebra es p, definida por

P (A) = inf

∞∑

j=1

p(Aj) : (Aj)j∈N cubrimiento disjunto de A en A0

. (13.1)

13.1.1 Demostracion de la existencia.

Paso 1: Definicion de una extension P de p al dominio 2Ω.

Para cada A ⊂ Ω, definimos P (A) mediante (13.1). Llamamos abreviadamentecubrimiento disjunto de A en A0 a cualquier sucesion disjunta (Aj)j∈N de conjuntoscontenidos en A0, cuya union contiene a A.

Se observara que el ınfimo sobre todos los cubrimientos de A en A0, no necesaria-mente disjuntos, coincide con P (A), ya que, por cada cubrimiento (Aj)j∈N en A0,

195

Page 207: Cabaña - Probabilidad y aplicaciones estadisticas

196Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

(Aj = Aj ∩ (⋃

i<j Ai)c)j∈N es un cubrimiento disjunto tambien en A0, y

∑∞j=1 p(Aj)

≤∑∞

j=1 p(Aj).

Vamos a mostrar que la restriccion de P a A0 es p: Dado A en A0, la desigualdadP (A) ≤ p(A) es trivial, pues (A, ∅, ∅, ∅, . . .) es un cubrimiento de A en A0, y p(A) +p(∅) + p(∅) + . . . = p(A). Por otra parte, la inclusion A ⊂

⋃∞j=1 Aj , con (Aj)j∈N

disjuntos, en A0, permite escribir A =⋃∞

j=1(Aj ∩ A), p(A) =∑∞

j=1 p(Aj ∩ A) ≤∑∞

j=1 p(Aj), de modo que p(A) ≤ inf∑∞

j=1 p(Aj) = P (A).

Paso 2: P es monotona: (A ⊂ B implica P (A) ≤ P (B)).

De ∅ ∈ A0 resulta P (∅) = p(∅) = 0, y, dado que cuando A ⊂ B, todo cubrimientode B lo es de A, entonces

ΠB =

∞∑

j=1

p(Aj) : (Aj)j∈N cubrimiento de B en A0

∞∑

j=1

p(Aj) : (Aj)j∈N cubrimiento de A en A0

= ΠA

y resulta la desigualdad

P (A) = inf ΠA ≤ inf ΠB = P (B).

Paso 3: P es subaditiva: para cualquier sucesion (Aj)j∈N de subconjuntos

disjuntos de Ω, P (⋃∞

j=1 Aj) ≤∑∞

j=1 P (Aj)) y P (∅) = 0.

Para cada sucesion disjunta (Aj), y para cada ε > 0, P (⋃∞

j=1 Aj) ≤∑∞

j=1 P (Aj) +ε. Para cada Aj , buscamos un cubrimiento (Aj,k)k=1,2,... en A0 tal que P (Aj) ≥∑∞

k=1 p(aj,k) − ε/2j . El cubrimiento (Aj,k)j,k=1,2,... de⋃∞

j=1 Aj nos lleva a acotar

P (⋃∞

j=1 Aj) ≤∑∞

j,k=1 p(aj,k) ≤∑∞

j=1(P (Aj) + ε/2j) =∑∞

j=1 P (Aj) + ε, y esta es ladesigualdad requerida. Como ε es arbitrario, se concluye la subaditividad.

Paso 4: La familia

A = A : para todo B ⊂ Ω, P (B) = P (B ∩ A) + P (B ∩ Ac)

es un algebra.

Es trivial que A contiene a ∅, y que es cerrada bajo complementos, a partir de ladefinicion. Tambien es cerrada bajo intersecciones, ya que si A,B ∈ A y C es unconjunto cualquiera,

P (C) = P (C ∩ A) + P (C\A) = P (C ∩ A ∩ B) + P ((C ∩ A)\B) + P (C\A)

Page 208: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.1. Extension de probabilidades. 197

≥ P (C ∩ (A ∩ B)) + P (C\(A ∩ B)), (13.2)

por la subaditividad de P , ya que C\(A∩B) = (C\A)∪ (C ∩A)\B. Otra vez usamosla subaditividad para agregar a la cadena de desigualdades (13.2)

P (C ∩ (A ∩ B)) + P (C\(A ∩ B)) ≥ P (C), (13.3)

y esto implica que todas las desigualdades en (13.2) y (13.3) pueden ser reemplazadaspor igualdades, y que, por consiguiente, A ∩ B esta en A.

Al ser A cerrada bajo complementos e intersecciones, tambien lo es bajo uniones.

Paso 5: La familia A introducida en el Paso 4 es una σ-algebra y (Ω,A, P )es un espacio de probabilidad.

Falta verificar que si (An)n∈N ⊂ A, entonces⋃

n∈N An esta en A. La union⋃

n∈N An =⋃

n∈N(An\⋃

j<n Aj) puede escribirse como union disjunta de elementosde A, de modo que no perdemos generalidad al suponer para lo que sigue que los An

son disjuntos.

Para cada n,⋃

j≤n Aj ∈ A, de modo que para cada B,

P (B) = P (B ∩⋃

j≤n

Aj) + P (B\⋃

j≤n

Aj) ≥∑

j≤n

P (B ∩ Aj) + P (B\⋃

j∈N

Aj)

y, pasando al lımite cuando n → ∞, obtenemos

P (B) ≥∑

j∈N

P (B ∩ Aj) + P (B\⋃

j∈N

Aj)

≥ P (B ∩⋃

j∈N

Aj) + P (B\⋃

j∈N

Aj) ≥ P (B)

(las dos ultimas desigualdades por la subaditividad).

Se concluye que⋃

j∈N Aj ∈ A, y ademas, con B =⋃

j∈N Aj , P (⋃

j∈N Aj) =∑

j∈N P (Aj), de modo que P es una probabilidad en (Ω,A).

Paso 6 (ultimo): A0 ⊂ A, y, por lo tanto, A contiene a la σ-algebragenerada por A0.

Dado A ⊂ A0, D cualquiera, y ε arbitrario, cubrimos D por⋃

j Aj , (Aj) ⊂ A0, demodo que P (D) <

j p(Aj) + ε.

Page 209: Cabaña - Probabilidad y aplicaciones estadisticas

198Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

13.1.2 Demostracion de la unicidad.

Supongamos ahora dos probabilidades P , Q sobre la σ-algebra A generada por A0,cuya restriccion a A0 es p, y llamemos M0 a la familia de sucesos en A sobre loscuales P y Q coinciden.

Es inmediato que M0 contiene a A0, por la hipotesis sobre P y Q. Ademas, es cerradabajo complementos y bajo lımites monotonos: En efecto, si A, ∈M0, es decir, si P (A)= Q(A), entonces P (Ac) = 1−P (A) = 1−Q(A) = Q(Ac), de modo que Ac ∈M0. Porotra parte, si An ↑ A, An ∈ M0, entonces P (A) = limn→∞ P (An) = limn→∞ Q(An)= Q(A). Esto ultimo establece que el lımite de una sucesion creciente en M0 tambienesta en M0. Lo mismo ocurre con una sucesion decreciente, ya que su lımite es elcomplemento del lımite de la sucesion de complementos, y se aplican los resultadosya establecidos.

Terminamos la demostracion una vez que establezcamos que cualquier familia deconjuntos M, cerrada bajo lımites monotonos que contiene un algebra A0, tambiencontiene a la σ-algebra A generada por A0. Esto es consecuencia del Lema 13.1.1,que contiene un enunciado mas preciso.

Lema 13.1.1 La mınima σ-algebra A y la mınima familia M cerrada bajolımites de sucesiones monotonas de conjuntos, que contienen un algebra A0,coinciden.

Demostracion: La inclusion M ⊂ A es inmediata, ya que toda σ-algebra es cerradabajo lımites de sucesiones.

Para demostrar la inclusion en sentido inverso, vamos a establecer en primer lugarque M es un algebra. Para ello basta mostrar que

si A, B ∈ M, entonces A ∩ B, A ∩ Bc, Ac ∩ B, Ac ∩ Bc ∈ M (13.4)

En efecto, (13.4) aplicado a A, Ω implica que M es cerrada bajo complementos (Senotara que, puesto que M ⊃ A0, entonces en particular Ω ∈ M). Que M es cerradobajo intersecciones es parte de (13.4), y dado que una union se expresa en terminos deintersecciones y complementos, A∪B = (Ac∩Bc)c, tambien es cerrada bajo uniones.

Una vez demostrado que M es un algebra, se muestra que es una σ-algebra expresandocada union

⋃∞n=1 An, An ∈ M en la forma limn→∞

m≤n Am, y esto implica M ⊃A.

De lo que precede, resulta que para terminar la demostracion, solo falta establecer(13.4).

Dado A ∈ M, llamemos MA al conjunto de los B ∈ M que cumplen (13.4). Si Bn

es una sucesion monotona en MA, entonces A ∩ B = limA ∩ Bn esta en M por serlımite de una sucesion monotona en M, y de la misma manera se cumplen el restode las propiedades que implican que B esta en MA, es decir, MA es cerrada bajolımites de sucesiones monotonas. Cuando A ∈ A0, MA contiene a A0, y por lo tantocoincide con M.

Page 210: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.2. Probabilidad en R, dada su funcion de distribucion. 199

Reformulamos lo que precede en la forma “A ∈ A0, B ∈ M implican la conclusionde (13.4)”, que, por la intercambiabilidad de A y B en esa conclusion, equivale a“A ∈ M, B ∈ A0 implican la conclusion de (13.4)” o bien “MA ⊃ A0 para todo Aen M”. Repetimos el argumento que muestra que MA es cerrada bajo lımites desucesiones monotonas, con lo que obtenemos nuevamente la conclusion “MA contienea A0, y por lo tanto coincide con M”, esta vez para todo A ∈ M. Esto es una manerade reformular (13.4).

13.2 Definicion de una probabilidad en R a

partir de su funcion de distribucion.

Teorema 3.2.2 Si F : R → R satisface las propiedades

(d1) FX es no decreciente,

(d2) FX es continua por la derecha,

(d3) FX(−∞) = 0, FX(+∞) = 1,

entonces existe una probabilidad P(F ) en (R,B) tal que

F (x) = P(F )((−∞, x]).

Demostracion: La probabilidad aludida es la extension de la funcion aditiva p enel algebra de las uniones finitas de intervalos disjuntos de la forma (a, b], −∞ ≤ a ≤b ≤ ∞, que vale p((a, b]) = F (b) − F (a).

Observemos en primer lugar que p es aditiva, es decir, si A, B, son uniones finitas deintervalos semiabiertos, y A∩B = ∅, entonces p(A∪B) = p(A)+p(B). La verificaciones simple: Sugerimos, por ejemplo, considerar el conjunto finito C formado por lospuntos que pertenecen a la frontera de A o a la de B, −∞ y +∞, y el conjuntotambien finito de los intervalos semiabiertos J = (a, b] : a, b ∈ C, (a, b) ∩ C = ∅.De esta construccion resulta que, si JA, JB son los subconjuntos de J formadosrespectivamente por los intervalos contenidos en A, y los contenidos en B, entonces

A =⋃

(a, b] : (a, b] ∈ JA, p(A) =∑

F (b) − F (a) : (a, b] ∈ JA,

B =⋃

(a, b] : (a, b] ∈ JB, p(B) =∑

F (b) − F (a) : (a, b] ∈ JB,

A ∪ B =⋃

(a, b] : (a, b] ∈ JA ∪ JB, p(A ∪ B)

=∑

F (b) − F (a) : (a, b] ∈ JA ∪ JB,

y la conclusion requerida es inmediata.

Page 211: Cabaña - Probabilidad y aplicaciones estadisticas

200Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

Para aplicar el Teorema de Extension (Teorema 3.2.1) es necesario verificar ademasque, cuando una union numerable de uniones finitas de intervalos semiabiertos es ellamisma una union finita de intervalos semiabiertos, entonces aun vale la aditividad.Cuando esta union consta de un solo intervalo, la demostracion es el contenido delLema 13.2.1. Cuando consta de varios, se procede con cada uno por separado de lamisma manera.

Lema 13.2.1 Si F es una funcion con las propiedades (d1), (d2) y (d3) de3.1.2, y (a, b] =

⋃∞j=1(aj, bj], donde ((aj, bj])j=1,2,... es una familia de intervalos

disjuntos, entonces F (b) − F (a) =∑∞

j=1(F (bj) − F (aj)).

Demostracion: Para cada J = 1, 2, . . ., reordenamos los intervalos del conjuntofinito (aj , bj ] : j = 1, 2, . . . , J: Elegimos como primer intervalo al que contienelos numeros mas pequenos, y lo denominamos (aJ

(1), bJ(1)]. Como segundo intervalo,

que denominamos (aJ(2), b

J(2)] elegimos al que contiene los numeros mas pequenos en-

tre los restantes J − 1 intervalos, y ası sucesivamente. De esta manera, las familiasde intervalos (aj , bj ] : j = 1, 2, . . . , J y (aJ

(j), bJ(j)] : j = 1, 2, . . . , J coinciden, y

bJ(j) ≤ aJ

(j+1) para cada j = 1, 2, . . . , J − 1.

Con esta nueva notacion,

J∑

j=1

(F (bj) − F (aj)) =

J∑

j=1

(F (bJ(j) − F (aJ

(j)))

= F (bJ(J)) − F (aJ

(1)) −J−1∑

j=1

(F (aJ(j+1)) − F (bJ

(j))) ≤ F (bJ(J)) − F (aJ

(1))

porque la ultima suma tiene todos sus terminos no negativos.

De F (bJ(J)) ≤ F (b), F (aJ

(1)) ≥ F (a) resulta la desigualdad∑J

j=1(F (bj) − F (aj)) ≤

F (b) − F (a), que vale para todo J y por lo tanto implica

∞∑

j=1

(F (bj) − F (aj)) ≤ F (b) − F (a). (13.5)

Para demostrar la desigualdad opuesta, nos basamos en que cada intervalo cerradoen R (como cualquier conjunto cerrado y acotado en R

d) es compacto (Teorema deHeine-Borel). Esto significa, aplicado al intervalo [c, b], que si la union de una familiaF de conjuntos abiertos

A : A ∈ F cubre (contiene) a [c, b], hay una subfamiliafinita F0 ⊂ F cuya union

A : A ∈ F0 tambien cubre al mismo intervalo 1.

1Lo verificamos por reduccion al absurdo: Si no la hubiere, una de las dos mitades[c, (c + b)/2] o [(c + b)/2, b] tampoco podrıa cubrirse con la union de una subfamilia finita,ya que si ambas mitades admitieran un cubrimiento finito, la union de ambos cubrimientos,que tambien es una union finita de abiertos de F , serıa un cubrimiento de todo el intervalo.Llamemos [c1, b1] a una de las mitades, que no admita un cubrimiento finito. Por el mismo

Page 212: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.3. Propiedades de esperanzas e integrales. 201

Dado ε > 0, elegimos c ∈ (a, b) tal que F (c)−F (a) < ε/2. La seleccion de c es posiblepor la continuidad de F en a por la derecha. Para cada j, elegimos cj > bj tal queF (cj)−F (bj) ≤ ε/2j+1, lo que tambien es posible por la continuidad a la derecha deF en bj . Se deduce que

⋃∞j=1(aj , cj) ⊃

⋃∞j=1(aj , bj ] = (a, b] ⊃ [c, b], de modo que, por

la compacidad, hay una union finita que cubre [c, b]:

J⋃

j=1

(aj , cj) ⊃ [c, b].

De esta ultima inclusion se deduce la desigualdad

F (b) − F (c) ≤J

j=1

(F (cj) − F (aj)),

y por la seleccion de c, c1, c2, . . .,

F (b) − F (a) − ε/2 ≤J

j=1

(F (bj) − F (aj) + ε/2j+1) ≤∞∑

j=1

(F (bj) − F (aj)) + ε/2.

Esto equivale a F (b) − F (a) ≤∑∞

j=1(F (bj) − F (aj)) + ε, y, por ser ε arbitrario,

F (b) − F (a) ≤J

j=1

(F (bj) − F (aj)). (13.6)

De (13.5) y (13.6) resulta la igualdad requerida.

13.3 Algunas propiedades de las esperanzas y

de las integrales.

13.3.1 Monotonıa, linealidad y σ-aditividad de esperan-zas e integrales.

Monotonıa.

La demostracion del Lema 6.3.2, se aplica tanbien al caso de la integral respectode µ, reemplazando P por µ. Ademas de justificar la coherencia de la definicion de

argumento, al menos una de las mitades de [c1, b1], que llamaremos [c2, b2], tampoco admiteun cubrimiento finito. Continuamos aplicando el mismo argumento a [c2, b2], y ası sucesi-vamente, para obtener una sucesion de intervalos [ci, bi] que no admiten ser cubiertos poruniones finitas de elementos de F , cada uno mitad del anterior, es decir, bi − ci = (b− c)/2i,bi+1 = bi o ci+1 = ci, i = 1, 2, . . .. Las sucesiones monotonas (ci), (bi) tienen un lımitecomun ci ↑ m, bi ↓ m, contenido en [c, b], y por lo tanto cubierto por un A0 ∈ F . Para i su-ficientemente grande, [ci, bi] ⊂ A0 (porque A0 es abierto), y esto contradice la construccion,puesto que basta un solo elemento de F para cubrir uno de los intervalos ([ci, bi]). Quedaası verificada la compacidad de [c, b].

Page 213: Cabaña - Probabilidad y aplicaciones estadisticas

202Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

la integral, tiene como consecuencia inmediata que si 0 ≤ X ≤ Y y X es simple,entonces

Xdµ ≤∫

Y dµ.

De aquı resulta la monotonıa de la integral, expresada en la primera parte del Teorema7.3.2, para integrandos no negativos. La monotonıa para integrandos cualesquiera esinmediata a partir de la reduccion de la integral a diferencia entre la integral de laparte positiva menos la integral de la parte negativa del integrando.

Linealidad.

Para demostrar la linealidad, segunda parte del enunciado del Teorema 7.3.2, puedeprocederse en pasos sucesivos que imitan los que conducen a la definicion de la integral.

Paso 1: Linealidad para integrandos simples. Si X =∑

i xi1Ai, Y =

j yj1Bj,

xi, yj > 0, entonces αX + βY , α, β > 0, es tambien una funcion simple, y∫

(αX +βY )dµ =

(∑

i αxi1Ai+

j βyj1Bj)dµ =

i αxiµ(Ai) +∑

j βyjµ(Bj) es lo mismo

que α∫

Xdµ+β∫

Y dµ (el resultado +∞ no esta excluido). La extension a funcionessimples y coeficientes de signo cualquiera, en el caso en que los integrandos son inte-grables, es inmediata, como consecuencia de sumar por separado los terminos de unoy otro signo.

Paso 2: Linealidad para integrandos y coeficientes no negativos. Cuando X, Y sonno negativas, las aproximamos por sucesiones de funciones simples 0 ≤ Xn ↑ X,0 ≤ Yn ↑ Y , y la ecuacion

(αX + βY )dµ = α∫

Xdµ + β∫

Y dµ resulta de pasaral lımite en la igualdad

(αXn + βYn)dµ = α∫

Xndµ + β∫

Yndµ cuya validez se haestablecido en el Paso 1.

Paso 3: Linealidad para integrandos y coeficientes cualesquiera. Surge del resultadodel Paso 2, de manera elemental, aunque algo trabajosa. El detalle para el casoα, β > 0, es el siguiente: Para establecer que

(αX + βY )dµ =∫

(αX + βY )+dµ −∫

(αX + βY )−dµ es lo mismo que α∫

Xdµ + β∫

Y dµ = α∫

X+dµ + β∫

Y +dµ −α

X−dµ − β∫

Y −dµ, hay que verificar la igualdad∫

(αX + βY )+dµ + α∫

X−dµ+ β

Y −dµ =∫

(αX + βY )−dµ + α∫

X+dµ + β∫

Y +dµ.

A esta ultima expresion le podemos aplicar el Paso 2, que nos permite escribirla enla forma

[(X + Y )+ + X− + Y −]dµ =

[(X + Y )− + X+ + Y +]dµ, (13.7)

con X = αX, Y = βY . La igualdad (13.7) se debe a que los integrandos coinciden:

(X + Y )+ + X− + Y − − (X + Y )− − X+ − Y + = (X + Y ) − X − Y = 0.

σ-aditividad.

Se establece a partir de la linealidad y del Teorema 7.3.4 de Convergencia Monotona,cuando el integrando es no negativo, o del Teorema 7.3.6 de Convergencia Dominada,

Page 214: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.5. Producto de probabilidades. 203

cuando es integrable: Si (An)n∈N es una sucesion disjunta,

n

An

Xdµ = limn→∞

m≤n

An

Xdµ = limn→∞

1⋃

m≤nAn

Xdµ

=

limn→∞

1⋃

m≤nAn

Xdµ =

n∈NAn

Xdµ.

13.3.2 Calculo de lımites.

En §6.5.3, con las notaciones que corresponden al calculo de esperanzas, sedemuestran teoremas de pasaje al lımite que tambien son validos cuando lasesperanzas se reemplazan por integrales. Las demostraciones para integralesrespecto de medidas no necesariamente unitarias, son las mismas.

13.4 Cambio de variables en una integral.

Teorema 13.4.1 Dada la funcion medible X : (Ω,A, µ) → (E ,B), llamemosµX a la medida µX(B) = µ(ω : X(ω) ∈ B inducida por X en B, a partir deµ. Valen entonces los dos enunciados siguientes:

• Si g : (E ,B) → (F , C) es una funcion medible no negativa, entonces∫

X−1(B)g Xdµ =

BgdµX . (13.8)

• Son equivalentes “g es integrable respecto de µX” y “g X es integrablerespecto de µ”, y en tal caso, vale (13.8).

La validez de (13.8) es trivial cuando g es la indicatriz de un conjunto en B, y por lalinealidad de ambos terminos respecto de la funcion g, (13.8) se extiende a funcionessimples. Dado que cuando una sucesion de funciones simples (gn) aproxima g ≥ 0monotonamente (0 ≤ gn ↑ g), entonces tambien 0 ≤ gn X ↑ g X, se extiende lavalidez de (13.8) a g ≥ 0 por convergencia monotona.

Al aplicar (13.8) a |g|, se deduce en particular la equivalencia de las integrabilidadesde g y g X, y la validez de (13.8) aplicada a g integrable resulta de separar g =g+ − g−, y aplicar el mismo resultado que se acaba de establecer para funciones nonegativas a g+ y a g− por separado.

Corolario 13.4.1.1 En particular, cuando X es una variable aleatoria realcon funcion de distribucion F ,

Eg(X) =∫

g XdP =∫

gdPX =∫

g(x)dFX(x).

Page 215: Cabaña - Probabilidad y aplicaciones estadisticas

204Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

13.5 Producto de probabilidades, Teorema de

Fubini.

Definicion 13.5.1 Dados los espacios de probabilidad (Ω1,A1), y (Ω2,A2), sellama producto de ambos al nuevo espacio de probabildad (Ω1×Ω2,A1×A2),donde Ω1 × Ω2 designa como es habitual al producto cartesiano (ω1, ω2) :ω1 ∈ Ω1, ω2 ∈ Ω2, y A1 × A2 es la llamada σ-algebra producto de A1

y A2, que es la mınima σ-algebra que contiene a los productos cartesianosA1 × A2 : A1 ∈ A1, A2 ∈ A2.

Dadas las probabilidades P1 en (Ω1,A1) y P2 (Ω2,A2), llamamos proba-bilidad producto P = P1×P2 a la probabilidad en (Ω1×Ω2,A1×A2) que acada suceso en A que es un producto cartesiano de sucesos A1 ∈ A1, A2 ∈ A2,asocia P(A1 × A2) = P1(A1)P2(A2).

Para asegurar la coherencia de la definicion precedente, es necesario verificar quela funcion de conjunto P definida sobre los productos cartesianos de sucesos se ex-tiende a una probabilidad en la σ-algebra producto. Esta verificacion es parte de lademostracion del Teorema 13.5.1.

Lema 13.5.1 Cuando A ∈ A1 ×A2 sus secciones Aω1= ω2 : (ω1, ω2) ∈ A,

Aω2= ω1 : (ω1, ω2) ∈ A estan en A2,A1, respectivamente, para cada ω1 ∈ Ω1

y cada ω2 ∈ Ω2, y cuando X : (Ω1 × Ω2,A1 × A2) → (E ,B) es una funcionmedible, entonces X(ω1, ·) : (Ω2,A2) → (E ,B) y X(·, ω2) : (Ω1,A1) → (E ,B)son medibles para cada ω1 y cada ω2.

Teorema 13.5.1 (Teorema de Fubini.) Cuando X : (Ω1 × Ω2,A1 × A2) →(E ,B) es, o bien no negativa, o bien integrable respecto de la probabilidadproducto P = P1 × P2, entonces

E(X) =∫

XdP =∫

(∫

X(ω1, ω2)dP2(ω2))

dP1(ω1)

=∫

(∫

X(ω1, ω2)dP1(ω1))

dP2(ω2). (13.9)

Demostracion del Teorema de Fubini:

Paso 1: X indicatriz de un suceso producto A = A1 × A2.

Cuando X(ω1, ω2) = 1A(ω1, ω2) = 1A1(ω1)1A2

(ω2), hay que verificar que∫

XdP =P(A) es igual a

∫ (∫

1A1(ω1)1A2

(ω2)dP1(ω1))

dP2(ω2) =∫

1A1(ω1)P2(A2)dP1(ω1) =

Page 216: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.6. Integracion en Rd. 205

P1(A1)P2(A2), y esto es precisamente lo que establece la definicion de la probabilidadproducto.

Paso 2: X indicatriz de un suceso A ∈ A1 × A2, y verificacion de la coherencia dela definicion de probabilidad producto.

Del Paso 1 resulta una consecuencia interesante: En virtud del Lema 13.5.1 la funcionde conjunto

A →

∫(

1A(ω1, ω2)dP2(ω2)

)

dP1(ω1) (13.10)

esta bien definida por medio de las integrales para todo A medible en la σ-algebraproducto, y, como consecuencia de las propiedades de las integrales, es σ-aditiva.Por otra parte, coincide con el producto de las probabilidades de los factores cuandoA = A1 × A2 como lo muestra el calculo que precede. Por lo tanto, se concluyela coherencia de la definicion de la probabilidad producto, y esta puede expresarsemediante (13.10). Por un argumento en el que se intercambian los papeles de ω1 yω2, se establece que tambien P(A) =

∫ (∫

1A(ω1, ω2)dP1(ω1))

dP2(ω2). En resumen,vale (13.9) para indicatrices de sucesos.

Pasos restantes: extension sucesiva hasta el caso general, de la manera habitual.

Una vez verificada la validez de (13.9) para indicatrices, las igualdades se extiendena variables simples por la linealidad, y a variables no negativas por la convergenciamonotona, ya que una y otra son aplicables en cada termino de la ecuacion a estable-cer. Se extiende luego a variables integrables X = X+ − X−, aplicando (13.9) porseparando a X+ y a X−.

Demostracion del Lema 13.5.1: Para cada ω1 ∈ Ω1 introducimos la funcion ψω1:

Ω2 → Ω1 × Ω2 definida por ψω1(ω2) = (ω1, ω2). Dado que para cada A1 ∈ A1,

A2 ∈ A2, ψ−1ω1

(A1 × A2) es A2 si ω1 ∈ A1 o ∅ en caso contrario, y en ambos casosψ−1

ω1(A1 × A2) ∈ A2, se deduce que las preimagenes de los sucesos de la σ-algebra

generada por los productos A1 × A2 esta contenida en A2, y esto significa que ψω1:

(Ω2,A2) → (Ω1 × Ω2,A1 ×A2) es medible.

Como consecuencia,

Aω1= ψ−1

ω1(A) ∈ A2,

y

X(ω1, ·) = X ψω1composicion de funciones medibles, es medible.

Estas dos ultimas conclusiones y las que se obtienen intercambiando el papel de lascoordenadas ω1 y ω2 terminan la demostracion.

Nota: Los resultados de esta seccion se extienden de probabilidades a me-didas σ-finitas a partir de la representacion de estas ultimas mediante combi-naciones lineales de probabilidades.

Page 217: Cabaña - Probabilidad y aplicaciones estadisticas

206Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

13.6 Integral de Lebesgue y densidades en Rd.

La medida de Lebesgue λ en Rd es la que a cada producto cartesiano B1 ×. . . × Bd de conjuntos de Borel Bi en R (i = 1, . . . , d) asocia el producto desus medidas de Lebesgue unidimensionales

λ(B1 × . . . × Bd) =d

i=1

λ(Bi).

Esta medida esta definida en la mınima σ-algebra B(d) que contiene a losproductos de conjuntos de Borel, que es la σ-algebra de Borel de Rd.

La integral de Lebesgue en Rd es la integral respecto de λ .De la misma manera que en el caso unidimensional, cuando X : Ω → Rd

tiene distribucion PX en (Rd,B(d)) absolutamente continua respecto de λ,decimos que la distribucion de X es absolutamente continua sin hacer mencion

expresa de la medida de Lebesgue. A la densidad f = dPx

dλla llamamos

densidad de PX y esta funcion satisface

PX ∈ S = PX(S) =∫

Sf dλ (13.11)

para cualquier S en B(D).Las observaciones limitativas de §8.1 sobre las regiones S donde vale (8.2)

se deben a que se sobreentiende que la integral a la que se refiere el contextoes la de Riemann. Al enunciar la validez de (8.2), en el caso d = 2, sobrerectangulos, uniones de rectangulos, o regiones tales como S = (x, y) : a ≤x ≤ b, c(x) ≤ y ≤ d(x) con c, d continuas en [a, b], lo que se procura garantizares la existencia de la integral de Riemann. Al utilizar la integral de Lebesgue,estas limitaciones son innecesarias, como acabamos de establecer al enunciar(13.11).

Cuando la integral de Riemann∫∫

A f(x, y)dx dy existe, y f es λ-integrable,entonces

∫∫

A f dx dy =∫

f1Adλ. Un enunciado analogo vale para cualquierd > 2. La demostracion es similar a la del Teorema 7.4.1.

13.7 Una distancia entre probabilidades.

Supongamos que las probabilidades P y Q tienen densidades p y q respec-tivamente, respecto de una medida µ. La diferencia P (A) − Q(A) puedeentonces escribirse por medio de la integral

A(p − q)dµ. Esta expresion al-canza su maximo valor en el conjunto A+ = p > q, y su mınimo (nega-tivo) en A− = p < q. La suma de los valores absolutos de estos extremos,

Page 218: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.8. Normas Lp. 207

que tambien puede escribirse en la forma∫

A+(p − q)dµ −∫

A−(p − q)dµ =∫

(1A+ − 1A−)(dP − dQ), coincide con

P − Q = max|f |≤1

fd(P − Q), (13.12)

como es facil verificar a partir de esta ultima forma de escritura.La expresion (13.12) puede utilizarse como un indicador de la distancia

entre las probabilidades P y Q.Nota: Se observara que, aunque la medida µ no juega ningun papel en el

resultado

P − Q = maxA

(P (A) − Q(A)) + maxA

(Q(A) − P (A))

el razonamiento solo se aplica, en principio, a probabilidades que tengan den-sidad respecto de alguna medida µ, pues se requiere utilizar esas densidadespara verificar la existencia de los maximos involucrados, e incluso encontrar enque sucesos se producen. Sin embargo, el Teorema 7.6.1 asegura la existenciade tal medida µ, por ejemplo, µ = P + Q.

Ejercicio 13.7.1 Mostrar que (13.12) tiene las propiedades de una distancia entreprobabilidades, a saber,

• P − Q ≥ 0, con igualdad si y solo si P = Q, y

• P − R ≤ P − Q + Q − R , para cualesquiera probabilidades P, Q,R.

13.8 Normas Lp en espacios de clases de equi-

valencia de funciones medibles.

Es facil verificar que la distancia P − Q entre las probabilidades P y Q condensidades respectivas p y q respecto de µ dada por la formula 13.12 coincidecon

|p − q|dµ. Al expresarla de esta manera, en terminos de las densidades,resulta natural preguntarse si esta distancia entre las probabilidades puede sertambien interpretada como una distancia entre las funciones de densidad p yq.

La respuesta es que no, porque dos funciones distintas, pero que difieransolo sobre un conjunto de medida nula (es decir, µp = q = 0) cumplen∫

|p − q|dµ = 0. Esto no contradice que la misma integral mida la distanciaentre las probabilidades cuyas densidades son p y q, ya que cuando µp = q

Page 219: Cabaña - Probabilidad y aplicaciones estadisticas

208Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

= 0, para todo conjunto medible A,∫

A pdµ =∫

A qdµ, y entonces p y q sondensidades de la misma medida.

Esta observacion sugiere introducir las clases de equivalencia de funcionesque difieren entre sı en conjuntos de medida nula:

Definicion 13.8.1 Dos funciones medibles f, g : (Ω,A, µ) → R son equiva-lentes (o µ-equivalentes, cuando la medida a la que se asocia esta definicionno es obvia dentro del contexto) cuando µf = g = 0.

Notacion: Denotaremos la clase de equivalencia de una funcion f mediante el mismosımbolo f que denota a la funcion.

Lema 13.8.1 En el conjunto de las clases de µ-equivalencia de funciones me-dibles f de (Ω,A, µ) en R con la propiedad

|f |dµ < ∞, ‖f‖1 =∫

|f |dµ esuna norma, y d1(f, g) =

|f − g|dµ es una distancia.

Notacion: En expresiones tales como ‖f‖1 =∫

|f |dµ, el sımbolo f en el primermiembro denota una clase de equivalencia de funciones, y el mismo sımbolo f en elsegundo miembro designa una cualquiera de las funciones representantes de esa clase.La coherencia de la notacion se debe a que cualquiera sea la funcion de la clase quese use como integrando, el resultado es el mismo.

Corolario 13.8.1.1 La distancia P −Q entre las probabilidades P con densi-dad p y Q con densidad q es igual a la distancia ‖p− q‖1 entre las densidades.

Ejercicio 13.8.1 Verificar que la afirmacion del Lema 13.8.1 referente a d1 esconsecuencia del resultado del Ejercicio 11.2.3, y demostrar la afirmacion relativa a‖ · ‖1.

Ejercicio 13.8.2 Mostrar que ‖ · ‖1 no esta inducida por un producto interno.Sugerencia: Si lo estuviera, el Ejercicio 11.2.2 permite encontrarlo. Sin embargo elpresunto producto interno que se escribe en terminos de la norma no cumple laspropiedades que debe cumplir un producto interno.

El siguiente enunciado generaliza al del Lema 13.8.1:

Teorema 13.8.1 (Espacios Lp.) En el conjunto Lp(Ω,A, µ) de las clases de µ-equivalencia de funciones medibles f : (Ω,A, µ) → R con la propiedad

|f |pdµ< ∞, ‖f‖p = (

|f |pdµ)1/p es una norma, y dp(f, g) = (∫

|f − g|pdµ)1/p es unadistancia, cuando p es mayor o igual que 1.

Page 220: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.9. Densidad de una medida. 209

Demostracion. Basta mostrar que ‖f‖p = (∫

|f |pdµ)1/p define una norma.La unica propiedad no inmediata a verificar es que para cualesquiera f, g enLp(Ω,A, µ), ‖f + g‖p ≤ ‖f‖p +‖g‖p.

El caso p = 2 esta esencialmente tratado en el Ejercicio 11.2.1, ya quelos mismos argumentos utilizados en la demostracion del Teorema 11.2.1 seaplican para mostrar que (f, g) →

fgdµ es un producto interno.El caso p = 1 es el del Teorema 13.8.1, ya establecido, y supondremos en

lo que sigue p > 1. Observamos en primer lugar que no se pierde generalidadsi se suponen f y g no negativas. Bajo esta suposicion, escribimos

(f + g)pdµ =∫

f(f + g)p−1dµ +∫

g(f + g)p−1dµ,

y la desigualdad que queremos establecer es equivalente a∫

f(f + g)p−1dµ +∫

g(f + g)p−1dµ ≤ (‖f‖p + ‖g‖p)‖f + g‖p−1p .

Vamos a verificar por separado∫

f(f + g)p−1dµ ≤ ‖f‖p‖f + g‖p−1p , (13.13)

g(f + g)p−1dµ ≤ ‖g‖p‖f + g‖p−1p .

Basta considerar la primera de estas desigualdades, porque la otra se obtiene in-

tercambiando f con g. Introducimos las notaciones h =[

f‖f‖p

]p, k =

[

f+g‖f+g‖p

]p,

con lo que (13.13) se expresa en la forma∫

h(1/p)k(p−1)/pdµ ≤ 1.Vamos a utilizar la siguiente desigualdad, que demostramos por separado

(ver Lema 13.8.2 y tomar la exponencial):

0 ≤ α ≤ 1, x, y > 0, implican xαy(1−α) ≤ αx + (1 − α)y.

La aplicamos con x = h, y = k y α = 1/p, y obtenemos∫

h(1/p)k(p−1)/pdµ ≤1

p

hdµ + (1 −1

p)∫

kdµ = 1,

porque∫

hdµ =∫

[f/‖f‖p]pdµ =

fpdµ/‖f‖p = 1, y tambien, analogamente,∫

kdµ = 1. Esto termina la demostracion.

Lema 13.8.2 La funcion log tiene derivada segunda negativa, y, como con-secuencia, cada punto del segmento que une los puntos (x, log x), (y, log y) desu grafico, esta por debajo del grafico, es decir, para cada α entre 0 y 1,

log(αx + (1 − α)y) ≥ α log x + (1 − α) log y.

Demostracion. Esta incorporada al enunciado.

Page 221: Cabaña - Probabilidad y aplicaciones estadisticas

210Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

13.9 Densidad de una medida absolutamente

continua.

Con motivo del Corolario 7.3.3.1 hemos considerado diferencias de medidas, quehemos llamado medidas con signo en esa oportunidad. En la seccion §13.7 se observoque la medida con signo P − Q alcanza su maximo sobre un conjunto A+ y sumınimo sobre un conjunto A−. Es inmediato que sobre el complemento de A+ ∪ A−

P −Q se anula, de modo que podemos establecer que existe un suceso C (que puedeelegirse igual a A+ o a (A−)c) sobre el cual P − Q alcanza su maximo, y sobre cuyocomplemento alcanza su mınimo. Mas aun, P − Q es no negativa sobre cualquiersubconjunto de C y no positiva sobre cualquier subconjunto de su complemento.

Este resultado se obtuvo en §13.7 a partir de las densidades de las medidas involu-cradas P y Q. Sin embargo, puede establecerse de manera directa, y lo haremos parautilizarlo como insumo en la demostracion del Teorema que demuestra la existenciade la densidad.

Definicion 13.9.1 Llamamos una medida con signo en un espacio de me-dida (Ω,A) a una funcion σ-aditiva con dominio A y recorrido en R∪ +∞o bien en R ∪ −∞.

Lema 13.9.1 (Descomposicion de Jordan-Hahn). Dada la medida con signoψ en (Ω,A), finita, existe un conjunto medible C tal que para cualquier A ∈A, A ⊂ C, se cumple ψ(A) ≥ 0, y para cualquier A ∈ A, A ∩ C = ∅, secumple ψ(A) ≤ 0. Como consecuencia, ψ es maxima en C y mınima en sucomplemento.

Demostracion. Llamemos M al extremo superior de ψ(A) : A ∈ A, y consideremosuna sucesion (An)n∈N tal que ψ(An) → M , cuya union llamamos A∞. Para cada nse considera la familia In de las 2n intersecciones de la forma

⋂ni=1 A∗

i , donde cada A∗i

es Ai o A∞ \ Ai, y se definen Bn =⋃

C : C ∈ In, ψ(C) > 0. De esta construccionresulta ψ(An) ≤ ψ(Bn).

Complementamos la construccion con Cm =⋃

m≥n Bm. A medida que m crece, elagregado de cada Bm agranda la union con conjuntos sobre los cuales ψ es no negativa.Por lo tanto, ψ(Bn) ≤ ψ(Cn).

Reunimos esta desigualdad con la obtenida anteriormente, y recordamos que ψ estaacotada por M , de modo que ψ(An) ≤ ψ(Cn) ≤ M . La sucesion Cn es monotona.Llamemos C a su lımite, y pasemos al lımite en las desigualdades anteriores cuandon tiende a infinito. Obtenemos M ≤ ψ(C) ≤ M , es decir, ψ(C) alcanza el valormaximo M .

Como consecuencia, sobre cualquier subconjunto medible del complemento de C, ψdebe ser no positiva, pues de lo contrario, agregandolo a C tendrıamos un valor mayorpara ψ. Analogamente, sobre cualquier subconjunto medible de C ψ es no negativa,porque en caso contrario, quitandolo obtendrıamos un valor de ψ aun mayor.

Page 222: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.9. Densidad de una medida. 211

Corolario del Lema 13.9.1Si τ << µ son dos medidas finitas en (Ω,A) yτ(Ω) > 0, entonces existe una funcion medible f no negativa tal que

f dµ > 0,y para todo A medible,

A f dµ ≤ τ(A). En particular, puede elegirse f iguala un multiplo de la indicatriz de un suceso.

Demostracion: La medida con signo definida por ψ(A) = τ(A) −∫

Ac dµ alcanza

un valor positivo en Ω cuando c se elige adecuadamente, por ejemplo, c = τ(Ω)2µ(Ω) . Por

lo tanto, el conjunto C donde es positiva, de la descomposicion de Jordan-Hahn esno trivial, y en el se cumple ψ(C) ≥ ψ(Ω) = 1

2τ(Ω).

Para cualquier A ⊂ C, ψ(A) = τ(A) −∫

Ac dµ > 0, de modo que la funcion f = c1C

tiene las propiedades que se indican en el enunciado.

13.9.1 Demostracion del Teorema de Radon-Nikodym.

Repetimos el enunciado del Teorema 7.6.1 para facilidad de referencia:Cuando τ es una medida σ-finita absolutamente continua respecto de la

medida σ-finita µ, existe la densidad de τ con respecto a µ, es decir, existeuna funcion medible g (que se denota dτ/dµ), tal que para todo A medible,τ(A) =

A gdµ. La densidad es esencialmente unica, es decir, si h es tambienuna densidad (porque es una funcion medible que cumple τ(A) =

A hdµ paratodo A medible), entonces µg = h = 0.

Para el caso en que τ es una probabilidad P , y µ es una medida finita, elenunciado expresa que, si P es absolutamente continua respecto de µ, entoncesexiste la densidad p de P con respecto a µ, tal que para todo suceso A, P (A) =∫

A p dµ.Desarrollamos a continuacion la demostracion para este caso. Cuando se

trata de una medida sigma finita τ en vez de P , se la escribe como combi-nacion lineal de probabilidades, y se aplica el resultado ya establecido a cadaprobabilidad. Cuando µ es σ-finita, se hace una particion disjunta (Dn)n∈N

de Ω tal que sobre cada Dn µ sea finita, y se aplica el resultado ya obtenido alas restricciones de τ y de µ a cada Dn por separado.

Demostracion: Partimos entonces de P << µ, µ finita, y consideramos la clase

F+ = q ≥ 0 :

A

q dµ ≤ P (A), para todo A ∈ A.

Se trata de una familia no vacıa, pues contiene a la constante 0, y ademas es cerradabajo supremos de sucesiones. En efecto, si q, r ∈ F+, entonces

A(q ∨ r) dµ =

A∩q>rq dµ +

A∩q≤rr dµ ≤ P (A ∩ p > q) + P (A ∩ p ≤ q = P (A). Si

Page 223: Cabaña - Probabilidad y aplicaciones estadisticas

212Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

(qn)n∈N ⊂ F+ y rn = q1 ∨ q2 ∨ . . . ∨ qn, entonces (rn)n∈N ⊂ F+, por el calculoprecedente, y se deduce supn qn = lim rn ∈ F+ por la continuidad de la integral.

Llamemos s = supq∈F

q dµ. A partir de una sucesion (qn)n∈N ⊂ F+ con la propie-dad limn→∞

qndµ = s, construimos p = supn∈N qn, que cumple∫

p dµ = s. Vamosa mostrar que p es la densidad que buscamos. Para ello, basta verificar que la medidaτ(A) = P (A) −

Ap dµ es nula.

Lo demostramos por reduccion al absurdo. Si no lo fuera, el Corolario del Lema13.9.1 nos llevarıa a encontrar f = c1C con c, µ(C) > 0, tal que p + f estarıa enF+, pero

f dµ > 0, en contradiccion con la seleccion de p, pues se obtendrıa∫

(p + f)dµ >∫

p dµ = s.

Si p′ es otra densidad, entonces para todo suceso A, P (A) =∫

Ap′ dµ, de modo que

para todo suceso A,∫

A(p′ − p) dµ = 0, y esto implica µp′ = p = 0 (ver Teorema

7.3.1).

13.10 Inversion de la funcion caracterıstica de

una distribucion de probabilidades en

R.

Teorema 13.10.1 Cuando ψ : R → C es la funcion caracterıstica ψ(t) =E(eıtX) de una variable aleatoria X : Ω → R, la distribucion FX de X seobtiene a partir de ψ mediante la formula de inversion

FX(b) − FX(a) =1

2πlim

u→∞

∫ u

−u

e−ıta − e−ıtb

ıtψ(t)dt

valida en puntos de continuidad a, b de FX .

Demostracion: Calculamos

1

∫ u

−u

e−ıta − e−ıtb

ıtψ(t)dt =

1

∫ u

−u

e−ıta − e−ıtb

ıtdt

eıtxdFX(x)

=1

∫(

∫ u

−u

eıt(x−a) − eıt(x−b)

ıtdt

)

dFX(x)

=1

∫(

∫ u

−u

eıt(x−(a+b)/2) eıt(b−a)/2 − e−ıt(b−a)/2

ıtdt

)

dFX(x)

=1

π

∫(

∫ u

0

(eıt(x−(a+b)/2) + e−ıt(x−(a+b)/2))sin(t(b − a)/2)

tdt

)

dFX(x)

Page 224: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.10. Inversion de la funcion caracterıstica en R. 213

= 21

π

∫(

∫ u

0

cos(t(x − (a + b)/2))sin(t(b − a)/2)

tdt

)

dFX(x)

=1

π

∫(

∫ u

0

sin(t(x − a)) + sin(t(b − x))

tdt

)

dFX(x)

=1

π

(

∫ u(x−a)

0

sin(y)

ydy

)

dFX(x) +1

π

(

∫ u(b−x)

0

sin(y)

ydy

)

dFX(x).

La funcion sin(y)/y es positiva en (0, π), (2π, 3π), . . ., (2nπ, (2n + 1)π), . . ., y nega-tiva (π, 2π), . . ., ((2n−1)π, 2nπ), . . ., de modo que su integral I(x) =

∫ x

0(sin(y)/y)dy

alterna intervalos de crecimiento, que son los primeros, y decrecimiento, que sonlos restantes, como lo indica la Figura 13.1. Ademas, para cada n > 0, los in-crementos I(nπ) −I((n − 1)π), I((n + 1)π) −I(nπ), de distinto signo, satisfacen|I(nπ)− I((n−1)π)| > |I((n+1)π)− I(nπ)|, ya que, por ser sin(y−π) = − sin(y), se

cumple |I(nπ)− I((n− 1)π)| =∫ nπ

(n−1)π| sin(y)|dy/y =

∫ (n+1)π

nπ| sin(y−π)|dy/(y−π)

>∫ (n+1)π

nπ| sin(y)|dy/y. Estas desigualdades nos muestran, por una parte, que el

maximo de I se alcanza en π, y, por otra parte, que existe el lımite limx→∞ I(x). Esbien conocido que este lımite vale π/2, como lo indica el Lema 13.10.1, que agregamosa los efectos de completar los argumentos de esta demostracion.

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10 12 14

Figura 13.1: Graficos de sin(x)/x (lleno) y de I(x)/π (punteado), con I(x) =∫ x0 sin(y)dy/y. En abscisas se indica x/π.

Como consecuencia de una de las observaciones anteriores, el integrando

1

π

(

∫ u(x−a)

0

sin(y)

ydy

)

+1

π

(

∫ u(b−x)

0

sin(y)

ydy

)

Page 225: Cabaña - Probabilidad y aplicaciones estadisticas

214Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

esta acotado en valor absoluto por la constante 2I(π), uniformemente en u. Por lotanto, por el Teorema de Convergencia Dominada, podemos pasar al lımite cuandou tiende a infinito dentro de la integral respecto de dFX . El lımite del integrando es1 cuando a < x < b, 0 cuando x < a o b < x y 1/2 cuando x = a y cuando x = b.Por lo tanto, resulta una version de la formula del enunciado valida aun en puntosde discontinuidad de FX :

FX(b) + FX(b−) − FX(a) − FX(a−)

2=

1

2πlim

u→∞

∫ u

−u

e−ıta − e−ıtb

ıtψ(t)dt.

Una consecuencia importante (e inmediata) del teorema precedente es elsiguiente corolario:

Corolario 13.10.1.1 La funcion caracterıstica de una variable aleatoria Xdetermina a su distribucion FX .

Lema 13.10.1∫ ∞

0

sin(y)

ydy =

π

2.

Demostracion. Aplicamos el Teorema de Cauchy de integracion de funciones de va-riable compleja, al calculo de la integral de eız/z en el camino que indica la Figura13.2.

r−r R−R 0

Figura 13.2: Camino de integracion para el calculo de∫

eızdz/z.

El Teorema mencionado indica que la integral es cero, de modo que podemos escribir:∫ R

r

eıt

tdt +

∫ π

0

eıReıtıdt −

∫ R

r

e−ıt

tdt −

∫ π

0

eıreıtıdt = 0.

De aquı resulta, pasando al lımite con r → 0,

∫ R

0

sin(t)

tdt + ı

∫ π

0

eıR cos(t)e−R sin(t)dt = ıπ. (13.14)

Puesto que eıR cos(t) esta acotado, y limR→∞

∫ π

0e−R sin(t)dt = 0, se obtiene el resultado

indicado en el enunciado al pasar al lımite en 13.14 cuando R → ∞.

Page 226: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.11. Inversion de la funcion caracterıstica en Rd. 215

13.11 Inversion de la funcion caracterıstica de

una distribucion de probabilidades en

Rd.

Teorema 13.11.1 Cuando ψ : R2 → C es la funcion caracterıstica ψ(s, t)= E(eı(sX+tY )) de la pareja de variables aleatorias (X, Y ) : Ω → R2, la dis-tribucion conjunta FX,Y de (X, Y ) se obtiene a partir de ψ mediante la formulade inversion

FX,Y (b, d) − FX,Y (b, c) − FX,Y (a, d) + FX,Y (a, c)

=1

(2π)2lim

u→∞

∫ u

−u

∫ u

−u

e−ısa − e−ısb

ıs

e−ıtc − e−ıtd

ıtψ(s, t)ds dt

valida en intervalos de continuidad ((a, b), (c, d)] de FX,Y .

Definicion 13.11.1 El intervalo generalizado ((a, b), (c, d)] = (x, y) : a <x ≤ b, c < y ≤ d es un intervalo de continuidad de la distribucion conjunta ode la funcion de distribucion conjunta de las variables X,Y , cuando la proba-bilidad de que (X, Y ) pertenezca al borde de ((a, b), (c, d)] es nula.

Demostracion: Adaptamos el calculo de la demostracion del teorema de inversion delcaso unidimensional, a la situacion presente:

1

(2π)2

∫ u

−u

∫ u

−u

e−ısa − e−ısb

ıs

e−ıtc − e−ıtd

ıtψ(s, t)ds dt

=1

(2π)2

∫ u

−u

∫ u

−u

e−ısa − e−ısb

ıs

e−ıtc − e−ıtd

ıt

∫ ∫

eı(sx+ty))dFX,Y (x, y)ds dt

=1

(2π)2

∫ ∫(

∫ u

−u

eıs(x−(a+b)/2) eıs(b−a) − e−ıs(b−a)

ısds

×

∫ u

−u

eıt(y−(c+d)/2) eıt(d−c) − e−ıt(d−c)

ıtdt

)

dFX,Y (x, y)

=1

π2

∫ ∫(

∫ u

0

sin(s(x − a)) + sin(s(b − x))

sds

×

∫ u

0

sin(t(x − c)) + sin(t(d − x))

tdt

)

dFX,Y (x, y)

→(u→∞)

∫ ∫(

1((a,b)(c,d)) +1

21∂((a,b)(c,d))

)

dFX,Y (x, y),

donde la notacion ∂A designa a la frontera del conjunto A.

Page 227: Cabaña - Probabilidad y aplicaciones estadisticas

216Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

Como en el caso unidimensional, esta formula es ligeramente mas general que la delenunciado, y la implica trivialmente.

Tanto el enunciado como la demostracion correspondientes al caso d-dimensional,para d > 2, son similares, y nos limitamos a escribir el enunciado:

Teorema 13.11.2 Denotamos por X = (X1, . . . , Xd) a una variable aleatoriacon valores en Rd, y por ψ : Rd → C a su funcion caracterıstica ψ(t) =

E(eı〈t,X〉), con t = (t1, . . . , td) y 〈t, X〉 =∑d

h=1 thXh.La distribucion conjunta FX de X se obtiene a partir de ψ mediante la

formula de inversion

FX ((a, b]) =1

(2π)dlim

u→∞

∫ u

−u. . .

∫ u

−u

d∏

h=1

e−ıthah − e−ıthbh

ıthψ(t)dt1 . . . dtd

valida en intervalos de continuidad (a, b] = x = (x1, . . . , xd) : ah < xh ≤ bh,h = 1, . . . , d de FX .

Resultan de lo anterior los siguientes corolarios:

Corolario 13.11.2.1 La funcion caracterıstica de una variable X con valoresen Rd permite identificar la distribucion de X.

Corolario 13.11.2.2 Las distribuciones de probabilidad de todas las combina-ciones lineales 〈t, X〉 de una variable aleatoria X con valores en Rd permitenidentificar (y obtener) la distribucion conjunta de X.

El primer corolario es una consecuencia inmediata del Teorema de Inversion13.11.2, y el segundo se debe a que para construir la funcion caracterıstica,por su propia definicion, basta conocer las distribuciones de las combinacioneslineales de las componentes de X.

13.12 Demostracion de la Ley Fuerte de los

Grandes Numeros de Kolmogorov.

El Teorema 11.9.2 expresa que si (Xn)n=1,2,... es una sucesion de variablesaleatorias independientes, todas con la misma distribucion, E|X1| < ∞, y µes el valor esperado comun de todas ellas, entonces

P

limn→∞

X1 + X2 + . . . + Xn

n= µ

= 1.

Page 228: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.12. Demostracion de la L.G.N. de Kolmogorov. 217

Basta demostrar este resultado para variables no negativas, porque en elcaso general, descomponemos Xn = X+

n − X−n , y aplicamos el Teorema a las

sucesiones (X+n ) y (X−

n ) por separado. Suponemos en lo que sigue que X1 ≥ 0.

Demostracion para variables no negativas. Recordemos que, cuando una variablealeatoria V solo toma valores naturales, su esperanza se puede calcular como sumade las probabilidades asociadas a las semirrectas (j,∞), j ∈ N:

EV =∞∑

j=0

jPV = j =∞∑

j=0

j∑

k=1

PV = j =∞∑

k=1

∞∑

j=k

PV = j =∞∑

k=1

PV ≥ k.

Denotemos la parte entera, como en capıtulos anteriores, mediante [ ]. De las de-sigualdades [X1] ≤ X1 < [X1] + 1 que acotan la variable X1 entre dos variables devalores naturales, deducimos E[X1] ≤ EX1 ≤ E[X1] + 1, es decir,

∞∑

j=1

PX1 ≥ j ≤ EX1 ≤∞∑

j=0

PX1 ≥ j.

Para cada n ∈ N, introducimos X∗n = Xn1Xn≤n y verificamos que se cumple

X∗n = Xn para todo n suficientemente grande, con probabilidad 1, es decir:

P(⋃

n

m≥n

X∗n = Xn) = 1.

En efecto, el suceso complementario⋂

n

m≥nX∗m = Xmc tiene probabilidad aco-

tada para cada n por

P(⋃

m≥n

X∗m = Xmc) ≤

m≥n

P(X∗m = Xmc) =

m≥n

PXm > m.

Esta suma esta acotada por el resto de la serie convergente∑∞

j=1 PX1 ≥ j ≤ EX1

< ∞, que tiende a cero cuando n tiende a infinito, y esto implica que la probabilidadde

n

m≥nX∗m = Xmc es cero.

La propiedad que acabamos de verificar implica que, con las notaciones Sn =∑n

j=1 Xj

y S∗n =

∑nj=1 X∗

j , se cumple, casi seguramente, limn→∞(Sn − S∗n)/n = 0. Nuestra

meta sera entonces verificar que, casi seguramente, limn→∞ S∗n/n = EX1, para con-

cluir que Plimn→∞ Sn/n = EX1 = 1.

Calculamos

limn→∞

∑nj=1 X∗

j

n− EX1 = lim

n→∞

∑nj=1(X

∗j − EX∗

j )

n+

∑nj=1(EX∗

j − EX1)

n

= limn→∞

∑nj=1(X

∗j − EX∗

j )

n

porque limn→∞ EX∗n = limn→∞ EX11X1≤n = EX1 por el Teorema de Conver-

gencia Dominada, ya que limn→∞ X11X1≤n = X1, y |X11X1≤n| ≤ X1, cuyaesperanza es finita.

Page 229: Cabaña - Probabilidad y aplicaciones estadisticas

218Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

Vamos a verificar

limn→∞

∑nj=1(X

∗j − EX∗

j )

n= 0, (13.15)

es decir que, dado ε > 0 arbirtrario, para algun m y para todo n ≥ m se cumple

An =

n

j=1(X∗

j −EX∗j )

n

< ε

casi seguramente. Esto puede expresarse en la forma

P(⋃

m

n≥m An) = 1, y equivale a P(⋂

m

n≥m Anc) = 0.

En vez de demostrar directamente (13.15), vamos a comenzar estableciendo

limi→∞

∑ni

j=1(X∗j − EX∗

j )

ni= 0, (13.16)

para la sucesion ni = [(1 + δ)i], δ > 0, que satisface ni → ∞, ni ≤ (1 + δ)i < ni + 1≤ 2ni. Para ello, veremos que dado ε > 0, P

i0

i≥i0(Ani

)c = 0 y basta paraestablecerlo mostrar que la serie

i P(Ani)c es convergente, porque la probabilidad

que queremos mostrar que es nula esta acotada por P⋃

i≥i0Ani

c ≤∑

i≥i0P(Ani

c)para cualquier i0.

Acotamos P((Ani)c) mediante la desigualdad de Chebyshev:

P((Ani)c) = P

ni∑

j=1

(X∗j − EX∗

j )

≥ niε

∑ni

j=1 VarX∗j

n2i ε

2

≤4

(1 + δ)2iε2

ni∑

j=1

∫ j

0

x2dF =4

(1 + δ)2iε2

ni∑

j=1

j∑

k=1

∫ k

k−1

x2dF

≤4

(1 + δ)2iε2

ni∑

j=1

j∑

k=1

k

∫ k

k−1

xdF ≤4

(1 + δ)2iε2

ni∑

k=1

k

∫ k

k−1

xdF (ni − k + 1)

≤4

(1 + δ)iε2

ni∑

k=1

k

∫ k

k−1

xdF.

Como consecuencia,

∞∑

i=1

P(Ani)c ≤

∞∑

i=1

4

(1 + δ)iε2

ni∑

k=1

k

∫ k

k−1

xdF

=4

ε2

∞∑

k=1

k

∫ k

k−1

xdF∑

i:(1+δ)i≥k

1

(1 + δ)i≤

4

ε2δEX1.

Esto termina de demostrar (13.16), y en consecuencia,

limi→∞

Sni

ni= EX1

casi seguramente.

Page 230: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.13. TLC para arreglos triangulares. 219

Dado que limi→∞ ni+1/ni = limi→∞(1 + δ)i+1/(1 + δ)i = 1 + δ < (1 + δ)2, para isuficientemente grande, ni+1 ≤ (1 + δ)2ni, y, por consiguiente, para ni < j ≤ ni+1 ei suficientemente grande,

1

(1 + δ)2Sni

ni≤

Sj

j≤ (1 + δ)2

Sni+1

ni+1.

Pasando al lımite cuando j → ∞ (y entonces tambien i → ∞) encontramos

1

(1 + δ)2EX1 ≤ lim inf

j→∞

Sj

nj≤ lim sup

j→∞

Sj

nj≤ (1 + δ)2EX1,

y con δ → 0 se obtiene limj→∞Sj

nj= EX1.

13.13 Demostracion del T.L.C. de Lindeberg,

para arreglos triangulares.

Repetimos el enunciado del Teorema 12.4.1: Si k(n) es una sucesion crecientede naturales, para cada n, Xn,1, Xn,2, . . ., Xn,k(n) son variables independientes,

EXn,j = 0,∑k(n)

j=1 VarXn,j = 1, y lim∑k(n)

j=1 EX2n,j1|Xn,j |>ε = 0 para cada

ε > 0, entonces∑k(n)

j=1 Xn,j converge en distribucion a la normal tıpica N(0, 1).

Demostracion. Los argumentos utilizados en la demostracion del Teorema 12.3.1son aplicables a este caso. Los repasamos brevemente:

Paso 1: Si Fn es la funcion de distribucion de Sn =∑k(n)

j=1 Xn,j , (xm)m∈N es unasucesion que enumera a los racionales, y (Fni

)i∈N es una sucesion parcial de (Fn)n∈N,entonces un proceso diagonal muestra que existe una sucesion parcial (Fniν

)ν∈N de(Fni

)i∈N que converge en cada xm a una funcion F .

Paso 2: F es una funcion de distribucion, porque las sumas Sn tienen esperanza ceroy variancia uno. Por lo tanto, por la Desigualdad de Chebyshev, para cada ε positivo,P|Sn| ≥ (ε)−1/2 ≤ ε, de modo que F ((ε)−1/2) ≥ 1 − ε y F (−(ε)−1/2) ≤ ε.

Paso 3: Vamos a verificar en el Paso 4, que ψn(t) = EeıtSn converge a ψ(t) =

e−12 t2 . El resultado del Ejercicio 12.1.6 implica que esa es la funcion caracterıstica

de F , y entonces concluimos que el lımite F de cualquier sucesion parcial de (Fn) esnecesariamente Φ, la funcion de distribucion Normal(0,1). Esto implica la conclusionque queremos demostrar, ya que si Fn no convergiera debilmente a Φ, habrıa unasucesion parcial con un lımite diferente, y esto contradice lo que acabamos de verificar.

Paso 4 (ultimo): Solo nos resta verificar que ψn(t) = EeıtSn =∏k(n)

j=1 EeıtXn,j converge

a ψ(t) = e−12 t2 .

Para ello vamos a utilizar el desarrollo de Taylor con resto integral

f(1) =n

j=0

f (j)(0)/j! +

∫ 1

0

f (n+1)(s)(1 − s)nds/n!

Page 231: Cabaña - Probabilidad y aplicaciones estadisticas

220Enrique M. Cabana.

Capıtulo 13 Complementos y demostraciones.

aplicado a f(t) = eıtz, con n = 1 y con n = 2, y a f(t) = log(1 − tz) con n = 1:

eız = 1 + ız +

∫ 1

0

(−eıszz2)(1 − s)ds, z ∈ R

eız = 1 + ız −z2

2+

∫ 1

0

(−ıeıszz3)(1 − s)2ds

2!, z ∈ R

log(1 − z) = −z +z2

2

∫ 1

0

1

(1 − sz)2(1 − s)ds, |z| < 1.

De las acotaciones∣

∫ 1

0

(eıtz)(1 − t)dt

∫ 1

0

(1 − t)dt = 1/2,

∫ 1

0

(eıtz)(1 − t)2dt/2

∫ 1

0

(1 − t)2dt/2 = 1/6,

deducimos que para cualquier z ∈ R,

eız = 1 + ız + λ2z2/2, eız = 1 + ız − z2/2 + λ3|z|

3/6

donde |λ2| < 1, |λ3| < 1. En el desarrollo del logaritmo, para cualquier z con|z| < 1/2, se cumple

log(1 − z) = −z + θ2z2

con |θ2| < 1.

Calculamos ahora

EeıtXn,j = EeıtXn,j1|Xn,j |>ε + EeıtXn,j1|Xn,j |≤ε

= E(1 + ıtXn,j + λ2t2X2

n,j/2)1|Xn,j |>ε

+E(1 + ıtXn,j − t2X2n,j/2 + λ3|t|

3|Xn,j |3/6)1|Xn,j |≤ε

= 1 − Et2X2n,j/2 + E1|Xn,j |>ε(1 + λ2)t

2X2n,j/2 + E1|Xn,j |≤ελ3|t|

3|Xn,j |3/6

= 1 − t2VarXn,j/2 + An,j ,

con |An,j | ≤ E1|Xn,j |>εt2X2

n,j + |t|3εVarXn,j/6, de modo que

lim supn→∞

k(n)∑

j=1

|An,j | ≤ |t|3ε/6.

Resulta entonces∣

log Eeıt

k(n)

j=1Xn,j + t2/2

=

k(n)∑

j=1

log(1 − t2VarXn,j/2 + An,j) + t2/2

Page 232: Cabaña - Probabilidad y aplicaciones estadisticas

Introduccion a la probabilidad.

13.13. TLC para arreglos triangulares. 221

=

k(n)∑

j=1

(−t2VarXn,j/2 + An,j + θ2(t2VarXn,j/2 − An,j)

2) + t2/2

=

k(n)∑

j=1

An,j +

k(n)∑

j=1

θ2(t2VarXn,j/2 − An,j)

2)

≤ |t|3ε/6 +

k(n)∑

j=1

(t2VarXn,j)2/2 + 2

k(n)∑

j=1

(An,j)2.

Dado que VarXn,j ≤ ε2 +EX2n,j1|Xn,j |>ε, deducimos

maxVarXn,j ≤ ε2 +

k(n)∑

j=1

EX2n,j1|Xn,j |>ε

y entonces

lim sup

k(n)∑

j=1

(VarXn,j)2/2 ≤ ε2/2.

Por otra parte, para n grande, |An,j | < 1, y

lim sup 2

k(n)∑

j=1

(An,j)2 ≤ 2 lim sup

k(n)∑

j=1

|An,j | ≤ |t|3ε/3.

Concluimos lim sup | log Eeıt

k(n)

j=1Xn,j + t2/2| ≤ |t|3ε/6 + t2ε2/2 + |t|3ε/3, y, por ser

ε arbitrario, esto significa que, para cada t, lim log Eeıt

k(n)

j=1Xn,j = −t2/2.