80
Probabilidades. Luis Arenas February 6, 2011

Probabilidades Luis Arenas Ciencias

Embed Size (px)

Citation preview

Page 1: Probabilidades Luis Arenas Ciencias

Probabilidades.

Luis Arenas

February 6, 2011

Page 2: Probabilidades Luis Arenas Ciencias

Chapter 1

Espacios de ProbabilidadFinitos.

Al lanzar una moneda se tienen dos resultados posibles: Cara y Sello. Lapregunta sobre cual es la probabilidad de obtener cara se interpreta enmatematicas como una funcion que asigna a cada elemento del conjuntoΩ = cara, sello un numero real en el intervalo [0, 1] llamado su proba-bilidad. En otras palabras, el problema esta totalmente determinado si seconocen las probabilidades p(cara) y p(sello). Por ejemplo, se dice que lamoneda esta equilibrada si p(cara) = p(sello). Uno asume, de hecho, queel conjunto Ω contiene todas las posibilidades. En particular, desestimamosla probabilidad de que la moneda quede parada de canto o un ave la de-vore mientras esta en el aire. Esto se expresa matematicamente mediante laecuacion

p(cara) + p(sello) = 1.

Por cierto podemos, por ejemplo, incluir la tercera probabilidad considerandoun nuevo conjunto A′ = cara, sello, canto y asignar a sus elementos proba-bilidades que satisfagan la ecuacion

p(cara) + p(sello) + p(canto) = 1,

y modelar el hecho de que consideramos la tercera altermativa como ex-tremadamente improbable mediante una condicion del tipo p(canto) << 1.

Mas generalmente, una funcion de probabilidad en el conjunto finito Ω esuna funcion p : Ω → [0, 1] que satisface∑

ω∈Ω

p(ω) = 1.

1

Page 3: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 2

En particular, para todo subconjunto B de Ω puede definirse la probabilidaddel conjunto B mediante P (B) =

∑ω∈B p(ω). La probabilidad P (B) es un

numero entre 0 y 1. Notese que se tienen las propiedades siguientes, cuyademostracion se deja al lector:

1. P (∅) = 0.

2. P (Ω) = 1.

3. P (Bc) = 1− P (B).

4. P (B1 ∪B2) = P (B1) + P (B2)− P (B1 ∩B2).

5. P (B1 ∪B2) = P (B1) + P (B2) si B1 y B2 son disjuntos.

6. Si Bii∈I es una familia finita de conjuntos disjuntos, entonces

∑i∈I

P (Bi) = P

(⋃i∈I

Bi

).

7. Si B1 ⊆ B2, entonces P (B1) ≤ P (B2).

Conversamente, si ℘(Ω) es la coleccion de todos los subconjuntos de Ω, en-tonces toda funcion no negativa P : ℘(Ω) → R que satisface las condiciones2 y 6 define una funcion de probabilidad en el conjunto Ω, ya que para todoB ⊆ Ω se tiene

P (B) =∑ω∈B

P (ω),

y podemos definir p(ω) = P (ω). Una funcion P : ℘(Ω) → R que satisface2 y 6 recibe el nombre de medida de probabilidad en el conjunto Ω. Unpar (Ω, P ), donde Ω es un conjunto finito y P es una medida de probabili-dad, recibe el nombre de espacio de probabilidad (finito). Concluimos que elespacio de probabilidad puede definirse, ya sea mediante la funcion de prob-abilidad p o mediante la medida de probabilidad P . El conjunto Ω recibe elnombre de espacio muestral y un subconjunto B ⊆ Ω recibe el nombre deevento.

ejemplo 1.1. Sea Ω = 1, 2, 3, 4, 5, 6, y sea p(i) = 1/6 para todo i. Estaes la funcion probabilidad que se esperarıa al arrojar un dado simetrico. Elconjunto de los pares serıa B = 2, 4, 6 y el de los numeros compuestos

Page 4: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 3

serıa C = 4, 6. En este caso se tiene P (B) = 1/2 y P (C) = 1/3. En otraspalabras, la probabilidad del evento numero par es de 1/2 y la probabilidaddel evento numero compuesto es de 1/3. El unico elemento de B que no estaen C es el 2, y de hecho p(2) = 1/6 = P (B)−P (C). El evento B ∩Cc = 2es la interseccion de los eventos B y Cc, el complemento de C. Tambiendiremos que corresponde al evento numero primo y numero par o numeroprimo y par. Utilizaremos tambien la notacion

P (numero primo y par) = 1/6.

Las uniones se trataran de igual modo.

****************************

ejemplo 1.2. Se arroja una moneda dos veces. En este caso hay 4 resultadosposibles (sin considerar caidas de canto o aves tragamonedas):

Ω =

(cara, cara), (cara, sello), (sello, cara), (sello, sello)

.

Si la moneda esta equilibrada, es razonable asumir que estas cuatro alter-nativas son igualmente probables y tiene cada una la probabilidad 1/4. Eneste caso la probabilidad de obtener una cara en la primera tirada es laprobabilidad del evento

B =

(cara, cara), (cara, sello)

.

De hecho P (B) = 1/2, que es la misma probabilidad que asociamos a laobtencion de una cara en el lanzamiento de una moneda. Del mismo modo,la probabilidad de obtener una cara en la segunda tirada es la probabilidaddel evento

C =

(cara, cara), (sello, cara)

.

Como antes se tiene P (C) = 1/2. Notese que en particular que

P[(cara, cara)

]= 1/4 = 1/2× 1/2.

En otras palabras, para obtener la probabilidad de obtener una cara en cadalanzamiento, multiplicamos la probabilidad de obtener una cara en el primerlanzamiento por la probabilidad de obtener una cara en el segundo lanza-miento. Intuitivamente, consideramos que si la probabilidad de obtener unacara en el segundo lanzamiento es 1/2, la probabilidad de obtener (cara, cara)es la mitad de la probabilidad de obtener una cara en el primer lanzamiento.A continuacion formalizaremos este concepto.

Page 5: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 4

definicion 1.3. Dos eventos B y C se dicen independientes si P (B ∩ C) =P (B)P (C).

ejemplo 1.4. En el caso de la moneda arrojada dos veces, el evento deobtener cara en la primera tirada es independiente del evento de obtenercara en la segunda tirada.

definicion 1.5. Para Dos eventos B y C cualesquiera, tales que P (B) 6= 0,se define la probabilidad condicionada P (C|B) = P (B ∩ C)/P (B). Similar-mente, para un elemento ω ∈ B se define p(ω|B) = p(ω)/P (B), mientrasque p(ω|B) = 0 si ω ∈ Bc. La funcion ω 7→ p(ω|B) es una funcion deprobabilidad, ya que es positiva y se tiene∑

ω∈Ω

p(ω|B) =∑ω∈B

p(ω|B) =∑ω∈B

p(ω)

P (B)=

1

P (B)

∑ω∈B

p(ω) =P (B)

P (B)= 1.

La probabilidad condicionada es frecuentemente interpretada como la prob-abilidad a posteriori una vez que se ha establecido que el evento B ocurre.Se sigue de la definicion que B y C son independientes si y solo si

P (C|B) =P (C ∩B)

P (B)=

P (C)P (B)

P (B)= P (C).

En otras palabras, el conocimiento de que el evento B ocurre no afecta nue-stro calculo de la probabilidad del evento C. Intuitivamente, pensamos quedos eventos son independientes si ninguno de ellos es consecuencia del otroni existe una causa comun a ambos. Por ejemplo, si yo ignoro la hora quemarca mi reloj de pulsera, pero observo que el reloj de la plaza marca las5, es mucho mas probable que mi reloj marque una hora cercana a las 5que una hora cercana a la una. Esto se debe a que existe una causa comuna ambos fenomenos (ambos relojes marcan la hora). Por otro lado, en elejemplo de las monedas, nuestra intuicion nos dice que la primera vez quetiramos la moneda no afecta la segunda, por lo que ambos eventos debenser independientes. Uno espera naturalmente que si no existe relacion causalalguna entre dos fenomenos, nuestro conocimiento de uno no influya en nue-stro conocimiento del otro, de modo que en particular, nuestro calculo de lasprobabilidades asociadas al segundo fenomeno no deben ser influenciadas pornuestro conocimiento del primero. Es esta consecuencia de la nocion intuitivade dependencia la que se utiliza como definicion en la teorıa matematica, afalta de una manera mas directa de traducir a sımbolos la nocion intuitiva

Page 6: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 5

de causalidad. Es posible, sin embargo, que eventos que si esten relacionadoscausalmente sean matematicamente independientes. Por ejemplo, si una cajacontiene las siguientes bolas:

1. Una bola roja grande,

2. Una bola roja pequena,

3. Una bola negra grande,

4. Una bola negra pequena,

los eventos bola roja y bola grande son ciertamente independientes pero paracada bola grande en particular la probabilidad de extraerla es fuertementemodificada una vez que sabemos que la bola extraida fue roja. Para la bolaroja grande esta probabilidad subio de 1

4a 1

2, mientras que para la bola negra

grande bajo de 14

a 0. La independencia en este caso es una consecuenciadel hecho de que la probabilidad no cambio en promedio para el conjunto debolas grandes. Ignoraremos esta distincion en lo que sigue y nos enfocaremosen la definicion matematica dada mas arriba.

ejemplo 1.6. Un ejemplo en el que no hay independencia es el siguiente: Setiene una bolsa con dos bolas, una negra y una roja. Por turno, dos personasextraen cada una una bola y la conservan (no hay remplazo). En este casoel espacio muestral es

Ω =

(negra, roja), (roja, negra)

,

de donde la probabilidad de obtener una bola roja en la segunda estracciones la misma que la de obtener una bola negra en la primera estraccion, y lamisma probabilidad de obtener el par (negra, roja). Las dos estracciones deeste ejemplo no son independientes, salvo en el caso trivial, donde se tiene

p[(negra, roja)

]∈ 0, 1.

Notese que si A =⋃

i∈I Ai es una particion de A en conjuntos disjuntosentonces para todo subconjunto B de A se tiene

P (B) =∑i∈I

P (B ∩ Ai) =∑i∈I

P (B|Ai)P (Ai). (1.1)

Page 7: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 6

En particular se tiene

P (Ai|B) = P (B∩Ai)P (B)

= P (B|Ai)P (Ai)∑i∈I P (B|Ai)P (Ai)

. (1.2)

Este resultado se conoce como Teorema de Bayes. Nos referiremos tambiena la relacion (1.1) como descomposicion por casos.

Una coleccion P = B1, . . . , Bn, donde A =⋃n

i=1 Bi y Bi ∩ Bj = ∅ sii 6= j, se denomina una particion de A. Notese que p(Bi) = P (Bi) es unafuncion de probabilidad en P. Diremos que es la funcion de probabilidadasociada a la particion.

definicion 1.7. Una variable aleatoria en el espacio de probabilidad finito(Ω, P ) es una funcion X : Ω → R. Su esperanza, que sera denotada EP (X),o simplemente E(X) si no hay riesgo de confusion, se define por

E(X) =∑ω∈Ω

X(ω)p(ω).

Tambien se utiliza la notacion∫

ΩXdP (ω), en cuyo caso se denomina la

integral de X con respecto a la medida de probabilidad P . Notese que setiene

E(αX + βY ) =∑ω∈Ω

[αX(ω) + βY (ω)]p(ω) =

α∑ω∈Ω

X(ω)p(ω) + β∑ω∈Ω

Y (ω)p(ω) = αE(X) + βE(Y ),

y si X(ω) = c es una constante, se tiene

E(X) =∑ω∈Ω

cp(ω) = c∑ω∈Ω

p(ω) = c× 1 = c.

Si B es un subconjunto de Ω, la esperanza condicionada de X respecto de Bes por definicion

E(X|B) =

∫Ω

X(ω)dP (ω|B) =∑ω∈Ω

X(ω)p(ω|B) =∑ω∈B

X(ω)p(ω|B),

dado que p(ω|B) = 0 si ω /∈ B. En particular, la esperanza condicionadaE(X|B) depende solo de los valores de la variable aleatoria en los puntos deB. Se sigue que si X e Y son variables aleatorias que coinciden en B se tiene

E(X|B) = E(Y |B).

Page 8: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 7

Notese que p(ω) = p(ω|B)P (B) para todo ω en B. En particular, se tieneque si P = B1, . . . , Bn es una particion de Ω, entonces

E(X) =∑ω∈Ω

X(ω)p(ω) =∑Bi∈P

(∑ω∈Bi

X(ω)p(ω|Bi)

)P (Bi)

=∑Bi∈P

E(X|Bi)P (Bi).

Dada un real cualquiera r, se define Ar(X) = ω ∈ Ω|X(ω) = r y se denota

P (X = r) := P [Ar(X)].

Por cierto que P (X = r) 6= 0 solo para una cantidad finita de valores r. Laesperanza condicionada E(Y |X = r) es por definicion E[Y |Ar(X)], la cualesta definida siempre que P (X = r) 6= 0. El rango probable o esencial RP (X)(o R(X) si P es claro del contexto) de X es el conjunto de los valores r ∈ Rtales que P (X = r) 6= 0. En este caso se tiene E(X|X = r) = r para todor ∈ RP (X). Dejamos la demostracion al lector. En particular, en terminosde las probabilidades P (X = r), la esperanza de X puede escribirse como

E(X) =∑

r∈R(X)

rP (X = r).

Por cierto, la suma precedente no cambia si se remplaza R(X) por un con-junto mayor. En lo que sigue escribiremos simplemente

E(X) =∑r∈R

rP (X = r),

con el entendido de que esta suma es finita.

ejemplo 1.8. Suponga que se ordena aleatoriamente los numeros de uno an de manera que cada orden posible sea igualmente probable. Para cadak = 1, . . . , n sea Xk una variable aleatoria que vale 1 si el numero k esta ensu posicion y 0 en caso contrario. En este caso se tiene E(Xk) = P (Xk =1) = 1/n. Sea Y una variable aleatoria que cuenta la cantidad de numerosque se encuentran en su posicion correcta. Es facil ver que Y = X1+. . .+Xn,de donde se sigue que

E(Y ) =n∑

k=1

E(Xk) =n∑

k=1

1/n = 1.

Page 9: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 8

definicion 1.9. Dos variables aleatorias X y Y se dicen independientes sipara todo par de numeros reales r y s los conjuntos Ar(X) y As(Y ) sonindependientes. En este caso se tiene

P (X = s|Y = r) = P (X = s)

para cada par de numeros reales s y r tales que P (Y = r) 6= 0. Se sigue que

E(X|Y = r) =∑s∈R

sP (X = s|Y = r) =∑s∈R

sP (X = s) = E(X)

para todo real r tal que P (Y = r) 6= 0. En particular

E(XY ) =∑

r∈R(Y )

E(XY |Y = r)P (Y = r) =∑

r∈R(Y )

E(Xr|Y = r)P (Y = r)

=∑

r∈R(Y )

rE(X|Y = r)P (Y = r) =∑

r∈R(Y )

rE(X)P (Y = r) = E(X)E(Y ),

para todo par de variables aleatorias independientes X e Y .

Sean ahora (Ω1, P1) y (Ω2, P2) dos espacios de probabilidad finitos, y seaΩ = Ω1 × Ω2. Entonces la funcion p(ω1, ω2) = p1(ω1)p1(ω1) es una funcionde probabilidad en el espacio Ω, de hecho∑

(ω1,ω2)∈Ω

p(ω1, ω2) =

( ∑ω1∈Ω1

p1(ω1)

)( ∑ω2∈Ω2

p2(ω2)

)= 1.

La medida de probabilidad P definida por p satisface

P (B1 ×B2) =∑

(ω1,ω2)∈B1×B2

p(ω1, ω2) =

( ∑ω1∈B1

p1(ω1)

)( ∑ω2∈B2

p2(ω2)

)= P1(B1)P2(B2).

Dado que(B1 × Ω2) ∩ (Ω1 ×B2) = B1 ×B2,

se tiene que los eventos

B1 = B1 × Ω2 y B2 = Ω1 ×B2

son independientes. En particular, tomando B1 = Ar1(X1) y B1 = Ar1(X1)para variables aleatorias X1 y X2 y numeros reales r1 y r2 cualesquiera, setiene el siguiente resultado:

Page 10: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 9

Si cada Xi es una variable aleatoria que depende solo de la coor-denada ωi, las variables X1 y X2 son independientes con respectoa la medida de probabilidad producto.

Por otro lado se tiene que, si X depende solo de ω1, es decir X(ω1, ω2) =Y (ω1), entonces

EP (X) =∑

(ω1,ω2)∈Ω

X(ω1, ω2)p(ω1, ω2) =

∑ω1∈Ω1

Y (ω1)p1(ω1)∑

ω2∈Ω2

p2(ω2) =∑

ω1∈Ω1

Y (ω1)p1(ω1) = EP1(Y ).

En general uno puede identificas una variable aleatoria que depende solo dela primera variable con una variable aleatoria en el espacio Ω1. Del mismomodo, todo evento de la forma B1 ×Ω2 se identifica con el evento B1 en Ω1.Todas estas consideraciones se aplican a productos de mas de dos factores.

ejemplo 1.10. La variable aleatoria X : 0, 1 → R definida por X(ω) = ωrecibe el nombre de V.A. de Bernouilli. Supongamos que cada conjuntoΩi = 0, 1 tiene dada la funcion de probabilidad definida por p(1) = q,p(0) = 1 − q con p y q fijos. Esto induce una probabilidad producto en elproducto cartesiano

Ω =

n×i=1

Ωi.

Con respecto a esta medida, la probabilidad de obtener una secuencia dadade ceros y unos (a1, . . . , an) es qr(1 − q)s, donde r es el numero de unos ys el numero de ceros de la secuencia. La probabilidad de obtener r unos ys ceros (si r + s = n) es por lo tanto

(nr

)qr(1 − q)s. Esta es realmente una

funcion de probabilidad en el conjunto 0, 1, . . . , n, puesto que

n∑r=0

(n

r

)qr(1− q)n−r =

(q + (1− q)

)n

= 1.

Si X es la variable aleatoria que cuenta el numero de ceros y unos en lasecuencia, se tiene X = X1 + . . . + Xn, donde cada Xi es una V.A. deBernouilli en la coordenada correspondiente. Se dice que X es una V.A.Binomial o con distribucion binomial. Notese que

E(X) = E(X1) + . . . + E(Xn) = np.

Page 11: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 10

La Varianza de una variable aleatoria X se define por

V (X) = E([X − E(X)]2

)= E(X2)− E(X)2.

Es una medida de la dispersion de los valores de la variable aleatoria. De-jamos al lector la tarea de mostrar que V (X) = 0 si y solo si X es unaconstante.

ejemplo 1.11. Si X : 0, 1 → R es una V.A. de Bernouilli, se tiene

V (X) = (1− p)2p + (0− p)2q = q2p + p2q = pq(q + p) = pq.

Tambien puede realizarse el calculo como sigue:

V (X) = E(X2)− E(X)2 = E(X)− E(X)2 = p− p2 = pq,

donde se usa el hecho de que X2 = X, pues esa variable aleatoria toma solovalores 0 y 1.

La Varianza de una suma X + Y satisface

V (X + Y ) = E([X + Y ]2

)−(E(X)− E(Y )

)2

=

V (X) + V (Y ) + 2(E(XY )− E(X)E(Y )

).

El termino E(XY ) − E(X)E(Y ) recibe el nombre de covarianza (o coefi-ciente de correlacion) de las variables X e Y y se denota cov(X, Y ). Si lacovarianza es nula, las variables X e Y se dicen incorrelacionadas, en cuyocaso V (X + Y ) = V (X) + V (Y ). Este es el caso, en particular, si X e Y sonindependientes.

ejemplo 1.12. Si X = X1 + . . . + Xn donde las Xi son V.A. independientesde Bernouilli, se tiene

V (X) = V (X1) + . . . + V (Xn) = npq.

Esta es, en particular, la varianza de una V.A. con distribucion binomial

Page 12: Probabilidades Luis Arenas Ciencias

Chapter 2

Espacios de ProbabilidadNumerables.

En este capıtulo extenderemos las definiciones anteriores al caso en el cual elespacio Ω = ω1, . . . es numerable. En este caso una funcion de probabilidaden Ω es una funcion p : Ω → [0, 1] tal que

∞∑i=1

p(ωi) = 1,

donde la suma debe entenderse como una serie convergente, y por lo tantoabsolutamente convergente ya que se trata de una serie de terminos positivos.En particular, el orden de los terminos es irrelevante y puede escribirse sim-plemente ∑

ω∈Ω

p(ω) = 1.

Del mismo modo, para cada subconjunto B de ω se define

P (B) =∑ω∈B

p(ω).

Esta suma es tambien absolutamente convergente por ser una sub-suma de laanterior. Puede tambien expresarse en terminos de la funcion caracterısticaχB de B mediante

P (B) =∑ω∈Ω

χB(ω)p(ω).

Las propiedades 1-6 del capıtulo anterior se extienden facilmente a este caso.Por ejemplo se tiene

11

Page 13: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 12

Proposicion 2.1. Si B1 y B2 son subconjuntos de Ω, entonces

P (B1 ∪B2) = P (B1) + P (B2)− P (B1 ∩B2).

Demostracion Sigue inmediatamente de la formula

χB1∪B2(ω) = χB1(ω) + χB2(ω)− χB1∩B2(ω).

Las restantes propiedades se deducen facilmente de esta o se generalizande manera similar. De hecho, la propiedad 5 se generaliza a familias numer-ables, es decir:

Proposicion 2.2. Si Bii∈N es una familia numerable de conjuntos disjun-

tos, entonces∑∞

i=1 P (Bi) = P(⋃∞

i=1 Bi

).

Demostracion Enumeremos Ω = ω1, . . . , como al comienzo y seaRM = ωM , ωM+1, . . . , . Notese que P (RM) → 0 cuando M →∞ por ser lacola de una serie convergente. Sea U =

⋃∞i=1 Bi. Para cada entero positivo

N considerese el conjunto UN =⋃N

i=1 Bi. Observese que P (UN) ≤ P (U) porla propiedad 6. Por otro lado, si N es suficientemente grande todo ωj conj < M que esta contenido en algun Bi, esta de hecho contenido en un Bi coni ≤ N . Se sigue que el conjunto diferencia U −UN esta contenido en RM , dedonde

0 ≤ P (U − UN) ≤ P (RM) → 0.

Como U = UN∪(U−UN), se tiene P (UN) = P (U)−P (U−UN) → P (U).

ejemplo 2.3. Se lanza una moneda todas las veces necesarias hasta obteneruna cara por primera vez. En este caso, el conjunto Ω es el conjunto de todaslas secuencias finitas

cara , sello− cara , sello− sello− cara , sello− sello− sello− cara, . . .

Llamaremos ωi al i-esimo termino de la sucesion precedente. Para una mon-eda equilibrada se tiene p(ωi) = 2−i. En este caso, la probabidad de obtenerun numero par de lanzamientos es

∞∑i=1

p(ω2i) =∞∑i=1

2−2i = 1/3.

Page 14: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 13

Notese que en este caso existe el evento de un numero infinito de tiradas,evento que llamaremos ω∞. Notese que

p(ω∞) = 1−∞∑i=1

p(ωi) = 1−∞∑i=1

2−i = 0.

En este caso diremos que el evento ω∞ es improbable. Esto no quiere decir quesea imposible realizar un numero infinito de tiradas, sino que la probabilidadde que eso ocurra es 0. Esta distincion sera mas clara en el proximo capıtulo.La variable aleatoria que cuenta el numero de tiradas necesarias hasta obtenerla primera cara recibe el nombre de tiempo de espera asociado al evento cara.

ejemplo 2.4. Si Ω = ω1, ω2, . . . de modo que p(ωi) = βαi

i!, se dice que Ω

tiene una distribucion de Poisson. Notese que la formula

1 + α +α2

2!+ . . . = eα

implica que β = e−α. La distribucion de Poisson aparece naturalmente comoun caso lımite de la distribucion binomial. Si cada uno de n objetos se colocaaleatoriamente en una de m cajas, la probabilidad de obtener r objetos en unacaja dada es

(nr

)qr(1− q)n−r donde q es la probabilidad que tiene un objeto

dado de caer en esa caja. Si cada caja es equiprobable, se tiene q = 1/m. Sise toma un numero cada vez mayor de cajas, entonces q → 0. Supongamosque la proporcion α = n/m = nq es constante (o tiende a una constante).Entonces se tiene(

n

r

)qr(1− q)n−r =

1

r!

(1− α

n

)n−r

αr

r−1∏i=0

n− i

n→ e−ααr

r!.

La Distribucion de Poisson se utiliza por ejemplo para estimar la probabilidadde encontrar un numero dado n de peces en una pequena porcion de unestanque (que hace el papel de caja), asumiendo que la densidad de pecesen el estanque es conocida. Tambien puede utilizarse inversamente, paraconocer la densidad de peces en el estanque observando la distribucion delnumero de peces en una region pequena.

Una variable aleatoria se define como una funcion arbitraria X : Ω →R ∪ ∞. Diremos que es finita si su imagen esta contenida en R. Laprobabilidad P (X = r) se define como antes. En el caso numerable no es

Page 15: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 14

necesariamente cierto que P (X = r) es no nula para un numero finito devalores de r (solo puede afirmarse que el numero de tales r es numerable).Sin embargo, si se obtiene el siguiente resultado.

Proposicion 2.5. Si X es una variable aleatoria finita en un espacio deprobabilidad numerable, entonces P (X > t) → 0 cuando t →∞.

Demostracion Sea ε > 0. Se sigue de la definicion que si R(X) denotael rango de X, entonces ∑

r∈R(X)

P (X = r) = 1.

Enumeremos los elementos de R(X) = r1, . . .. Existe un N > 0 tal que

N∑i=1

P (X = ri) > 1− ε.

Ahora si T > r1, . . . , rN , se tiene que X > T implica T 6= r1, . . . , rn, por loque P (X > T ) < P (X 6= r1, . . . , rn) < ε.

definicion 2.6. La esperanza E(X) de una variable aleatoria X se definemediante

E(X) =∞∑i=1

X(ωi)p(ωi),

si esta serie resulta ser absolutamente convergente. En tal caso diremos quela variable aleatoria X tiene esperanza definida o que es integrable. Si X esintegrable el orden de los sumandos no interesa y puede escribirse

E(X) =∑ω∈Ω

X(ω)p(ω).

Notese que este es siempre el caso si X es una variable aleatoria acotada,ya que la serie de termino general p(ω) es absolutamente convergente. Si esnecesario recordar la medida P correspondiente a la funcion de probabilidadp, puede utilizarse la notacion EP (X) = E(X), o bien la notacion analıtica

E(X) =

∫Ω

X(ω)dP (ω).

Page 16: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 15

ejemplo 2.7. Notese que resulta muy sencillo definir variables aleatoriasfinitas cuya esperanza no converge: Por ejemplo, si se lanza una monedasimetrica i veces para obtener una cara, se tiene que la variable aleatoriaX(ωi) = 2i no tiene esperanza definida, ya que la serie

∞∑i=1

X(ωi)p(ωi) =∞∑i=1

2i2−i =∞∑i=1

1

no converge.

ejemplo 2.8. Si B ⊆ Ω es un evento, la funcion caracterıstica χB es unavariable aleatoria. Su esperanza esta dada por

E(χB) =∞∑i=1

χB(ωi)p(ωi) =∑ωi∈B

p(ωi) = P (B).

ejemplo 2.9. Si X es una variable aleatoria y F : R ∪ ∞ → R ∪ ∞ esuna funcion arbitraria, entonces F (X) = F X es una variable aleatoria. Suesperanza esta dada por

E[F (X)] =∞∑i=1

F [X(ωi)]p(ωi),

si dicha serie converge. Un caso particular importante es el de la funcionF (x) = |x|. En este caso

E(|X|) =∞∑i=1

|X(ωi)|p(ωi).

Notese que en particular la condicion de convergencia absoluta en la definicionde variable aleatoria integrable implica que X es integrable si y solo si |X|es integrable.

Proposicion 2.10. La funcion X 7→ E(X) es lineal en su dominio dedefinicion y la esperanza de la funcion constante c es E(c) = c.

Demostracion Tal como en el caso finito, podemos escribir

E(αX + βY ) =∑ω∈Ω

[αX(ω) + βY (ω)]p(ω) =

Page 17: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 16

α∑ω∈Ω

X(ω)p(ω) + β∑ω∈Ω

Y (ω)p(ω) = αE(X) + βE(Y ),

donde la convergencia absoluta de la primera suma esta garantizada por laconvergencia absoluta de las restantes. Por otro lado

E(c) =∑ω∈Ω

cp(ω) = c∑ω∈Ω

p(ω) = c× 1 = c.

Proposicion 2.11. La funcion X 7→ E(X) es monotona, en el sentido deque si X(ω) < Y (ω) para todo ω ∈ Ω, se tiene E(X) < E(Y ).

Demostracion

E(X) =∑ω∈Ω

X(ω)p(ω) ≤∑ω∈Ω

Y (ω)p(ω) = E(Y ).

ejemplo 2.12. Si K1 < X(ω) < K2 para todo ω ∈ Ω, se tiene K1 < E(X) <K2.

ejemplo 2.13. Si X es una variable aleatoria integrable arbitraria se tiene−|X| ≤ X ≤ |X|, por lo que −E(|X|) ≤ E(X) ≤ E(|X|), es decir |E(X)| ≤E(|X|).

ejemplo 2.14. Si X es una variable aleatoria finita no negativa, entonces setiene XχA ≤ XχB para todo par de subconjuntos A y B de Ω con A ⊆ B,por lo que E(XχA) ≤ E(XχB). En particular, tomando B = Ω se tieneE(XχA) ≤ E(X).

ejemplo 2.15. Si X es una variable aleatoria integrable, entonces se tienepara todo subconjunto B de Ω la identidad

E(XχB) =∑ω∈Ω

X(ω)χB(ω)p(ω) =∑ω∈Ω

X(ω)p(ω|B)P (B) = E(X|B)P (B).

Los conceptos de independencia de conjuntos y variables aleatorias, asıcomo las definiciones de probabilidad y esperanza condicionada se traducenliteralmente al caso numerable. Tambien se traduce literalmente la formula

E(X) =∑Bi∈P

E(X|Bi)P (Bi),

Page 18: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 17

si P = B1, . . . , Bn es una particion finita de Ω. Esta formula puede de-mostrarse alternativamente utilizando las funciones caracterısticas. De he-cho, siendo P una particion finita se tiene

n∑i=1

χBi= 1,

de donde

E(X) = E

(X

n∑i=1

χBi

)=

n∑i=1

E(XχBi) =

n∑i=1

E(X|Bi)P (Bi).

Diremos que una sucesion Xnn∈N de variables aleatorias converge a unavariable aleatoria X si para todo ω ∈ Ω se tiene Xn(ω) → X(ω).

Proposicion 2.16. Supongamos que la sucesion Xnn∈N de variables aleato-rias acotadas por una misma constante K converge a una variable aleatoriaX. Entonces E(Xn) converge a E(X).

Demostracion Sea ε > 0. Para cada ω ∈ Ω, sea N = N(ε, ω) elmenor entero tal que |Xn(ω) − X(ω)| < ε para todo n > N . La funcionω 7→ N(ε, ω) es una variable aleatoria finita (por hipotesis) que denotaremosNε. En particular, P (Nε > n) → 0 cuando n →∞. Ahora bien:

E(|Xn −X|) = E(|Xn −X|

∣∣∣Nε > n)

P (Nε > n)+

E(|Xn −X|

∣∣∣Nε ≤ n)

P (Nε ≤ n) ≤ 2KP (Nε > n) + ε → ε.

Como ε > 0 era arbitrario, se concluye E(|Xn − X|) → 0 cuando n → ∞.Esto implica

0 ≤∣∣∣E(Xn)− E(X)

∣∣∣ ≤ E(|Xn −X|) → 0,

de donde E(Xn) → E(X).

Proposicion 2.17. Supongamos que sucesion Xnn∈N de variables aleato-rias converge uniformemente a una variable aleatoria X. Entonces E(Xn)converge a E(X).

Page 19: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 18

Demostracion Basta tomar Yn = Xn − X y observar que |Yn| estaacotado por 1 para n suficientemente grande, por lo que E(Yn) → 0.

Notese que es posible dar una demostracion directa del corolario obser-vando que para n suficientemente grande se tiene X − ε < Xn < X + ε. Losdetalles se dejan al lector.

Hay un segundo teorema de convergencia mas fuerte que el de convergen-cia acotada que utilizaremos en lo que sigue. Para ello necesitamos algunapreparacion.

Proposicion 2.18. Sea Y una V.A. positiva e integrable. Existe una medidade probabilidad PY tal que para toda variable aleatoria X se tiene EY (X) =E(XY )/E(Y ) si algun lado de la ecuacion converge.

Demostracion Para cada ω ∈ Ω se define pY (ω) = Y (ω)p(ω)/E(Y ).Dejamos al lector la tarea de comprobar que esta formula define una funcionde probabilidad. La esperanza de X con respecto a esta medida esta dadapor

EY (X) =∑ω∈Ω

X(ω)pY (ω) =∑ω∈Ω

X(ω)Y (ω)p(ω)/E(Y ),

de donde se sigue lo pedido.

Proposicion 2.19. Supongamos que la sucesion Xnn∈N de variables aleato-rias acotadas por una misma V.A. positiva e integrable Y converge a unavariable aleatoria X. Entonces E(Xn) converge a E(X).

Demostracion Se define Zn = Xn/Y cuando Y 6= 0, y Zn = 0 en casocontrario. Notese que Xn = ZnY . Se define Z del mismo modo, ası queX = ZY . La definicion implica que Zn → Z para todo punto ω ∈ Ω. ComoXn esta acotado por Y , se tiene que Zn ≤ 1. Ahora se tiene

E(Xn) = E(ZnY ) = EY (Zn) → EY (Z) = E(X).

Proposicion 2.20. Si X es una variable aleatoria y F : R → R es unafuncion, entonces toda variable aleatoria Y que es independiente con X esindependiente con F (X).

Page 20: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 19

Demostracion Sean r, s ∈ R. Basta probar que

P(F (X) = r, Y = s

)= P

(F (X) = r

)P (Y = s).

Para eso observamos que F (X) = r implica X = t para algun t ∈ F−1(r).Se sigue que

P(F (X) = r, Y = s

)=

∑t∈F−1(r)

P (X = t, Y = s)

=∑

t∈F−1(r)

P (X = t)P (Y = s) = P(F (X) = r

)P (Y = s).

definicion 2.21. Una variable aleatoria X : Ω → R se dice simple si existeuna particion P = B1, . . . , Bn de Ω tal que X es constante en cada conjuntoBi. En este caso puede considerarse a X como una funcion definida en Py el calculo de su esperanza se reduce al calculo de la esperanza de unavariable aleatoria definida en un espacio finito. Utilizaremos a menudo estaobservacion en lo que sigue.

Proposicion 2.22. Si X e Y son variables aleatorias independientes e in-tegrables y al menos una es simple, se tiene E(XY ) = E(X)E(Y ).

Demostracion Suponiendo que Y es simple, se tiene que su rango R(Y )es finito y se tiene, tal como en el caso finito:

E(XY ) =∑

r∈R(Y )

E(XY |Y = r)P (Y = r)

=∑

r∈R(Y )

E(Xr|Y = r)P (Y = r) =∑

r∈R(X)

rE(X|Y = r)P (Y = r)

=∑

r∈R(Y )

rE(X)P (Y = r) = E(X)E(Y ).

Proposicion 2.23. Toda variable aleatoria acotada X es lımite uniforme devariables aleatorias simples que son funciones en X.

Page 21: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 20

Demostracion Sea X una variable aleatoria tal que para todo ω ∈ Ωse tiene −K ≤ X(ω) ≤ K. Se define Xn(ω) = k

nsi k

n≤ X(ω) < k+1

nes

inmediato que para todo n y todo ω ∈ Ω se tiene |Xn(ω) − X(ω)| < 1n. El

hecho de que cada Xn es simple sigue si observamos que Xn toma solo valoresde la forma k

ncon −K − 1

n< k

n< K por lo que hay solo una cantidad finita

de valores posibles. Por otro lado, es inmediato que Xn = 1n[nX] donde [a]

denota la funcion parte entera de a.

Proposicion 2.24. Si X e Y son variables aleatorias independientes e in-tegrables y al menos una es acotada, se tiene E(XY ) = E(X)E(Y ).

Demostracion Si −K ≤ X ≤ K escribimos X como un lımite uni-forme de variables aleatorias Xn que son tambien independientes de Y .Como |Y Xn| esta acotada por la V.A. integrable KY , se tiene por un ladoE(XnY ) → E(XY ) y por otro E(XnY ) = E(Xn)E(Y ) → E(X)E(Y ).

El resultado anterior es valido bajo la hiptesis de independencia e inte-gridad de ambas variables solamente. A fin de demostrarlo, necesitaremosun teorema de descomposicion de la esperanza para particiones numerables.

Proposicion 2.25. Sea X una variable aleatoria integrable. Entonces

E(X|X ≥ n)P (X ≥ n) → 0, cuando n →∞.

Demostracion Sea Yn la variable aleatoria que vale 0 si X < n y 1 sino. Entonces

E(XYn) = E(XYn|X ≥ n)P (X ≥ n) + E(XYn|X < n)P (X < n)

= E(X|X ≥ n)P (X ≥ n).

Se sigue que

E(X|X ≥ n)P (X ≥ n) = E(XYn) = EX(Yn)E(X) = PX(X ≥ n),

y el resultado sigue de la Proposicion 2.5 que el ultimo termino tiende acero.

Proposicion 2.26. Sea X una variable aleatoria integrable. si ℘ = B1, B2 . . .es una particion numerable de Ω, se tiene

E(X) =∞∑i=1

E(X|Bi)P (Bi),

y esta serie es absolutamente convergente.

Page 22: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 21

Demostracion Notese que∣∣∣E(X|Bi)P (Bi)∣∣∣ ≤ E

(|X|∣∣∣Bi

)P (Bi).

Remplazando X por |X| si es necesario podemos asumir que X es positiva.Sea T una variable aleatoria tal que T (ω) = n si y solo si ω ∈ Bn. Para cadanumero natural N la particion

℘N = B1, . . . , BN , CN

donde CN =⋃∞

i=N+1 Bi, satisface

E(X) =N∑

i=1

E(X|Bi)P (Bi) + E(X|CN)P (CN),

por lo que basta probar que E(X|CN)P (CN) converge a 0. Observese queω ∈ CN si y solo si T (ω) > N por lo que el resultado sigue de la proposicionprecedente.

En particular, si tomamos la particion formada por los conjuntos

Ar(X) = ω ∈ Ω|X(ω) = r,

se tiene:

Corolario 2.26.1. Si X una variable aleatoria integrable, entonces

E(X) =∑

r∈R(X)

rP (X = r),

donde el rango esencial R(X) puede remplazarse por cualquier conjunto mayor.

Tal como en el caso finito, podemos escribir

E(X) =∑r∈R

rP (X = r),

con el entendido de que esta suma tiene un numero numerable de terminosno nulos y es absolutamente convergente.

Mas generalmente, con las mismas convenciones, se tiene:

Page 23: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 22

Corolario 2.26.2. Si X una variable aleatoria tal que F (X) es integrable,entonces

E[F (X)] =∑r∈R

F (r)P (X = r).

Proposicion 2.27. Si X e Y son variables aleatorias independientes e inte-grables, entonces XY es tambien integrable y se tiene E(XY ) = E(X)E(Y ).

Demostracion Supongamos primero que se sabe de antemano que XYes integrable. Entonces podemos escribir como en el caso finito:

E(XY ) =∑

r∈R(Y )

E(XY |Y = r)P (Y = r) =∑

r∈R(Y )

E(Xr|Y = r)P (Y = r)

=∑

r∈R(Y )

rE(X|Y = r)P (Y = r) =∑

r∈R(Y )

rE(X)P (Y = r) = E(X)E(Y ),

utilizando el resultado precedente. En el caso general, basta probar que|XY | = |X||Y | es integrable, por lo que podemos suponer que X e Y son pos-itivas. Ademas, si definimos Xn = minX, n, se tiene que el producto XnYes integrable ya que Xn es acotada y por lo tanto E(XnY ) = E(Xn)E(Y ) ≤E(X)E(Y ). Como cada sub-suma finita de la suma∑

ω∈Ω

X(ω)Y (ω)p(ω) (2.1)

que define E(XY ) es sub-suma de la suma correspondiente que define aE(XnY ) para algun n, esta esta acotada por E(X)E(Y ) por lo que (2.1)converge.

Page 24: Probabilidades Luis Arenas Ciencias

Chapter 3

Espacios de probabilidad.

La teorıa desarrollada hasta aquı permite estudiar un gran numero de prob-lemas, pero hay situaciones que no nos permite describir. Por ejemplo siqueremos construir un espacio asociado al problema siguiente:

Se arroja una moneda indefinidamente. Cual es la probabilidadde que el numero de caras nunca supere al de sellos durante todoel proceso?

Nos gustarıa estudiar este problema definiendo un espacio de probabilidad enel cual se tuviera un punto por cada posible sucesion (infinita) de resultadoscara o sello. Notese que el conjunto de tales sucesiones no es numerable.Otro problema de este tipo es el siguiente:

Se escoge un numero al azar entre 0 y 1 de modo que para cadaintervalo [a, b] la probabilidad de escoger un elemento de este esb− a.

En este capıtulo desarrollaremos una teorıa de probabilidades mas general,que puede aplicarse a problemas de este tipo. Por simplicidad damos aquisolamente las definiciones generales, posponiendo los resultados de existencia(por ejemplo, de los espacios antes mencionados) a un capıtulo posterior (aunno escrito).

σ-Algebras

Antes de dar la definicion general de espacio de probabilidad, es necesariohacer una observacion. Hasta aquı la probabilidad era una funcion definida

23

Page 25: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 24

en un subconjunto arbitrario del espacio muestral Ω. Sin embargo, es posibledemostrar que no existe ninguna medida de probabilidad definida en todoslos subconjuntos de [0, 1] tal que la medida de un intervalo [a, b] sea b−a. Esnecesario por lo tanto restringir nuestra definicion a una coleccion menor desubconjuntos. Esta coleccion debe, sin embargo, ser lo bastante amplia paraincluir uniones numerables. A continuacion formalizaremos este concepto:

definicion 3.1. Sea Ω un conjunto arbitrario. Una σ-algebra en Ω es unacoleccion Σ de subconjuntos de Ω que satisface las condiciones siguientes:

1. ∅ ∈ Σ.

2. Si A ∈ Σ entonces su complemento Ac esta en Σ.

3. Si Aii∈N es una familia numerable de conjuntos en Σ, entonces suunion A =

⋃i∈N Ai esta en Σ.

Notese que las leyes de De Morgan implican que una σ-algebra es tambiencerrada bajo intersecciones numerables, puesto que si Aii∈N es una familianumerable de conjuntos en Σ, entonces

A =⋂i∈N

Ai =

(⋃i∈N

Aci

)c∈ Σ.

definicion 3.2. Un espacio medible es un par (Ω, Σ) donde Ω es un conjuntoy Σ es una σ-algebra en Ω.

ejemplo 3.3. Si Ω es un conjunto arbitrario, la coleccion ℘(Ω) de todos lossubconjuntos de Ω es una σ-algebra. Si Ω es finito o numerable, esta es launica σ-algebra que contiene a todos los conjuntos unitarios ω.

ejemplo 3.4. Si Ω es un conjunto arbitrario, la coleccion X de todos lossubconjuntos A de Ω tales que uno de los conjuntos A o Ac es numerable esuna σ-algebra.

ejemplo 3.5. Si f : ∆ → Ω es una funcion arbitraria, y si A es un subcon-junto de Ω, su pre-imagen f−1(A) se define por:

f−1(A) = δ ∈ ∆|f(δ) ∈ A.

Page 26: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 25

Dejamos al lector la comprobacion de las propiedades basicas de la pre-imagen:

f−1(∅) = ∅, f−1(Ac) = f−1(A)c, f−1

(⋃i∈N

Ai

)=⋃i∈N

f−1(Ai).

Si Σ es una σ-algebra en Ω, su pre-imagen es la coleccion

f ∗(Σ) = f−1(A)|A ∈ Σ.

De hecho, f ∗(Σ) es una σ-algebra en ∆, como se deduce de las identidadesprecedentes.

ejemplo 3.6. Si f : Ω → ∆ es una funcion arbitraria, y si Σ es una σ-algebraen Ω, la coleccion

f∗(Σ) = B ⊆ ∆|f−1(B) ∈ Σ

es una σ-algebra en ∆.

ejemplo 3.7. Toda interseccion de σ-algebras es una σ-algebra. En partic-ular, si T es una coleccion de subconjuntos de Ω, existe una menor σ-algebraΣ(T ) que contiene a T y se llama la σ-algebra generada por T . De hechoΣ(T ) puede caracterizarse como la interseccion de todas las σ-algebras quecontienen a T . Los elementos de Σ(T ) se obtienen a partir de los elementosde T mediante sucesivos complementos y uniones numerables.

ejemplo 3.8. La σ-algebra en R generada por el conjunto de todos los inter-valos del tipo [a, b[ se denomina la σ-algebra de Borel de R. Los elementosde esta σ-algebra se llaman borelianos. Observese que los siguientes tipos deconjuntos son borelianos:

1. r =⋂∞

n=1[r, r + 1/n[.

2. [a, b] =⋂∞

n=1[a, b + 1/n[.

3. ]a, b[=⋃∞

n=1[a + 1/n, b[.

Lo mismo sucede para cualquier otro tipo de intervalo.

Page 27: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 26

Medidas de Probabilidad

definicion 3.9. Sea (Ω, Σ) un espacio medible. Una medida en este espacioes una funcion P : Σ → [0,∞] que satisface las condiciones siguientes:

1. P (∅) = 0.

2. Si Aii∈N es una familia numerable de conjuntos disjuntos en Σ, en-tonces su union A =

⋃i∈N Ai satisface

P (A) =∞∑i=1

P (Ai).

En este caso el trıo (Ω, Σ, P ) se denomina un espacio de medida. Si P (Ω) = 1se dice que (Ω, Σ, P ) es un espacio de probabilidad.

ejemplo 3.10. Si Ω es numerable, cada funcion de probabilidad p definidaen Ω define una medida de probabilidad P en la σ-algebra ℘(Ω) de todos lossubconjuntos de Ω mediante P (B) =

∑ω∈B p(ω).

ejemplo 3.11. Mas generalmente, si ℘ es una particion numerable de Ω, lacoleccion de todos los subconjuntos de ω que pueden escribirse como unionde elementos de ℘ forman una σ-algebra Σ℘. Toda funcion de probabilidaden ℘ define una medida de probabilidad en (Ω, Σ℘).

ejemplo 3.12. Si f : Ω → ∆ es una funcion arbitraria, y si P es una medidade probabilidad en (Ω, Σ), entonces existe una medida de probabilidad enf∗(Σ) definida por Pf (B) = P [f−1(B)].

ejemplo 3.13. Si P es una medida de probabilidad definida en (Ω, Σ), y siΠ es una σ-algebra contenida en Σ, la restriccion de P a Π define una medidaen (Ω, Π).

ejemplo 3.14. Si Σ es la σ-algebra definida el ejemplo 3.4, sobre un espaciomuestral no numerable Ω, entonces se define una medida de probabilidad enΣ mediante P (A) = 0 si A es numerable y P (A) = 1 en caso contrario.

definicion 3.15. Una Variable Aleatoria en un espacio medible (Ω, Σ) esuna funcion X : Ω → R ∪ ∞, tal que para cada intervalo [a, b[ se tiene

X−1[a, b[=

ω ∈ Ω|X(ω) ∈ [a, b[∈ Σ.

Page 28: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 27

En otras palabras, si (Ω, Σ, P ) es un espacio de medida, la funcion X : Ω → Res una variable aleatoria si la probabilidad

P (a ≤ X < b) = P(X ∈ [a, b[

)= PX

([a, b[

)esta definida.Aquı PX esta definida en el ejemplo 3.12. Notese que los con-juntos B para los cuales

X−1(B) = ω ∈ Ω|X(ω) ∈ B ∈ Σ

forman una σ-algebra por el ejemplo 3.6, de modo que en particular P (X ∈B) esta definida para cualquier boreliano B. Como

ω ∈ Ω|a ≤ X(ω) < b = ω ∈ Ω|X(ω) < b ∩ ω ∈ Ω|X(ω) < ac,

es suficiente con probar que ω ∈ Ω|X(ω) < b) ∈ Σ, o en otras palabrasque la probabilidad P (X < b) esta definida. La funcion definida por F (b) =P (X < b) recibe el nombre de funcion de distribucion de X.

Observacion 3.16. Si denotamos por B la σ-algebra en R formada portodods los borelianos, entonces para toda variable aleatoria X la funcion PX

definida porPX(B) = P (X ∈ B)

es una medida de probabilidad en el espacio (R, B). Se llama la medida deBorel asociada a la variable aleatoria X.

Proposicion 3.17. Sumas de variables aleatorias son variables aleatorias.

Demostracion Notese que si x + y < b, se tiene y < b− x. Sea ahorarnn una sucesion de numeros racionales que converge a x por la derecha.Entonces y < b−rn para n suficientemente grande. Se sigue que existe algunnumero racional r tal que x < r e y < b− r. Se concluye que

ω ∈ Ω|X(ω) + Y (ω) < b =⋃r∈Q

ω ∈ Ω|X(ω) < r ∩ ω ∈ Ω|Y (ω) < b− r ∈ Σ.

Proposicion 3.18. Si X es una variable aleatoria y G : R → R es unafuncion monotona, entonces G(X) = G X es una variable aleatoria.

Page 29: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 28

Demostracion Basta ver que si G es creciente entonces para todo in-tervalo I en R, su preimagen G−1(I) es un intervalo, ya que entonces

ω ∈ Ω|G[X(ω)] ∈ I = ω ∈ Ω|X(ω) ∈ G−1(I) ∈ Σ.

Si a y b son elementos de G−1(I), entonces para todo c entre a y b el elementoG(c) debe estar entre G(a) y G(b) por la monotonıa de G y por lo tantoG(c) ∈ I, de donde c ∈ G−1(I).

Corolario 3.18.1. Si X es una variable aleatoria, entonces αX tambien loes para toda constante α. En particular combinaciones lineales de variablesaleatorias son variables aleatorias.

Corolario 3.18.2. Si X es una variable aleatoria y G : R → R es unafuncion continua con un numero finito de maximos o mınimos, entoncesG(X) = G X es una variable aleatoria.

Demostracion Supongamos que G es monotona en cada uno de losintervalos ]−∞, x0], [x0, x1], . . . , [xn−1, xn], [xn,∞[. Basta escribir

G(x) =n+1∑i=0

Gi(x),

donde las funciones monotonas Gi se definen por

G0(x) =

G(x) if x ≤ x0

G(x0) if x ≥ x0

∣∣∣∣ ,Gi(x) =

0 if x ≤ xi−1

G(x)−G(xi−1) if xi−1 ≤ x ≤ xi

G(xi)−G(xi−1) if x ≥ xi

∣∣∣∣∣∣ ,para 1 ≤ i ≤ n, y finalmente

Gn+1(x) =

0 if x ≤ xn

G(x)−G(xn) if x ≥ xn

∣∣∣∣ .Demostraremos al final de este capıtulo que G(X) es una variable aleato-

ria para toda funcion continua G.

Proposicion 3.19. Productos de variables aleatorias son variables aleato-rias.

Page 30: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 29

Demostracion Si b, x, e y son positivos, entonces xy < b es equivalentea x < r e y < b/r para algun racional positivo r, por lo que si X e Y fuesenvariables aleatorias positivas el resultado sigue como en el caso de la suma.Para el caso general, escribimos X = G1(X)−G2(X) e Y = G1(Y )−G2(Y ),donde

G1(t) = 1 + max0, t, G2(t) = 1 + max0,−t,y observamos que

XY = G1(X)G1(Y )−G1(X)G2(Y )−G1(X)G2(Y ) + G1(X)G2(Y ).

definicion 3.20. Una Variable Aleatoria se dice discreta si su imagen

X(Ω) = X(ω)|ω ∈ Ω

es numerable. La esperanza de una variable aleatoria discreta X se definepor:

E(X) =∑r∈R

rP (X = r) =∑

r∈X(Ω)

rP (X = r).

La probabilidad P (X = r) esta definida ya que r es un boreliano.

Una particion (numerable) ℘ se dice mas fina que una particion ℘′ sitodo conjunto de ℘ esta contenido en un conjunto de ℘′. Denotemos por℘X la particion formada por los conjuntos Ar(X). Entonces para cualquierparticion ℘ mas fina que ℘X se tiene

E(X) =∑A∈℘

X(a)P (A),

donde a es un elemento arbitrario de A. Notese que si ℘ es cualquier particionnumerable contenida en Σ, entonces

℘ ∩ ℘X = A ∩ AX |A ∈ ℘, AX ∈ ℘X

es tambien una particion numerable contenida en Σ y es mas fina que que℘X . La variable aleatoria X puede interpretarse como una variable aleatoriadefinida en el conjunto numerable ℘ ∩ ℘X , de donde se obtiene, utilizandolos resultados del capıtulo anterior, que

E(X) =∑A∈℘

P (A) 6=0

E(X|A)P (A).

Page 31: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 30

La esperanza condicional en la formula precedente se define como la esper-anza con respecto a la probabilidad condicional, la que tambien se inter-preta como una probabilidad en el conjunto numerable ℘ ∩ ℘X . Del mismomodo se demuestra que si X e Y son variables aleatorias discretas, podemosconsiderarlas como variables aleatorias en el conjunto numerable ℘X ∩ ℘Y ,de modo que cualquier combinacion lineal αX + βY es discreta y se tieneE(αX + βY ) = αE(X) + βE(Y ). Asimismo, la definicion de independenciase extiende facilmente a variables aleatorias discretas. Si X e Y son variablesaleatorias discretas, integrables, e independientes, entonces la esperanza deXY esta definida y se tiene

E(XY ) = E(X)E(Y ).

definicion 3.21. Se dice que una variable aleatoria X es integrable si∑n∈Z

nP(X ∈ [n, n + 1[

)es absolutamente convergente. En otras palabras, una variable aleatoriaarbitraria X es integrable si y solo si la variable aleatoria discreta X1 =[X] tiene esperanza bien definida. En particular, si X es discreta, se tiene[X] ≤ X ≤ [X] + 1, por lo que X tambien tiene esperanza bien definida. Dehecho si definimos Xn = 1

n[nX], entonces 0 ≤ E(X −Xn) ≤ 1

n, de modo que

E(X) = limn→∞

E(Xn). (3.1)

Sin embargo, las variables aleatorias Xn = 1n[nX] estan definidas y son discre-

tas para toda variable aleatoria X. Se sigue que podemos utilizar la ecuacion(3.1) para definir la esperanza de una variable aleatoria arbitraria. La de-sigualdad Xn ≤ X1+1 prueba que cada variable aleatoria Xn tiene esperanzabien definida y las desigualdades

Xn ≤ X ≤ Xn +1

n, Xm ≤ X ≤ Xm +

1

m,

implican |Xn −Xm| ≤ Max 1n, 1

m, por lo que se tiene

|E(Xn)− E(Xm)| ≤ E|Xn −Xm| ≤ Min

1

n,

1

m

para todo par de enteros m y n. Se sigue que la sucesion E(Xn) es deCauchy y por lo tanto converge.

Proposicion 3.22. La esperanza es lineal.

Page 32: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 31

Demostracion Probaremos primero que E(X) = −E(−X). Para estoobservamos que si k

n≤ x < k+1

nentonces −k−1

n< −x ≤ −k

n. Se sigue que

para todo ω ∈ Ω, (−X)n(ω) es igual a −Xn(ω) o a −Xn(ω) − 1n. En todo

caso

(−X)n ≤ −Xn ≤ (−X)n +1

n,

de donde

E(−X)n ≤ −E(X)n ≤ E(−X)n +1

n,

y el resultado sigue. Supongamos ahora que α y β son positivos. Se sigue dela definicion que

αX + βY ≤ (αX + βY )n ≤ αX + βY +1

n,

y del mismo modo

αX + βY ≤ αXn + βYn ≤ α

(X +

1

n

)+ β

(Y +

1

n

),

de donde−α− β

n≤ (αX + βY )n − (αXn + βYn) ≤ 1

n,

y la esperanza del termino central converge a E(αX+βY )−αE(X)−βE(Y ).El caso general sigue ahora facilmente. Por ejemplo, si α es negativo y βpositivo, escribimos

E(αX + βY ) = E[(−α)(−X) + βY ] =

(−α)E(−X) + βE(Y ) = αE(X) + βE(Y ).

Proposicion 3.23. Si X es una variable aleatoria integrable, y si ℘ es unaparticion numerable arbitraria, entonces

E(X) =∑A∈℘

E(X|A)P (A).

Page 33: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 32

Demostracion Basta ver que como Xn ≤ X ≤ Xn + 1n, se tiene

E(Xn) =∑A∈℘

E(Xn|A)P (A) ≤∑A∈℘

E(X|A)P (A)

≤∑A∈℘

(E(Xn|A) +

1

n

)P (A) = E(Xn) +

1

n,

y cada extremo de esta desigualdad converge a E(X).En particular, para todo evento fijo C de probabilidad no nula puede

aplicarse esta formula a la probabilidad condicional P (·|C) y obtener

E(X|C) =∑A∈℘

P (A|C) 6=0

E(X|A ∩ C)P (A|C).

En particular, si C es la union de alguna subcoleccion de la particion ℘, setiene

E(X|C) =∑A∈℘

P (A) 6=0

A⊆C

E(X|A)P (A)

P (C),

es decirE(X|C)P (C) =

∑A∈℘

P (A) 6=0

A⊆C

E(X|A)P (A).

Notese que C es la union de una subcoleccion de la particion ℘ si y solo siesta en la σ-algebra generada por ℘.

definicion 3.24. Dos variables aleatorias X e Y se dicen independientes, sipara todo par de intervalos I = [a, b[ y J = [c, d[ los eventos

A = ω ∈ Ω|X(ω) ∈ I, B = ω ∈ Ω|Y (ω) ∈ J,

son independientes, es decir P (A ∩B) = P (A)P (B).

Lema 3.25. Si X e Y son independientes, tambien lo son Xn e Yn.

Page 34: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 33

Demostracion Basta observar queω ∈ Ω

∣∣∣Xn(ω) =k

n

=

ω ∈ Ω

∣∣∣kn≤ X(ω) <

k + 1

n

,

y del mismo modoω ∈ Ω

∣∣∣Yn(ω) =k

n

=

ω ∈ Ω

∣∣∣kn≤ Y (ω) <

k + 1

n

,

por lo que estos conjuntos son independientes.

Proposicion 3.26. Si X e Y son variables aleatorias integrables e indepen-dientes, entonces XY es integrable, y se tiene E(XY ) = E(X)E(Y ).

Demostracion Para la integrabilidad, remplazando X, Y , y XY por|X|, |Y |, y |XY |, de ser necesario, podemos suponer que ambas variablesaleatorias son positivas y se tiene

(XY )1 ≤ XY ≤ (X1 + 1)(Y1 + 1) = X1Y1 + X1 + Y1 + 1,

y cada una de las variables aleatorias del lado izquierdo es integrable. ComoXn e Yn son independientes, se tiene E(XnYn) = E(Xn)E(Yn) → E(X)E(Y ),por otro lado

XnYn ≤ XY ≤(

Xn +1

n

)(Yn +

1

n

)= XnYn +

1

n(Xn + Yn) +

1

n2,

por lo que al tomar esperanzas se tiene

E(XnYn) ≤ E(XY ) ≤ E(XnYn) +1

n[E(Xn) + E(Yn)] +

1

n2,

y el resultado sigue.

Apendice 1: Tiempos de espera

El teorema de convergencia acotada se extiende al caso general con la mismademostracion utilizada en el capıtulo precedente si demostramos que la funcion

N(ε, ω) = min

m∣∣∣n ≥ m ⇒ |X(ω)−Xn(ω)| ≤ ε

Page 35: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 34

es una variable aleatoria. Esta funcion es un ejemplo de lo que llamaremosun tiempo de espera.

Sea Y1, Y2, . . . una sucesion de variables aleatorias tomando valores 0 y 1.El tiempo de espera asociada a la sucesion es la funcion

N(ω) = min

m∣∣∣n ≥ m ⇒ Y(ω) = 1

.

La funcion N se denomina en ocasiones el tiempo de espera del primer aciertode la sucesion.

Proposicion 3.27. Todo tiempo de espera es una variable aleatoria discreta.

Demostracion Sea X1, X2, . . . es una sucesion de variables aleatoriasen un espacio medible (Ω, Σ) tomando valores 0 y 1. Basta observar que

N = k ⇐⇒ Xk = 1 y X1 = · · · = Xk−1 = 0,

de donde

ω|N(ω) = k = ω|Xk(ω) = 1 ∩k−1⋂i=1

ω|Xi(ω) = 0

y este ultimo conjunto pertenece a la σ-algebra Σ.Observese que si X1, X2, . . . , Xm es una coleccion finita de variables aleato-

rias discretas en un espacio medible, estas pueden considerarse variablesaleatorias en un espacio numerable, por lo que cualquier funcion que dependade ellas es una variable aleatoria discreta. En particular, Si X1, X2, . . . es unasucesion de variables aleatorias en un espacio medible (Ω, Σ) tomando valores0 y 1, podemos definir una nueva sucesion de V.A.s Y1, Y2, . . . donde Yi = 1si y solo si Xi es el n-esimo termino de la sucesion que toma el valor 1. Eltiempo de espera de correspondiente recibe el nombre de tiempo de esperadel n-esimo acierto de la sucesion original.

Del mismo modo es posible definir el tiempo de espera del ultimo acierto(recuerdese que como toda variable aleatoria, un tiempo de espera puedetomar el valor infinito). Dada una sucesion de variables aleatorias a valores0 y 1 X1, X2, . . ., definimos una segunda sucesion de V.A.s Y1, Y2, . . . dondeYi = 1 si 0 = Xi+1 = Xi+1 = . . .. Cada Yi es una variable aleatoria ya que

ω|Yiω) = 1 =∞⋂

j=i+1

ω|Xj(ω) = 0.

Page 36: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 35

Notese que, ası definido, el tiempo de espera del ultimo acierto se anula sino hay aciertos.

Mas generalmente, Si X1, X2, . . . es una sucesion arbitraria de variablesaleatorias en un espacio medible y si B es un boreliano (en las aplicaciones, Bes generalmente un intervalo), podemos definir una nueva sucesion de V.A.sZ1, Z2, . . . donde Zi = 1 si y solo si 0 = Xi ∈ B, y hablar ası del tiempo deespera del primer ingreso (o del n-esimo, o el ultimo) a B. El hecho de quecada Zi es una variable aleatoria sigue de la observacion de que el conjuntoω|Xi(ω) ∈ B esta el la σ-algebra.

Apendice 2: Variables aleatorias y funciones continuas

En esta seccion demostraremos el resultado siguiente:

Proposicion 3.28. Si X es una variable aleatoria finita y G : R → R esuna funcion continua, entonces G(X) es una variable aleatoria.

Para demostrar este resultado necesitaremos algunos lemas sobre la topologıadel conjunto de numeros reales. Recordemos que un subconjunto U ⊆ R sedice abierto si para todo elemento x de U existe un real ε > 0 tal que el inter-valo ]x− ε, x + ε[ esta contenido en U . En particular, los intervalos abiertosson conjuntos abiertos.

Lema 3.29. Si G : R ∈ R es una funcion continua y U es un conjuntoabierto, entonces G−1(U) es un conjunto abierto.

Demostracion Sea x ∈ G−1(U). Por definicion esto significa G(x) ∈U . Como U es abierto, existe ε > 0 tal que]

G(x)− ε, G(x) + ε[⊆ U.

Como G es continua en x, existe δ > 0 tal que |x − y| < δ implica |G(x) −G(y)| < ε. En particular, si y ∈]x− δ, y + δ[ se tiene |x− y| < δ, por lo que|G(x)−G(y)| < ε, es decir

G(y) ∈]G(x)− ε, G(x) + ε

[⊆ U,

de donde, por definicion, se tiene y ∈ G−1(U). Como y era un punto arbi-trario de ]x− δ, x + δ[, se tiene ]x− δ, x + δ[⊆ G−1(U).

Lema 3.30. Todo subconjunto abierto de R es union numerable de intervalos.

Page 37: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 36

Demostracion Basta probar que un conjunto abierto U es la union detodos los intervalos de extremos racionales ]r, q[ tales que ]r, q[⊆ U , ya queexiste solo una cantidad numerable de tales intervalos. Sin embargo, paracada elemento x ∈ U existe un intervalo ]x − ε, x + ε[ contenido en U , porlo que basta encontrar un racional r entre x− ε y x, ası como un racional qentre x y x + ε.

Corolario 3.30.1. Todo subconjunto abierto de R es un boreliano.

Demostracion de la proposicion. Sea G : R → R una funcion con-tinua. Entonces para todo conjunto de la forma I =] − ∞, b[ el conjuntoG−1(I) es abierto y por lo tanto boreliano. Se sigue que

ω ∈ Ω|G(X)(ω) ∈ I = ω ∈ Ω|X(ω) ∈ G−1(I) ∈ Σ.

Apendice 3: El Teorema de Convergencia Dominada.

En este apendice generalizaremos los teoremas de convergencia dominada yacotada para variables aleatorias no discretas.

Proposicion 3.31. Supongamos que la sucesion Xnn∈N de variables aleato-rias acotadas por una misma constante K converge a una variable aleatoriaX. Entonces E(Xn) converge a E(X).

Demostracion Sea ε > 0. Para cada ω ∈ Ω, sea N = N(ε, ω) elmenor entero tal que |Xn(ω) − X(ω)| < ε para todo n > N . La funcionω 7→ N(ε, ω) es un tiempo de espera finito, luego en particular una variablealeatoria finita. El resultado sigue como en el capıtulo anterior una vez queprobemos el siguiente lema:

Lema 3.32. Si X es una variable aleatoria finita en un espacio de probabil-idad arbitrario, entonces P (X > t)

n→∞−→ 0.

Demostracion Observemos que P (Y > t)n→∞−→ 0 para toda V.A. disc-

reta Y por los resultados del capıtulo precedente. Por otro lado, para todaV.A. X se tiene

0 ≤ P (X > t) ≤ P

(1

n[nX] > t− 1

n

),

Page 38: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 37

de donde se sigue lo pedido.Para deducir el teorema de convergencia dominada del de convergencia

acotada, se define la medida PY , para toda V.A. positiva integrable Y medi-ante

PY (A) = EY (Y χA)/E(Y ).

Comprobaremos que PY define una medida. Es inmediato que PY (Ω) = 1y que PY (A ∪ B) = PY (A) + PY (B) si A y B son disjuntos. Consideremosahora una union numerable A =

⋃∞i=1 Ai de conjuntos Ai tales que Ai ∩ Aj

para i 6= j. En este caso, Ac, A1, A2, . . . es una particion numerable de Ω,por lo que se tiene

PY (A)E(Y ) = E(Y χA) = E(Y χA|Ac)P (Ac) +∞∑i=1

E(Y χA|Ai)P (Ai)

=∞∑i=1

E(Y |Ai)P (Ai) =∞∑i=1

E(Y χAi) =

∞∑i=1

PY (Ai)E(Y ).

Si X es cualquier V.A. discreta finita, se tiene

EY (X)E(Y ) =∑r∈R

rPY (X = r)E(Y ) =∑r∈R

rE(Y χX=r).

Y por otro lado,

E(XY ) =∑r∈R

E(XY |X = r)P (X = r) =∑r∈R

rE(Y |X = r)P (X = r),

de donde sigue que EY (X)E(Y ) = E(XY ). El caso general sigue ahora sirecordamos que

1

n[nX] ≤ X ≤ 1

n[nX] +

1

n.

Dejamos los detalles al lector. El siguente resultado sigue ahora como en elcapıtulo anterior.

Proposicion 3.33. Supongamos que la sucesion Xnn∈N de variables aleato-rias acotadas por una misma V.A. positiva e integrable Y converge a unavariable aleatoria X. Entonces E(Xn) converge a E(X).

Page 39: Probabilidades Luis Arenas Ciencias

Chapter 4

Variables aleatoriasabsolutamente continuas.

definicion 4.1. Sea X una variable aleatoria que satisface

P (a ≤ X < b) =

∫ b

a

f(x)dx

donde f es una funcion Riemann integrable y no negativa en cada intervalofinito. Se sigue que para todo par de numeros reales a y b, con a < b se tiene∫ b

a

f(x)dx ≤ P (Ω) = 1.

Por otro lado,∫ ∞

−∞f(x)dx =

∑n∈Z

∫ n+1

n

f(x) dx =∑n∈Z

P (n ≤ X < n + 1) = P (Ω) = 1,

y en particular esta integral es absolutamente convergente en R. En este casose dice que X es una variable aleatoria absolutamente continua. La funcionf recibe el nombre de funcion de densidad de X. Notese que en particularla funcion de densidad de X esta definida por

FX(t) =

∫ t

−∞f(s) ds

por lo que F ′X(t) = fX(t) en todo punto de continuidad de fX .

Proposicion 4.2. Sea X una variable aleatoria absolutamente continua.Para todo r ∈ R, se tiene P (X = r) = 0.

38

Page 40: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 39

Demostracion Basta ver que

0 ≤ P (X = r) ≤ P (r ≤ X ≤ r + ε) < Kε,

donde K es una cota para f en una vecindad de r.

Proposicion 4.3. Sea X una variable aleatoria absolutamente continua confuncion de densidad f . entonces E(X) =

∫∞−∞ xf(x) = I. si algun lado de

esta identidad esta definido.

Demostracion Notese que

E

(1

n[nX]

)=

∞∑i=−∞

i

nP

(i

n≤ X <

i + 1

n

)=

∞∑i=−∞

i

nP

∫ i+1n

in

f(x) dx

=

∫ ∞

−∞

1

n[nx]f(x) dx.

De este modo, si In =∫∞−∞

1n[nx]f(x) dx, se tiene In ≤ E(X) ≤ In + 1

n. Por

otro lado, es inmediato que In ≤ I ≤ In + 1n

si alguna de estas integralesconverge, por lo que E(X) = I.

ejemplo 4.4. Sea Xi una sucesion de V.A.’s de Bernouilli independientes deparametro 1/2 y sea X =

∑∞i=1

Xi

2i . Entonces para cada numero racional de

la forma a +∑N

i=1ai

2i donde a1, . . . , aN es una sucesion de 0’s y 1’s se tiene

P

(a ≤ X ≤ a +

1

2N

)=

1

2N.

De aqui no es dificil ver que para cada par de racionales en [0, 1] cuyo de-nominador es una potencia de 2 se tiene P (a ≤ X ≤ b) = b − a, y ya queel conjunto de tales numeros racionales es denso, la misma relacion es validapara numeros racionales cualesquiera. Se sigue que X es absolutamente con-tinua con funcion de densidad 1 en el intervalo [0, 1] y 0 en su complemento,o como diremos en lo sucesivo, con funcion de densidad χ[0,1].

ejemplo 4.5. Sea Xi la misma sucesion de V.A.’s del ejemplo precedentey sea y = 2

3

∑∞i=1

Xi

3i . Dado que cada numero racional tiene a lo mas 2representaciones en base 3, se ve facilmente que P (Y = r) = 0 para cadanumero racional r. Se sigue que Y no es discreta, sin embargo cada valor

Page 41: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 40

y = Y (ω) de Y tiene solo 0’s y 2’s en su representacion en base 3. Se sigueque y es un elemento del conjunto de cantor C =

⋂∞k=0 Ck, donde C0 = [0, 1] y

cada Cn+1 se obtiene removiendo el tercio central (abierto) de cada intervalocomponente de Cn. Notese que si Y tuviese una funcion de densidad f ≤ K,se tendrıa P (Y ∈ C) ≤ P (Y ∈ Cn) ≤ (2

3)nK para todo n en Z y por lo tanto

P (Y ∈ C) = 0. Se sigue que Y no es absolutamente continua.

ejemplo 4.6. Sea X una V.A. absolutamente continua con funcion de den-sidad χ[0,1]. Sea G una funcion continua en [0, 1]. Entonces para todo enteron se tiene

E

(G( 1

n[nX]

))=

n−1∑k=0

G

(k

n

)P

(k

n≤ X <

k + 1

n

)=

n−1∑k=0

G

(k

n

)1

n.

La suma de la derecha es una suma de Riemann de la funcion G y por lo

tanto E(G( 1

n[nX])

)→∫ 1

0G si n → ∞ por otro lado, como G es continua,

se tiene G( 1n[nX]) → G(X). Ademas G esta acotada por una constante K

por ser una funcion continua en un intervalo cerrado, por lo que el teorema

de convergencia dominada prueba que E(G( 1

n[nX])

)→ E

(G(X)

). Se sigue

que

E(G(X)

)=

∫ 1

0

G.

Antes de continuar necesitamos algunos lemas tecnicos. Recordemos queuna sucesion de funciones fnn∈N definidas en un intervalo I se dice con-verger uniformemente a una funcion f definida en I si para todo ε > 0 existeN ∈ N tal que

n > N ⇒ |fn(x)− f(x)| < ε ∀x ∈ I.

Lema 4.7. Si una sucesion de funciones reales gnn∈N definidas en un in-tervalo I = (a, b), no necesariamente finito, convergen uniformemente a una

funcion real g, y si f es una funcion no negativa cuya integral∫ b

af converge,

entonces ∫ b

a

gn(x)f(x) dxn→∞−→

∫ b

a

g(x)f(x) dx,

si todas las integrales consideradas convergen.

Page 42: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 41

Demostracion Sea ε > 0. Basta ver que para n suficientemente grandese tiene

g(x)− ε < gn(x) < g(x) + ε,

de donde∫ b

a

[g(x)− ε]f(x) dx <

∫ b

a

gn(x)f(x) dx <

∫ b

a

[g(x) + ε]f(x) dx,

es decir ∫gf − ε

∫f <

∫gnf <

∫gf − ε

∫f,

de donde se tiene que∫gf − ε

∫f ≤ lim inf

n→∞

∫gnf ≤ lim sup

n→∞

∫gnf ≤

∫gf − ε

∫f,

y tomando ε → 0 se tiene lo pedido.

Lema 4.8. Sea G una funcion absolutamente continua definida en un inter-valo finito y cerrado [c, d]. Entonces para todo ε > 0 existe δ > 0 tal que six, y ∈ [c, d] satisfacen |x− y| < δ entonces se tiene |G(x)−G(y)| < ε.

Demostracion Supongamos que es falso. Entonces existe ε > 0 talque para cada δ > 0 podemos escoger x e y en [c, d] con |x − y| < 1

npero,

sin embargo, |G(x) − G(y)| ≥ ε. En particular, para todo n existen xn eyn en [c, d] tales que |xn − yn| < 1

ny |G(xn) − G(yn)| ≥ ε. Tomando una

subsucesion si es necesario, podemos suponer que xn → x ∈ [c, d] cuandon → ∞. La desigualdad |xn − yn| < 1

nimplica que tambien yn → x, pero

entonces por la continuidad de G se tiene G(xn) → G(x) y G(yn) → G(x),de donde 0 = |G(x)−G(x)| ≥ ε, una contradiccion.

Lema 4.9. Supongamos que una sucesion de funciones tnn∈N definidas enun intervalo I = (a, b), no necesariamente finito, toman valores en un inter-valo finito [c, d] y convergen uniformemente a una funcion real t. Supongamos

ademas que f es una funcion no negativa cuya integral∫ b

af converge y G es

una funcion continua definida en [c, d]. Entonces∫ b

a

G[tn(x)]f(x) dxn→∞−→

∫ b

a

G[t(x)]f(x) dx,

si todas las integrales consideradas estan definidas.

Page 43: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 42

Demostracion Basta probar que Gtn converge uniformemente a Gt.Sea ε > 0. Por el lema anterior, existe δ > 0 tal que |x − y| < δ implica|G(x) − G(y)| < ε. Por otro lado, existe un entero N tal que si n > N setiene |tn(x) − t(x)| < δ para todo x ∈ I, por lo que |G[tn(x)] − G[t(x)]| < εpara todo x ∈ I y el resultado sigue.

Proposicion 4.10. Sea X una variable aleatoria absolutamente continua ysea G una funcion continua que se anula fuera de un intervalo de la forma[−N, N ]. Se tiene

E(G(X)

)=

∫ N

−N

G(x)f(x)dx.

Demostracion Observemos que en general

E(G(X)

)=∑

k

E

(G(X)

∣∣∣kn≤ X <

k + 1

n

)P

(k

n≤ X <

k + 1

n

).

Si mk y Mk son el maximo y el mınimo de G en el intervalo[

kn, k+1

n

], se tiene

mk ≤ E

(G(X)

∣∣∣kn≤ X <

k + 1

n

)≤ Mk,

por lo que debe existir un elemento tk,n en este intervalo tal que

G(tk,n) = E

(G(X)

∣∣∣kn≤ X <

k + 1

n

).

Poniendo tn(x) = tk,n si kn≤ x < k+1

n, se tiene

E(G(X)

)=∑

k

G(tk,n)P

(k

n≤ X <

k + 1

n

)=

∫ N

−N

G[tn(x)]f(x)dx,

y esta ultima integral converge a∫ N

−NG(x)f(x)dx cuando n →∞ por el lema

precedente.Probaremos ahora que un resultado similar se obtiene sin la hipotesis en

G. Para ello necesitaremos algunos lemas previos.

Lema 4.11. Sea X una variable aleatoria absolutamente continua. Paratoda funcion continua G se tiene

E(G(X)

∣∣∣a ≤ X ≤ b)P (a ≤ X ≤ b) =

∫ N

−N

G(x)f(x)dx.

Page 44: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 43

Demostracion Definimos una funcion continua H por

H(x) =

0 if x ≤ a− ε

a + G(a)ε

(r − a) if a− ε < x < aG(x) if a ≤ x ≤ b

b + G(b)ε

(b− r) if b < x < b + ε0 if x ≤ b + ε

∣∣∣∣∣∣∣∣∣∣.

Consideremos la descomposicion correspondiente a la particion ℘ que defineH, es decir

℘ =−∞, a− ε, a, b, b + ε,∞

.

Entonces la esperanza tiene la descomposicion:

E(H(X)

)= E

(H(X)

∣∣∣X ≤ a− ε)P (X ≤ a− ε) + . . . .

Como H vale 0 en los intervalos extremos y coincide con G en el intervalocentral, se tiene

E(H(X)

)= E

(H(X)

∣∣∣a− ε < X < a)P (a− ε < X < a)+

E(G(X)|a ≤ X ≤ b

)P (a ≤ X ≤ b)+

E(H(X)

∣∣∣b < X < b + ε)P (b < X < b + ε).

Como H es acotada y las probabilidades de los extremos tienden a 0 cuandoε → 0, se tiene

E(H(X)

)→ E

(G(X)|a ≤ X ≤ b

)P (a ≤ X ≤ b),

pero por otro lado,

E(H(X)

)=

∫ ∞

−∞H(x)f(x)dx →

∫ N

−N

G(x)f(x)dx.

Lema 4.12. Sea X una variable aleatoria absolutamente continua. Paratoda funcion continua G tal que G(X) es integrable, se tiene

E(G(X)

∣∣∣|X| ≥ N)P (|X| ≥ N) → 0,

cuando N →∞.

Page 45: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 44

Demostracion Basta probar que dada cualquier sucesion creciente Nkk

de numeros reales, se tiene

E(G(X)

∣∣∣|X| ≥ Nk

)P (|X| ≥ Nk) → 0.

Para ello observamos que

E(G(X)

)= E

(G(X)

∣∣∣|X| < N1

)P (|X| < N1)+

∞∑k=1

E(G(X)

∣∣∣Nk ≤ |X| ≤ Nk+1

)P (Nk ≤ |X| ≤ Nk+1),

por lo que en particular esta suma es convergente. Por otro lado

E(G(X)

∣∣∣|X| ≥ Nt

)P (|X| ≥ Nt) =

∞∑k=t

E(G(X)

∣∣∣Nk ≤ |X| ≤ Nk+1

)P (Nk ≤ |X| ≤ Nk+1),

es una cola de esta suma y por lo tanto converge a 0.

Proposicion 4.13. Sea X una variable aleatoria absolutamente continua.Para toda funcion continua G se tiene que G(X) es integrable si y solo si laintegral en R de G(x)f(x) converge absolutamente y en tal caso:

E(G(X)

)=

∫ ∞

−∞G(x)f(x)dx.

Demostracion Supongamos primero que G(X) es integrable. Bastaver que

E(G(X)

)= E

(G(X)

∣∣∣|X| < N)P (|X| < N)+

E(G(X)

∣∣∣|X| > N)P (|X| > N) =∫ N

−N

G(x)f(x)dx + E(G(X)

∣∣∣|X| > N)P (|X| > N),

y utilizar el resultado precedente. Supongamos ahora que la integral convergeabsolutamente, es decir, que ∫ ∞

−∞|G(t)|f(t) dt

Page 46: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 45

converge. Necesitamos probar que |G(X)| es integrable. En otras palabras,necesitamos probar la convergencia de la serie

∞∑n=0

nP (n ≤ |G(X)| < n + 1).

De hecho si An denota el evento n ≤ |G(X)| < n + 1, entonces∑n≤N

nP (An) ≤∑n≤N

E(|G(X)|

∣∣∣An

)P (An)

= E(|G(X)|

∣∣∣|G(X)| < N + 1)P(|G(X)| < N + 1

).

Sea ahora H(x) = min|G(x)|, n + 1. Entonces H(X) es acotada y por lotanto integrable. Por otro lado

E(H(X)

)= E

(|G(X)|

∣∣∣|G(X)| < n + 1)P(|G(X)| < n + 1

)+(n + 1)P

(|G(X)| ≥ n + 1

),

y es claro que

E(H(X)

)=

∫ ∞

−∞H(x)f(x)dx ≤

∫ ∞

−∞G(x)f(x)dx,

por lo que concluimos∑n≤N

nP (An) ≤∫ ∞

−∞G(x)f(x)dx

para todo N .

ejemplo 4.14. Sea X una V.A. distribuida uniformemente en [0, 1], i.e. su

funcion de densidad es χ[0,1]. Entonces su esperanza es E(X) =∫ 1

0t dt = 1

2.

Ademas se tiene E(X2) =∫ 1

0t2 dt = 1

3. Se concluye que V (X) = 1

3−(

12

)2=

112

.

ejemplo 4.15. Sea X una V.A. absolutamente continua con funcion de den-sidad e−tχ[0,∞). Entonces su esperanza es E(X) =

∫∞0

te−t dt = 1. Ademasse tiene E(X2) =

∫∞0

t2e−t dt = 2. Se concluye que V (X) = 2− (1)2 = 1.

ejemplo 4.16. Sea X una V.A. absolutamente continua con funcion de den-sidad 1√

πe−t2 . Entonces su esperanza es E(X) = 1√

π

∫∞−∞ te−t2 dt = 0. Ademas

se tiene E(X2) = 1√π

∫∞−∞ t2e−t2 dt = 1

2. Se concluye que V (X) = 1

2−(0)2 = 1

2.

Page 47: Probabilidades Luis Arenas Ciencias

Chapter 5

Vectores aleatorios.

En todo este capıtulo, (Ω, Σ, P ) es un espacio de probabilidad arbitrario.

Sean X1, . . . , Xn variables aleatorias. La funcion→X: Ω → Rn definida por

→X (ω) =

(X1(ω), . . . , Xn(ω)

)se denomina un vector aleatorio. Notese que si a1, . . . , an y b1, . . . , bn sonnumeros reales tales que a1 < b1 entonces

ω ∈ Ω|a1 ≤ Xi(ω) < bi, i = 1, . . . , n =n⋂

i=1

ω ∈ Ω|a1 ≤ Xi(ω) < bi

es un elemento de la σ-algebra Σ. En particular, si

R =n∏

i=1

[ai, bi),

la probabilidad P (→X (ω) ∈ R) esta definida.

Denotaremos por B(Rn) la menor σ-algebra de Rn que contiene a todoslos rectangulos R del tipo mencionado arriba. Sus elementos se llamaran

borelianos de Rn. Se sigue de lo anterior que la σ-algebra→X∗

[B(Rn)] esta

contenida en Σ y en particular ω ∈ Ω|→X (ω) ∈ A pertenece a Σ para

cualquier boreliano A en Rn. Por consiguiente, P (→X∈ A) esta definida.

Lema 5.1. Todo conjunto abierto o cerrado de Rn es un boreliano.

46

Page 48: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 47

Demostracion Basta probarlo para conjuntos abiertos, ya que los cer-rados son sus complementos. Afirmamos que todo abierto es union (nece-sariamente numerable) de rectangulos con extremos racionales. Sea U unconjunto abierto, y sea x ∈ U un elemento arbitrario. Por definicion existeε > 0 tal que la bola B = B(x; ε) esta contenida en U , pero entonces existeun rectangulo R tal que x ∈ R ⊆ B (ver figura).

r xRB

U

ejemplo 5.2. Si→X es un vector aleatorio, entonces las probabilidades

P(|→X −

→A | < r

), P

(→X ·

→A< r

)estan definidas para todo vector constante

→A y toda constante real r.

Si→X es un vector aleatorio, su funcion de distribucion F→

X: Rn → [0, 1]

esta definida mediante

F→X

(t1, . . . , tn) = FX1,...,Xn(t1, . . . , tn) = P (Xi < ti, i = 1, . . . , n).

Tambien recibe el nombre de funcion de distribucion conjunta de las V.A.sX1, . . . , Xn. Esta funcion puede ser utilizada para calcular probabilidadesrelacionadas con las V.A.s X1, . . . , Xn como lo muestra el siguiente ejemplo:

ejemplo 5.3. Sean X e Y dos V.A.s y sea F = FX,Y su funcion de dis-

Page 49: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 48

tribucion conjunta. Considerense las regiones A, B, C,D en el diagrama.

6

-

r............................................... ......................................

rr...............................................

......................................

A B

C

D

r(b,d)

(a,c)

No es dificil ver que:

• F (b, d) = P((X, Y ) ∈ A ∪B ∪ C ∪D

),

• F (a, d) = P((X, Y ) ∈ A ∪ C

),

• F (b, d) = P((X, Y ) ∈ A ∪B

),

• F (b, d) = P((X, Y ) ∈ C

).

Donde por convencion, cada rectangulo contiene sus bordes inferior e izquierdopero no el superior o el derecho. Se sigue que

P (a ≤ X < b ∧ c ≤ Y < d) = P((X, Y ) ∈ B

)=

F (b, d)− F (a, d)− F (b, c) + F (a, c).

De hecho se tiene una version generalizada de este resultado:

Proposicion 5.4. Sean X1, . . . , Xn variables aleatorias. Si a1, . . . , an yb1, . . . , bn son numeros reales que satisfacen ai < bi para i = 1, . . . , n, setiene:

P (ai ≤ Xi < bi; i = 1, . . . , n) =∑

→c =(c1,...,cn)

(−1)k(→c )F→

X(→c ),

donde la suma se extiende sobre todas las n-tuplas c = (c1, . . . , cn) tales que

cada ci es ai o bi y k(→c ) es el numero de a’s en la tupla.

Page 50: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 49

Demostracion Basta ver que

P (ai ≤ Xi < bi; i = 1, . . . , n) = E

(n∏

i=1

χai≤Xi<bi

)

= E

(n∏

i=1

(χXi<bi − χXi<ai)

)= E

∑c=(c1,...,cn)

(−1)k(→c )

n∏i=1

χXi<ci

=

∑c=(c1,...,cn)

(−1)k(→c )E

(n∏

i=1

χXi<ci

)=

∑c=(c1,...,cn)

(−1)k(→c )F→

X(→c ).

Proposicion 5.5. Las V.A.s X1, . . . , Xn son independientes si y solo si

F→X

(→b ) =

n∏i=1

FXi(bi)

para todo→b= (b1, . . . , bn) ∈ Rn.

Demostracion Recordemos que X1, . . . , Xn son independientes cuando

para todo→a= (a1, . . . , an) y

→b= (b1, . . . , bn) en Rn se tiene

P (ai ≤ Xi < bi; i = 1, . . . , n) =n∏

i=1

P (ai ≤ Xi < bi).

Se sigue que F→X

(→b ) =

∏i FXi

(bi) implica

P (ai ≤ Xi < bi; i = 1, . . . , n) =∑

→c =(c1,...,cn)

(−1)k(→c )F→

X(→c ) =

∑→c =(c1,...,cn)

(−1)k(→c )

n∏i=1

FXi(ci) =

n∏i=1

(FXi(bi)− FXi

(ai))

=n∏

i=1

P (ai ≤ Xi < bi).

Page 51: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 50

Lo que prueba que las V.A.s son independientes. La conversa es inmediatatomando ai → −∞.

Un vector aleatorio→X se dice absolutamente continuo si existe una funcion

f→X

: Rn → R integrable, llamada la funcion de densidad de→X, tal que

F→X

(→b ) =

∫ bn

−∞· · ·∫ b1

−∞f→

X(s1, . . . , sn) ds1 · · · dsn

para cada→b= (b1, . . . , bn) ∈ Rn. Es inmediato de la definicion que en cada

punto de continuidad de f→X

se tiene

f→X

(s1, . . . , sn) =∂n

∂xn · · · ∂x1

F→X

(s1, . . . , sn).

Ademas, las funciones de densidad de cada variable es la integral de f→X

con

respecto a las variables restantes, por ejemplo

fX1(t1) =

∫ ∞

−∞· · ·∫ ∞

−∞f→

X(t1, s2, . . . , sn) ds2 · · · dsn.

Estas funciones reciben el nombre de distribuciones marginales del vectoraleatorio.

Proposicion 5.6. Sea→X= (X1, . . . , Xn) un vector aleatorio absolutamente

continuo. Las V.A.s X1, . . . , Xn son independientes si y solo si

f→X

(→b ) =

n∏i=1

fXi(bi)

para todo→b= (b1, . . . , bn) ∈ Rn.

Demostracion La independencia equivale a F→X

(→b ) =

∏ni=1 FXi

(bi),pero entonces

F→X

(→b ) =

n∏i=1

∫ bi

−∞fXi

(si) dsi =

∫ bn

−∞· · ·∫ b1

−∞

(n∏

i=1

fXi(si)

)ds1 · · · dsn

de donde el resultado sigue. La conversa es similar.

Page 52: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 51

Proposicion 5.7. Si→X es un vector aleatorio absolutamente continuo con

funcion de densidad f→X, entonces para numeros reales a1, . . . , an y b1, . . . , bn

tales que ai < bi para i = 1, . . . , n se tiene

P (ai ≤ Xi < bi; i = 1, . . . , n) =

∫ bn

an

· · ·∫ b1

a1

f→X

(s1, . . . , sn) ds1 · · · dsn.

Demostracion Basta escribir cada integral de la forma∫ bn

anh en la

forma∫ bn

−∞ h −∫ an

−∞ h y razonar como en la demostracion de la Proposicion5.4.

Proposicion 5.8. Sea G : Rn → R una funcion continua. Entonces G(→X)

es una variable aleatoria.

Demostracion Basta ver que

G(→X) ∈ (−∞, b) =

→X∈ x ∈ Rn|g(x) ∈ (−∞, b)

∈ Σ,

ya que el conjunto x ∈ Rn|g(x) ∈ (−∞, b) es abierto y por lo tanto bore-liano.

Proposicion 5.9. Sea G : Rn → R una funcion continua y sea A un con-junto acotado cuyo borde es una curva diferenciable a trozos. Entonces

E(G(

→X)∣∣∣ →X∈ A

)P (

→X∈ A) =

∫A

G(→x)f(

→x) d

→x .

Demostracion Observese que si R es un rectangulo que contiene a Ay ℘ = R1, . . . , Rn es una particion de R en rectagulos menores, se tiene

E(G(

→X)∣∣∣ →X∈ A

)P (

→X∈ A) = E

(G(

→X)χ→

X∈A

)=

n∑i=1

E(G(

→X)χ→

X∈A

∣∣∣ →X∈ Ri

)P (

→X∈ Ri),

dado que→X∈ A implica

→X∈ R. Sea t : R → R definida por

t(→x) = E

(G(

→X)χ→

X∈A

∣∣∣ →X∈ Ri

), si

→x∈ Ri.

Page 53: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 52

Entonces se tiene∫R

t(→x)f→

X(→x) d

→x=

n∑i=1

E(G(

→X)χ→

X∈A

∣∣∣ →X∈ Ri

)∫Ri

f→X

(→x) d

→x=

n∑i=1

E(G(

→X)χ→

X∈A

∣∣∣ →X∈ Ri

)P (

→X∈ Ri) = E

(G(

→X)∣∣∣ →X∈ A

)P (

→X∈ A).

Sean ahora Mi y mi el maximo y el mınimo de la funcion G(→x)χA(

→x). Se

tienemi ≤ E

(G(

→X)χ→

X∈A

∣∣∣ →X∈ Ri

)≤ Mi.

Se sigue que si→x∈ Ri entonces |t(→x)−G(

→x)χA(

→x)| ≤ Mi −mi. Se concluye

que ∣∣∣∣∫R

t(→x)f→

X(→x) d

→x −

∫R

G(→x)χA(

→x)f→

X(→x) d

→x

∣∣∣∣ ≤K

n∑i=1

(Mi −mi)Area(Ri),

para cualquier cota K de f→X

en R. Esta ultima suma puede hacerse arbi-

trariamente pequena ya que G(→x)χA(

→x) es Riemann-integrable en R.

ejemplo 5.10. Sea (X,Y ) un vector aleatorio con funcion de densidadf(x, y) = (x + y)χ[0,1]2(x, y). Entonces se tiene

P (X2 + Y 2 ≤ 1) =

∫D

(x + y) dxdy =

∫ π/2

0

∫ 1

0

(r cos θ + r sen θ)r drdθ =2

3,

donde D es la region de la figura siguiente

figuraaki.

Por otro lado

E(X) =

∫R

x(x + y) dxdy =

∫ 1

0

∫ 1

0

(x2 + xy) dxdy =7

12.

Page 54: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 53

ejemplo 5.11. Si X es una variable aleatoria, el vector aleatorio→X= (X, X)

no es absolutamente continuo, ya que de ser f su funcion de densidad setendrıa

1 = P (→X∈ ∆) =

∫∆

f(x, y) dxdy = 0,

donde ∆ es la diagonal.

ejemplo 5.12. Diremos que un vector aleatorio→X esta uniformemente dis-

tribuido al interior de un conjunto acotado A cuyo borde es una curva deriv-able a trozos si la funcion de densidad del vector aleatorio esta dada por

f(→t ) =

χA(→t )

Area(A).

En este caso se tiene, para cada subconjunto B de similares caracterısticasla relacion

P (→X∈ B) =

Area(A ∩B)

Area(A).

A continuacion removemos la condicion de que A sea acotado.

Proposicion 5.13. Sea G : Rn → R una funcion continua y sea A unconjunto cuyo borde es una union finita de curvas diferenciables. Entonces

E(G(

→X)∣∣∣ →X∈ A

)P (

→X∈ A) =

∫A

G(→x)f(

→x) d

→x .

Demostracion Se sigue que para todo real positivo N , si AN = A ∩B(0; N), se tiene

E(G(

→X)∣∣∣ →X∈ AN

)P (

→X∈ AN) =

∫AN

G(→x)f(

→x) d

→x,

y el lado derecho converge a ∫A

G(→x)f(

→x) d

→x

cuando N →∞. Por otro lado, se tiene

E(G(

→X)∣∣∣ →X∈ A

)P (

→X∈ A) = E

(G(

→X)∣∣∣ →X∈ AN

)P (

→X∈ AN)+

Page 55: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 54

E(G(

→X)∣∣∣ →X∈ A− AN

)P (

→X∈ A− AN).

Basta por lo tanto probar que el ultimo termino tiende a 0 cuando N →∞.

Esto es inmediato si |G(→X)|χA(

→X) es integrable por el teorema de convergen-

cia dominada. Esto es cierto en particular si G es acotada. El caso general

sigue de remplazar G por una funcion acotada H(→x) = max|G(

→x)|, K y

razonar como en la demostracion de la Proposicion 4.13.

Apendice: Probabilidad Condicional

Definiremos una version continua de la probabilidad condicional para paresde V.A.s (X, Y ) con una densidad conjunta f como sigue: Si fX(x) 6= 0 sedefine

fY |X(y|x) =f(x, y)

fX(x).

Notese que con esta definicion se tiene∫ ∞

−∞fY |X(y|x)fX(x) dx =

∫ ∞

−∞f(x, y) dx = fY (y).

Lo que puede interpretarse como una version continua de la descomposicionpor casos. De hecho, se tiene

∫∞−∞ fY |X(y|x) dy = fX(x)

fX(x)= 1, por lo que la

funcion fY |X(y|x) ası definida tiene las propiedades que caracterizan a unafuncion de densidad. Se la interpreta normalmente como la densidad de laV.A. Y para un valor dado de la V.A. X.

ejemplo 5.14. Si X es una V.A. aleatoria distribuida uniformemente en[1, 2] y para cada valor de X, la V.A. Y esta distribuida uniformemente,entonces

fY |X(y|x) =χ[0,x](y)

x.

De aquı se tiene

f(x, y) =χ[1,2](x)χ[0,x](y)

x.

Notese que la integral

FY |X(a|x) =

∫ a

−∞fY |X(y|x) dy,

Page 56: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 55

satisface la relacion ∫ ∞

−∞FY |X(a|x)fX(x) dx = FY (a),

y mas generalmente ∫ b

−∞FY |X(a|x)fX(x) dx = F (a, b),

Mas generalmente, considerese un vector aleatorio arbitrario (X, Y ) con funcionde densidad F (a, b) tal que existe una funcion FY |X(a|x) que satisface esaidentidad, entonces diremos que FY |X(a|x) es la funcion de distribucion condi-cional de Y para un valor dado de la V.A. X.

ejemplo 5.15. Si X es una V.A. aleatoria distribuida uniformemente en [1, 2]y para cada valor r de X, la V.A. Y toma el valor 0 o r con probabilidad1/2, entonces FY |X(y|x) es una funcion escalonada con un escalon de tamao1/2 en 0 y un escalon de tamao 1/2 en r. Se sigue que para b entre 0 y 1,

FY (b) =

∫ 2

1

FY |X(b|x) dx = 1/2,

mientras que para b entre 1 y 2 se tiene

FY (b) =

∫ 2

1

FY |X(b|x) dx =

∫ b

1

1 dx +

∫ 2

b

1

2dx = (b− 1) +

1

2(2− b) =

b

2.

Si Y es una V.A. acotada, digamos 0 ≤ Y ≤ 1, se tiene en el caso anterior

E(Y ) = limn→∞

n∑i=0

i

nP

(i

n≤ Y <

i + 1

n

)= lim

n→∞

n∑i=0

i

n

[FY

(i + 1

n

)− FY

(i

n

)]=

limn→∞

∫ ∞

−∞

n∑i=0

i

n

[FY

(i + 1

n

∣∣∣x)− FY

(i

n

∣∣∣x)] fX(x) dx.

Mediante un argumento de convergencia uniforme puede probarse como antesque esta integral converge a∫ ∞

−∞E(Y |x)fX(x) dx,

donde E(Y |x) es la esperanza de Y con respecto a la funcion de probabilidadcondicional. Formulas similares pueden darse para V.A.s del tipo G(Y ) oincluso para funciones de verias variables aleatorias. Dejamos al lector latarea de explorar dichos analogos.

Page 57: Probabilidades Luis Arenas Ciencias

Chapter 6

La ley de los grandes numeros.

Sea X una variable aleatoria. Por una muestra de tamao n de la variablealeatoria X queremos decir una sucesion X1, . . . , Xn de variables aleatoriasindependientes definidas en un mismo espacio muestral Ω, cada una conla misma funcion de distribucion que X. En este capıtulo estudiaremos elcomportamiento de la variable aleatoria promedio cuando el tamao de lamuestra tiende a infinito.

Sea X1, . . . , Xn, . . . es una sucesion de variables aleatorias en un mismoespacio muestral Ω. Diremos que Xn converge en probabilidad (o en medida)a una variable aleatoria X, o que X es el lımite en probabilidad (o en medida)de la sucesion si para cada ε, δ > 0 existe un entero N = N(ε) tal que

n > N ⇒ P (|X −Xn| > ε) < δ.

Equivalentemente, para cada ε > 0, la sucesion de numeros reales

P (|X −Xn| > ε)

converge a 0.

Lema 6.1 (Desigualdad de Chevychev). Sea X una variable aleatoriacon esperanza y varianza finitas. Para todo ε > 0 se tiene

P(∣∣∣X − E(X)

∣∣∣ > ε)

<V (X)

ε2.

Demostracion Sea A el evento |X−E(X)| > ε. En particular, χA = 1si y solo si |X − E(X)| > ε. De aquı se sigue la desigualdad

εχA ≤ |X − E(X)|.

56

Page 58: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 57

Elevando al cuadrado la desigualdad precedente y tomando esperanzas setiene

ε2P (A) ≤ E

((X − E(X)

)2)

= V (X).

Proposicion 6.2. Si X1, . . . , Xn, . . . es una sucesion de variables aleato-rias tales que V (Xn) converge a 0 cuando n tiende a infinito, y E(Xn) con-verge a algun lımite finito a cuando n tiende a infinito, entonces la sucesionX1, . . . , Xn, . . . converge a la variable aleatoria constante a en probabilidad.

Demostracion Se sigue de la desigualdad de Chevychev que

0 ≤ P(∣∣∣Xn − E(Xn)

∣∣∣ > ε

2

)<

4V (Xn)

ε2

n→∞−→ 0.

Para n suficientemente grande se tiene |E(Xn)− a| < ε2. En tal caso

|Xn − E(Xn)∣∣∣ ≤ ε

2⇒ |Xn − a| ≤ ε.

Se sigue que

0 ≤ P(∣∣∣Xn − a

∣∣∣ > ε)≤ P

(∣∣∣Xn − E(Xn)∣∣∣ > ε

2

)n→∞−→ 0,

y el resultado sigue.

Proposicion 6.3 (Ley debil de los grades numeros). Si X1, . . . , Xn, . . .es una sucesion de variables aleatorias independientes, cada na con la mismaesperanza E, y con varianzas acotadas, entonces la sucesion de promediosYn = 1

n

∑nk=1 Xk converge a E en probabilidad.

Demostracion El resultado sigue de la proposicion precedente si de-mostramos que la sucesion Y1, . . . , Yn, . . . cumple las hipotesis. La esperanzaE(Yn) = 1

n

∑nk=1 E(Xk) = E converge a E trivialmente. Por otro lado, sea

K una cota para las varianzas. Por ser las variables aleatorias X1, . . . , Xn, . . .independientes, se tiene

X(Yn) =1

n2

n∑k=1

V (Xk) ≤K

n

n→∞−→ 0,

y el resultado sigue.Un refinamiento de nuestro resultado precedente es el siguiente:

Page 59: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 58

Proposicion 6.4. Si X1, . . . , Xn, . . . es una sucesion de variables aleatoriasindependientes cuyas esperanzas convergen a un lımite E, y con varianzasacotadas, entonces la sucesion de promedios Yn = 1

n

∑nk=1 Xk converge a E

en probabilidad.

Su demostracion es similar a la precedente una vez demostrado el siguientelema:

Lema 6.5. Si ann es una sucesion de numeros reales que converge a unlımite L, entonces 1

n

∑nk=1 ak converge a L.

Demostracion Por definicion de convergencia se tiene que para todoε > 0 existe un entero N tal que n > N implica |an − L| < ε. En particular,si n > N se tiene∣∣∣∣∣L− 1

n

n∑k=1

ak

∣∣∣∣∣ ≤ 1

n

n∑k=1

|ak − L| = 1

n

N∑k=1

|ak − L|+ 1

n

n∑k=N+1

|ak − L|.

El primer termino de esta suma converge a 0 si n tiende a infinito y el segundoesta acotado por n−N

nε < ε. Se sigue que

lim supn→∞

∣∣∣∣∣L− 1

n

n∑k=1

ak

∣∣∣∣∣ ≤ ε.

Como esto se cumple para todo ε > 0, el lımite existe y es 0.Diremos que una sucesion de variables aleatorias X1, . . . , Xn, . . . converge

a una variable aleatoria X en distribucion, o que la distribucion de X es ladistribucion lımite de la sucesion, si se tiene

FXn(t)n→∞−→ FX(t)

para todo punto t donde FX es continua. Notese que esto implica que paratodo intervalo I

P (Xn ∈ I) → P (X ∈ I).

La comprobacion de esta afirmacion se deja al lector.

Proposicion 6.6. Si X1, . . . , Xn, . . . es una sucesion de variables aleatoriasque convergen en probabilidad a un lımite X, entonces la sucesion X1, . . . , Xn, . . .converge en distribucion a X.

Page 60: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 59

Demostracion Sea t un punto de continuidad de FX . Basta probarque

P (Xn < t)n→∞−→ P (X < t).

Sea N tal que para n > N se tiene P (|Xn − X| > ε) < ε. Entonces paran > N se tiene

P (Xn < t)− P (X < t + ε) ≤ P (X ≥ t + ε, Xn < t) ≤ P (|Xn −X| > ε) < ε.

Por otro lado

P (X < t− ε)− P (Xn < t) ≤ P (X < t− ε, Xn ≥ t) ≤ P (|Xn −X| > ε) < ε.

De ambas desigualdades se tiene

P (X < t− ε)− ε ≤ P (Xn < t) ≤ P (X < t + ε) + ε.

En particular, se tiene

P (X < t−ε)−ε ≤ lim infn→∞

P (Xn < t) ≤ lim supn→∞

P (Xn < t) ≤ P (X < t+ε)+ε.

Tomando ε → 0 el resultado sigue.La implicacion inversa no es cierta en general, dado que una sucesion de

variables aleatorias X1, . . . , Xn, . . . que converge a una variable aleatoria Xen distribucion no tiene por que estar definida en el mismo espacio muestral,y aunque lo este no hay manera de distinguirla, como lımite, de cualquierotra variable aleatoria con la misma distribucion. Existe, sin embargo, uncaso importante en que la conversa es cierta:

Proposicion 6.7. Si X1, . . . , Xn, . . . es una sucesion de variables aleatoriasque convergen en distribucion a un lımite constante a, entonces la sucesionX1, . . . , Xn, . . . converge en probabilidad a a.

Demostracion Sea X1, . . . , Xn, . . . es una sucesion de variables aleato-rias que convergen en distribucion a la constante a. Sean ε, δ > 0. La funcionde distribucion Fa es continua en todo punto distinto de a, luego se tiene quepara n suficientemente grande

P (Xn > a + δ) ≤ P (a > a + δ) +ε

2=

ε

2,

Page 61: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 60

P (Xn < a− δ) ≤ P (a < a− δ) +ε

2=

ε

2.

De ambas desigualdades se tiene

P (|Xn − a| > δ) = P (Xn > a + δ) + P (Xn < a− δ) ≤ ε.

Necesitaremos el siguiente criterio cuya demostracion omitimos aqui porser demasiado tecnica.

Proposicion 6.8. Si X1, . . . , Xn, . . . es una sucesion de variables aleatorias,entonces la sucesion X1, . . . , Xn, . . . converge en distribucion a una variablealeatoria X si y solo si para cada numero real t se tiene E(eitXn)

n→∞−→ E(eitX).

La funcion GX(t) = E(eitX) = E(cos tX) + iE(sen tX) recibe el nombrede funcion caracterıstica de la variable aleatoria X. Es siempre finita ya quelas funciones trigonometricas son acotadas. Tomando Xn = X para todo nse tiene el siguiente corolario:

Corolario 6.8.1. La funcion caracterıstica GX(t) determina completamentela varable aleatoria X.

Proposicion 6.9. Si X1, . . . , Xn son variables aleatorias independientes, en-tonces se tiene

GX1+···+Xn(t) =n∏

k=1

GXk(t).

Demostracion Basta ver que

GX1+···+Xn(t) = E(eit(X1+···+Xn)) =n∏

k=1

E(eitXk) =n∏

k=1

GXk(t).

ejemplo 6.10. Si X es una variable aleatoria cuyos valores son enteros, setiene

GX(t) = E(eitX) =∑n∈Z

entiP (X = n) = gX(eit),

donde gX es la funcion generatriz de X. Por ejemplo:

Page 62: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 61

1. Si Y es una variable aleatoria de Bernouilli de parametro p se tieneGY (t) = (1− p) + peit.

2. Si Z es una variable aleatoria Binomial de parametros n y p se tieneGZ(t) = [(1− p) + peit]n.

3. Si X es una variable aleatoria de Poisson de parametro λ se tieneGY (t) = eλ(eit−1).

En particular, Si Xn es una variable aleatoria binomial de parametros n yp = λ

nse tiene

GXn(t) = [(1− p) + peit]n =

[1 +

λ(eit − 1)

n

]nn→∞−→ eλ(eit−1).

Como esta ultima es la funcion caracterıstica de una variable aleatoria dePoisson de parametro λ, esa es la distribucion lımite en ese caso.

ejemplo 6.11. Si X es una variable aleatoria con distribucion normal deparametros a y σ, se tiene

GX(t) = E(eitX) =1

σ√

∫ ∞

−∞eiste

−(s−a)2

2σ2 ds.

Un cambio de variable u = s−aσ

demuestra que

GX(t) =eati

√2π

∫ ∞

−∞eiσute

−u2

2 du =eati− (σt)2

2

√2π

∫ ∞

−∞e−

12(u+iσt)2 du.

Si probamos que esta ultima integral es independiente de σ, entonces se tiene

GX(t) = eati− (σt)2

2 .

Ahora probaremos la afirmacion Sea T (σ) =∫∞−∞ e−

12(u+iσt)2 du. Si pudiese-

mos derivar bajo el signo integral tendrıamos

T ′(σ) = −it

∫ ∞

−∞(u + iσt)e−

12(u+iσt)2 du = it

(e−

12(u+iσt)2

∣∣∣∣∞−∞

)= 0.

Para justificar la derivacion bajo el signo integral escribimos que por teoremade Fubini∫ σ

σ0

(−it

∫ ∞

−∞(u + iρt)e−

12(u+iρt)2 du

)dρ =

∫ ∞

−∞

(−it

∫ σ

σ0

(u + iρt)e−12(u+iρt)2 dρ

)du

Page 63: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 62

=

∫ ∞

−∞e−

12(u+iσt)2 du−

∫ ∞

−∞e−

12(u+iσ0t)2 du = T (σ)− T (σ0),

y derivamos a ambos lados.

Proposicion 6.12. Si X es una variable aleatoria, entonces se tiene

GaX(t) = GX(at).

Demostracion Basta ver que

GaX(t) = E(eit(aX)) = E(ei(at)X) = GX(at).

Proposicion 6.13. Si X1, X2, . . . es una sucesion de variables aleatoriasindependientes y con la misma distribucion que X, la cual tiene esperanza yvarianza finitas, y si

Yn =

∑nk=1 Xk − nE(X)√

n,

entonces Yn converge en distribucion a una variable aleatoria normal deparametros 0 y σ =

√V (X).

Demostracion

GYn(t) = e−itE(X)√

n

n∏k=1

G Xi√n

(t) = e−itE(X)√

n

n∏k=1

GX

(t√n

)=

e−itE(X)√

nGX

(t√n

)n

.

La condicion en la varianza implica que la funcion caracterıstica tiene laexpansion de Taylor

GX(t) = 1 + iE(X)t− E(X2)

2t2 + o(t2).

De aquı se tiene

ln[GYn(t)] = −itE(X)√

n+n ln

[1 + iE(X)

t√n− E(X2)

2

(t√n

)2

+ o

(1

n

)]=

Page 64: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 63

−itE(X)√

n+n

[iE(X)

t√n− E(X2)

2

(t√n

)2

+E(X)2

2

(t√n

)2

+ o

(1

n

)]n→∞−→ V (X)t2

2.

Demostraremos ahora una version mas fuerte de la ley de los grandesnumeros. Para esto necesitaremos algunos resultados previos.

Proposicion 6.14. Si X1, X2, . . . es una sucesion creciente de variablesaleatorias integrables que converge a una variable aleatoria X no necesaria-mente finita. Entonces E(Xn) → E(X) cuando n →∞.

Demostracion Remplazando Xk por Xk − X1 se puede suponer queXk ≥ 0. Si E(X) es finita, el resultado se reduce al teorema de convergenciadominada. Supongamos ahora que E(X) = ∞. En particular, esto implicaque, o bien P (X = ∞) > 0 o bien la suma

∞∑k=0

kP (k ≤ X < k + 1)

no converge. En cualquier caso, para cada constante N > 0, existe unaconstante M > 0 tal que si Y = MinX, M se tiene E(Y ) > N . ComoE(Y ) es finita, si se define Yn = MinXn, M, se tiene E(Yn)

n→∞−→ E(Y ). Enparticular,

limn→∞

E(Xn) ≥ limn→∞

E(Yn) = E(Y ) > M.

Como M es arbitraria, limn→∞ E(Xn) = ∞.

Proposicion 6.15. Si A1, . . . , An, . . . es una sucesion de eventos tales que∑∞n=1 P (Ai) < ∞ y

A = ω ∈ Ω|ω ∈ Ai para infinitos valores de i,

entonces P(A)

= 0.

Page 65: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 64

Demostracion Sea Xn =∑n

k=1 χAky sea Xn =

∑∞k=1 χAk

. ComoE(X) =

∑nk=1 P (Ak), se sigue del resultado anterior que E(X) es finita (y

de hecho igual a∑∞

n=1 P (Ai) < ∞). En particular

P(A)

= P (X = ∞) = 0.

Proposicion 6.16 (Desigualdad de Kolmogorov). Sean X1, . . . , Xn vari-ables aleatorias independientes con E(Xi) = µi y V (Xi) = σ2

i . Sea Yk =X1 + . . . + Xk para k = 1, 2, . . . , n. Sea ak =

∑ki=1 µi y s2 =

∑ni=1 σ2

i . Laprobabilidad de que se cumplan simultaneamente las n desigualdades

|Yk − ak| < ts, k = 1, . . . , n

es al menos 1− 1t2

.

Demostracion Sea Ak el evento de que la k-esima desigualdad sea laprimera que no se cumpla. Los eventos A1, . . . , An son disjuntos y queremosprobar que P (A1∪· · ·∪An) ≤ t2. Observemos que Uk = (Yn−an)−(Yk−ak)es independiente de χAk

(Yk − ak) y de esperanza nula, por lo que esperanzadel termino central al lado derecho de la identidad

χAk(Yn − an)2 = χAk

(Yk − ak)2 − 2χAk

Uk(Yk − ak) + χAkU2

k ,

es nula. Se sigue que

E(χAk

(Yk − ak)2)≤ E

(χAk

(Yn − an)2).

Notese que por definicion del evento Ak, se tiene

P (Ak)s2t2 = E(χAk

)s2t2 ≤ E(χAk

(Yk − ak)2)≤ E

(χAk

(Yn − an)2).

Sumando sobre k se tiene

P

(n⋃

k=1

Ak

)s2t2 ≤ E

(n∑

k=1

χAk(Yn − an)2

)≤ E

((Yn − an)2

)= V (Yn) = s2.

Proposicion 6.17 (Ley fuerte de los grandes numeros). Sean X1, X2, . . .variables aleatorias independientes con E(Xi) = µ y V (Xi) ≤ K. SeaZn = 1

n

∑nk=1 Xk. Entonces

P(Zn

n→∞−→ µ)

= 1.

Page 66: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 65

Demostracion Basta ver que para cada ε > 0 la desigualdad |Zn−µ| ≥ε puede complirse solo para un numero finito de valores de n fuera de unconjunto de probabilidad nula. Sea Aν el evento de que se tenga |Zn−µ| ≥ ε,o equivalentemente

|X1 + . . . + Xn − nµ| ≥ nε

para algun n entre 2ν−1 y 2ν . De hecho esto implica que

|X1 + . . . + Xn − nµ| ≥ 2ν−1ε

Se sigue de la desigualdad de Kolmogorov que

P (Aν) ≤σ2

1 + . . . + σ22ν

22ν−2ε2≤ 2νK

22ν−2ε2=

4K

2νε2,

por lo que la suma∑∞

ν=1 P (Aν) converge.

Page 67: Probabilidades Luis Arenas Ciencias

Chapter 7

Estimacion de parametros.

Sea X una variable aleatoria con una distribucion dada FX . Una muestraaleatoria de tamano n de X es una sucesion de n variables aleatorias inde-pendientes X1, . . . , Xn cada una con la misma distribucion que X, es decir

FX(t) = FXi(t), i = 1, . . . , n.

En particular, la distribucion del vector aleatorio→X= (X1, . . . , Xn) esta dada

por

F→X

(t1, . . . , tn) =n∏

i=1

FX(ti).

Si X es absolutamente continua con funcion de densidad fX , tambien lo es

el vector aleatorio→X y su funcion de densidad esta dada por

f→X

(t1, . . . , tn) =n∏

i=1

fX(ti).

Si X es discretse tiene

P (X1 = t1, . . . , Xn = tn) =n∏

i=1

P (Xi = ti).

ejemplo 7.1. Si lanzamos una moneda n veces y Xi es el suceso se ob-tiene cara en el i-esimo lanzamiento, entonces (X1, . . . , Xn) es una muestraaleatoria de la variable aleatoria de Bernouilli de Parametro p.

66

Page 68: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 67

ejemplo 7.2. La duracion de una maquina producida en una fabrica puedeestudiarse escogiendo una muestra de n maquinas y midiendo su duracion(T1, . . . , Tn). Esta es una muestra de tamano n de laa variable aleatoria Tque representa el tiempo de vida de una sola maquina.

Una funcion G(X1, . . . , Xn) se denomina un estadıstico. Ejemplos impor-tantes son el promedio o media muestral

X =1

n

n∑k=1

Xk,

y la varianza muestral

s2 =1

n− 1

n∑k=1

(Xk − X)2.

Supondremos en lo que sigue que la funcion de distribucion FX depende deuno o mas parametros desconocidos θ1, . . . , θn. En otras palabras, conocemosla distribucion de X excepto que necesitamos determinar θ1, . . . , θn. Unejemplo de esta situacion se tiene al lanzar una moneda sin saber a priorisi es simetrica. Se sabe que la variable aleatoria que cuenta el numero decaras tiene una distribucion de bernouilli, pero desconocemos el parametrop. En tal caso se quiere estimar el o los parametros desconocidos en terminosde la muestra. Un estadıstico θ = G(X1, . . . , Xn) utilizado para estimar elvalor del parametro θ se denomina un estimador. Por cierto que con estadefinicion existen muchos estimadores de un mismo parametro. La idea esencontrar estimadores que se ajusten (en algun sentido) al parametro que sedesea estimar. Un estimador θ del parametro θ se dice insesgado si satisface

E(θ) = θ.

Notese que esta definicion depende no solo del estimador θ, sino tambien delparametro θ que se desea estimar.

Una medida de la precision de un estimador θ de un parametro θ es lacantidad

E((θ − θ)2

)= E

(((θ − E(θ)

)+(E(θ)− θ

))2)

Page 69: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 68

= E

((θ − E(θ)

)2)− 2E

(θ − E(θ)

)(E(θ)− θ

)+(E(θ)− θ

)2

= V (θ) +(E(θ)− θ

)2

.

En particular, entre dos estimadores insesgados es mejor el que tiene menorvarianza.

ejemplo 7.3. Sea X una variable aleatoria cuya distribucion depende deun parametro desconocido θ, y supongamos que E(X) = θ. Entonces losestimadores

θ1 =1

n

n∑k=1

Xk, θ2 = X1,

son insesgados, sin embargo

V (θ1) =V (X)

n, V (θ2) = V (X),

por lo que el primer estimador es mucho mejor que el segundo.

ejemplo 7.4. Sea X una variable aleatoria con distribucion exponencial deparametro 1/θ, es decir X tiene una funcion de densidad fX(t) = χ[0,∞)(t)

e−t/θ

θ.

En este caso E(X) = θ como en el ejemplo anterior. Definamos

θ3 = n [MIN(X1, . . . , Xn)] .

En este caso se tiene

P (θ3 ≥ t) = P

(X1, . . . , Xn ≥

t

n

)= P

(X ≥ t

n

)n

.

Se sigue que

1− Fθ3(t) =

(1− FX

(t

n

))n

.

Como FX(t) =∫ t

0e−s/θ

θds = 1− e−t/θ, se tiene

1− Fθ3(t) =

(e−t/nθ

)n= e−t/θ.

Se concluye que θ3 tiene la misma distribucion que X1 y por lo tanto lamisma esperanza y varianza. En particular es un estimador insesgado deθ y no mejor que X1. Sin embargo, si X es una variable temporal comoel tiempo que tarda una maquina en fallar o una bombilla al apagarse, eltiempo necesario para calcular el estimador θ3 es mucho menor.

Page 70: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 69

ejemplo 7.5. Probaremos que la varianza muestral s2 es un estimador ins-esgado de la varianza σ2 = V (X). Observemos que

E(XXi) =1

n

n∑k=1

E(XkXi) =n− 1

nE(X)2 +

1

nE(X2),

E(X2) =1

n

n∑k=1

E(XXk) =1

n

[n

(n− 1

nE(X)2 +

1

nE(X2)

)]=

n− 1

nE(X)2 +

1

nE(X2).

Por definicion se tiene

(n− 1)E(s2) =n∑

k=1

E[(X −Xi)

2]

=n∑

k=1

[E(X2)− 2E(XXk) + E(X2k)]

= nE(X2)− [(n−1)E(X)2 +E(X2)] = (n−1)[E(X2)−E(X)2] = (n−1)σ2.

Un estimador del tipo

θ =n∑

k=1

akXk,

se dice lineal.

Proposicion 7.6. Sea X una variable aleatoria no constante cuya distribuciondepende de un parametro θ 6= 0, y supongamos que E(X) = θ. Entonces lamedia muestral es el mejor estimador lineal insesgado del parametro θ.

Demostracion Basta ver que si θ =∑n

k=1 akXk es insesgado, entonces

E(θ) = E(X)∑n

k=1 ak = E(X), de donde∑n

k=1 ak = 1. Se sigue que

V

(n∑

k=1

akXk

)= V (X)

n∑k=1

a2k = V (X)

n∑k=1

[(ak −

1

n

)+

1

n

]2

= V (X)n∑

k=1

(ak −

1

n

)2

+2V (X)

n

n∑k=1

(ak −

1

n

)+

1

n2

= V (X)n∑

k=1

(ak −

1

n

)2

+1

n2,

Page 71: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 70

lo que alcanza su mınimo cuando cada ak es 1/n.La condicion de que θ es insesgado es totalmente necesaria, por ejemplo

si X toma los valores 0 y 2 con probabilidad 1/2, se tiene E(X) = V (X) = 1.En particular, si n = 3 la media muestral satisface V (X) = 1/3, sin embargoel estimador

θ =1

4(X1 + X2 + X3)

tiene esperanza E(θ) = 34

y varianza V (θ) = 316

. Se sigue que

V (θ) +(E(θ)− θ

)2

=3

16+

(3

4− 1

)2

=4

16=

1

4,

con lo que el estimador θ esta mas cerca en promedio al valor real que lamedia muestral.

Supongamos ahora que se tiene un estimador θn para cada n, donde n es eltamano de la muestra. Diremos que la sucesion de estimadores es consistentesi la sucesion θnn converge a θ en probabilidad. Como θ es una constante,es suficiente probar la convergencia en distribucion. Diremos que la sucesionde estimadores es asintoticamente insesgada si E(θn) converge a θ cuando ntiende a infinito.

Proposicion 7.7. Toda sucesion consistente de estimadores θn tales queθn ≤ K para alguna constante fija K es asintoticamente insesgada.

Demostracion Basta ver que

|E(θn − θ)| ≤ E(|θn − θ|) ≤ εP (|θn − θ| < ε) + KP (|θn − θ| ≥ ε)

para todo ε > 0 y el ultimo termino tiende a 0 por definicion de convergenciaen probabilidad.

Sea X una variable aleatoria con una distribucion dada FX(t) = F (t,→θ )

donde→θ= (θ1, . . . , θr) es un parametro. Suponga que los momentos

E(X), E(X2), . . . , E(Xr)

de r pueden escribirse en terminos de los parametros mediante

E(Xj) = Gj(θ1, . . . , θr),

Page 72: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 71

y que este sistema tiene solucion unica

θk = Fk

(E(X), . . . , E(Xr)

),

para cada valor de los momentos E(X), . . . , E(Xr). Entonces los estimadores

θk = Fk

(X, X2, . . . , Xr

),

donde por definicion

Xj =1

n

n∑k=1

Xjk,

se denominan los estimadores de momentos de→θ .

Proposicion 7.8. Suponga que la variable aleatoria X tiene momentos

E(X), . . . , E(X2r)

finitos. Si las funciones F1, . . . , Fr obtenidas arriba son uniformemente con-tinuas, entonces los estimadores de momentos son consistentes.

Notese que la hipotesis de continuidad uniforme sigue de la continuidadsi el rango en el cual los parametros estan definidos es compacto.

Demostracion Como las variables aleatorias Xj1 , . . . , X

jn son indepen-

dientes y equidistribuidas, se tiene que Xj converge en probabilidad a E(Xj)para todo j por la ley de los grandes numeros. Notese que la condicion enlos momentos asegura la finitud de las varianzas. El resultado sigue ahoradel lema siguiente:

Lema 7.9. Suponga que→Xn que converge en probabilidad a un vector aleato-

rio→X cuando n → ∞ (coordenada a coordenada). Entonces para toda

funcion uniformemente continua F : Rn → Rn la variable aleatoria F (→Xn)

converge a F (→X) en probabilidad.

Page 73: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 72

Demostracion Basta observar que, por definicion de convergencia uni-forme, para cada ε > 0 existe δ > 0 tal que

|→Xn −

→X | < δ ⇒ |F (

→Xn)− F (

→X)| < ε.

En particular se tiene

P(|→Xn −

→X | < δ

)≤ P

(|F (

→Xn)− F (

→X)| < ε

)≤ 1.

Puesto que los extremos de la igualdad anterior convergen a 1 tambien lohace el termino central.

ejemplo 7.10. Sea X una variable aleatoria de Bernouilli de parametro pdonde p es desconocido. Como p = E(X), el estimador de momentos de p esp = X.

ejemplo 7.11. Sea X una variable aleatoria de distribucion exponencialde parametro λ. Como E(X) = 1/λ, el estimador de momentos de λ esλ = 1/X.

ejemplo 7.12. Sea X una variable aleatoria normal de parametros a y σ2

desconocidos. Las ecuaciones que deben resolverse son

E(X) = a, E(X2) = σ2 + a2.

Se sigue que los estimadores de momentos son:

a = X, σ2 = X2 −X2.

En particular

σ2 =1

n

n∑k=1

X2k −

2X

n

n∑k=1

Xk + X2

=1

n

n∑k=1

(Xk −X)2

no es insesgado.

ejemplo 7.13. Sea X una variable aleatoria binomial de parametros n y pdesconocidos. Las ecuaciones que deben resolverse son

E(X) = pn, E(X2) = np(1− p).

Page 74: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 73

Con algo de manipulacion algebraica se obtienen las soluciones

p =E(X)− E(X2)

E(X), n =

E(X)2

E(X)− E(X2).

Se sigue que los estimadores de momentos son:

p =X −X2

X, n =

X2

X −X2.

ejemplo 7.14. Sea X una variable aleatoria distribuida uniformemente en elintervalo (a, b) con a y b desconocidos. Las ecuaciones que deben resolverseson

E(X) =a + b

2, E(X2) =

a2 + ab + b2

3.

Se obtiene facilmente que ab = 4E(X)2 − 3E(X2). Esto implica que a y bson raices de la ecuacion cuadratica

T 2 − 2E(X)T +(4E(X)2 − 3E(X2)

)= 0.

Como a < b se tiene

a = E(X)−√

3V (X), b = E(X) +√

3V (X).

Se sigue que los estimadores de momentos son:

a = X −

√√√√ 3

n

n∑k=1

(Xk −X)2, b = X +

√√√√ 3

n

n∑k=1

(Xk −X)2.

Sea X una variable aleatoria con una distribucion dada FX(t) = F (t,→θ

) donde→θ∈ Rr es un parametro. Supongamos que X es absolutamente

continua con funcion de densidad fX(t) = f(t,→θ ). Para cada elemento

→t =

(t1, . . . , tn) ∈ Rn se define la funcion de verosimilitud mediante

L→t(→θ ) =

n∏k=1

f(tk,→θ ).

Page 75: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 74

Suponga que existe una funcion→G= (G1, . . . , Gr) : Rn → Rr tal que para

cada valor de→t∈ Rn el valor

→θ=

→G (

→t ) es el unico maximo de la funcion de

verosimilitud. Entonces los estimadores

θk = Gk(X1, . . . , Xn)

se denominan los estimadores de maxima verosimilitud de θ1, . . . , θr.Probaremos ahora que los estimadores de maxima verosimilitud son ins-

esgados. Para ello necesitaremos el siguiente resultado cuya demostracionomitimos aquı por ser demasiado tecnica. Se trata de una version uniformede la ley de los grandes numeros.

Lema 7.15. Sea X1, X2, · · · una sucesion de variables aleatorias independi-

entes y equidistribuidas. Sea U(t,→θ ) una funcion continua que satisface:

1. |U(t,→θ )| ≤ K(t) para alguna funcion K tal que E[K(X)] < ∞.

2. U(t,→θ ) es uniformemente continua en la variable

→θ∈ Θ.

Si µ(→θ ) = E[U(X,

→θ )], entonces se tiene

P

(lim

n→∞sup→θ ∈Θ

∣∣∣∣∣ 1nn∑

k=1

U(Xn,→θ )− µ(

→θ )

∣∣∣∣∣ = 0

)= 1.

Lema 7.16. Sean p y q dos funciones de densidad. Sea X una variablealeatoria absolutamente continua con funcion de densidad p. Entonces

E

(ln

q(X)

p(X)

)≤ 0.

Con igualdad si y solo si p y q coinciden.

Demostracion Sigue de la desigualdad de Jensen que

E

(ln

q(X)

p(X)

)≤ ln

[E

(q(X)

p(X)

)]= ln

(∫ ∞

−∞

q(t)

p(t)p(t) dt

)= 0.

Como el logaritmo es estrictamente concava, la igualdad se alcanza solo si lavarriable aleatoria q(X)

p(X)es constante.

Page 76: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 75

Proposicion 7.17. Sea X una variable aleatoria absolutamente continua

con funcion de densidad fX(t) = f(t,→θ 0) de modo que la funcion

U(t,→θ ) = ln[f(t,

→θ )]− ln[f(t,

→θ 0)]

satisface las hipotesis del lema 7.15. Supondremos ademas que los esti-maderes de maxima verosimilitud de θ1, . . . θn estan definidos para cada n

y que el parametro→θ identifica univocamente la funcion de densidad f(t,

→θ ).

En este caso los estimadores de maxima verosimilitud son consistentes.

Demostracion Supongamos que Sea δ > 0 y sea An el evento

sup→θ ∈Θ

∣∣∣∣∣ 1nn∑

k=1

U(Xn,→θ )− µ(

→θ )

∣∣∣∣∣ < δ.

Entonces se tiene que limn→∞ P (An) = 1 y por lo tanto para todo η > 0se tiene que para todo n suficientemente grande, se tiene P (An) > 1 − η.Observese que por el lema precedente,

E(U(X,

→θ ))

= µ(θ) > 0

para todo θ 6= θ0. Sea ε > 0, y sea V = B(→θ 0, ε) ⊆ Θ. Tomamos δ igual al

mınimo de µ(→θ ) en Θ− V . El evento An implica

n∑k=1

ln[f(Xn,→θ )]− ln[f(Xn,

→θ 0)] < 0.

Notese que la suma de la izquierda es el logaritmo de

L→X

(→θ )

L→X

(→θ 0)

por lo que el vector→θ = (θ1, . . . , θr) no puede encontrarse en Θ − V . Se

concluye que P

(→θ ∈ V

)≥ 1− η y el resultado sigue.

Page 77: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 76

ejemplo 7.18. Suponga que el tiempo que tarda una ampolleta en fallares una variable aleatoria T con distribucion exponencial de parametro λ, esdecir fT (t) = λe−λ para t ≥ 0. Suponga que se toma una muestra (T1, . . . , Tn)de T . Entonces la funcion de verosimilitud esta dada por

L = L(T1,...,Tn)(β) =n∏

k=1

(βe−βTk) = βne−β∑n

k=1 Tk .

Se sigue que

ln L = n ln(β)− βn∑

k=1

Tk.

Derivando e igualando a 0 se tiene nβ−∑n

k=1 Tk = 0, por lo que el estimador

de maxima verosimilitud es β = T .

ejemplo 7.19. Suponga que X es una variable aleatoria distribuida uni-formemente en un intervalo (0, α). en particular se tiene fX(t) = 1

αpara

0 ≤ t ≤ α. Suponga que se toma una muestra (X1, . . . , Xn) de X. Entoncesla funcion de verosimilitud esta dada por

L = L(X1,...,Xn)(α) =1

αn, si X1, . . . , Xn ≤ α.

Se sigue que el estimador de maxima verosimilitud es α = MAX(X1, . . . , Xn).Notese que en particular, este estimador no es insesgado puesto que

P (α < t) = P (X1, . . . , Xn < t) = (t/α)n

por lo que su funcion de densidad es nα(t/α)n−1 y se tiene

E(α) =

∫ α

0

tn

α(t/α)n−1 dt =

n + 1.

ejemplo 7.20. Suponga que X es una variable aleatoria con distribucionnormal de parametros a y σ2, es decir

fX(t) =1

σ√

2πe−

12(

t−aσ )

2

.

Suponga que se toma una muestra (X1, . . . , Xn) de X. Entonces la funcionde verosimilitud esta dada por

L = L(X1,...,Xn)(a, σ2) = (2σ2π)−n/2e− 1

2

∑nk=1

(Xk−a

σ

)2

.

Page 78: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 77

En particular

ln(L) = −n

2ln(2σ2π)− 1

2

n∑k=1

(Xk − a

σ

)2

.

Derivando con respecto a a y σ2, respectivamente, se obtienen las ecuaciones:

n∑k=1

Xk − a

σ2= 0,

−n

2· 1

2πσ2· (4πσ) +

2

2

n∑k=1

(Xk − a)2

σ3= 0.

De la primera de estas ecuaciones se obtiene a = X. De la segunda se deduce

nσ2 =n∑

k=1

(Xk − a)2,

por lo que el estimador es

σ2 =1

n

n∑k=1

(Xk − X)2.

7.0.1 Tests de Hipotesis estadisticas.

Supondremos ahora que queremos decidir entre dos o mas hipotesis sobreuna variable aleatoria (lo que puede expresarse en terminos del valor deun parametro). Comenzaremos con un ejemplo: Se tiene un numero r demonedas con dos caras junto a una cantidad m de monedas normales. Seescoge una de estas monedas al azar. Queremos determinar cuantas carases necesario obtener antes de asumir que la moneda escogida tenıa de hechodos caras.

Existen dos alternativas posibles:

1. La moneda tiene dos caras.

2. La moneda tiene una cara.

Exactamente una de estas hipotesis es la real y debemos escoger exactamenteuna. Esto define cuatro eventos.

Page 79: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 78

1. El evento H1 en el que la primera alternativa es la correcta.

2. El evento H2 en el que la segunda alternativa es la correcta.item El evento B1 en el que nosotros creemos que la primera alternativaes la correcta.

3. El evento B2 en el que nosotros creemos que la segunda alternativa esla correcta.

Si uno comete un error, esto tendra un costo. Denotaremos por Cij el costode escoger la alternativa i siendo que la alternativa j es la correcta. Porcierto supondremos Cjj < Cij, es decir, es preferible no equivocarse. En talcaso, el costo total esperado es

C =∑i,j

CijP (Bi ∩Hj) =∑i,j

CijP (Bi|Hj)P (Hj).

Necesitamos ahora describir el procedimiento que se usara para escoger laalternativa correcta. En general, dispondremos solo de algun esperimento,o sucesion de ellos, cuyo resultado depende de la hipotesis correcta Hj. SeaAkk∈K el conjunto de dichas observaciones. En tal caso, las observacionesse distribuyen en subconjuntos Sj con

⋃i Si = K, de modo que k ∈ Si si y

solo si al hacer la observacion Ak se piensa que la alternativa i es la correcta.En otras palabras Bi =

⋃k∈Si

Ak. Para simplificar los calculos denotaremospor εi(k) la funcion caracterıstica χSi

(k). Con estas notaciones se tiene:

C =∑i,j

Cij

∑k∈Si

P (Ak|Hj)P (Hj) =∑

k

(∑i,j

Cijεi(k)P (Ak|Hj)P (Hj)

).

Bastara por lo tanto, para cada valor de k minimizar la suma que se encuen-tra entre parentesis. De hecho, en el caso de que tengamos solamente doshipotesis como en el problema de las monedas, escogemos la primera opcionpara una observacion dada Ak si y solo si

C11P (Ak|H1)P (H1) + C12P (Ak|H2)P (H2) <

C21P (Ak|H1)P (H1) + C22P (Ak|H2)P (H2).

Tras algo de manejo algebraico, esta condicion se traduce a

P (Ak|H2)

P (Ak|H1)<

(C21 − C11)P (H1)

(C12 − C22)P (H2).

Page 80: Probabilidades Luis Arenas Ciencias

L. Arenas-Carmona 79

Notese que la fraccion al lado izquierdo es el cociente de las verosimilitudesde la observacion obtenida Ak en los dos casos posibles. Por esta razon, estetest recibe el nombre de Test de Razon de Verosimilitud. En el caso de lasmonedas se tiene que si la moneda tuviese dos caras (hipotesis 1) entoncesla probabilidad de obtener n caras seguidas es 1, mientras que si la monedatuviese una sola cara (hipotesis 2) entonces la probabilidad de obtener ncaras seguidas es 2−n. Dado que la probabilidad de que la primera hipotesissea la correcta es r

r+m, se tiene que debemos aceptar que la moneda tiene dos

caras si y solo si2−n

1<

(C12 − C22)m

(C21 − C11)r,

o equivalentemente:r

2nm<

(C12 − C22)

(C21 − C11).

Si suponemos que los costos por equivocarse (o no) en cualquier sentido sonlos mismos, debemos escoger n > log2(r/m).

Veremos ahora que la misma idea se aplica en el caso en que la observacion

A = A(→θ ) depende de un parametro continuo

→θ∈ Rn. En este caso el costo

total se calcula mediante

C =∑i,j

Cij

∫→θ ∈Si

fA(→θ |Hj)P (Hj) d

→θ

=

∫→θ ∈Si

(∑i,j

Cijεi(k)fA(→θ |Hj)P (Hj)

)d→θ .

Aquı basta con minimizar la suma entre parentesis, por lo que se tiene, en elcaso de dos hipotesis, que la primera hipotesis se acepta si y solo si:

fA(→θ |H2)

fA(→θ |H1)

<(C21 − C11)P (H1)

(C12 − C22)P (H2)

como antes.