15
Apuntes estadística Página | 1 Estadística 1.-VARIABLES ALEATORIAS 1. Conceptos previos Dada una serie de números: x1,……..xn se llama MEDIA ARITMÉTICA: ̅ = 1 +⋯+ = 1=1 Se trata de una medida de centralización, que representa “el valor más característico “de la serie. VARIANZA 2 = ( 1 − ̅) 2 + ⋯ + ( − ̅) 2 = ( − ̅) 2 1=1 Es una medida de dispersión, que muestra la agrupación de los datos en torno a la media. DESVIACIÓN TÍPICA Es la raíz cuadrada de la varianza. s=2 2. Variables aleatorias DEF: Es una función definida en el espacio muestral de un experimento aleatorio que asocia a cada elemento del espacio, un nº real. DEF: Una variable aleatoria puede ser DISCRETA, si toma un nº finito de valores .P. ej: Binomial

Estadística · Apuntes estadística P á g i n a | 3 NOTA: Como es imposible calcular la probabilidad en todos los casos ... BÚSQUEDA INVERSA : Especialmente útil para la obtención

Embed Size (px)

Citation preview

Apuntes estadística P á g i n a | 1

Estadística 1.-VARIABLES ALEATORIAS

1. Conceptos previos

Dada una serie de números: x1,……..xn se llama

MEDIA ARITMÉTICA:

�̅� =𝑥1+⋯+𝑥𝑛

𝑛=

∑ 𝑥𝑖𝑛1=1

𝑛

Se trata de una medida de centralización, que representa “el valor

más característico “de la serie.

VARIANZA

𝑠2 =(𝑥1 − �̅�)2 + ⋯ + (𝑥𝑛 − �̅�)2

𝑛=

∑ (𝑥𝑖 − �̅�)2𝑛1=1

𝑛

Es una medida de dispersión, que muestra la agrupación de los

datos en torno a la media.

DESVIACIÓN TÍPICA

Es la raíz cuadrada de la varianza. s=√𝑠2

2. Variables aleatorias

DEF: Es una función definida en el espacio muestral de un

experimento aleatorio que asocia a cada elemento del espacio, un nº

real.

DEF: Una variable aleatoria puede ser

DISCRETA, si toma un nº finito de valores .P. ej: Binomial

Apuntes estadística P á g i n a | 2

CONTINUA: si toma, al menos teóricamente un nº infinito de

valores. P.ej : normal

NOTA: La probabilidad de una variable aleatoria se calcula mediante

Función de probabilidad: En variables discretas .Se asocia a valores

Función de densidad: En variables continuas .Se asocia a intervalos.

3. Distribución Binomial

Se asocia a experimentos en los que:

Sólo hay dos posibles resultados: éxito o fracaso

El resultado obtenido es independiente de los anteriores.

La probabilidad es constante en todas las pruebas

Entonces , si :p : probabilidad éxito , q : probabilidad fracaso , n: nº pruebas y

r : nº éxitos en n pruebas ,m la variable se llama binomial B(n,p) y la función

de probabilidad es :

P( r éxitos ) = (𝑛𝑟

) 𝑝𝑟𝑞𝑛−𝑟

NOTA : La media de una variable aleatoria es = np , mientras que la

varianza es 2=npq=np(1-p)

4. Distribución normal

DEF: Se designa por N(siendosu mediaysu desviación típica.

NOTA: Se designa así porque se creía que todas las variables aleatorias

continuas eran de este tipo .

NOTA : La más importante y la única que se encuentra tabulada es la

N(0,1) , que designa por Z ( normal estándar)

NOTA : La probabilidad se calcula mediante la función de densidad , que

es : f(x) = 1

𝜎√2𝜋∙ 𝑒

−1

2(

𝑥−𝜇

𝜎)., de modo que p(a<x<b)=∫ 𝑓(𝑥)𝑑𝑥

𝑏

𝑎

Apuntes estadística P á g i n a | 3

NOTA: Como es imposible calcular la probabilidad en todos los casos

posibles , obtendremos mediante un cambio de variable, el área equivalente

en la normal N(0,1) .Este proceso se llama TIPIFICAR LA VARIABLE.

El cambio a realizar es Z=𝑋−𝜇

𝜎

NOTA: Es muy importante reseñar que la

función de densidad de la N(0,1) , es una

gráfica simétrica respecto a OY , cuya área

debajo de la curva de -∞ a ∞ es 1 .

5. Uso de la tabla de la normal N(0,1)

Una vez tipificada la variable, para averiguar la información deberemos ,

consultar la tabla . Se deben dominar dos procesos:

BÚSQUEDA DIRECTA : En la que te dan un valor de la Z ( en

intervalo ) y debes calcular la probabilidad :Distinguimos tres casos :

a) p(Z≤a)

i) si a>0 →se busca en la tabla

EJEMPLO:Hallar la probabilidad p ( z ≤ 0,45 )

a. En la 1ª columna buscamos el valor de las unidades y las décimas.

b. En la 1ª fila el valor de las centésimas. c. Basta buscar 0,4 en la columna y 0,05 en la fila. Su

intersección nos da la probabilidad. d. Leemos y nos da 0,6736. La probabilidad p ( z ≤

0,45 ) = 0,6736

ii) si a<0→ p(Z≤a)= p(Z>-a) =1-p(Z≤-a)

Apuntes estadística P á g i n a | 4

b) p(Z>a)

i) si a>0 →p(Z>a)=1-p(Z≤a)

ii) si a <0 →p(Z>a)=p(Z≤-a)

c) p(a≤Z≤b)=p(Z≤b)-p(Z≤a) y se aplican los casos anteriores

deendiendo del signo de a y b

BÚSQUEDA INVERSA : Especialmente útil para la obtención de

intervalos de confianza en la que se te da un determinado valor de

probabilidad y debes averiguar el valor de Z

Apuntes estadística P á g i n a | 5

EJEMPLO : P(Z≤k)=0,7019 →k=0,53

6. Aproximación de la binomial por la normal

Existen situaciones en los que, con valores altos de n el cálculo de la

probabilidad de un valor en una distribución binomial resulta

particularmente difícil.

Por ello, el resultado obtenido por De Moivre resulta especialmente,

útil. Consiste que en ciertas condiciones y con un nº de repeticiones

alto, una binomial (variable discreta) se puede aproximar mediante una

variable normal ( variable continua)

Teorema de De Moivre .

Si np≥5,nq≥5, una variable binomial B(n,p) se puede aproximar con un

variable normal N(np,√𝑛𝑝𝑞)

NOTA: Pero esto tiene un problema , que es que la binomial es una

variable discreta en la que todos los valores tienen probabilidad (

aunque sea poca ) y la normal es una variable continua , con lo que la

probabilidad de un valor es 0 .

Esto se resuelve, haciendo la llamada corrección de Yates que se

resume en estos tres puntos ( X es binomial y X´ es normal)

P(X=a)=P(a-0,5≤X’≤a+0,5)

• P(X≤a)=P(X’≤a+0,5) (para que contenga al punto a)

Apuntes estadística P á g i n a | 6

• P(X<a)= P(X’≤a-0,5) (para que no contenga al punto a)

EJERCICIOS

DISTRIBUCIÓN BINOMIAL

1) Se sabe que la tercera parte de los niños varones de 2º de ESO dan

positivo en una prueba de agresividad. Escogida al azar una muestra de

10 chicos, halla las probabilidades de los siguientes sucesos:

a) Encontrar dos con inventario de agresividad.

b) Más de tres.

c) A lo sumo, cinco.

d) Así mismo, halla la media y la desviación típica de esta

distribución.

2) Un examen consta de 10 preguntas a las que hay que contestar SI o NO.

Suponiendo que a las personas que se les aplica no saben contestar a

ninguna de las preguntas, y en consecuencia contestan al azar, halla:

a) La probabilidad de obtener cinco aciertos.

b) La probabilidad de obtener algún acierto.

c) La probabilidad de obtener al menos cinco aciertos.

3) La probabilidad de que un estudiante obtenga el título de licenciado en

geografía e historia es 0’3. Halla la probabilidad de que un grupo de siete

estudiantes matriculados en primer curso:

a) Ninguno de los siete finalice la carrera.

b) La finalicen todos.

c) Al menos dos acaben la carrera.

DISTRIBUCIÓN NORMAL

Apuntes estadística P á g i n a | 7

4) Sea Z una variable aleatoria N(0,1). Calcula:

a) 1,32p Z b) 2,17p Z

c) 1,52 2,03p Z

d) 1,32p Z e) 2,17p Z

f 2,03 1,52p Z

g) 0 0,25p Z h) 2p Z

i 2,23 1,15p Z

5) Las tallas de los individuos de una población se distribuyen

normalmente con media igual a 175 cm y desviación típica igual a 8 cm.

Calcula la probabilidad de que un individuo tenga una talla:

a) Mayor que 180 cm. b) Menor que 170 cm. c) Entre 170 y 180

cm.

6) Los opositores que se presentan a unas plazas de un organismo

autonómico se distribuyen normalmente con una puntuación media

igual a 70’5 y con una desviación típica igual a 9. ¿Cuántas plazas se

adjudicarán en la oposición de este año, si el tribunal ha decidido de

antemano dejar sin plaza a todos aquellos que obtengan una puntuación

inferior a 80?.

7) En un examen de psicometría, la media de las calificaciones es 6 y la

varianza 1,44. Calcula la probabilidad de que un alumno tenga una

calificación:

a) Mayor que 7. b) Menor que 5. c) Entre 5,5 y 7.

8) Las edades del profesorado de Educación Especial se distribuye

normalmente con media 38 años y desviación típica 6. De un total de

500 profesores, halla:

Apuntes estadística P á g i n a | 8

a) ¿Cuántos profesores hay con edades menores o iguales a 35

años?.

b) ¿Cuántos mayores de 55 años?.

9) El peso teórico de una tableta de aspirina es de 324 mg. Si suponemos

que los pesos de las tabletas de aspirina siguen una normal de desviación

típica 10 mg por tableta, calcula:

a) ¿Cuál será el porcentaje de tabletas con peso menor o igual a

310 mg?.

b) ¿Cuál será el porcentaje de tabletas con peso superior a 330

mg?.

10) La duración media de un televisor es de ocho años con una desviación

típica de medio año. Si la vida útil del televisor se distribuye

normalmente, halla la probabilidad de que un televisor dure más de 9

años.

11) Por estudios realizados sobre una multitud de niñas al nacer, se ha

determinado que la talla se distribuye según una normal de media 50 cm

y desviación típica 1’8 cm.

a) Halla la probabilidad de que una niña al nacer tenga una talla

superior a 54 cm.

b) Si durante un mes en una maternidad nacen 100 niñas, ¿cuántas

tendrán al nacer una talla entre 48’2 y 51’8?.

12) En una distribución N(163,12),

a) ¿Dónde se sitúan el 10P y el 90P ?.

b) Halla el primer y tercer cuartil.

13) En una distribución, N(0,1) ¿entre qué valores está el 94% de los valores

centrales?.

Apuntes estadística P á g i n a | 9

14) Se ha aplicado un test de fluidez verbal a 500 alumnos de un centro

escolar. Se supone que las puntuaciones obtenidas se distribuyen según

una normal de media 80 y desviación típica 12.

a) ¿Qué puntuación separa el 25% de los alumnos con menor

fluidez verbal?.

b) ¿A partir de qué puntuación se encuentra el 25% de alumnos

con mayor fluidez verbal?.

APROXIMACIÓN DE LA BINOMIAL POR LA NORMAL

15) El 2.5%. de los tornillos fabricados por una maquina presentan

defectos. Si tenemos un lote de 200 tornillos, ¿cual es la probabilidad de

que haya más de 20 defectuosos?

16) Si lanzamos un dado 1,000 veces, ¿cuál es la probabilidad de que el

número tres se haya obtenido menos de 100 veces?

17) Un saco que contiene 400 monedas es vaciado sobre una mesa. Calcula

la probabilidad de que:

1. Aparezcan más de 210 caras.

2. De que el número de caras sea menor que 180.

3. De que el número de caras este comprendido entre 190 y 210 ambos

inclusive.

18) Después de realizar varios sondeos sobre una población con escasa

cultura, se ha conseguido averiguar que únicamente el 15 % de la misma

es favorable a los tratamientos de psicoterapia. Elegida al azar una

muestra de 50 personas de dicha población, se desea

saber:

A) La probabilidad de que haya más de 5 personas favorables a

dichos tratamientos.

B) La probabilidad de que a lo sumo haya 6 personas favorables.

Apuntes estadística P á g i n a | 10

2.Teoría de muestras 1.- Primeras definiciones

DEF: Se llama POBLACIÖN al conjunto de elementos que poseen una

determinada característica. Supondremos que la población es muy grande

DEF: Se llama MUESTRA a cualquier subconjunto de la población y

MUERSTREO al proceso mediante el cual se escoge una muestra .

NOTA : Aunque existen varios tipos de muestreo , nosotros

supondremos que usamos un muestreo aleatorio simple , en el que todos

los elementos de la población tienen la misma probabilidad de ser

elegidos.

2.- Distribución en el muestreo de una proporción

La variable aleatoria �̂� tiene como media p y como desviación

√𝑝(1−𝑝)

𝑛 siendo p el porcentaje .

A medida que n crece la distribución de �̂� se aproxima a la normal

siempre que p no se acerque ni a 0 ni a 1

Ejemplo: El 3% de las piezas producidas por una máquina son

defectuosas. Se toma una muestra de 100 piezas . Hallar la

probabilidad de que en la muestra haya menos de 28 piezas

defectuosas.

• Como p=0,03 �̂� se aproxima a una normal N(0,03 ,

3.- Distribución en el muestreo de la media

La variable aleatoria �̅� tiene como media µ y como desviación 𝜎

√𝑛

A medida que n crece la distribución de �̅� se aproxima a la normal.

Apuntes estadística P á g i n a | 11

Si no se conoce y n≥30 se puede sustituir por �̂�

Ejemplo : Se supone que la distribución de la temperatura del cuerpo humano en la población sigue una ley normal de media 37º y de desviación típica 0,85. Se elige una muestra de tamaño 105. Hallar la probabilidad de que la media sea menor o igual que 36,9º.

4.-Distribución de las sumas muestrales

La variable aleatoria 𝑇 tiene como media nµ y como desviación

𝜎√𝑛

A medida que n crece la distribución de �̅� se aproxima a la normal

5.- Distribución en el muestreo de la diferencia de medias

La variable aleatoria �̅�1 − �̅�2 tiene como media µ1-µ2 y como desviación

típica √𝜎1

2

𝑛1−

𝜎22

𝑛2

A medida que n1 y n2 crecen , la distribución de �̅�1 − �̅�2 se aproxima a

una normal

6.- Teorema central del límite

Toda variable que represente un parámetro de las muestras , se puede aproximar por una variable normal sea la variable de partida normal o no siempre que el tamaño de la muestra sea suficientemente grande ( consideraremos n≥30)

EJERCICIOS :

1)El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11.

a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103.

b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de

que la media de sus cocientes intelectuales está entre 100 y 103.

Apuntes estadística P á g i n a | 12

3.-INTERVALOS DE CONFIANZA

NOTA PREVIA : En el epígrafe anterior , hemos obtenido

probabilidades asociadas a los elementos muestrales ( como media

,proporción....) a partir de datos de la población .Esto , es poco habitual ,

siéndolo mucho más la operación inversa , es decir obtener datos

poblacionales a partir de los parámetros muestrales . Como es lógico,

cuanto mayor sea el tamaño de la muestra , mejor será la inferencia.

1. Estimación puntual

DEF : Consiste en usar el estadístico para estimar el parámetro

poblacional .

o P.ej : Usar �̅� ( media muestral ) para estimar µ ( media

poblacional ) ó �̂� ( proporción muestral ) para estimar p (

proporción poblacional).

2. Estimación por intervalo .Definiciones

DEF: Consiste en dar un intervalo en el que podemos asegurar que el

parámetro poblacional va a estar en un porcentaje alto de las veces.

DEF: Se llama COEFICIENTE DE CONFIANZA a la probabilidad de

que un estimador por intervalo cubra al verdadero valor del parámetro . ES

1-.

DEF: Se llama NIVEL DE SIGNIFICACIÓN a la diferencia entre la

certeza (1) y el coeficiente de confianza .( 1-) .Por tanto .

DEF: Se llama VALOR CRÍTICO al valor de la abscisa que deja a su

derecha un área igual a 𝛼

2.Se representa por 𝑍𝛼

2

Apuntes estadística P á g i n a | 13

1- 0,8 0,9 0,95 0,99

0,2 0,1 0,05 0,01

𝛼

2

0,1 0,05 0,025 0,005

𝑍𝛼2 1,28 1,64 1,96 2,58

DEF : Se llama MARGEN DE ERROR o amplitud del intervalo a la

diferencia entre el extremo superior e inferior del intervalo de confianza .

Es 2E . siendo E el error cometido .

3. Intervalo de confianza para la media muestral .Modo de cálculo .

Sea una población de distribución N(𝜇, 𝜎) y queremos estimar mediante

un intervalo el parámetro .

Para ello , elegimos una muestra de tamaño n y calculamos la media

muestral. Como ya se vio, �̅� se distribuye como una N(µ, 𝜎

√𝑛) .Se sabe

además que : p(−𝑍𝛼

2< 𝑍 ≤ 𝑍𝛼

2) = 1 − 𝛼 .

Tipificando : Z=�̅�−𝜇

𝜎

√𝑛

, con lo que : p(−𝑍𝛼

2<

�̅�−𝜇𝜎

√𝑛

≤ 𝑍𝛼

2) = 1 − 𝛼 .

p(−𝑍𝛼

2∙

𝜎

√𝑛< �̅� − 𝜇 ≤ 𝑍𝛼

2∙

𝜎

√𝑛) = 1 − 𝛼 , . si despejamos :

p( �̅� − 𝑍𝛼

2∙

𝜎

√𝑛< 𝜇 ≤ �̅� + 𝑍𝛼

2∙

𝜎

√𝑛) = 1 − 𝛼.

Como �̅� es un valor particular de �̅�, obtenemos que :

El intervalo de confianza para el parámetro de una población N(𝜇, 𝜎) al

nivel de confianza 1- viene dado por:

(�̅� − 𝑍𝛼

2∙

𝜎

√𝑛, �̅� + 𝑍𝛼

2∙

𝜎

√𝑛) siempre que sea conocida .

Apuntes estadística P á g i n a | 14

(�̅� − 𝑍𝛼

2∙

�̂�

√𝑛, �̅� + 𝑍𝛼

2∙

�̂�

√𝑛) si no es conocida siendo �̂�2 =

∑(𝑥𝑖−�̅�)2

𝑛−1 , la cuasi varianza muestral .

4. Intervalo de confianza para la proporción poblacional .Modo de

cálculo

Sea una población que se distribuye según una binomial B(n,p) .Si el

parámetro poblacional p ( probabilidad éxito) , usaremos una muestra

aleatoria de tamaño n .

Sabemos que �̂� =𝑥

𝑛 siendo x el nº de éxitos en las n pruebas de la

muestra .

También sabemos que si n es suficientemente grande �̂� es una variable

aleatoria normal N(𝑝. √𝑝(1−𝑝)

𝑛) .

Si procedemos igual que en el apartado anterior se deduce que :

Si n es muy grande ( np≥5 , nq≥5 ) ,el intervalo de confianza para p viene

dado por :(�̂�−𝑍𝛼

2∙ √

𝑝(1−𝑝)

𝑛, �̂�+𝑍𝛼

2∙ √

𝑝(1−𝑝)

𝑛)

5. Intervalo de confianza para la diferencia de medias .Modo de cálculo

Sea dos poblaciones N(1,1) , N(2,2) , se hacen una muestra de cada

una de tamaños n1 y n2 Si �̅�1 es la media muestral de la primera oblación y

�̅�2 la de la segunda el intervalo de confianza para el parámetro 1-2

viene dado por (�̅�1 − �̅�2 ± 𝑍𝛼

2∙ √

𝜎12

𝑛1−

𝜎22

𝑛2)

6. Tamaño de la muestra

Es evidente, que un procedimiento para aumentar la confianza del

intervalo es aumentar el tamaño de la muestra

Apuntes estadística P á g i n a | 15

Veamos con un ejemplo cómo proceder :

El peso (en gramos) de las naranjas de un agricultor es aleatorio, con

distribución normal de desviación típica igual a 30 gramos. Queremos

construir un intervalo de confianza para la media del peso de las

naranjas del agricultor.

Determinar el tamaño de la muestra para que el intervalo de confianza

del 98% tenga una amplitud menor o igual que 10 gramos.

Respuesta : La amplitud viene dada por E = 𝑍𝛼

2∙

𝜎

√𝑛 .

Tenemos que del enunciado sabemos que : 𝜎 = 30 ,2𝐸 = 10 y al 98%

𝑍𝛼

2= 2,33

Despejamos n = (2,33∙30

10)

2= 48,86 por lo que el tamaño de la muestra

debe ser 49 naranjas.