35
Bioestadística I. U. de Antofagasta Modelos de probabilidades 1 Bioestadística I Modelos de probabilidades

Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Bioestadística I.

U. de Antofagasta Modelos de probabilidades 1

Bioestadística I

Modelos de probabilidades

Page 2: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 2

Bioestadística I.

U. de Antofagasta

Variable aleatoria

� Experimento aleatorio es aquel que puede ocurrir de

dos o más formas.

� El resultado de un experimento aleatorio puede ser descrito en ocasiones como una cantidad numérica.

� En estos casos aparece la noción de variable aleatoria

� Función que asigna a cada resultado de un experimento

aleatorio un número.

� Las variables aleatorias pueden ser discretas o continuas (como en el primer tema del curso).

Page 3: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 3

Bioestadística I.

U. de Antofagasta

Función de probabilidad (Variables Discretas)

� Asigna a cada posible valor de una variable discreta su probabilidad.

� Recuerda los conceptos de

frecuencia relativa y diagrama de

barras.

� Ejemplo

� Número de bacterias en una

especie marina0%

5%

10%

15%

20%

25%

30%

35%

40%

0 1 2 3

Page 4: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 4

Bioestadística I.

U. de Antofagasta

Función de probabilidades (Variables Continuas)

� Definición� Es una función no negativa de área

total igual 1.

� Piénsalo como la generalización del histograma con frecuencias relativas para variables continuas.

� ¿Para qué lo voy a usar?� Para calcular probabilidades de

intervalos.

Page 5: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 5

Bioestadística I.

U. de Antofagasta

¿Para qué sirve la función de probabilidades

� Muchos procesos aleatorios vienen descritos por variables cuyos valores caen en rangos o intervalos.

� El área bajo la curva en dichos intervalos coincide con la probabilidad de los mismos.

� Es decir, identificamos la probabilidad de un intervalo con el área bajo la función de probabilidad

Page 6: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 6

Bioestadística I.

U. de Antofagasta

Función de distribución acumulada

� Es la función que asocia a cada valor de una variable, la probabilidad acumuladade los valores inferiores o iguales.

� Piénsalo como la generalización de lasfrecuencias acumuladas. Diagrama de barrasl.

� A los valores extremadamente bajos les corresponden valores de la función de distribución cercanos a cero.

� A los valores extremadamente altos les corresponden valores de la función de distribución cercanos a uno.

� Lo encontraremos en los artículos y aplicaciones en forma de “p-valor”, significación,…

Page 7: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 7

Bioestadística I.

U. de Antofagasta

Algunos modelos de variables aleatorias.

Hay modelos de probabilidades que aparecen con frecuencia en las Ciencias biológicas tales como.

� Modelos de probabilidades de variables discretas

� Experimentos dicotómicos.

� Modelo Bernoulli

� Contar éxitos en experimentos dicotómicos repetidos:

� Modelo Binomial (con reemplazo)

� Modelo Hipergeométrico (sin reemplazo)

� Modelo Poisson (Periodo patrón )

Modelos de probabilidades de variables continua

� Distribución normal (gaussiana, campana,…)

.

Page 8: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 8

Bioestadística I.

U. de Antofagasta

Distribución de Bernoulli

� Tenemos un experimento de Bernoulli si al realizar un experimentos sólo son posibles dos resultados:� X=1 (éxito, con probabilidad p)

� X=0 (fracaso, con probabilidad q=1-p)

� Elegir una trucha de un estanque y que esté infectado.

� p=0.1 = prevalencia de la infección

� Aplicar nutrientes al alimento de un salmón y que éste aumente su peso.

� p=0.95, probabilidad de que el salmón aumente de peso

� Como se aprecia, en experimentos donde el resultado es dicotómico, la variable queda perfectamente determinada conociendo la probabilidad p.

Page 9: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 9

Bioestadística I.

U. de Antofagasta

Ejemplo de modelo de Bernoulli.

� Se ha observado 2000 truchas en un cultivo, de los cuales 300 tenian un virus. Si se elige una trucha del cultivo, describa el experimento usando conceptos de v.a. y calcule la probabilidad de que la trucha elegida tenga el virus

� Solución.� La noc. frecuentista de prob. nos permite aproximar la probabilidad de

tener virus mediante 300/2000=0,15 (15%)

� X=“Número de truchas con el virus es variable de Bernoulli

� X=1 tiene probabilidad p ≈ 0,15

� X=0 tiene probabilidad q=1- p ≈ 0,85

Page 10: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 10

Bioestadística I.

U. de Antofagasta

Modelo Binomial

� Si se repite n veces, un experimento de Bernoulli con probabilidad p, entonces la variable aleatoria

X= número de éxitos en las n repeticiones sigue un modelo binomial de parámetros (n,p).

Valores de X = 0,1,2,…….,n

Por ejemplo:� Elegir 10 truchas y contar cuantas tienen virus.

� Elegir 20 salmones y contar cuantos no cumplen la norma de tamaño.

Page 11: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 11

Bioestadística I.

U. de Antofagasta

Modelo de probabilidades binomial

� Función de probabilidad

� Problemas de cálculo si n es grande y/o p cercano a 0 o 1.

� Media: µ =n p

� Varianza: σ2 = n p q

nkqpk

nkXP

knk≤≤

==

−0 ,][

Page 12: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 12

Bioestadística I.

U. de Antofagasta

Ejemplo de modelo de Binomial.

� Se ha observado 2000 truchas en un cultivo, de los cuales 300 tenían un virus. Si se elige 10 truchas del cultivo, calcule la probabilidad de que:

a) 4 truchas de las elegidas tengan el virusb) A lo más 4 truchas de las elegidas tengan el virus

c) A lo menos 4 truchas tengan el virus� Solución.

� La noción frecuentista de probabilidades. nos permite aproximar la probabilidad de tener virus mediante 300/2000=0,15 (15%)

� X=“Número de truchas con el virus es variable Binomial con p ≈0,15

a) P(X=4)= 0,00400957b) P(X<=4)= 0,950031

Page 13: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 13

Bioestadística I.

U. de Antofagasta

Modelo Hipergeométrico

� Se tiene un conjunto S con N elementos. Se particiona S en dos subconjuntos A y Ac , con N1 y N2 elementos respectivamente.

� En S se elige una muestra aleatoria de n elementos sin remplazo de manera que N1 < N y N2 < N .

Page 14: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 14

Bioestadística I.

U. de Antofagasta

Función de probabilidades

Se define la variable X como "número de elementos de A que están en la muestra aleatoria de tamaño

1 1

( )X

N N N

x n xf x

N

n

− =

Page 15: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 15

Bioestadística I.

U. de Antofagasta

Ejemplo modelo hipergeométrico

� Se tiene 90 truchas en un cultivo, de los cuales 9 tenían un virus. Si se elige 6 truchas sin reemplazo del cultivo, calcule la probabilidad de que:

a) 4 truchas de las elegidas tengan el virus

b) A lo más 4 truchas de las elegidas tengan el virus

c) A lo menos 4 truchas tengan el virus

Page 16: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 16

Bioestadística I.

U. de Antofagasta

Desarrollo

a) P(X = 4)=0,000655687

b) P(X < = 4)=0,999328

c) P(X > = 4)=0,0000164201

Page 17: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 17

Bioestadística I.

U. de Antofagasta

Modelo de Poisson

� Sea X una variable aleatoria que cuenta el número de eventos en un periodo patrón con promedio igual a µ por periodo.

� Tambien se obtiene como aproximación de una distribución binomial con la misma media, para ‘n grande’ (n>30) y ‘p pequeño’ (p<0,1).

� Función de probabilidad:

,...2,1,0 ,!

][ ===−

kk

ekXPk

µµ

Page 18: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 18

Bioestadística I.

U. de Antofagasta

Ejemplos de variables de Poisson

El número de salmones infectados por estanque es una variable de Poisson con un promedio de 5 salmones infectados por estanque. Si se elige un estanque al azar ¿Cuál es la probabilidad de que en el estanque se encuentre:

a) 4 salmones infectados?

b) A lo más 4 salmones infectados?

c) A lo menos 4 salmones infectados?

a) P(X = 4)= 0,175467

b) P(X < = 4)=0,265026

c) P(X > = 4)= 0,559507

Page 19: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 19

Bioestadística I.

U. de Antofagasta

Distribución normal o de Gauss

� Se usa usualmente cuando la variable es contínua

� Está caracterizada por dos parámetros: La media, µ, y la desviación típica, σ.

� Su función de densidad es:

2

2

1

2

1)(

−−

µ

πσ

x

exf

Page 20: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 20

Bioestadística I.

U. de Antofagasta

N(µ, σ): Interpretación

geométrica

� Podéis interpretar la media como un factor de traslación.

� Y la desviación típicacomo un factor de escala, grado de dispersión,…

Page 21: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 21

Bioestadística I.

U. de Antofagasta

N(µ, σ): Interpretación probabilista

� Entre la media y una desviación típica tenemos siempre la misma probabilidad: aprox. 68%

� Entre la media y dos desviaciones típicas aprox. 95%

Page 22: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 22

Bioestadística I.

U. de Antofagasta

Algunas características� La función de densidad es simétrica, mesocúrtica y unimodal.

� Media, mediana y moda coinciden.

� Los puntos de inflexión de la función de prob. están a distancia σ de µ.

� Si tomamos intervalos centrados en µ, y cuyos extremos están…� a distancia σ, � tenemos probabilidad 68%� a distancia 2 σ, � tenemos probabilidad 95%� a distancia 2’5 σ � tenemos probabilidad 99%

� La probabilidad de un valor puntual es 0.

� Todas las distribuciones normales N(µ, σ), pueden ponerse mediante una traslación µ, y un cambio de escala σ, como N(0,1). Esta distribución especial se llama normal estándar.� Justifica la técnica de estandarización, cuando intentamos comparar individuos

diferentes obtenidos de sendas poblaciones normales.

Page 23: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 23

Bioestadística I.

U. de Antofagasta

Estandarización� Dada una variable X de media µ y desviación típica σ, se denomina valor

estandarizado ,z, de una observación x, a la distancia (con signo) con respecto a la media, medido en desviaciones típicas, es decir

� En el caso de variable X normal, la interpretación es clara: Asigna a todo valor de N(µ, σ), un valor de N(0,1) que deja exáctamente la misma probabilidad por debajo.

� Nos permite así comparar entre dos valores de dos distribuciones normales diferentes, para saber cuál de los dos es más extremo.

σ

µ−=

xz

Page 24: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 24

Bioestadística I.

U. de Antofagasta

Ejemplo� Se quiere dar una beca a uno de dos estudiantes de sistemas educativos

diferentes. Se asignará al que tenga mejor expediente académico.� El estudiante A tiene una calificación de 8 en un sistema donde la calificación de los

alumnos se comporta como N(6,1).� El estudiante B tiene una calificación de 80 en un sistema donde la calificación de los

alumnos se comporta como N(70,10).

� Solución� No podemos comparar directamente 8 puntos de A frente a los 80 de B, pero como

ambas poblaciones se comportan de modo normal, podemos tipificar y observar las puntuaciones sobre una distribución de referencia N(0,1)

� Como ZA>ZB, podemos decir que el porcentaje de compañeros del mismo sistema de estudios que ha superado en calificación el estudiante A es mayor que el que ha superado B. Podríamos pensar en principio que A es mejor candidato para la beca.

110

7080

21

68

=−

=−

=

=−

=−

=

B

xz

xz

BBB

A

AAA

σ

µ

σ

µ

Page 25: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 25

Bioestadística I.

U. de Antofagasta

Ejemplo modelo normal

El peso de salmones de un cultivo se distribuye normal con media 1030 gramos y desviación estándar 160 gramos.

a) Si los salmones con un peso de al menos 1200 gramos son considerados aptos para el consumo ¿Cuál es probabilidad de que un salmón no este apto para el consumo?

b) Los salmones con un peso entre 980 y 1050 gramos son exportados. ¿Cuál es la probabilidad que un salmón sea exportado?

c) Si el 30% de los salmones de más bajo peso son alimentados con nutrientes ¿Cuál es el peso máximo de un salmón para que sea alimentado con nutrientes?

Solución a) P(X>1200= 0.1440

b) P(980<X<1050)=P(X<1050)-P(X<980)=0.8497-0.3773=

c) P(X<k)=0.30 luego k=946.095 gramos

Page 26: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 26

Bioestadística I.

U. de Antofagasta

¿Por qué es importante la distribución normal?

� Las propiedades que tiene la distribución normal son interesantes, pero todavía no hemos hablado de por quées una distribución especialmente importante.

� La razón es que aunque una v.a. no posea distribución normal, ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal.

� Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’ que resumen la información de una muestra, posiblemente tengan distribución normal (o asociada).

Page 27: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 27

Bioestadística I.

U. de Antofagasta

Veamos aparecer la distribución normal

� Como ilustración mostramos una variable que presenta valores distribuidos más o menos uniformemente sobre el intervalo 150-190.

� Como es de esperar la media es cercana a 170. El histograma no se parece en nada a una distribución normal con la misma media y desviación típica.

Page 28: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 28

Bioestadística I.

U. de Antofagasta

� A continuación elegimos aleatoriamente grupos de 10observaciones de las anteriores y calculamos el promedio.

� Para cada grupo de 10 obtenemos entonces una nueva medición, que vamos a llamar promedio muestral.

� Observa que las nuevas cantidades están más o menos cerca de la media de la variable original.

� Repitamos el proceso un número elevado de veces. En la siguiente transparencia estudiamos la distribución de la nueva variable.

152152175

185185152

165152178

155159188

183175183

178179172

152159160

167170167

163169174

179190185

3ª2ª1ª

Muestra

173 169 168 …

Page 29: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 29

Bioestadística I.

U. de Antofagasta

� La distribución de los promedios muestrales sí que tiene distribución aproximadamente normal.

� La media de esta nueva variable (promedio muestral) es muy parecida a la de la variable original.

� Las observaciones de la nueva variable están menos dispersas. Observa el rango. Pero no sólo eso. La desviación típica es aproximadamente ‘raiz de 10’veces más pequeña. Llamamos error estándar a la desviación típica de esta nueva variable.

� Nada de lo anterior es casualidad.

Page 30: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 30

Bioestadística I.

U. de Antofagasta

Teorema central del límite� Dada una v.a. cualquiera, si extraemos muestras de

tamaño n, y calculamos los promedios muestrales, entonces:

� dichos promedios tienen distribución aproximadamente normal;

� La media de los promedios muestrales es la misma que la de la variable original.

� La desviación típica de los promedios disminuye en un factor “raíz de n”(error estándar).

� Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.

� Este teorema justifica la importancia de la distribución normal.

� Sea lo que sea lo que midamos, cuando se promedie sobre una muestra grande (n>30) nos va a aparecer de manera natural la distribución normal.

Page 31: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 31

Bioestadística I.

U. de Antofagasta

Distribuciones asociadas a la normal

� Cuando queramos hacer inferencia estadística hemos visto que la distribución normal aparece de forma casi inevitable.

� Dependiendo del problema, podemos encontrar otras (asociadas):� X2 (chi cuadrado)� t- student� F- Fisher

� Estas distribuciones resultan directamente de operar con distribuciones normales. Típicamente aparecen como distribuciones de ciertos estadísticos.

� Veamos algunas propiedades que tienen (superficialmente). Para más detalles consultad el manual.

� Sobre todo nos interesa saber qué valores de dichas distribuciones son “atípicos”.� Significación, p-valores,…

Page 32: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 32

Bioestadística I.

U. de Antofagasta

Chi cuadrado

� Tiene un sólo parámetro denominado grados de libertad.

� La función de densidad es asimétrica positiva. Sólo tienen densidad los valores positivos.

� La función de densidad se hace más simétrica incluso casi gausiana cuando aumenta el número de grados de libertad.

� Normalmente consideraremos anómalos aquellos valores de la variable de la “cola de la derecha”.

Page 33: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 33

Bioestadística I.

U. de Antofagasta

T de student

� Tiene un parámetro denominado grados de libertad.

� Cuando aumentan los grados de libertad, más se acerca a N(0,1).

� Es simétrica con respecto al cero.

� Se consideran valores anómalos los que se alejan de cero (positivos o negativos).

Page 34: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 34

Bioestadística I.

U. de Antofagasta

F de Fisher

� Tiene dos parámetros denominados grados de libertad.

� Sólo toma valores positivos. Es asimétrica.

� Normalmente se consideran valores anómalos los de la cola de la derecha.

Page 35: Bioestadística I - uantof.clintranetua.uantof.cl/facultades/csbasicas/matematicas/academicos/j… · Bioestadística I. U. de Antofagasta Función de distribución acumulada Es la

Modelos de probabilidades 35

Bioestadística I.

U. de Antofagasta

¿Qué hemos visto?� En v.a. hay conceptos equivalentes a los de temas

anteriores � Función de probabilidad � Frec. Relativa. histograma

� Función de distribución � Area bajo la curva.

� Valor esperado � media, …

� Hay modelos de v.a. de especial importancia:� Bernoulli

� Binomial

� Hipergeomètrica

� Poisson

� Normal

� Propiedades geométricas

� Tipificación

� Distribuciones asociadas� T-student

� X2

� F de Fisher