Transcript
  • Tema IV: Estadstica Inferencial Sumario: Conceptos de variable aleatoria y probabilidad. Modelo terico de distribucin o ley de una variable aleatoria. Modelo de la distribucin normal. Parmetros de esta distribucin. Propiedades. La distribucin normal estndar. Ejemplo de aplicacin. Objetivos: Los objetivos de la conferencia de hoy persiguen que los estudiantes sean capaces de: - Explicar el concepto y citar ejemplos de variables aleatorias. - Explicar desde el punto de vista de la tendencia de las frecuencias relativas, el concepto

    de probabilidad. - Explicar en qu consiste el modelo terico o ley de una variable aleatoria y cul es la ley

    que en mayor medida cumplen las distintas variables aleatorias biolgicas. - Identificar los parmetros de la distribucin normal e interpretarlos. - Enunciar las propiedades de la distribucin normal. - Explicar el fin prctico de la distribucin terica normal estndar. Preguntas iniciales. Cules son las dos ramas de la Estadstica y de qu se encargan? Recordamos que la estadstica descriptiva narra los hechos sin buscar la causa que los provoca y la inferencial busca relaciones entre los hechos y se expresa en trminos de probabilidad. Motivacin Hoy nos referiremos al estudio de la distribucin normal que es la que siguen a niveles poblacionales la mayora de las variables aleatorias, de ah su importancia, y a algunos aspectos elementales de la teora de probabilidades, en particular uno de sus enfoques. Desarrollo. Situacin problmica Ser posible conocer la distribucin de probabilidad que tienen las variables de tu investigacin? Cules de ellas tienen una distribucin normal? 1. - Variable aleatoria y probabilidad El concepto de probabilidad encierra un elemento de incertidumbre. La Estadstica se identifica como el arte o la ciencia de tomar decisiones ante la incertidumbre. Ejemplo:

  • - Cuando decimos que la probabilidad de que un alumno se grade al entrar a la universidad es de 0,65, queremos expresar que a la larga el 65% de los alumnos que ingresan se gradan.

    - Cuando decimos que la tasa de mortalidad infantil de una nacin es 10,0 estamos expresando que el riesgo de morir en ese pas antes de cumplir el ao de nacido es de 10 por cada mil nacidos o que con frecuencia de 10 por cada mil nios mueren en su primer ao de vida.

    - Cuando decimos que la probabilidad de que cuando nazca un nio sea varn es 0,5 quiere decir que en el estado actual del conocimiento de la ciencia no podemos precisar que vaya a ser varn porque no sabemos cmo se vayan a acoplar los cromosomas sexuales y por tanto no se conoce el sexo hasta que el embrin est formado y desarrollado, pero que esa es su probabilidad pues de observar los nacimientos largamente, la mitad de las veces son varones y la otra mitad son hembras.

    Las variables en su mayora, no siempre toman el mismo valor al ser medidas una y otra vez o al ser observadas una y otra vez aunque escojamos para el experimento individuos supuestamente iguales en sexo, edad, raza, estado de salud, etc. No se puede predecir el valor de la variable en una prxima observacin. Tal es el caso de la temperatura, la tensin arterial, el valor de la hemoglobina en sangre pero tambin es el caso del sexo de un nio que va a nacer o el caso del sexo del prximo individuo que va a cruzar por la calle, etc. A este tipo de variables se les denomina variables aleatorias cuyo adjetivo expresa la influencia de otros factores o condiciones no controlables que estn de manifiesto en el momento de las mediciones o las observaciones. A los fenmenos que se basan en variables aleatorias se les denomina fenmenos aleatorios o no determinsticos, en oposicin a los determinsticos que son los que s se puede predecir lo que suceder en una prxima observacin como es el caso de un objeto que cae que lo har verticalmente hacia abajo atrado por la fuerza de la gravedad o el caso del agua que hierve siempre a 100 grados centgrados a presin normal. Pocas observaciones de un fenmeno aleatorio pueden revelar desorden o parecer no estar sometido a ninguna ley, pero en ellos se va a cumplir que cuando observamos un nmero bien grande de veces una de estas variables y hechas estas observaciones por vas adecuadas dejarn entrever que en realidad cumplen con ciertas leyes o regularidades, que son estudiadas por la Teora de las Probabilidades. Ejemplo: Nunca podremos predecir si caer cara o escudo en el lanzamiento de una moneda, pero si dijramos que la probabilidad de obtener cara en el lanzamiento de una moneda es significara que a la larga obtendremos caras el 50% de las veces y escudo el 50% tambin aunque esto no quiere decir absolutamente que cuando lancemos 10 veces la moneda tendremos que observar 5 veces caras y 5 veces escudos y menos aun en un nmero tan pequeo de observaciones como es 10. (Realiza el experimento con una moneda)

  • Lanzamientos nmero frecuencia De una moneda de veces relativa Cara x x/n Escudo n-x (n-x)/n=1-x/n Total n 1 Si la frecuencia absoluta con la que sale cara en n lanzamientos de la moneda es x, la frecuencia relativa de este hecho es x/n y qu pasa segn la idea intuitiva que hemos dado sobre la probabilidad? Que a la larga, en el marco de muchas observaciones de este fenmeno y mejor aun en la medida que el valor de n sea mayor o tienda al infinito o sea a infinita cantidad de repeticiones, ms claramente vamos a comprobar que el valor de la frecuencia relativa tender a estabilizarse cada vez ms alrededor de un valor fijo que sabemos que es y que lo vamos a definir como la probabilidad de ocurrencia de caras en el lanzamiento de una moneda. A la tendencia de estabilizacin de las frecuencias relativas de cada clase de una variable alrededor de un valor que es su probabilidad le conocemos como la Ley de Regularidad Estadstica que rige a la larga en los fenmenos aleatorios y que los mdicos le usan acumulando experiencias de observar muchas veces un mismo cuadro clnico para concluir con un buen diagnstico. Clsicamente la probabilidad se define como el nmero de veces que se observa un hecho o fenmeno entre el nmero de veces que se pudo haber observado. Si dijramos que fuera un evento favorable obtener cara en un lanzamiento de una moneda donde hay dos eventos posibles nada ms, Probabilidad = nmero de eventos favorables / nmero de eventos posibles Ejemplo: en el lanzamiento de un dado: P(3)=1/6 P(3 o 5)=2/6=1/3 {P(3)+P(5)} P(>6)=0/6=0 P(6)=5/6 {1-P(6)} P(1...6)=6/6=1 De donde se concluye por esta va que 0
  • experiencias observando pacientes con la enfermedad y aplicar consecuentemente la Ley de Regularidad Estadstica a la tendencia de la frecuencia relativa de los que s presentan el sntoma A. 2. - Modelo terico de distribucin o ley de una variable aleatoria. Las variables aleatorias pueden presentar diferentes valores con ciertas probabilidades asociadas. Recordemos que las variables cuantitativas podan ser discretas o continuas si solamente pueden tomar un nmero finito de valores o si pueden tomar cualesquiera valores dentro de un intervalo o rango especfico. En el caso de las continuas, no se habla de la probabilidad asociada con un valor pues carece de inters especial, pero s de la probabilidad asociada con un intervalo. En el libro Bioestadstica y Computacin en la pgina 122 aparece una tabla que se refiere a la estatura de 80 individuos resumidas en intervalos de clases, se puede representar grficamente por un histograma. Imaginemos el polgono de frecuencias asociado. Hay que puntualizar que se trata o est construido slo con 80 individuos. Qu les sucedera a los segmentos rectilneos del polgono si aumentamos repetidas veces ms y ms individuos y afinamos o precisamos, esto es, si estrechamos la amplitud de los intervalos? Cada vez seran ms segmentos, ms cortos y se perfilara un tanto ms suave esa poligonal (con encuentros de un segmento a otro menos abruptos), hasta llegar all en el lmite de esta reflexin a aquella situacin en la que hayamos incluido a todos los individuos de la poblacin con intervalos tan estrechos que esa poligonal deje de exhibir puntos de no derivacin puntos de encuentros-, para suavizarse al lmite de lo posible, de tal forma que se aprecia como una curva. La forma de esa curva suave expresa la distribucin de la poblacin a travs de los diferentes valores de la variable con sus probabilidades asociadas. Si la curva se dibuja de manera que el rea bajo la curva sea 1, la probabilidad de cualquier intervalo de valores estara dada por la proporcin del rea comprendida bajo la curva y las verticales que se tracen por los extremos del intervalo y que corresponde a la frecuencia relativa del intervalo. Corresponde a la frecuencia relativa del intervalo ya que el rea bajo la curva limitada de esta forma con relacin al rea total bajo la curva guarda la misma relacin que la proporcin de frecuencias absolutas observadas en el intervalo con relacin a la totalidad de las observaciones y que es la frecuencia relativa del intervalo. Adems las frecuencias relativas tienden a los valores de las probabilidades. La curva suave que resulta cuando histograma y polgono de frecuencias se confunden se denomina distribucin poblacional, modelo terico o ley, de probabilidades de una variable aleatoria. Qu interpretacin prctica tiene conocer la probabilidad de un intervalo? En el caso de las estaturas en cms del libro, si conociramos que P(69,7;73,4)=0,475 querra decir que: - un nio tomado al azar tiene una probabilidad de 0,475 de encontrarse segn su estatura

    en ese intervalo

  • - de muchos nios tomados al azar probablemente el 47,5% de ellos tengan tales valores de estatura

    es que ese intervalo de valores se presenta en la poblacin con esa probabilidad. 3. - La distribucin normal. Parmetros y propiedades. Sucede que en la vida, las variables aleatorias en general describen a niveles poblacionales, leyes de distribuciones propias, en forma de U, en forma de J, quizs con varios mximos y mnimos. Pero la mayora de las variables aleatorias biolgicas siguen un comportamiento o ley poblacional caracterizado por una forma acampanada que se interpreta como que los valores intermedios son ms frecuentes que los valores extremos explicado por las alturas de la curva que en su parte central supera las de sus colas. Esta tendencia a seguir la campana de Gauss se dice que se trata de una distribucin normal y como dijimos, es la ley que cumplen la mayora de las variables aleatorias.

    Dicha distribucin como curva, tiene una funcin de definicin y=f(x)

    2)(21

    21

    =

    x

    ey Donde: - Se aprecian las variables independiente x y la dependiente de los valores de x, la y. - Se ve que la misma presenta dos valores que son dos constantes matemticas:

    =3,14159 y e=2,7183. - Pero adems presenta dos parmetros y que son propios o particulares de cada

    una de las variables pero diferentes, para variables diferentes. Estos parmetros tienen un significado en la campana: - es la media aritmtica poblacional de esa variable aleatoria, lo cual quiere decir que

    la representacin de la distribucin normal de una variable con media aritmtica poblacional mayor que la de otra ser ms a la derecha que la otra y es que este parmetro determina el punto central de la curva y el lugar donde ella es ms alta.

  • - es la desviacin estndar poblacional o medida de dispersin de los valores de la poblacin con respecto al valor de la media aritmtica poblacional y en la curva este valor es tal que restado y sumado a la determina dos puntos en el grfico de la curva donde entre ellos la curva es cncava y fuera de ellos se hace convexa. Luego suceder que si dos variables aleatorias tuvieran las mismas pero una, su desviacin estndar mayor que la otra, la primera sera ms ancha que la otra dado este fenmeno por la dispersin de los valores con respecto a la media.

    Propiedades de la distribucin normal. Es simtrica con respecto al eje vertical que pasa por el valor de . 1. Es infinita a ambos lados tendiendo al valor cero del eje y. 2. Tiene coincidencia de media aritmtica, mediana y moda en el valor de . 3. En toda curva normal los intervalos ( ), + , (-2 , +2 ) y ( -3 , +3 ) tienen probabilidades conocidas sean cuales sean el apuntamiento y estrechez en la forma de la campana. Esas probabilidades son constantes: 0,6827 0,9545 y 0,9973 que expresado de otra forma es que el 68,27% de las observaciones de la variable aleatoria en la poblacin est dentro del intervalo ( - ), + y sucesivamente. Todas estas propiedades tienen luego implicaciones prcticas en las diferentes tcnicas de Estadstica Inferencial que vamos a estudiar ms adelante, en particular la ltima de estas propiedades. Cmo podramos determinar la probabilidad de un intervalo (a, b) en una curva normal cualquiera? Encontrando la parte del rea que queda limitada por debajo de la curva y entre las ordenadas marcadas por los valores a y b. Esto es exactamente, resolviendo la integral desde a hasta b de la funcin que define tal curva lo cual est fuera de nuestras posibilidades.

    ba

    dxxf )(

    Resumen parcial.

    La forma de la figura de la distribucin de probabilidades que presenta una variable aleatoria constituye su ley de distribucin de manera que la parte del rea bajo la curva que queda limitada por dos valores de la variable con respecto al rea total bajo la curva define la probabilidad con la que se presenta ese intervalo de valores de la variable en la poblacin. La figura que sigue la mayora de las variables aleatorias biolgicas es el modelo simtrico acampanado de Gauss denominada distribucin normal, con centro en la media aritmtica poblacional y con amplitud dada por el valor de su desviacin estndar.

  • 4.- La distribucin normal estndar Existe una curva de distribucin normal especial, llamada la normal estndar y que tiene carcter terico pues no responde a ninguna variable en particular. La misma est centrada en cero ( = 0) y con desviacin estndar de uno ( = 1), esto trae implcito un rea de 0,6827 partes del rea total bajo la curva entre 1 y 1, un rea entre 2 y 2 de 0,9545 y un rea de 0.9973 entre 3 y 3 conforme a la propiedad planteada para toda curva normal. Las diferentes reas bajo la curva entre 0 y un valor z a su derecha cualquiera estn calculadas por integracin y expuestas en tablas de la Distribucin Normal Estndar entre 0 y Z, (Figura Normal Estndar de 0 a Z); o bien estn calculadas y expuestas en otras tablas igualmente tiles, las reas desde - hasta un valor z cualquiera, no necesariamente a la derecha de 0, (Figura Normal Estndar de - a Z).

    Figura: Normal Estndar de 0 a Z

    Figura: Normal Estndar desde - a Z La tarea nuestra cuando queramos determinar la probabilidad de un intervalo cualquiera es aplicar las propiedades de la curva normal adems de tener en cuenta lo siguiente para cuando usamos la tabla de la normal estndar entre 0 y un valor z a su derecha cualquiera: Cada valor (x) de la variable nuestra con distribucin normal con parmetros

  • asociados y tendr un valor asociado (z) en la curva normal estndar tal que define una cantidad de rea entre la media (0) y el valor (z), igual al rea que define mi punto particular (x) en mi curva particular con respecto a la media de esta variable ( ). La cuestin es cmo conocer ese punto de la normal estndar para luego ir a la tabla donde sus reas (entindase sus probabilidades), estn recogidas ya. Cualquier valor x de la curva caracterizada por una media y una desviacin estndar est asociado con un valor z de la curva normal estndar (0 y 1) de la siguiente forma, proceso al que se le conoce por estandarizacin del valor de x:

    = xz

    Dicho de otra forma es conocer a cuntas unidades estndares de la media est situado el punto x. Ejemplo si =18 y = 2, Cul es la probabilidad del intervalo (16,21)? El valor 16 est a la izquierda de 18 corresponder a un valor de z negativo porque est a la izquierda de 0, en efecto: z=(16-18)/2=-2/2=-1 y define un rea entre 1 y 0 igual a la que define el valor 1 con respecto al 0 (por la simetra) y negativa slo para indicar que es a la izquierda, dicha rea es de 0,3413 El valor 21 est a la derecha del 18 y se asocia con z=(21-18)/2=3/2=1,5 que determina un rea de 0,4332 a la derecha del 0. Sumando dichas reas resulta: 0,7745 y sta es la probabilidad del intervalo (16,21) en la curva nuestra en base a la probabilidad del intervalo (-1; 1,5) en la normal estndar. Ejemplos de aplicacin de la distribucin normal estndar. 1. -En la evaluacin integral trimestral del trabajo de los Consultorios del Mdico de la Familia, la calificacin media fue 78 con una desviacin estndar de 8. Los resultados estn distribuidos normalmente: a)Qu porcentaje alcanz calificaciones de 78 y sup? b)Qu porcentaje alcanz calificaciones entre 78 y 86? c)Qu porcentaje alcanz calificaciones entre 74 y 82? d)Qu porcentaje alcanz calificaciones inferiores a 66? Rtas: a)50 b)34,14 c)2(19,15)=38,30 d)0,5-0,4332=0,0668*100=6,68 2. -El peso medio de 600 estudiantes varones de una escuela es 151 lbs y la desviacin estndar, 15 lbs. Suponiendo el peso normalmente distribuido: a)Cuntos estudiantes pesan entre 121 y 156 lbs? b)Cuntos estudiantes pesan ms de 186 lbs? Rtas: a)z1=-2 y z2=0,3 implican probabilidades de 0,4772 a la izquierda de 151 y 0,1179 a la derecha. Sumadas resulta 0,5951. Calculado el 59,51% de 600 da por resultado 357 estudiantes.

  • b)z=2,3 con probabilidad tabulada de 0,4893. Entonces 0,5-0,4893=0,0107. El 1,07% de 600 es 6 estudiantes.

    Conclusiones: La estadstica inferencial en sus diferentes tcnicas de anlisis se basa fundamentalmente en la utilidad de la distribucin normal y el clculo de probabilidades de los intervalos y que la toma de decisiones que caracteriza a la estadstica inferencial frente a la incertidumbre se hace en base a la teora de las probabilidades. Trabajo independiente.

    Si un conjunto de mediciones se distribuye normalmente. Cul es la probabilidad de encontrar mediciones que difieran de la media en ms de la mitad de la desviacin estndar? Rta: z=0,5 implica probabilidad de 0,1915 que a ambos lados es 0,3830 y fuera de este intervalo ( - /2; + /2 ) el rea est dada por 1,0000-0,3830=0,6170

    Presentacin de la prxima actividad La prxima actividad es una clase muy interesante e importante donde se abordar la Teora del Muestreo de inmensa utilidad prctica ya que todos o casi todos los estudios se realizan eligiendo una muestra para tomar decisiones poblacionales.

    Bibliografa - Fayad Camel. Estadsticas mdicas y de salud pblica. Cap. XVI pag 157-159 - Bioestadstica y Computacin. CECAM. La habana 1987. Cap. VIII. Nociones elementales

    acerca de la distribucin de probabilidad pag. 114-139. - Informtica Mdica. Tomo 2. Bioestadstica. Colectivo de autores del CECAM. Cap 9. Pg

    306 a 312