Unidad_3

Embed Size (px)

DESCRIPTION

Estadística: formulas estadisticas.

Citation preview

  • 1

    Estadstica

    Licenciatura en Radiologa

    INSTITUTO SUPERIOR DE TECNOLOGA MDICA

    Unidad 3: Medidas de tendencia central y

    variabilidad

    Profesores: Javier Bussi, Fernanda Mndez

    Parmetros y estadsticos

    Parmetro: Es una cantidad numrica calculada sobre una poblacin

    La altura media de los individuos de un pas

    La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros).

    Estadstico: dem (cambiar poblacin por muestra)

    La altura media de los que estamos en este aula.

    Somos una muestra (representativa?) de la poblacin.

    Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.

    Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que el error sea confiablemente pequeo.

  • 2

  • 3

    Un brevsimo resumen sobre estadsticos

    Posicin

    Dividen un conjunto ordenado de datos en grupos con la

    misma cantidad de individuos.

    Cuantiles, percentiles, cuartiles, deciles,...

    Centralizacin

    Indican valores con respecto a los que los datos parecen

    agruparse.

    Media, mediana y moda

    Dispersin

    Indican la mayor o menor concentracin de los datos

    con respecto a las medidas de centralizacin.

    Desviacin tpica, coeficiente de variacin, rango, varianza

    Forma

    Asimetra

    Apuntamiento o curtosis

    Estadsticos de posicin

    Se define el cuantil de orden a como un valor de la variable por debajo

    del cual se encuentra una frecuencia acumulada a.

    Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

  • 4

    Estadsticos de posicin

    Percentil de orden k = cuantil de orden k/100

    La mediana es el percentil 50

    El percentil de orden 15 deja por debajo al 15% de las

    observaciones. Por encima queda el 85%

    Cuartiles: Dividen a la muestra en 4 grupos con

    frecuencias similares.

    Primer cuartil = Percentil 25 = Cuantil 0,25

    Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana

    Tercer cuartil = Percentil 75 = cuantil 0,75

    Ejemplos

    El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?

    Percentil 5 o cuantil 0,05

    Percentil 5 del peso

    Peso al nacer (Kg) de 100 nios

    fre

    cu

    en

    cia

    1 2 3 4 5

    05

    10

    15

    20

    25

  • 5

    Ejemplos

    Qu peso es superado slo por el 25% de los individuos?

    Percentil 75 o tercer cuartil

    Percentil 75 del peso

    Peso (Kg) de 100 deportistas

    fre

    cu

    en

    cia

    50 55 60 65 70 75 80 85

    05

    10

    15

    20

    25

    30

    Ejemplos

    El nivel de colesterol se distribuye simtricamente en la poblacin. Supongamos que se consideran patolgicos los valores extremos. El 90% de los individuos son normales Entre qu valores se encuentran los individuos normales?

    Percentiles 5 y 95

    Colesterol en 100 personas

    fre

    cu

    en

    cia

    180 200 220 240 260

    05

    10

    15

    20

  • 6

    Ejemplos

    Entre qu valores se encuentran la mitad de los individuos ms normales de una poblacin?

    Entre el cuartil 1 y 3

    Percentiles 25 y 75

    Altura (cm) en 100 varones

    fre

    cu

    en

    cia

    150 160 170 180 190

    05

    10

    15

    20

    Diagramas de caja

    Resumen con 5 nmeros: Mnimo, cuartiles y mximo.

    Suelen dar una buena idea de la distribucin.

    La zona central, caja, contiene al 50% central de las observaciones. Su tamao se llama rango

    intercuartlico (R.I.)

    Es costumbre que los bigotes, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no ms de 1,5 R.I. Ms all de esa distancia se

    consideran anmalas, y as se marcan.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en ciudad

    de

    nsid

    ad

    40 45 50 55 60 65

    0.0

    00

    .02

    0.0

    40

    .06

    0.0

    8

    40 45 50 55 60 65

    Mn. P25 P50 P75 Mx.

    Diagrama de cajas de Tukey: Resumen en 5 nmeros

    Velocidad (Km/h) de 200 vehculos en autova

    de

    nsid

    ad

    80 90 100 110 120 130 140

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    4

    80 90 100 110 120 130 140

    Mn. P25 P50 P75 Mx.

  • 7

    Ejemplo

    Nmero de aos de escolarizacin

    5 ,3 ,3

    5 ,3 ,7

    6 ,4 1,1

    12 ,8 1,9

    25 1,7 3,5

    68 4,5 8,0

    56 3,7 11,7

    73 4,8 16,6

    85 5,6 22,2

    461 30,6 52,8

    130 8,6 61,4

    175 11,6 73,0

    73 4,8 77,9

    194 12,9 90,7

    43 2,9 93,6

    45 3,0 96,6

    22 1,5 98,0

    30 2,0 100,0

    1508 100,0

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    Total

    Frecuencia Porcentaje

    Porcentaje

    acumulado

    Estadsticos

    Nmero de aos de escolarizacin

    1508

    0

    12,90

    12,00

    12

    9,00

    11,00

    12,00

    12,00

    12,00

    12,00

    13,00

    14,00

    15,00

    16,00

    16,00

    Vlidos

    Perdidos

    N

    Media

    Mediana

    Moda

    10

    20

    25

    30

    40

    50

    60

    70

    75

    80

    90

    Percentiles

    20%?

    90%?

    Estadsticos de centralizacin Aaden unos cuantos casos particulares a las medidas de posicin. En este caso

    son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

    Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral.

    Media de 2,2,3,7 es (2+2+3+7)/4=3,5

    Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos.

    Centro de gravedad de los datos

    Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales.

    Mediana de 1,2,4,5,6,6,8 es 5

    Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5

    Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

    Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo.

  • 8

    Altura mediana

    Variabilidad o dispersin

    Los estudiantes de Bioestadstica reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?

    Diferencias individuales en el conocimiento de la materia.

    Podra haber otras razones (fuentes de variabilidad)?

    Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos? Seguramente No.

    Dormir poco el da del examen, el croissant estaba envenenado...

    Diferencias individuales en la habilidad para hacer un examen.

    El examen no es una medida perfecta del conocimiento.

    Variabilidad por error de medida.

    En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad.

  • 9

    Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.

    Amplitud o Rango (range): Diferencia entre observacines extremas.

    2,1,4,3,8,4. El rango es 8-1=7

    Es muy sensible a los valores extremos.

    Rango intercuartlico (interquartile range):

    Es la distancia entre primer y tercer cuartil.

    Rango intercuartlico = P75 - P25

    Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores.

    No es tan sensible a valores extremos.

    150 160 170 180 190

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    40

    .05

    150 160 170 180 190

    25% 25% 25% 25%

    Mn. P25 P50 P75 Mx.

    Rango intercuartlico

    Rango

    Medidas de dispersin

    Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

    Es sensible a valores extremos (alejados de la media).

    Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un principiante.

    La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la informacin geomtrica relevante en muchas situaciones donde la energa interna de un sistema depende de la posicin de sus partculas.

    Energa de rotacin (va el coeficiente de inercia): patinadores con brazos extendidos

    (dispersos) o recogidos (poco dispersos)

    Energa elstica: Muelles estirados con respecto a su posicin de equilibrio (dispersos) frente a muelles en posicin cercana a su posicin de equilibrio (poco dispersos)

    i

    i xxn

    S 22 )(1

  • 10

    Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza

    Tiene las misma dimensionalidad (unidades) que la variable. Versin esttica de la varianza.

    Cierta distribucin que veremos ms adelante (normal o gaussiana) quedar completamente determinada por la media y la desviacin tpica.

    A una distancia de una desv. tpica de la

    media hay ms de la ms de la mitad.

    A una distancia de dos desv. tpica de la media las tendremos casi todas.

    2SS

    Peso recin nacidos en partos gemelares

    3.300

    2.900

    2.500

    2.100

    1.700

    1.300900

    500

    50

    40

    30

    20

    10

    0

    Desv. tp. = 568,43

    Media = 2023

    N = 407,00

    Dispersin en distribuciones normales

    Centrado en la media y a una desv. tpica de distancia hay aproximadamente el 68% de las observaciones.

    A dos desviaciones tpicas tenemos el 95% (aprox.)

    150 160 170 180 190

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    40

    .05

    x s

    68.5 %

    150 160 170 180 190

    0.0

    00

    .01

    0.0

    20

    .03

    0.0

    40

    .05

    x 2s

    95 %

  • 11

    Datos casi normales. Eje x medido en desviaciones tpicas

    Encuentras relacin entre rango intercuartlico y desviacin tpica?

    Y entre los bigotes y dos desviaciones tpicas? Podras caracterizar las observaciones anmalas?

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    densid

    ad

    -3 -2 -1 0 1 2 3

    x s

    66 %

    x 2s

    95 %

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    densid

    ad

    -3 -2 -1 0 1 2 3

    x s

    71 %

    x 2s

    94 %

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    0.4

    densid

    ad

    -3 -2 -1 0 1 2 3

    x s

    68 %

    x 2s

    94 %

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    densid

    ad

    -3 -2 -1 0 1 2 3

    x s

    70 %

    x 2s

    94 %

    Coeficiente de variacin

    Es la razn entre la desviacin tpica y la media.

    Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media

    Tambin se la denomina variabilidad relativa.

    Es frecuente mostrarla en porcentajes Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

    Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms

    dispersin en peso que en altura.

    No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente

    Por ejemplo 0C 0F

    Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).

    x

    SCV

  • 12

    Asimetra o Sesgo

    Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha.

    En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide

    La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin.

    La media tiende a desplazarse hacia las valores extremos (colas).

    Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.

    x

    8 10 12 14 16 18 20

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    8 10 12 14 16 18 20

    x s

    78 %

    x

    -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    -2 -1 0 1 2 3

    x s

    66 %

    x

    0 2 4 6 8 10 12 14

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    0 2 4 6 8 10 12 14

    x s

    78 %

    Estadsticos para detectar asimetra

    Hay diferentes estadsticos que sirven para detectar asimetra.

    Basado en diferencia entre estadsticos de tendencia central.

    Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.

    Basados en desviaciones con signo al cubo con respecto a la media. Los calculados con ordenador. Es pesado de hacer a mano.

    En funcin del signo del estadstico diremos que la asimetra es positiva o negativa.

    Distribucin simtrica asimetra nula.

  • 13

    Apuntamiento o curtosis

    En el curso sern de especial

    inters las mesocrticas y

    simtricas (parecidas a la normal).

    La curtosis nos indica el grado de apuntamiento (aplastamiento) de una

    distribucin con respecto a la distribucin normal o gaussiana. Es

    adimensional.

    Platicrtica (aplanada): curtosis < 0

    Mesocrtica (como la normal): curtosis = 0

    Leptocrtica (apuntada): curtosis > 0

    Aplanada

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    0.0 0.2 0.4 0.6 0.8 1.0

    x s

    57 %

    Apuntada como la normal

    -3 -2 -1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    -3 -2 -1 0 1 2 3

    x s

    68 %

    Apuntada

    -2 -1 0 1 2

    0.0

    0.2

    0.4

    0.6

    0.8

    -2 -1 0 1 2

    x s

    82 %

    Descripcin de los participantes de un estudio

  • 14

    Descripcin de los participantes de un estudio

    Qu hemos visto?

    Parmetros

    Estadsticos y estimadores

    Clasificacin Posicin (cuantiles, percentiles,...)

    Diagramas de cajas

    Medidas de centralizacin: Media, mediana y moda Diferenciar sus propiedades.

    Medidas de dispersin con unidades: rango, rango intercuartlico, varianza, desv.

    tpica

    sin unidades: coeficiente de variacin Qu usamos para comparar dispersin de dos poblaciones?

    Asimetra positiva

    negativa Podemos observar asimetra sin mirar la grfica?

    Cmo me gustan los datos?

    Medidas de apuntamiento (curtosis) Cmo me gustan los datos?