Estadistica Básica 2014-II.pdf

Embed Size (px)

Citation preview

  • Estadstica bsica

    Taller de Evaluacin Sensorial

    Carlos Gmez Corona / UNAM 2014 -2

  • Introduccin

    Despus de haber colectado las respuestas de los jueces o

    consumidores, que podemos decir sobre las muestras evaluadas?

    Los productos son diferentes?

    Los productos son iguales?

    En qu atributos son diferentes las muestras?

    Qu producto prefieren los consumidores?

    Qu producto gusta ms?

    Los consumidores tienen los mismos gustos?

    Analizar

    estadsticamente

    los resultados

  • De donde viene la palabra?

    Gottfried Achenwall

    1719 - 1772

    GRACIAS GODOFREDO!

    Fue el primero en usar el trmino estadstica

    Viene de la palabra alemana statistik que significa datos del

    estado

  • Y para qu sirve

    Recolectamos datos para saber algo de una poblacin

    Para conocer sus elementos mas importantes

    Para detectar una estructura entre lo aleatorio

    Para confrontar una teora a la realidad

    1. Hacer inferencias de una poblacin con

    base en un una muestra

    La media como un prueba

    2. Queremos describir a una poblacin

    La media como un resumen

    3. Queremos predecir

  • Trminos Importantes

    Variable.- Es la propiedad de un objeto o evento que puede tomar

    diferentes valores.

    Nominales*.- con un nombre: azul, verde, caliente, hombre, mujer, aciertos

    (distribucin binomial, ji-cuadrada)

    Ordinales*.- el orden tiene sentido: NSE, ranking,

    (ji-cuadrada,Friedman, Mann-Whitney)

    Intervalo.- cifras continuas: temperatura, talla, escalas hednicas.

    Razn.- cuando el 0 tiene razn de ser: km, correlaciones.

    (medidas de tendencia central y dispersin, pruebas paramtricas)

    * Las operaciones aritmticas no tienen sentido con variables nominales y ordinales. Pruebas no paramtricas.

  • Variables nominales con nmeros?

    Se cuentan frecuencias y se analizan con pruebas no paramtricas.

    Ji cuadrada, distribucin binomial

  • Variables ordinales. Un punto importante

    En las variables ordinales el intervalo o distancia entre un punto y el otro

    no son iguales!

  • Escalas de intervalo

    Las distancias entre un punto y otro en la escala es el mismo

  • Escalas de razn

    Existe un verdadero cero en la escala, como ausencia o como punto central en las escala.

  • Ramas de la Estadstica

    Hay dos ramas principales de la estadstica que se utilizan dependiendo de la forma en la que queremos utilizar los datos.

    Cuando el objetivo es nicamente describir un conjunto de

    datos.

    Grficas > medias, ndices > variaciones

    Cuando queremos describir con ms detalle los datos, las

    diferencias entre ellos, cuando tenemos hiptesis.

    Describir datos > probar hiptesis

    Descriptiva

    Inferencial

  • Distribuciones de Probabilidad

    Una distribucin de probabilidad, es una grfica en donde se representa la

    probabilidad de encontrar un valor dado:

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    Enero Marzo Mayo Julio Sep Nov

    Grafica de probabilidad de lluvia en el DF

  • Binomial Poisson Normal Weibull

    Numero fijo de ensayos

    Ensayos independientes

    Los resultados de cada

    ensayo deben estar

    clasificados en dos

    categoras (dicotmicos)

    Probabilidad constante en

    cada ensayo.

    Es similar a la

    distribucin binomial

    pero no se ve afectada

    por el tamao de

    muestra, o nmero de

    ensayos.

    Es la distribucin ms

    importante en estadstica.

    Es usada para variables

    de intervalo o de razn .

    Es una distribucin de

    errores, donde la proporcin de error es

    proporcional a un tiempo

    dado.

  • Matemticamente, la distribucin normal se define de la siguiente manera:

    y e son constantes (=3.1416; e=2.7183)

    Distribucin de problemas de comportamiento:

    Forma de la Distribucin Normal

    80706050403020

    40

    30

    20

    10

    0

    Calificacin de Problemas de Comportamiento

    Fre

    qu

    en

    cia

    Media 49.08

    DesvS 10.60

    N 286

    Histograma de Problemas de Comportamiento La forma de la distribucin depende

    del valor de la media y de su desviacin

    estndar:

    (m, s)

    Podemos tener una sola distribucin

    normal?

  • Distribucin Normal Binomial

    Es la distribucin + importante en estadstica

    Pruebas paramtricas

    Distribucin Normal estandarizada (s2=1,

    m=0). Simtrica

    Teorema central del lmite

    Para variables de intervalo y razn

    Ampliamente usada en Ev.Sensorial

    Pruebas no paramtricas

    Para datos que toman 2 valores.

    Nmero fijo de ensayos

    Para variables nominales y ordinales

  • Pruebas de Hiptesis_ estadstica Inferencial

    Generar Hiptesis:

    Ho y HA

    Recopilar

    datos

    Prueba

    Estadstica Ho

    Ho: Hiptesis Nula; a = b, m1 < m2 HA: Hiptesis Alternativa; a = b, m1 > m2

    Ho HA

    Ho Error tipo II

    b = .

    HA Error tipo I

    a = 0.05

    decisin

    realidad

    Tipos de Errores

    Prueba unilateral?, Prueba bilateral?

  • Ejercicio #1 Error tipo 1 vs error tipo 2

    Para ti que es ms importante?

    Error tipo 1 , tipo 2?

    Dos enamorados recin casados, pero..

    H0= ella es una chica infiel

    Error tipo 1 = Error tipo 2=

  • Error Tipo I y Error tipo II

    Ha: La proporcin de Jvenes en Mxico que prefieren Doritos X

    es mayor a 50%.

    Ha: P>0.5

    Ho : La proporcin de Jvenes en Mxico que prefieren Doritos X

    es menor o igual a 50%.

    Ho : P 0.5

    Error Tipo I

    Lanzamiento

    errneo de Doritos

    X

    No hay error

    Se lanza Doritos

    X y es un xito

    No hay Error

    No se lanza

    Doritos X

    Error Tipo II

    No se lanza

    Doritos X y se pierde una

    oportunidad de

    Negocio

    Realidad

    Ho es cierta

    Ho es falsa

    No Rechazo Ho

    Decisin Basada en los resultados del estudio

    Rechazo Ho

  • Ji cuadrada

    Karl Pearson 1857

    1936

    Fund 1 departamento

    de estadistica en el

    mundo en University

    College London

    Biografo de Sir Francis

    Galton (correlacion)

  • Ji cuadrada

    Hace referencia a una distribucin particular matemtica que existe por

    ella misma sin referencia en el mundo

    exterior.

    Designa una prueba estadstica cuya distribucin es similar a la Ji cuadrada

    Existen dos tipos de Pruebas Ji cuadrada:

    - Bondad de ajuste - Independencia

  • Ji cuadrada Bondad de ajuste

    Ajuste entre una distribucin terica vs una emprica

    La formula implica una comparacin entre frecuencias observadas y tericas*

    Ejemplo: 4 muestras idnticas en diferente orden. 32 Consumidores -> preferencia?

    Ho: 1=2=3=4 (misma preferencia)

    * Frecuencias que esperaramos si H0 es verdadera.

    1 2 3 4

    F. O. 4 5 8 15

    F. T. 8 8 8 8

  • Ji cuadrada_Bondad de Ajuste

    Calcular grados de libertad

    Ejercicio con Excel

  • Ji cuadrada_Independencia

    Cuando se tienen frecuencias derivadas de diferentes segmentos de una prueba. Y se quiere saber la independencia entre las respuestas (ej: hombres y mujeres,

    diferentes sabores, etc.).

    Se utiliza la misma frmula de Ji 2 Bondad de Ajuste

    Nombre:__________ Fecha:__________

    Prueba las sopas que hay frente a ti, y determine el aroma dominante de cada muestra:

    poro, zanahoria, jitomate o papa. Escoja solamente un aroma

    Cdigo Poro Zanahoria Jitomate Papa

    247 584

    976

    340

    628

    584

  • Ji cuadrada_Independencia

    40 consumidores participaron en la prueba de las sopas, y se tuvieron las respuestas:

    Sopa* Poro Zanahoria Jitomate Papa S

    A 24 4 4 8 40

    B 20 9 3 8 40

    C 7 11 8 14 40

    S 51 24 15 30 120

    * Se evaluaron 2 veces cada sopa, con diferente cdigo

    Calcular la frecuencia terica:

    total lnea * total columna

    total general

    = 40 x 51 = 17

    120

    Sopa* Poro Zanahoria Jitomate Papa

    A 17 8 5 10

    B 17 8 5 10

    C 17 8 5 10

    Ji2 = (24-17)2 + (20-17) 2 +, , +(14-10)2

    17 17 10

    Ji2 = 17.74

    g.d.l.? valor crtico?

  • Friedman

    Milton Friedman 1912 -

    2006

    Gringo

    University of Chicago

    Nobel memorial price in

    economics sciences

  • Friedman Es una ji2 modificada para calcular rangos (ordenamiento de muestras)

    Ho: prod 1 = prod 2 = prod 3 = prod 4 = prod 5

    4 formulas diferentes de sopas + actual

    12 jueces

    Ordenar las muestras de la + aromtica aromtica

    Igualdades no permitidas

    n= # personas Tp= suma de rangos de xProd

    P= # productos

    12

    np (p+1) X2= [ * (S Tp2) (3n * (p+1) ) ]

  • Friedman

    Nota: A un rango ms

    alto equivale mayor

    intensidad de aroma

    g.d.l. = productos - 1

  • d determinar errores / productos

    Formula:

    Calculando::

  • T Student_1 muestra

    Una muestra < 30 observaciones, evaluadas por diferentes jueces

    Todos los datos provienen de una sola muestra

    Se desea saber si los datos son diferentes entre s: jueces

    El valor obtenido se compara al valor terico de la distribucin t

  • Ejemplo 1: Intensidad de pungencia

    25 jueces calificaron la pungencia de una salsa habanera y se quiere saber si los datos

    obtenidos son similares o diferentes:

    Escala no estructurada de 15 puntos:

    T Student_1 muestra

  • T Student_1 muestra

    La ilusin del tamao de la luna a interesado a muchos durante siglos, viene del hecho de que

    veamos la luna ms grande cuando est en el horizonte que cuando est en el zenit

    Un estudio se interes en la percepcin de la gente sobre la ilusin del tamao, para ver

    si realmente la gente perciba una diferencia en el tamao.

    Luna estndar = 1.0 (zenit) Ho: m = 1.0

    Luna + grande = 1.5

  • T Student_2 muestras independientes

    Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

    Las muestras provienen de poblaciones distintas

    Se tienen dos muestras.

    Las dos muestras son evaluadas por distintos jueces 2 muestras independientes evaluadas por

    el mismo juez

    El valor obtenido se compara al valor terico de la distribucin t

    111098765

    0.6

    0.5

    0.4

    0.3

    0.2

    0.1

    0.0

    Data

    De

    nsit

    y

    6.444 0.7511 27

    8.259 1.375 27

    Mean StDev N

    Vino C-1

    Vino C-2

    Variable

    Histogram of Vino C-1, Vino C-2

  • Ejemplo:

    27 enlogos calificaron la intensidad del aroma a ciruela en dos vinos

    vinos carmenere.

    Las evaluaciones se hicieron de forma mondica

    Escala contnua de 10 puntos:

    T Student_2 muestras

  • T Student_2 muestras pareadas

    Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

    Las muestras provienen de poblaciones distintas

    Se tienen dos muestras.

    Las dos muestras son evaluadas por el mismo juez al mismo tiempo

    El valor obtenido se compara al valor terico de la distribucin t

    111098765

    0.6

    0.5

    0.4

    0.3

    0.2

    0.1

    0.0

    Data

    De

    nsit

    y

    6.444 0.7511 27

    8.259 1.375 27

    Mean StDev N

    Vino C-1

    Vino C-2

    Variable

    Histogram of Vino C-1, Vino C-2

  • T Student_2 muestras pareadas

    En 1987 se realiz un estudio sobre el nivel de satisfaccin

    sexual en parejas casadas.

    Se le pregunt a 91 parejas, a que punto estaban de acuerdo con

    la siguiente frase:

    el sexo es divertido para mi y mi pareja

    Escala de 4 puntos: (1) jamas a (4) siempre

    Analizar descriptivamente los datos

    Realizar una prueba t para muestras pareadas

  • ANOVA

    Varianza, medida de dispersin de los datos.

    Elevar al cuadrado tiene 2 ventajas:

    Siempre obtenemos nmeros positivos

    La raz cuadrada nos da la desviacin estndar (cobra sentido con unidades)

    ANOVA es ampliamente utilizada por 2 razones:

    Podemos comparar mltiples medias, (t de student compara nicamente 2)

    Permite analizar simultneamente 2 mas variables independientes.

  • El modelo subyacente

    Ejemplo, como resumir el efecto de la estura del Mexicano:

    INEGI dice que la estatura promedio es 1m 75 cm (H y M).

    Los hombre tienen una tendencia a pasar el promedio por 6 cm.

    Quiero ver el efecto que yo puedo tener independientemente de ser hombre y mexicano:

    (promedio mexicano ---- gnero ----- mi gentica)

    Estatura = 1m 75 cm + 6 cm + mi gentica (e)

    Estatura = media general + gnero + error

  • Condiciones de aplicacin

    Homogeneidad de la Varianza

    Cada una de las muestras analizadas debe de tener la misma varianza. (homoscdasticit)

    Normalidad

    Los residuales de las muestras deben de ser normales

    (Prueba Kolmogorov-Smirnov, Anderson-Darling)

    Independencia de las observaciones

    Conocer la posicin de una observacin x con respecto a la media, no nos dice nada sobre la observacin y.

    Se puede tener diferente tamao en las observaciones

  • Cabernet Carmenere Pinot Noir Tempranillo Malbec

    C1 9 7 11 12 10

    C2 8 9 13 11 19

    C3 6 6 8 16 14

    C4 8 6 6 11 5

    C5 10 11 14 9 10

    C6 4 6 11 23 11

    C7 6 3 12 12 14

    C8 5 8 12 10 15

    C9 7 7 10 19 11

    C10 7 6 11 11 11

    ANOVA 10 jueces evalan la intensidad aromtica de un vino, en una escala contnua de 25 puntos

    Comparacin de medias

  • Ejemplo

    ANOVA,

    Aceptacin

    de vino.

    10

    consumidores

  • ANOVA_ Posibles resultados

  • ANOVA 2 factores sin repeticin

    Se evalan dos factores: el producto y el consumidor

    Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva

    Koleos Renault, en una escala hednica de 9 puntos

    Cul es el modelo del ANOVA?

  • ANOVA 2 factores con repeticin

    Se evalan dos factores: el producto y el consumidor + la interaccin entre ellos.

    Qu es la interaccin?

    Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva

    Koleos Renault, en una escala hednica de 9 puntos. Con una repeticin

    Cul es el modelo del ANOVA?

  • Comparaciones mltiples

    Prueba Error Comparacin Tipo A priori / Post

    Hoc

    t multiples EC Por pares t A priori

    t Bonferroni EE Contraste t mod A priori

    LSD Fisher EE Por pares t A posteriori

    Newman-Keuls EE Por pares d A posteriori

    Tukey EE Por pares d A posteriori

    Dunnett EE Grupo testigo F A posteriori

    EC: Error de Comparacin. EG: Error del grupo

    Despus de una prueba paramtrica cules muestras son las diferentes?

    Ligado al Error tipo I:

    Error de Comparacin (ej: mltiples t student). Suma de errores

    Error Grupo (Tukey). Error compartido

  • Tipo de datos

    Cualitativos

    (categoriales)

    Cuantitativos

    (medidas)

    Tipo de

    pregunta

    Tipo de

    categorizacin

    Una variable

    categrica

    Dos variables

    categrica

    Prueba x2 de

    bondad de ajustes

    Tabla de con-

    tingencia x2

    Relacione Diferencias

    Nmero de

    predictores

    Uno Varios

    Medicin

    Continua Rango

    Inters primario rs de Spearman

    Grado de

    relacin

    Forma de

    relacin

    Correlacin de

    Pearson Regresin

    Regresin

    mltiple

    Nmero de

    grupos

    Dos Varios

    Relacin entre

    muestras

    Relacin entre

    muestras

    Independiente Dependiente

    t de dos

    muestras

    Mann-Whitney

    t de muestras

    pareadas

    Wilcoxon

    Independiente Dependiente

    Nmero var.

    independientes

    Una Varias

    ANOVA con 1

    criterio de clas. Kruskal-Wallis

    ANOVA

    Factorial

    Medidas

    repetidas

    Friedman

    Howell. D. (2009). Statistical Methods for Psychology