Upload
carlos-perez-diaz
View
58
Download
0
Embed Size (px)
Citation preview
Estadstica bsica
Taller de Evaluacin Sensorial
Carlos Gmez Corona / UNAM 2014 -2
Introduccin
Despus de haber colectado las respuestas de los jueces o
consumidores, que podemos decir sobre las muestras evaluadas?
Los productos son diferentes?
Los productos son iguales?
En qu atributos son diferentes las muestras?
Qu producto prefieren los consumidores?
Qu producto gusta ms?
Los consumidores tienen los mismos gustos?
Analizar
estadsticamente
los resultados
De donde viene la palabra?
Gottfried Achenwall
1719 - 1772
GRACIAS GODOFREDO!
Fue el primero en usar el trmino estadstica
Viene de la palabra alemana statistik que significa datos del
estado
Y para qu sirve
Recolectamos datos para saber algo de una poblacin
Para conocer sus elementos mas importantes
Para detectar una estructura entre lo aleatorio
Para confrontar una teora a la realidad
1. Hacer inferencias de una poblacin con
base en un una muestra
La media como un prueba
2. Queremos describir a una poblacin
La media como un resumen
3. Queremos predecir
Trminos Importantes
Variable.- Es la propiedad de un objeto o evento que puede tomar
diferentes valores.
Nominales*.- con un nombre: azul, verde, caliente, hombre, mujer, aciertos
(distribucin binomial, ji-cuadrada)
Ordinales*.- el orden tiene sentido: NSE, ranking,
(ji-cuadrada,Friedman, Mann-Whitney)
Intervalo.- cifras continuas: temperatura, talla, escalas hednicas.
Razn.- cuando el 0 tiene razn de ser: km, correlaciones.
(medidas de tendencia central y dispersin, pruebas paramtricas)
* Las operaciones aritmticas no tienen sentido con variables nominales y ordinales. Pruebas no paramtricas.
Variables nominales con nmeros?
Se cuentan frecuencias y se analizan con pruebas no paramtricas.
Ji cuadrada, distribucin binomial
Variables ordinales. Un punto importante
En las variables ordinales el intervalo o distancia entre un punto y el otro
no son iguales!
Escalas de intervalo
Las distancias entre un punto y otro en la escala es el mismo
Escalas de razn
Existe un verdadero cero en la escala, como ausencia o como punto central en las escala.
Ramas de la Estadstica
Hay dos ramas principales de la estadstica que se utilizan dependiendo de la forma en la que queremos utilizar los datos.
Cuando el objetivo es nicamente describir un conjunto de
datos.
Grficas > medias, ndices > variaciones
Cuando queremos describir con ms detalle los datos, las
diferencias entre ellos, cuando tenemos hiptesis.
Describir datos > probar hiptesis
Descriptiva
Inferencial
Distribuciones de Probabilidad
Una distribucin de probabilidad, es una grfica en donde se representa la
probabilidad de encontrar un valor dado:
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Enero Marzo Mayo Julio Sep Nov
Grafica de probabilidad de lluvia en el DF
Binomial Poisson Normal Weibull
Numero fijo de ensayos
Ensayos independientes
Los resultados de cada
ensayo deben estar
clasificados en dos
categoras (dicotmicos)
Probabilidad constante en
cada ensayo.
Es similar a la
distribucin binomial
pero no se ve afectada
por el tamao de
muestra, o nmero de
ensayos.
Es la distribucin ms
importante en estadstica.
Es usada para variables
de intervalo o de razn .
Es una distribucin de
errores, donde la proporcin de error es
proporcional a un tiempo
dado.
Matemticamente, la distribucin normal se define de la siguiente manera:
y e son constantes (=3.1416; e=2.7183)
Distribucin de problemas de comportamiento:
Forma de la Distribucin Normal
80706050403020
40
30
20
10
0
Calificacin de Problemas de Comportamiento
Fre
qu
en
cia
Media 49.08
DesvS 10.60
N 286
Histograma de Problemas de Comportamiento La forma de la distribucin depende
del valor de la media y de su desviacin
estndar:
(m, s)
Podemos tener una sola distribucin
normal?
Distribucin Normal Binomial
Es la distribucin + importante en estadstica
Pruebas paramtricas
Distribucin Normal estandarizada (s2=1,
m=0). Simtrica
Teorema central del lmite
Para variables de intervalo y razn
Ampliamente usada en Ev.Sensorial
Pruebas no paramtricas
Para datos que toman 2 valores.
Nmero fijo de ensayos
Para variables nominales y ordinales
Pruebas de Hiptesis_ estadstica Inferencial
Generar Hiptesis:
Ho y HA
Recopilar
datos
Prueba
Estadstica Ho
Ho: Hiptesis Nula; a = b, m1 < m2 HA: Hiptesis Alternativa; a = b, m1 > m2
Ho HA
Ho Error tipo II
b = .
HA Error tipo I
a = 0.05
decisin
realidad
Tipos de Errores
Prueba unilateral?, Prueba bilateral?
Ejercicio #1 Error tipo 1 vs error tipo 2
Para ti que es ms importante?
Error tipo 1 , tipo 2?
Dos enamorados recin casados, pero..
H0= ella es una chica infiel
Error tipo 1 = Error tipo 2=
Error Tipo I y Error tipo II
Ha: La proporcin de Jvenes en Mxico que prefieren Doritos X
es mayor a 50%.
Ha: P>0.5
Ho : La proporcin de Jvenes en Mxico que prefieren Doritos X
es menor o igual a 50%.
Ho : P 0.5
Error Tipo I
Lanzamiento
errneo de Doritos
X
No hay error
Se lanza Doritos
X y es un xito
No hay Error
No se lanza
Doritos X
Error Tipo II
No se lanza
Doritos X y se pierde una
oportunidad de
Negocio
Realidad
Ho es cierta
Ho es falsa
No Rechazo Ho
Decisin Basada en los resultados del estudio
Rechazo Ho
Ji cuadrada
Karl Pearson 1857
1936
Fund 1 departamento
de estadistica en el
mundo en University
College London
Biografo de Sir Francis
Galton (correlacion)
Ji cuadrada
Hace referencia a una distribucin particular matemtica que existe por
ella misma sin referencia en el mundo
exterior.
Designa una prueba estadstica cuya distribucin es similar a la Ji cuadrada
Existen dos tipos de Pruebas Ji cuadrada:
- Bondad de ajuste - Independencia
Ji cuadrada Bondad de ajuste
Ajuste entre una distribucin terica vs una emprica
La formula implica una comparacin entre frecuencias observadas y tericas*
Ejemplo: 4 muestras idnticas en diferente orden. 32 Consumidores -> preferencia?
Ho: 1=2=3=4 (misma preferencia)
* Frecuencias que esperaramos si H0 es verdadera.
1 2 3 4
F. O. 4 5 8 15
F. T. 8 8 8 8
Ji cuadrada_Bondad de Ajuste
Calcular grados de libertad
Ejercicio con Excel
Ji cuadrada_Independencia
Cuando se tienen frecuencias derivadas de diferentes segmentos de una prueba. Y se quiere saber la independencia entre las respuestas (ej: hombres y mujeres,
diferentes sabores, etc.).
Se utiliza la misma frmula de Ji 2 Bondad de Ajuste
Nombre:__________ Fecha:__________
Prueba las sopas que hay frente a ti, y determine el aroma dominante de cada muestra:
poro, zanahoria, jitomate o papa. Escoja solamente un aroma
Cdigo Poro Zanahoria Jitomate Papa
247 584
976
340
628
584
Ji cuadrada_Independencia
40 consumidores participaron en la prueba de las sopas, y se tuvieron las respuestas:
Sopa* Poro Zanahoria Jitomate Papa S
A 24 4 4 8 40
B 20 9 3 8 40
C 7 11 8 14 40
S 51 24 15 30 120
* Se evaluaron 2 veces cada sopa, con diferente cdigo
Calcular la frecuencia terica:
total lnea * total columna
total general
= 40 x 51 = 17
120
Sopa* Poro Zanahoria Jitomate Papa
A 17 8 5 10
B 17 8 5 10
C 17 8 5 10
Ji2 = (24-17)2 + (20-17) 2 +, , +(14-10)2
17 17 10
Ji2 = 17.74
g.d.l.? valor crtico?
Friedman
Milton Friedman 1912 -
2006
Gringo
University of Chicago
Nobel memorial price in
economics sciences
Friedman Es una ji2 modificada para calcular rangos (ordenamiento de muestras)
Ho: prod 1 = prod 2 = prod 3 = prod 4 = prod 5
4 formulas diferentes de sopas + actual
12 jueces
Ordenar las muestras de la + aromtica aromtica
Igualdades no permitidas
n= # personas Tp= suma de rangos de xProd
P= # productos
12
np (p+1) X2= [ * (S Tp2) (3n * (p+1) ) ]
Friedman
Nota: A un rango ms
alto equivale mayor
intensidad de aroma
g.d.l. = productos - 1
d determinar errores / productos
Formula:
Calculando::
T Student_1 muestra
Una muestra < 30 observaciones, evaluadas por diferentes jueces
Todos los datos provienen de una sola muestra
Se desea saber si los datos son diferentes entre s: jueces
El valor obtenido se compara al valor terico de la distribucin t
Ejemplo 1: Intensidad de pungencia
25 jueces calificaron la pungencia de una salsa habanera y se quiere saber si los datos
obtenidos son similares o diferentes:
Escala no estructurada de 15 puntos:
T Student_1 muestra
T Student_1 muestra
La ilusin del tamao de la luna a interesado a muchos durante siglos, viene del hecho de que
veamos la luna ms grande cuando est en el horizonte que cuando est en el zenit
Un estudio se interes en la percepcin de la gente sobre la ilusin del tamao, para ver
si realmente la gente perciba una diferencia en el tamao.
Luna estndar = 1.0 (zenit) Ho: m = 1.0
Luna + grande = 1.5
T Student_2 muestras independientes
Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:
Las muestras provienen de poblaciones distintas
Se tienen dos muestras.
Las dos muestras son evaluadas por distintos jueces 2 muestras independientes evaluadas por
el mismo juez
El valor obtenido se compara al valor terico de la distribucin t
111098765
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Data
De
nsit
y
6.444 0.7511 27
8.259 1.375 27
Mean StDev N
Vino C-1
Vino C-2
Variable
Histogram of Vino C-1, Vino C-2
Ejemplo:
27 enlogos calificaron la intensidad del aroma a ciruela en dos vinos
vinos carmenere.
Las evaluaciones se hicieron de forma mondica
Escala contnua de 10 puntos:
T Student_2 muestras
T Student_2 muestras pareadas
Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:
Las muestras provienen de poblaciones distintas
Se tienen dos muestras.
Las dos muestras son evaluadas por el mismo juez al mismo tiempo
El valor obtenido se compara al valor terico de la distribucin t
111098765
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Data
De
nsit
y
6.444 0.7511 27
8.259 1.375 27
Mean StDev N
Vino C-1
Vino C-2
Variable
Histogram of Vino C-1, Vino C-2
T Student_2 muestras pareadas
En 1987 se realiz un estudio sobre el nivel de satisfaccin
sexual en parejas casadas.
Se le pregunt a 91 parejas, a que punto estaban de acuerdo con
la siguiente frase:
el sexo es divertido para mi y mi pareja
Escala de 4 puntos: (1) jamas a (4) siempre
Analizar descriptivamente los datos
Realizar una prueba t para muestras pareadas
ANOVA
Varianza, medida de dispersin de los datos.
Elevar al cuadrado tiene 2 ventajas:
Siempre obtenemos nmeros positivos
La raz cuadrada nos da la desviacin estndar (cobra sentido con unidades)
ANOVA es ampliamente utilizada por 2 razones:
Podemos comparar mltiples medias, (t de student compara nicamente 2)
Permite analizar simultneamente 2 mas variables independientes.
El modelo subyacente
Ejemplo, como resumir el efecto de la estura del Mexicano:
INEGI dice que la estatura promedio es 1m 75 cm (H y M).
Los hombre tienen una tendencia a pasar el promedio por 6 cm.
Quiero ver el efecto que yo puedo tener independientemente de ser hombre y mexicano:
(promedio mexicano ---- gnero ----- mi gentica)
Estatura = 1m 75 cm + 6 cm + mi gentica (e)
Estatura = media general + gnero + error
Condiciones de aplicacin
Homogeneidad de la Varianza
Cada una de las muestras analizadas debe de tener la misma varianza. (homoscdasticit)
Normalidad
Los residuales de las muestras deben de ser normales
(Prueba Kolmogorov-Smirnov, Anderson-Darling)
Independencia de las observaciones
Conocer la posicin de una observacin x con respecto a la media, no nos dice nada sobre la observacin y.
Se puede tener diferente tamao en las observaciones
Cabernet Carmenere Pinot Noir Tempranillo Malbec
C1 9 7 11 12 10
C2 8 9 13 11 19
C3 6 6 8 16 14
C4 8 6 6 11 5
C5 10 11 14 9 10
C6 4 6 11 23 11
C7 6 3 12 12 14
C8 5 8 12 10 15
C9 7 7 10 19 11
C10 7 6 11 11 11
ANOVA 10 jueces evalan la intensidad aromtica de un vino, en una escala contnua de 25 puntos
Comparacin de medias
Ejemplo
ANOVA,
Aceptacin
de vino.
10
consumidores
ANOVA_ Posibles resultados
ANOVA 2 factores sin repeticin
Se evalan dos factores: el producto y el consumidor
Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva
Koleos Renault, en una escala hednica de 9 puntos
Cul es el modelo del ANOVA?
ANOVA 2 factores con repeticin
Se evalan dos factores: el producto y el consumidor + la interaccin entre ellos.
Qu es la interaccin?
Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva
Koleos Renault, en una escala hednica de 9 puntos. Con una repeticin
Cul es el modelo del ANOVA?
Comparaciones mltiples
Prueba Error Comparacin Tipo A priori / Post
Hoc
t multiples EC Por pares t A priori
t Bonferroni EE Contraste t mod A priori
LSD Fisher EE Por pares t A posteriori
Newman-Keuls EE Por pares d A posteriori
Tukey EE Por pares d A posteriori
Dunnett EE Grupo testigo F A posteriori
EC: Error de Comparacin. EG: Error del grupo
Despus de una prueba paramtrica cules muestras son las diferentes?
Ligado al Error tipo I:
Error de Comparacin (ej: mltiples t student). Suma de errores
Error Grupo (Tukey). Error compartido
Tipo de datos
Cualitativos
(categoriales)
Cuantitativos
(medidas)
Tipo de
pregunta
Tipo de
categorizacin
Una variable
categrica
Dos variables
categrica
Prueba x2 de
bondad de ajustes
Tabla de con-
tingencia x2
Relacione Diferencias
Nmero de
predictores
Uno Varios
Medicin
Continua Rango
Inters primario rs de Spearman
Grado de
relacin
Forma de
relacin
Correlacin de
Pearson Regresin
Regresin
mltiple
Nmero de
grupos
Dos Varios
Relacin entre
muestras
Relacin entre
muestras
Independiente Dependiente
t de dos
muestras
Mann-Whitney
t de muestras
pareadas
Wilcoxon
Independiente Dependiente
Nmero var.
independientes
Una Varias
ANOVA con 1
criterio de clas. Kruskal-Wallis
ANOVA
Factorial
Medidas
repetidas
Friedman
Howell. D. (2009). Statistical Methods for Psychology