Estadistica Básica 2014-II.pdf

Estadstica bsica

Taller de Evaluacin Sensorial

Carlos Gmez Corona / UNAM 2014 -2

Introduccin

Despus de haber colectado las respuestas de los jueces o

consumidores, que podemos decir sobre las muestras evaluadas?

Los productos son diferentes?

Los productos son iguales?

En qu atributos son diferentes las muestras?

Qu producto prefieren los consumidores?

Qu producto gusta ms?

Los consumidores tienen los mismos gustos?

Analizar

estadsticamente

los resultados

De donde viene la palabra?

Gottfried Achenwall

1719 - 1772

GRACIAS GODOFREDO!

Fue el primero en usar el trmino estadstica

Viene de la palabra alemana statistik que significa datos del

estado

Y para qu sirve

Recolectamos datos para saber algo de una poblacin

Para conocer sus elementos mas importantes

Para detectar una estructura entre lo aleatorio

Para confrontar una teora a la realidad

1. Hacer inferencias de una poblacin con

base en un una muestra

La media como un prueba

2. Queremos describir a una poblacin

La media como un resumen

3. Queremos predecir

Trminos Importantes

Variable.- Es la propiedad de un objeto o evento que puede tomar

diferentes valores.

Nominales*.- con un nombre: azul, verde, caliente, hombre, mujer, aciertos

(distribucin binomial, ji-cuadrada)

Ordinales*.- el orden tiene sentido: NSE, ranking,

(ji-cuadrada,Friedman, Mann-Whitney)

Intervalo.- cifras continuas: temperatura, talla, escalas hednicas.

Razn.- cuando el 0 tiene razn de ser: km, correlaciones.

(medidas de tendencia central y dispersin, pruebas paramtricas)

* Las operaciones aritmticas no tienen sentido con variables nominales y ordinales. Pruebas no paramtricas.

Variables nominales con nmeros?

Se cuentan frecuencias y se analizan con pruebas no paramtricas.

Ji cuadrada, distribucin binomial

Variables ordinales. Un punto importante

En las variables ordinales el intervalo o distancia entre un punto y el otro

no son iguales!

Escalas de intervalo

Las distancias entre un punto y otro en la escala es el mismo

Escalas de razn

Existe un verdadero cero en la escala, como ausencia o como punto central en las escala.

Ramas de la Estadstica

Hay dos ramas principales de la estadstica que se utilizan dependiendo de la forma en la que queremos utilizar los datos.

Cuando el objetivo es nicamente describir un conjunto de

datos.

Grficas > medias, ndices > variaciones

Cuando queremos describir con ms detalle los datos, las

diferencias entre ellos, cuando tenemos hiptesis.

Describir datos > probar hiptesis

Descriptiva

Inferencial

Distribuciones de Probabilidad

Una distribucin de probabilidad, es una grfica en donde se representa la

probabilidad de encontrar un valor dado:

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Enero Marzo Mayo Julio Sep Nov

Grafica de probabilidad de lluvia en el DF

Binomial Poisson Normal Weibull

Numero fijo de ensayos

Ensayos independientes

Los resultados de cada

ensayo deben estar

clasificados en dos

categoras (dicotmicos)

Probabilidad constante en

cada ensayo.

Es similar a la

distribucin binomial

pero no se ve afectada

por el tamao de

muestra, o nmero de

ensayos.

Es la distribucin ms

importante en estadstica.

Es usada para variables

de intervalo o de razn .

Es una distribucin de

errores, donde la proporcin de error es

proporcional a un tiempo

dado.

Matemticamente, la distribucin normal se define de la siguiente manera:

y e son constantes (=3.1416; e=2.7183)

Distribucin de problemas de comportamiento:

Forma de la Distribucin Normal

80706050403020

40

30

20

10

0

Calificacin de Problemas de Comportamiento

Fre

qu

en

cia

Media 49.08

DesvS 10.60

N 286

Histograma de Problemas de Comportamiento La forma de la distribucin depende

del valor de la media y de su desviacin

estndar:

(m, s)

Podemos tener una sola distribucin

normal?

Distribucin Normal Binomial

Es la distribucin + importante en estadstica

Pruebas paramtricas

Distribucin Normal estandarizada (s2=1,

m=0). Simtrica

Teorema central del lmite

Para variables de intervalo y razn

Ampliamente usada en Ev.Sensorial

Pruebas no paramtricas

Para datos que toman 2 valores.

Nmero fijo de ensayos

Para variables nominales y ordinales

Pruebas de Hiptesis_ estadstica Inferencial

Generar Hiptesis:

Ho y HA

Recopilar

datos

Prueba

Estadstica Ho

Ho: Hiptesis Nula; a = b, m1 < m2 HA: Hiptesis Alternativa; a = b, m1 > m2

Ho HA

Ho Error tipo II

b = .

HA Error tipo I

a = 0.05

decisin

realidad

Tipos de Errores

Prueba unilateral?, Prueba bilateral?

Ejercicio #1 Error tipo 1 vs error tipo 2

Para ti que es ms importante?

Error tipo 1 , tipo 2?

Dos enamorados recin casados, pero..

H0= ella es una chica infiel

Error tipo 1 = Error tipo 2=

Error Tipo I y Error tipo II

Ha: La proporcin de Jvenes en Mxico que prefieren Doritos X

es mayor a 50%.

Ha: P>0.5

Ho : La proporcin de Jvenes en Mxico que prefieren Doritos X

es menor o igual a 50%.

Ho : P 0.5

Error Tipo I

Lanzamiento

errneo de Doritos

X

No hay error

Se lanza Doritos

X y es un xito

No hay Error

No se lanza

Doritos X

Error Tipo II

No se lanza

Doritos X y se pierde una

oportunidad de

Negocio

Realidad

Ho es cierta

Ho es falsa

No Rechazo Ho

Decisin Basada en los resultados del estudio

Rechazo Ho

Ji cuadrada

Karl Pearson 1857

1936

Fund 1 departamento

de estadistica en el

mundo en University

College London

Biografo de Sir Francis

Galton (correlacion)

Ji cuadrada

Hace referencia a una distribucin particular matemtica que existe por

ella misma sin referencia en el mundo

exterior.

Designa una prueba estadstica cuya distribucin es similar a la Ji cuadrada

Existen dos tipos de Pruebas Ji cuadrada:

- Bondad de ajuste - Independencia

Ji cuadrada Bondad de ajuste

Ajuste entre una distribucin terica vs una emprica

La formula implica una comparacin entre frecuencias observadas y tericas*

Ejemplo: 4 muestras idnticas en diferente orden. 32 Consumidores -> preferencia?

Ho: 1=2=3=4 (misma preferencia)

* Frecuencias que esperaramos si H0 es verdadera.

1 2 3 4

F. O. 4 5 8 15

F. T. 8 8 8 8

Ji cuadrada_Bondad de Ajuste

Calcular grados de libertad

Ejercicio con Excel

Ji cuadrada_Independencia

Cuando se tienen frecuencias derivadas de diferentes segmentos de una prueba. Y se quiere saber la independencia entre las respuestas (ej: hombres y mujeres,

diferentes sabores, etc.).

Se utiliza la misma frmula de Ji 2 Bondad de Ajuste

Nombre:__________ Fecha:__________

Prueba las sopas que hay frente a ti, y determine el aroma dominante de cada muestra:

poro, zanahoria, jitomate o papa. Escoja solamente un aroma

Cdigo Poro Zanahoria Jitomate Papa

247 584

976

340

628

584

Ji cuadrada_Independencia

40 consumidores participaron en la prueba de las sopas, y se tuvieron las respuestas:

Sopa* Poro Zanahoria Jitomate Papa S

A 24 4 4 8 40

B 20 9 3 8 40

C 7 11 8 14 40

S 51 24 15 30 120

* Se evaluaron 2 veces cada sopa, con diferente cdigo

Calcular la frecuencia terica:

total lnea * total columna

total general

= 40 x 51 = 17

120

Sopa* Poro Zanahoria Jitomate Papa

A 17 8 5 10

B 17 8 5 10

C 17 8 5 10

Ji2 = (24-17)2 + (20-17) 2 +, , +(14-10)2

17 17 10

Ji2 = 17.74

g.d.l.? valor crtico?

Friedman

Milton Friedman 1912 -

2006

Gringo

University of Chicago

Nobel memorial price in

economics sciences

Friedman Es una ji2 modificada para calcular rangos (ordenamiento de muestras)

Ho: prod 1 = prod 2 = prod 3 = prod 4 = prod 5

4 formulas diferentes de sopas + actual

12 jueces

Ordenar las muestras de la + aromtica aromtica

Igualdades no permitidas

n= # personas Tp= suma de rangos de xProd

P= # productos

12

np (p+1) X2= [ * (S Tp2) (3n * (p+1) ) ]

Friedman

Nota: A un rango ms

alto equivale mayor

intensidad de aroma

g.d.l. = productos - 1

d determinar errores / productos

Formula:

Calculando::

T Student_1 muestra

Una muestra < 30 observaciones, evaluadas por diferentes jueces

Todos los datos provienen de una sola muestra

Se desea saber si los datos son diferentes entre s: jueces

El valor obtenido se compara al valor terico de la distribucin t

Ejemplo 1: Intensidad de pungencia

25 jueces calificaron la pungencia de una salsa habanera y se quiere saber si los datos

obtenidos son similares o diferentes:

Escala no estructurada de 15 puntos:

T Student_1 muestra

T Student_1 muestra

La ilusin del tamao de la luna a interesado a muchos durante siglos, viene del hecho de que

veamos la luna ms grande cuando est en el horizonte que cuando est en el zenit

Un estudio se interes en la percepcin de la gente sobre la ilusin del tamao, para ver

si realmente la gente perciba una diferencia en el tamao.

Luna estndar = 1.0 (zenit) Ho: m = 1.0

Luna + grande = 1.5

T Student_2 muestras independientes

Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

Las muestras provienen de poblaciones distintas

Se tienen dos muestras.

Las dos muestras son evaluadas por distintos jueces 2 muestras independientes evaluadas por

el mismo juez


111098765

0.6

0.5

0.4

0.3

0.2

0.1

0.0

Data

De

nsit

y

6.444 0.7511 27

8.259 1.375 27

Mean StDev N

Vino C-1

Vino C-2

Variable

Histogram of Vino C-1, Vino C-2

Ejemplo:

27 enlogos calificaron la intensidad del aroma a ciruela en dos vinos

vinos carmenere.

Las evaluaciones se hicieron de forma mondica

Escala contnua de 10 puntos:

T Student_2 muestras

T Student_2 muestras pareadas

Dos muestras < 30 observaciones. Se desea probar la independencia de las muestras:

Las muestras provienen de poblaciones distintas

Se tienen dos muestras.

Las dos muestras son evaluadas por el mismo juez al mismo tiempo


111098765

0.6

0.5

0.4

0.3

0.2

0.1

0.0

Data

De

nsit

y

6.444 0.7511 27

8.259 1.375 27

Mean StDev N

Vino C-1

Vino C-2

Variable

Histogram of Vino C-1, Vino C-2

T Student_2 muestras pareadas

En 1987 se realiz un estudio sobre el nivel de satisfaccin

sexual en parejas casadas.

Se le pregunt a 91 parejas, a que punto estaban de acuerdo con

la siguiente frase:

el sexo es divertido para mi y mi pareja

Escala de 4 puntos: (1) jamas a (4) siempre

Analizar descriptivamente los datos

Realizar una prueba t para muestras pareadas

ANOVA

Varianza, medida de dispersin de los datos.

Elevar al cuadrado tiene 2 ventajas:

Siempre obtenemos nmeros positivos

La raz cuadrada nos da la desviacin estndar (cobra sentido con unidades)

ANOVA es ampliamente utilizada por 2 razones:

Podemos comparar mltiples medias, (t de student compara nicamente 2)

Permite analizar simultneamente 2 mas variables independientes.

El modelo subyacente

Ejemplo, como resumir el efecto de la estura del Mexicano:

INEGI dice que la estatura promedio es 1m 75 cm (H y M).

Los hombre tienen una tendencia a pasar el promedio por 6 cm.

Quiero ver el efecto que yo puedo tener independientemente de ser hombre y mexicano:

(promedio mexicano ---- gnero ----- mi gentica)

Estatura = 1m 75 cm + 6 cm + mi gentica (e)

Estatura = media general + gnero + error

Condiciones de aplicacin

Homogeneidad de la Varianza

Cada una de las muestras analizadas debe de tener la misma varianza. (homoscdasticit)

Normalidad

Los residuales de las muestras deben de ser normales

(Prueba Kolmogorov-Smirnov, Anderson-Darling)

Independencia de las observaciones

Conocer la posicin de una observacin x con respecto a la media, no nos dice nada sobre la observacin y.

Se puede tener diferente tamao en las observaciones

Cabernet Carmenere Pinot Noir Tempranillo Malbec

C1 9 7 11 12 10

C2 8 9 13 11 19

C3 6 6 8 16 14

C4 8 6 6 11 5

C5 10 11 14 9 10

C6 4 6 11 23 11

C7 6 3 12 12 14

C8 5 8 12 10 15

C9 7 7 10 19 11

C10 7 6 11 11 11

ANOVA 10 jueces evalan la intensidad aromtica de un vino, en una escala contnua de 25 puntos

Comparacin de medias

Ejemplo

ANOVA,

Aceptacin

de vino.

10

consumidores

ANOVA_ Posibles resultados

ANOVA 2 factores sin repeticin

Se evalan dos factores: el producto y el consumidor

Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva

Koleos Renault, en una escala hednica de 9 puntos

Cul es el modelo del ANOVA?

ANOVA 2 factores con repeticin

Se evalan dos factores: el producto y el consumidor + la interaccin entre ellos.

Qu es la interaccin?

Ej: Ej. 10 consumidores evaluaron el confort del aire acondicionado de la nueva

Koleos Renault, en una escala hednica de 9 puntos. Con una repeticin

Cul es el modelo del ANOVA?

Comparaciones mltiples

Prueba Error Comparacin Tipo A priori / Post

Hoc

t multiples EC Por pares t A priori

t Bonferroni EE Contraste t mod A priori

LSD Fisher EE Por pares t A posteriori

Newman-Keuls EE Por pares d A posteriori

Tukey EE Por pares d A posteriori

Dunnett EE Grupo testigo F A posteriori

EC: Error de Comparacin. EG: Error del grupo

Despus de una prueba paramtrica cules muestras son las diferentes?

Ligado al Error tipo I:

Error de Comparacin (ej: mltiples t student). Suma de errores

Error Grupo (Tukey). Error compartido

Tipo de datos

Cualitativos

(categoriales)

Cuantitativos

(medidas)

Tipo de

pregunta

Tipo de

categorizacin

Una variable

categrica

Dos variables

categrica

Prueba x2 de

bondad de ajustes

Tabla de con-

tingencia x2

Relacione Diferencias

Nmero de

predictores

Uno Varios

Medicin

Continua Rango

Inters primario rs de Spearman

Grado de

relacin

Forma de

relacin

Correlacin de

Pearson Regresin

Regresin

mltiple

Nmero de

grupos

Dos Varios

Relacin entre

muestras

Relacin entre

muestras

Independiente Dependiente

t de dos

muestras

Mann-Whitney

t de muestras

pareadas

Wilcoxon

Independiente Dependiente

Nmero var.

independientes

Una Varias

ANOVA con 1

criterio de clas. Kruskal-Wallis

ANOVA

Factorial

Medidas

repetidas

Friedman

Howell. D. (2009). Statistical Methods for Psychology

Documents

Estadistica Básica 2014-II.pdf