Presentación de PowerPoint · 2018. 8. 29. · Prueba t 85 t calculado 0.711 t tablas (0.025,9)...

Preview:

Citation preview

METODOLOGÍA DE LA SUPERFICIE DE RESPUESTA

Parte 2: Revisión de estadística básica

Héctor Goicoechea E-mail: hgoico@fbcb.unl.edu.ar

http://www.fbcb.unl.edu.ar/laboratorios/ladaq/

Exactitud y precisión

Inexacto e

impreciso

Exacto y

preciso

Inexacto y

preciso

Exacto e

impreciso

31

Exactitud y precisión: uso

correcto de los términos

Errores aleatorios o

indeterminados

fluctuantes

Distribución

Normal de

Gauss

Precisión

Exactitud

Bias o Sesgo

Cuando se refiere

a un resultado

|xi - |

Cuando se refiere

a un método

(n < 30 det)

| - |

'x̂

x 'x̂

Errores sistemáticos o determinados

Alteraciones

operacionales y

sistemáticas

bien definidas

Desviaciones

de signo

determinado

Exactitud

Errores

Valor universalmente

aceptado como

verdadero: V.U.A.V

Parámetros estadísticos que estiman el valor central

Media aritmética Mediana

Se ordenan los datos según su magnitud y se elige/n el/los

central/es (semisuma). n

x

x

nxxxxn

ii

n

1

21 /).......(

¿Como inferimos sobre la exactitud

y la precisión?

n < 30 n > 30

Desviación estándar

Variancia: su propiedad

mas importante es la

aditividad

Parámetros estadísticos que estiman

dispersión

x

sRSD

%100 RSDx

sCV

Desviación

estándar relativa

Coeficiente de

variación

11

2

n

xxi

s

ni

i

)(

11

2

n

xni

ii )(

1

2

2

n

xxs

i )(

¿Para que sirve la estadística?

POBLACIÓN (toda la

producción del mes)

MUESTRA (representativa de

la producción del mes)

µ = ? = ?

x

Descriptores

poblacionales (siempre

desconocidos)

Descriptores muestrales,

estimadores, estadísticos

(conocidos)

s

ALEATORIAMENTE

INFERENCIA

Si n < 30, “s” deja de ser un buen estimador; es necesaria una corrección:

Distribución t (tablas)

Intervalos de confianza

/ 2x zn

)30(2/

n

n

stx

)30(2/

n

n

szx

Tabla t de una cola

N-1 0.05

1 6.31

2 2.92

3 2.38

4 2.18

Hipótesis estadísticas

¿Las diferencias entre nuestras observaciones y una referencia o entre

conjuntos de datos son de naturaleza química (por ejemplo) o

estadística?

Sistemática a seguir: Comprobación de hipótesis

No existen diferencias

significativas entre nuestras

observaciones y una referencia o

entre conjuntos de datos

Hipótesis Nula (H0) Hipótesis Alternativa (H1)

Si existen diferencias significativas

entre nuestras observaciones y

una referencia o entre conjuntos

de datos

Validez

Tests Estadísticos

No existe

error

Tipo II (falso

negativo, b) H0 falsa

Tipo I (falso

positivo, )

No existe

error H0 verdadera

Rechazar H0 Aceptar H0

Decisión Tomada

Tipos de errores en el

análisis inferencial de

datos

131

Error tipo 1 () y error tipo 2 (b)

H0 H1

b

Hipótesis

alternativa: Hipótesis nula

Nivel de confianza

Hipótesis estadísticas

1. Selección de una prueba estadística apropiada

2. Selección de un nivel de significancia (95 %)

3. Formulación de la hipótesis: H0 y H1

4. Cálculo de estadísticos y comparación con valor crítico o análisis de la probabilidad asociada (p)

5. Decisión

Resolución de diferentes problemas aplicando hipótesis

estadísticas

1- Resultados discrepantes:

Outliers

Resultados que no

pertenecen a un

conjunto (muestra o

población)

Criterio de los límites de confianza

• Dado un conjunto de datos, se calculan

promedio y desviación estándar.

• Se calculan los límites de confianza

para una determinada probabilidad.

• Si el dato dudoso no se encuentra en

el intervalo, se debe rechazar y

recalcular los parámetros estadísticos.

Criterio de los límites de confianza

Es importante tener en cuenta que

para un nivel de significación del 5

% hay un 5 % de riesgo (1/20) de

rechazar incorrectamente un valor

sospechoso.

201

Criterio de los límites de confianza

2- Comparación de un promedio con un valor determinado (n < 30)

Suposiciones: Distribución aproximadamente normal

Hipótesis: Nula - H0: 0

Alternativa - H1:

• Dos colas: 0

• Una cola: 0 y > 0

Test estadístico: Distribución “t” con (n-1) grados de

libertad

ns

xt

2- Comparación de un promedio con un valor determinado (n < 30)

Decisiones:

H1: 0 (test dos colas) -t/2, n-1 < t < t/2, n-1

H0 aceptada

H1: 0 (test una cola) t > -t, n-1

H0 aceptada

H1: > 0 (test una cola) t < t, n-1

H0 aceptada

Verificar si el contenido de “Lasalocid Sodium” en un alimento

(determinado por nuestro laboratorio) coincide con el declarado por el

fabricante.

Contenido Nominal declarado: 85 mg Kg-1

Nuestro laboratorio efectuó las sig. determinaciones (10 replicados).

Suposiciones:

• Las determinaciones de Lasalocid Sodium están distribuidas aproximadamente

en forma normal (antes se realiza rechazo de datos dudosos).

Hipótesis:

• H0: No hay diferencia estadísticamente significativa entre la media de nuestras

medidas y el valor declarado (m = 85).

• H1: (dos colas) Existe diferencia estadísticamente significativa entre la media de

nuestras medidas y el valor declarado (m 85).

El valor crítico a un nivel del 5 % de significancia ( = 0.05) y n = 10 es:

t0.025,9 = 2.262 < t0.025,9 = 0.71

H0 : Aceptada

71.0

1022.2

0.855.85

ns

xt

Resumen

Mediciones (n) 10

Promedio ( ) 85.5

Desv. est. (s) 2.22

Error est. ( ) 0.703

RSD 2.6

Prueba t

85

t calculado 0.711

t tablas (0.025,9) 2.262

Probabilidad (p) 0.495

x

ns /

Comparación de un promedio con un valor determinado

3- Comparación de dos muestras (n < 30)

Suposiciones: Dos muestras independientes (1 y 2) de

distribución aproximadamente normal

Hipótesis: Nula - H0: 0

Alternativa - H1:

• Dos colas: 0

• Una cola: 0 y > 0

Test estadístico: depende de que la relación (variancia

mayor/variancia menor) sea menor o mayor que Fcrítico.

Si Fcalculado > Fcritico : las variancias son estadísticamente

diferentes y la prueba tiene una variación.

3- Comparación de dos muestras (n < 30)

Variancias iguales:

21

21

11

nns

xxt

p

2

11

21

2

22

2

11

nn

snsnsp

)()(

Decisiones:

Tener en cuenta los “nuevos” grados de libertad (df)

H1: m m0 (test dos colas) -t/2, df < t < t/2, df

H0 aceptada

H1: m < m0 (test una cola) t > -t, df

H0 aceptada

H1: m > m0 (test una cola) t < t, df

H0 aceptada

Para variancias distintas

2

2

2

1

2

1

21

n

s

n

s

xxt

2

11 2

2

2

2

2

1

2

1

2

1

2

2

2

2

1

2

1

n

n

s

n

n

s

n

s

n

s

df

3- Comparación de dos muestras (n < 30)

4-Comparación de dos variancias

Se calcula el estadístico F

),1(),1(

2

2

2

1

21

nnF

s

sF Siendo s1 > s2

F calculado debe ser

menor al F crítico

Distribución F (tabla 1)

3.072

Ejemplo

En un ejercicio interlaboratorio dos laboratorios analíticos ejecutan un

método estándar para determinar la [PO43-] de una muestra de agua de río.

Cada laboratorio efectúa 8 replicados

Suposiciones: Dos muestras independientes (A y B) de distribución

aproximadamente normal

Hipótesis:

Nula: H0: m = m0

Alternativa: H1,

una cola:

mA > mB

Lab. A 20.7 27.5 30.4 23.9 21.7 24.1 24.8 28.9

Lab. B 20.9 21.4 24.9 20.5 19.7 26.3 22.4 20.2

Laboratorio

Co

ncen

tració

n

18

20

22

24

26

28

30

32

A B

Uso de Excel

t-test asumiendo igualdad de variancias

Relación de

variancias =

2.07

t > t0.05, 14 y p < 0.05 H0 rechazada

21

21

11

nns

xxt

p

2

11

21

2

22

2

11

nn

snsnsp

)()(

Estadísticos Laboratorio A Laboratorio B

Promedio 25.25 22.03

Variancia 11.65 5.63

Observaciones 8 8

Grados de libertad 14

t calculado 2.186

t crítico (una cola) 1.761

p (una cola) 0.0232

t crítico (dos colas) 2.145

p (dos colas) 0.0463

tcalculado > tcrítico , se rechaza H0

Suposiciones: D (D = tratamiento 1 – tratamiento 2) se

distribuye aproximadamente en forma normal.

Hipótesis: Nula- H0: D 0

Alternativa: H1,

• Dos colas: D 0

• Una cola: D 0 y D > 0

Agregar dibujo con ratas o gente

5- Comparación de medias de dos muestras apareadas

Test estadístico:

Decisiones:

H1: D 0 (test dos colas) -t/2, df < t < t/2, df

H0 aceptada

H1: D 0 (test una cola) t > -t, df

H0 aceptada

H1: D > 0 (test una cola) t < t, df

H0 aceptada

5- Comparación de medias de dos muestras apareadas

ns

Dt

D

Col 3 vs Col 1

Col 4 vs Col 2

Muestra

0 1 2 3 4 5 6 7 8 9 10 11

Co

ncen

tració

n

0.50

0.55

0.60

0.65

0.70

0.75

0.80

Se estudia un nuevo método (FI) para determinar Cu en suero de sangre humana. Se lo compara con AAS, utilizado frecuentemente en este tipo de muestras. Se usan muestras diferentes!!!

Suposiciones: D, (D = FI – AAS) se ditribuye aproximadamente en

forma normal

Hipótesis:

Nula:

H0: D 0

Alternativa:

H1, dos colas:

D 0

1 2 3 4 5 6 7 8 9 10

FI 0.608 0.712 0.589 0.562 0.770 0.548 0.662 0.625 0.558 0.652

AAS 0.592 0.708 0.601 0.564 0.755 0.564 0.655 0.624 0.555 0.655

Ejemplo

381

FI AAS D

0.608 0.592 0.016

0.712 0.708 0.004

0.589 0.601 -0.012

0.562 0.564 -0.002

0.77 0.755 0.015

0.548 0.564 -0.016

0.662 0.655 0.007

0.625 0.624 0.001

0.558 0.555 0.003

0.652 0.655 -0.003

0.629 0.627 0.0013 (s= 0.010)

26.2411.0

10010.0

0013.0)91(), ( 025.0 ncolasdos

D

t

n

s

Dt

tcalc. < t0.025, 9 Se acepta H0

6- Comparación de medias de

distintos resultados: ANOVA

En el trabajo analítico suelen presentarse a menudo

comparaciones en las que intervienen más de dos

medias. Ejemplos:

• Comparar la concentración media de proteína en una solución para

muestras almacenadas en condiciones diferentes.

• Comparar los resultados medios obtenidos de la concentración de

un analito utilizando diferentes métodos.

• Comparar la media de los resultados en una valoración obtenidos por

diferentes operadores que usan los mismos aparatos.

ANOVA se utiliza para “analizar

medidas que dependen de varios

tipos de efectos que actuan

simultáneamente con el doble fin

de decidir cuales de ellos son

importantes y de poder

estimarlos” (Scheffé, 1953)

Compara medias de diversos conjuntos

a través de sus variancias

Ejercicio interlaboratorio: Se comparan k laboratorios

que determinan nj veces la concentración de una

determinada especie en una misma muestra con un

mismo método.

Se quiere detectar si

alguno de los laboratorios

genera resultados

estadísticamente

diferentes al resto.

Se asume que:

1. Los conjuntos de datos son independientes entre si.

2. La distribución de los datos obtenidos para cada conjunto es normal.

3. Las variancias de cada conjunto de datos no difieren

significativamente entre si (test de Bartlett).

Ejemplo

ANOVA: modelo

ij i ijx

Variabilidad

debida a los

tratamientos

Variabilidad

debida al

error

Variabilidad

debida a los

tratamientos

Variabilidad

debida al

error

No hay efecto de

tratamiento

Si hay efecto de

tratamiento

1

2

34

5

1

2

34

5

T

0 1 2

1

: ... ...

: para algún

i n

i j

H

H i j

ANOVA: modelo

TratResidualTotal

222

SS SS SS

)()()( i

ii

j

iij

ij

ij

i

xxkxxxx

Laboratorio Resultados (n = 3) Promedio

1 2 3

1 X11 x12 x13 1

2 x21 x22 x23 2

3 x31 x32 X33 3

. . . .

j xj1 xj2 Xj3 j

. . . .

k xk1 xk2 xk3 k

x

x

x

x

x

Medida de dispersión entre los laboratorios o tratamientos Medida de dispersión dentro

de los laboratorios o Error

Si Fcal > Ftabulada

Existe algún error sistemático en

alguno(s) de los laboratorios

TratResidualTotal

222

SS SS SS

)()()( i

ii

j

iij

ij

ij

i

xxkxxxx

)/(

)1/(

Re kNSS

kSSF

sidual

Tratcal

Ejemplo:

Se analizan los resultados obtenidos en una

investigación acerca de la estabilidad de un reactivo

fluorescente en diferentes condiciones de

almacenamiento.

Los valores dados son las respuestas de

fluorescencia de soluciones diluidas de la misma

concentración.

Se tomaron tres medidas sobre cada muestra.

Condiciones Medidas repetidas Media

A recientemente preparada 102, 100, 101 101

B una hora en la oscuridad 101, 101, 104 102

C una hora con luz tenue 97, 95,99 97

D una hora con luz brillante 90, 92, 94 92

Media global 98

Se tienen cuatro frascos de un material de control para

proteínas totales y se necesita saber si son del mismo lote de

fabricación. Para resolver el problema se analiza el contenido

de proteínas totales haciendo 10 replicados en cada frasco.

Con los resultados obtenidos se realiza un ANOVA que arroja

los siguientes resultados:

Otro ejemplo:

Valor muy pequeño de

probabilidad, lo que

significa que algún (o

algunos) frasco es

diferente.

NO nos indica cuantos laboratorios difieren entre si ni cuales son.

ANOVA evidencia o no la existencia de diferencias significativas entre

laboratorios.

Pero ...

Comparación de tratamientos: Gráficos de

caja (Box Plot)

1er Cuartil (Q1) Valor tal que el 25 % de las observaciones son

inferiores

Valor tal que el 25 % de las observaciones son

superiores

Gráficos “Box”

Q1 Q2 Mediana

2do Cuartil (Q2)

Gráfica Box-Plot

Tratamiento

A B C D

Flu

ore

sc

en

cia

87

90

93

96

99

102

105

108

ANOVA: uso de métodos gráficos

Ejemplo # 1

Ejemplo # 2

Diferencia Significativa Menor (DSM o LSD)

Fórmula:

ntsDSM

nkres

21 ),(

Ejemplo:

Tratamiento Fluorescencia Promedio (s)

A 102,99,101,102,103,100 101.2 (1.5)

B 102,100,104,101,102,103 102.0 (1.4)

C 97,95,99,95,98,96 96.7 (1.6)

D 90,92,93,91,93,92 91.8 (1.2)

Comparación de tratamientos: uso de

pruebas estadísticas

Diferencia Significativa Menor (DSM o LSD)

h = k; n = 6; k(n-1) = 20; k(n-1) = N-k

sres= 1.43; t(0.05,20) = 2.09

LSD = 1.73

Promedios ordenados Diferencias

--

4.9 SI

4.5 SI

1.6 NO

8.91Dx

7.96Cx

2.101Ax

8.102Bx

Comparación de tratamientos: uso de

pruebas estadísticas

ANOVA: Verificación de

supuestos del modelo

•Los conjuntos de datos son independientes

entre si.

•Las variancias de cada conjunto de datos no

difieren significativamente (test de Bartlett).

•La distribución de los datos obtenidos para

cada conjunto es normal.

ij i ijx

Verificación de supuestos del modelo:

Gráfica de los residuos

2 2 2 2 2

0 1 2

2 2

1

2

0

2 2

10 10

1

1 1

1

2

2 1

: ... ...

: para algún

Utiliza el estadístico: 2.3026 siendo

( ) log ( 1) log

11 ( 1) 1( ) y

3( 1)

( 1)

i n

i j

k

p i i

i

k

i

i

k

i iip

H

H i j

q

c

q N k S n S

c n N kk

n SS

N k

Verificación de supuestos del modelo:

prueba de Bartlet para igualdad de

variancias

Verificación de supuestos del modelo:

Gráfica de probabilidad en papel normal

1- Ordenar los datos de 1 a N en orden creciente: i= 1, 2,…N

2- Calcular una posición de graficación: (i-0.5)/N. Ej: para i= 1 y N=10,

posición: (1-0.5)/N=0.05

3-Usar papel de probabilidad: una escala es normal y la otra logarítmica

4- Representar los pares [ri, (i-0.5)/N]

5- Si es una recta, los datos son normales

Factor A Factor B

1 2 .. j .. J Promedio A

1 x11 x12 x1j x1J Promedio A1

2 x21 x22 x2j X2J Promedio A2

..

i xi1 xi2 Xij xiJ Promedio Ai

..

l xl 1 xl 2 xl j xl J Promedio AI

Promedio

B

Prom.

B1

Prom.

B2

Prom.

Bj

Prom.

BJ

Gran

promedio

ANOVA para dos efectos:

estructura del experimento

ANOVA para dos efectos:

modelo

1,2,...,;

1,2,...,ij i i ij

i Ix

j J

j

2

2

2

( 1),[( ) ( 1) ( 1) 1],0.05

( 1),[( ) ( 1) ( 1

( )

( ) ......... 1

( ) ......... 1

:

T ij A B R

i j

A i A

h

B j B

j

R T A B

AA I I J I J

R

BB J I J I J

R

SS x x SS SS SS

SS I promA x df I

SS J promB x df J

SS SS SS SS

Estadístico

MSF F

MS

MSF F

MS

>

>

) 1],0.05

ANOVA para dos efectos: fuentes de

variabilidad

Fuente Grados

de

libertad

Suma de

cuadrados

Cuadrados

Medios

F p

Factor A l-1 SSA SSA/l-1 MSA/

MSR

<0.05

Factor B J-1 SSB SSB/J-1 MSB/

MSR

<0.05

Residual r =Total-

[(l-1)+(J-1]

SSR SSA/ r

Total IJ-1 SST

ANOVA para dos efectos: tabla general con

los resultados

ANOVA para dos efectos: ejemplo

Factor A Factor B

B1=10 B2=20

A1=20 0.80 1.00 promA1=0.90

A2=40 1.35 1.50 promA2=1.425

promB1 =

1.075

promB2 =

1.25

prom gral =

1.163

ANOVA para dos efectos, con más de dos

niveles y replicados

ANOVA para dos efectos, con más de

dos niveles y replicados: uso de

regresión lineal múltiple

2 2

1 2 3 4 5 5ijx b b A b B b AB b A b B

Regresión lineal múltiple: Anova

Recommended