Upload
others
View
16
Download
1
Embed Size (px)
Citation preview
METODOLOGÍA DE LA SUPERFICIE DE RESPUESTA
Parte 2: Revisión de estadística básica
Héctor Goicoechea E-mail: [email protected]
http://www.fbcb.unl.edu.ar/laboratorios/ladaq/
Exactitud y precisión
Inexacto e
impreciso
Exacto y
preciso
Inexacto y
preciso
Exacto e
impreciso
31
Exactitud y precisión: uso
correcto de los términos
Errores aleatorios o
indeterminados
fluctuantes
Distribución
Normal de
Gauss
Precisión
Exactitud
Bias o Sesgo
Cuando se refiere
a un resultado
|xi - |
Cuando se refiere
a un método
(n < 30 det)
| - |
'x̂
x 'x̂
Errores sistemáticos o determinados
Alteraciones
operacionales y
sistemáticas
bien definidas
Desviaciones
de signo
determinado
Exactitud
Errores
Valor universalmente
aceptado como
verdadero: V.U.A.V
Parámetros estadísticos que estiman el valor central
Media aritmética Mediana
Se ordenan los datos según su magnitud y se elige/n el/los
central/es (semisuma). n
x
x
nxxxxn
ii
n
1
21 /).......(
¿Como inferimos sobre la exactitud
y la precisión?
n < 30 n > 30
Desviación estándar
Variancia: su propiedad
mas importante es la
aditividad
Parámetros estadísticos que estiman
dispersión
x
sRSD
%100 RSDx
sCV
Desviación
estándar relativa
Coeficiente de
variación
11
2
n
xxi
s
ni
i
)(
11
2
n
xni
ii )(
1
2
2
n
xxs
i )(
¿Para que sirve la estadística?
POBLACIÓN (toda la
producción del mes)
MUESTRA (representativa de
la producción del mes)
µ = ? = ?
x
Descriptores
poblacionales (siempre
desconocidos)
Descriptores muestrales,
estimadores, estadísticos
(conocidos)
s
ALEATORIAMENTE
INFERENCIA
Si n < 30, “s” deja de ser un buen estimador; es necesaria una corrección:
Distribución t (tablas)
Intervalos de confianza
/ 2x zn
)30(2/
n
n
stx
)30(2/
n
n
szx
Tabla t de una cola
N-1 0.05
1 6.31
2 2.92
3 2.38
4 2.18
…
…
Hipótesis estadísticas
¿Las diferencias entre nuestras observaciones y una referencia o entre
conjuntos de datos son de naturaleza química (por ejemplo) o
estadística?
Sistemática a seguir: Comprobación de hipótesis
No existen diferencias
significativas entre nuestras
observaciones y una referencia o
entre conjuntos de datos
Hipótesis Nula (H0) Hipótesis Alternativa (H1)
Si existen diferencias significativas
entre nuestras observaciones y
una referencia o entre conjuntos
de datos
Validez
Tests Estadísticos
No existe
error
Tipo II (falso
negativo, b) H0 falsa
Tipo I (falso
positivo, )
No existe
error H0 verdadera
Rechazar H0 Aceptar H0
Decisión Tomada
Tipos de errores en el
análisis inferencial de
datos
131
Error tipo 1 () y error tipo 2 (b)
H0 H1
b
Hipótesis
alternativa: Hipótesis nula
Nivel de confianza
Hipótesis estadísticas
1. Selección de una prueba estadística apropiada
2. Selección de un nivel de significancia (95 %)
3. Formulación de la hipótesis: H0 y H1
4. Cálculo de estadísticos y comparación con valor crítico o análisis de la probabilidad asociada (p)
5. Decisión
Resolución de diferentes problemas aplicando hipótesis
estadísticas
1- Resultados discrepantes:
Outliers
Resultados que no
pertenecen a un
conjunto (muestra o
población)
Criterio de los límites de confianza
• Dado un conjunto de datos, se calculan
promedio y desviación estándar.
• Se calculan los límites de confianza
para una determinada probabilidad.
• Si el dato dudoso no se encuentra en
el intervalo, se debe rechazar y
recalcular los parámetros estadísticos.
Criterio de los límites de confianza
Es importante tener en cuenta que
para un nivel de significación del 5
% hay un 5 % de riesgo (1/20) de
rechazar incorrectamente un valor
sospechoso.
201
Criterio de los límites de confianza
2- Comparación de un promedio con un valor determinado (n < 30)
Suposiciones: Distribución aproximadamente normal
Hipótesis: Nula - H0: 0
Alternativa - H1:
• Dos colas: 0
• Una cola: 0 y > 0
Test estadístico: Distribución “t” con (n-1) grados de
libertad
ns
xt
2- Comparación de un promedio con un valor determinado (n < 30)
Decisiones:
H1: 0 (test dos colas) -t/2, n-1 < t < t/2, n-1
H0 aceptada
H1: 0 (test una cola) t > -t, n-1
H0 aceptada
H1: > 0 (test una cola) t < t, n-1
H0 aceptada
Verificar si el contenido de “Lasalocid Sodium” en un alimento
(determinado por nuestro laboratorio) coincide con el declarado por el
fabricante.
Contenido Nominal declarado: 85 mg Kg-1
Nuestro laboratorio efectuó las sig. determinaciones (10 replicados).
Suposiciones:
• Las determinaciones de Lasalocid Sodium están distribuidas aproximadamente
en forma normal (antes se realiza rechazo de datos dudosos).
Hipótesis:
• H0: No hay diferencia estadísticamente significativa entre la media de nuestras
medidas y el valor declarado (m = 85).
• H1: (dos colas) Existe diferencia estadísticamente significativa entre la media de
nuestras medidas y el valor declarado (m 85).
El valor crítico a un nivel del 5 % de significancia ( = 0.05) y n = 10 es:
t0.025,9 = 2.262 < t0.025,9 = 0.71
H0 : Aceptada
71.0
1022.2
0.855.85
ns
xt
Resumen
Mediciones (n) 10
Promedio ( ) 85.5
Desv. est. (s) 2.22
Error est. ( ) 0.703
RSD 2.6
Prueba t
85
t calculado 0.711
t tablas (0.025,9) 2.262
Probabilidad (p) 0.495
x
ns /
Comparación de un promedio con un valor determinado
3- Comparación de dos muestras (n < 30)
Suposiciones: Dos muestras independientes (1 y 2) de
distribución aproximadamente normal
Hipótesis: Nula - H0: 0
Alternativa - H1:
• Dos colas: 0
• Una cola: 0 y > 0
Test estadístico: depende de que la relación (variancia
mayor/variancia menor) sea menor o mayor que Fcrítico.
Si Fcalculado > Fcritico : las variancias son estadísticamente
diferentes y la prueba tiene una variación.
3- Comparación de dos muestras (n < 30)
Variancias iguales:
21
21
11
nns
xxt
p
2
11
21
2
22
2
11
nn
snsnsp
)()(
Decisiones:
Tener en cuenta los “nuevos” grados de libertad (df)
H1: m m0 (test dos colas) -t/2, df < t < t/2, df
H0 aceptada
H1: m < m0 (test una cola) t > -t, df
H0 aceptada
H1: m > m0 (test una cola) t < t, df
H0 aceptada
Para variancias distintas
2
2
2
1
2
1
21
n
s
n
s
xxt
2
11 2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
n
n
s
n
n
s
n
s
n
s
df
3- Comparación de dos muestras (n < 30)
4-Comparación de dos variancias
Se calcula el estadístico F
),1(),1(
2
2
2
1
21
nnF
s
sF Siendo s1 > s2
F calculado debe ser
menor al F crítico
Distribución F (tabla 1)
3.072
Ejemplo
En un ejercicio interlaboratorio dos laboratorios analíticos ejecutan un
método estándar para determinar la [PO43-] de una muestra de agua de río.
Cada laboratorio efectúa 8 replicados
Suposiciones: Dos muestras independientes (A y B) de distribución
aproximadamente normal
Hipótesis:
Nula: H0: m = m0
Alternativa: H1,
una cola:
mA > mB
Lab. A 20.7 27.5 30.4 23.9 21.7 24.1 24.8 28.9
Lab. B 20.9 21.4 24.9 20.5 19.7 26.3 22.4 20.2
Laboratorio
Co
ncen
tració
n
18
20
22
24
26
28
30
32
A B
Uso de Excel
t-test asumiendo igualdad de variancias
Relación de
variancias =
2.07
t > t0.05, 14 y p < 0.05 H0 rechazada
21
21
11
nns
xxt
p
2
11
21
2
22
2
11
nn
snsnsp
)()(
Estadísticos Laboratorio A Laboratorio B
Promedio 25.25 22.03
Variancia 11.65 5.63
Observaciones 8 8
Grados de libertad 14
t calculado 2.186
t crítico (una cola) 1.761
p (una cola) 0.0232
t crítico (dos colas) 2.145
p (dos colas) 0.0463
tcalculado > tcrítico , se rechaza H0
Suposiciones: D (D = tratamiento 1 – tratamiento 2) se
distribuye aproximadamente en forma normal.
Hipótesis: Nula- H0: D 0
Alternativa: H1,
• Dos colas: D 0
• Una cola: D 0 y D > 0
Agregar dibujo con ratas o gente
5- Comparación de medias de dos muestras apareadas
Test estadístico:
Decisiones:
H1: D 0 (test dos colas) -t/2, df < t < t/2, df
H0 aceptada
H1: D 0 (test una cola) t > -t, df
H0 aceptada
H1: D > 0 (test una cola) t < t, df
H0 aceptada
5- Comparación de medias de dos muestras apareadas
ns
Dt
D
Col 3 vs Col 1
Col 4 vs Col 2
Muestra
0 1 2 3 4 5 6 7 8 9 10 11
Co
ncen
tració
n
0.50
0.55
0.60
0.65
0.70
0.75
0.80
Se estudia un nuevo método (FI) para determinar Cu en suero de sangre humana. Se lo compara con AAS, utilizado frecuentemente en este tipo de muestras. Se usan muestras diferentes!!!
Suposiciones: D, (D = FI – AAS) se ditribuye aproximadamente en
forma normal
Hipótesis:
Nula:
H0: D 0
Alternativa:
H1, dos colas:
D 0
1 2 3 4 5 6 7 8 9 10
FI 0.608 0.712 0.589 0.562 0.770 0.548 0.662 0.625 0.558 0.652
AAS 0.592 0.708 0.601 0.564 0.755 0.564 0.655 0.624 0.555 0.655
Ejemplo
381
FI AAS D
0.608 0.592 0.016
0.712 0.708 0.004
0.589 0.601 -0.012
0.562 0.564 -0.002
0.77 0.755 0.015
0.548 0.564 -0.016
0.662 0.655 0.007
0.625 0.624 0.001
0.558 0.555 0.003
0.652 0.655 -0.003
0.629 0.627 0.0013 (s= 0.010)
26.2411.0
10010.0
0013.0)91(), ( 025.0 ncolasdos
D
t
n
s
Dt
tcalc. < t0.025, 9 Se acepta H0
6- Comparación de medias de
distintos resultados: ANOVA
En el trabajo analítico suelen presentarse a menudo
comparaciones en las que intervienen más de dos
medias. Ejemplos:
• Comparar la concentración media de proteína en una solución para
muestras almacenadas en condiciones diferentes.
• Comparar los resultados medios obtenidos de la concentración de
un analito utilizando diferentes métodos.
• Comparar la media de los resultados en una valoración obtenidos por
diferentes operadores que usan los mismos aparatos.
ANOVA se utiliza para “analizar
medidas que dependen de varios
tipos de efectos que actuan
simultáneamente con el doble fin
de decidir cuales de ellos son
importantes y de poder
estimarlos” (Scheffé, 1953)
Compara medias de diversos conjuntos
a través de sus variancias
Ejercicio interlaboratorio: Se comparan k laboratorios
que determinan nj veces la concentración de una
determinada especie en una misma muestra con un
mismo método.
Se quiere detectar si
alguno de los laboratorios
genera resultados
estadísticamente
diferentes al resto.
Se asume que:
1. Los conjuntos de datos son independientes entre si.
2. La distribución de los datos obtenidos para cada conjunto es normal.
3. Las variancias de cada conjunto de datos no difieren
significativamente entre si (test de Bartlett).
Ejemplo
ANOVA: modelo
ij i ijx
Variabilidad
debida a los
tratamientos
Variabilidad
debida al
error
Variabilidad
debida a los
tratamientos
Variabilidad
debida al
error
No hay efecto de
tratamiento
Si hay efecto de
tratamiento
1
2
34
5
1
2
34
5
T
0 1 2
1
: ... ...
: para algún
i n
i j
H
H i j
ANOVA: modelo
TratResidualTotal
222
SS SS SS
)()()( i
ii
j
iij
ij
ij
i
xxkxxxx
Laboratorio Resultados (n = 3) Promedio
1 2 3
1 X11 x12 x13 1
2 x21 x22 x23 2
3 x31 x32 X33 3
. . . .
j xj1 xj2 Xj3 j
. . . .
k xk1 xk2 xk3 k
x
x
x
x
x
Medida de dispersión entre los laboratorios o tratamientos Medida de dispersión dentro
de los laboratorios o Error
Si Fcal > Ftabulada
Existe algún error sistemático en
alguno(s) de los laboratorios
TratResidualTotal
222
SS SS SS
)()()( i
ii
j
iij
ij
ij
i
xxkxxxx
)/(
)1/(
Re kNSS
kSSF
sidual
Tratcal
→
Ejemplo:
Se analizan los resultados obtenidos en una
investigación acerca de la estabilidad de un reactivo
fluorescente en diferentes condiciones de
almacenamiento.
Los valores dados son las respuestas de
fluorescencia de soluciones diluidas de la misma
concentración.
Se tomaron tres medidas sobre cada muestra.
Condiciones Medidas repetidas Media
A recientemente preparada 102, 100, 101 101
B una hora en la oscuridad 101, 101, 104 102
C una hora con luz tenue 97, 95,99 97
D una hora con luz brillante 90, 92, 94 92
Media global 98
Se tienen cuatro frascos de un material de control para
proteínas totales y se necesita saber si son del mismo lote de
fabricación. Para resolver el problema se analiza el contenido
de proteínas totales haciendo 10 replicados en cada frasco.
Con los resultados obtenidos se realiza un ANOVA que arroja
los siguientes resultados:
Otro ejemplo:
Valor muy pequeño de
probabilidad, lo que
significa que algún (o
algunos) frasco es
diferente.
NO nos indica cuantos laboratorios difieren entre si ni cuales son.
ANOVA evidencia o no la existencia de diferencias significativas entre
laboratorios.
Pero ...
Comparación de tratamientos: Gráficos de
caja (Box Plot)
1er Cuartil (Q1) Valor tal que el 25 % de las observaciones son
inferiores
Valor tal que el 25 % de las observaciones son
superiores
Gráficos “Box”
Q1 Q2 Mediana
2do Cuartil (Q2)
Gráfica Box-Plot
Tratamiento
A B C D
Flu
ore
sc
en
cia
87
90
93
96
99
102
105
108
ANOVA: uso de métodos gráficos
Ejemplo # 1
Ejemplo # 2
Diferencia Significativa Menor (DSM o LSD)
Fórmula:
ntsDSM
nkres
21 ),(
Ejemplo:
Tratamiento Fluorescencia Promedio (s)
A 102,99,101,102,103,100 101.2 (1.5)
B 102,100,104,101,102,103 102.0 (1.4)
C 97,95,99,95,98,96 96.7 (1.6)
D 90,92,93,91,93,92 91.8 (1.2)
Comparación de tratamientos: uso de
pruebas estadísticas
Diferencia Significativa Menor (DSM o LSD)
h = k; n = 6; k(n-1) = 20; k(n-1) = N-k
sres= 1.43; t(0.05,20) = 2.09
LSD = 1.73
Promedios ordenados Diferencias
--
4.9 SI
4.5 SI
1.6 NO
8.91Dx
7.96Cx
2.101Ax
8.102Bx
Comparación de tratamientos: uso de
pruebas estadísticas
ANOVA: Verificación de
supuestos del modelo
•Los conjuntos de datos son independientes
entre si.
•Las variancias de cada conjunto de datos no
difieren significativamente (test de Bartlett).
•La distribución de los datos obtenidos para
cada conjunto es normal.
ij i ijx
Verificación de supuestos del modelo:
Gráfica de los residuos
2 2 2 2 2
0 1 2
2 2
1
2
0
2 2
10 10
1
1 1
1
2
2 1
: ... ...
: para algún
Utiliza el estadístico: 2.3026 siendo
( ) log ( 1) log
11 ( 1) 1( ) y
3( 1)
( 1)
i n
i j
k
p i i
i
k
i
i
k
i iip
H
H i j
q
c
q N k S n S
c n N kk
n SS
N k
Verificación de supuestos del modelo:
prueba de Bartlet para igualdad de
variancias
Verificación de supuestos del modelo:
Gráfica de probabilidad en papel normal
1- Ordenar los datos de 1 a N en orden creciente: i= 1, 2,…N
2- Calcular una posición de graficación: (i-0.5)/N. Ej: para i= 1 y N=10,
posición: (1-0.5)/N=0.05
3-Usar papel de probabilidad: una escala es normal y la otra logarítmica
4- Representar los pares [ri, (i-0.5)/N]
5- Si es una recta, los datos son normales
Factor A Factor B
1 2 .. j .. J Promedio A
1 x11 x12 x1j x1J Promedio A1
2 x21 x22 x2j X2J Promedio A2
..
i xi1 xi2 Xij xiJ Promedio Ai
..
l xl 1 xl 2 xl j xl J Promedio AI
Promedio
B
Prom.
B1
Prom.
B2
Prom.
Bj
Prom.
BJ
Gran
promedio
ANOVA para dos efectos:
estructura del experimento
ANOVA para dos efectos:
modelo
1,2,...,;
1,2,...,ij i i ij
i Ix
j J
j
2
2
2
( 1),[( ) ( 1) ( 1) 1],0.05
( 1),[( ) ( 1) ( 1
( )
( ) ......... 1
( ) ......... 1
:
T ij A B R
i j
A i A
h
B j B
j
R T A B
AA I I J I J
R
BB J I J I J
R
SS x x SS SS SS
SS I promA x df I
SS J promB x df J
SS SS SS SS
Estadístico
MSF F
MS
MSF F
MS
>
>
) 1],0.05
ANOVA para dos efectos: fuentes de
variabilidad
Fuente Grados
de
libertad
Suma de
cuadrados
Cuadrados
Medios
F p
Factor A l-1 SSA SSA/l-1 MSA/
MSR
<0.05
Factor B J-1 SSB SSB/J-1 MSB/
MSR
<0.05
Residual r =Total-
[(l-1)+(J-1]
SSR SSA/ r
Total IJ-1 SST
ANOVA para dos efectos: tabla general con
los resultados
ANOVA para dos efectos: ejemplo
Factor A Factor B
B1=10 B2=20
A1=20 0.80 1.00 promA1=0.90
A2=40 1.35 1.50 promA2=1.425
promB1 =
1.075
promB2 =
1.25
prom gral =
1.163
ANOVA para dos efectos, con más de dos
niveles y replicados
ANOVA para dos efectos, con más de
dos niveles y replicados: uso de
regresión lineal múltiple
2 2
1 2 3 4 5 5ijx b b A b B b AB b A b B
Regresión lineal múltiple: Anova