125
TÉCNICAS GRAFICAS DE EXPLORACIÓN DE DATOS Estadística en el laboratorio

Técnicas graficas de exploración de datos

  • Upload
    ayasha

  • View
    88

  • Download
    0

Embed Size (px)

DESCRIPTION

Estadística en el laboratorio. Técnicas graficas de exploración de datos. Técnicas graficas de exploración. Histogramas Gráfico de barras que representa una distribución de frecuencia. - PowerPoint PPT Presentation

Citation preview

Page 1: Técnicas graficas de exploración de datos

TÉCNICAS GRAFICAS DE EXPLORACIÓN DE DATOS

Estadística en el laboratorio

Page 2: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Histogramas– Gráfico de barras que representa una distribución

de frecuencia.– La altura de cada una de las barras representa la

frecuencia de la observación identificada en el eje horizontal (x).

Page 3: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• HistogramasHistogram (DATA BN 6v*1043c)

Produccion (cajas/ha) = 938*5*normal(x; 30,1078; 7,0483)

5 10 15 20 25 30 35 40 45 50 55 60 65 70

Produccion (cajas/ha)

0

20

40

60

80

100

120

140

160

180

200

220

240

260

280

No

of

ob

s

Produccion (cajas/ha): N = 938, Mean = 30,1078305, StdDv = 7,04828092, Max = 61,3333333, Min = 14,0166667

Page 4: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Gráfico de probabilidades– Es un histograma que muestra el número de veces

que un resultado dado estuvo dentro de un rango específico, centrado alrededor de un valor medio.

Page 5: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Gráfico de probabilidadesHistogram (DATA BN 6v*1043c)

Produccion (cajas/ha) = 938*5*normal(x; 30,1078; 7,0483)

5 10 15 20 25 30 35 40 45 50 55 60 65 70

Produccion (cajas/ha)

0

20

40

60

80

100

120

140

160

180

200

220

240

260

280

No

of

ob

s

Produccion (cajas/ha): N = 938, Mean = 30,1078305, StdDv = 7,04828092, Max = 61,3333333, Min = 14,0166667

Page 6: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Correlaciones– Nos ayuda a determinar si dos variables aleatorias

son interdependientes.– Resulta de interés el conocer si existen alguna

relación entre nuestra variables.– La herramienta estadística para este tipo de

análisis son las correlaciones.– El método más común se basa en el coeficiente de

Pearson.

Page 7: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Correlaciones

Page 8: Técnicas graficas de exploración de datos

Técnicas graficas de exploración

• Correlaciones

Page 9: Técnicas graficas de exploración de datos

HAGAMOS UN EJERCICIOApliquemos la estadística

Page 10: Técnicas graficas de exploración de datos

Ejercicio 1: Evaluemos un método

• Pensemos en la comparación de un nuevo método de análisis con uno tradicional

• La pregunta es: ¿Cuál es el mejor?• Mejor: menor error, menor límite de

detección, menor tiempo de análisis, etc.• ¿Cómo lo haría?• ¿Por donde partimos?

Page 11: Técnicas graficas de exploración de datos

Ejercicio 1: Evaluemos un método• Resulta claro que es necesario un diseño experimental.

• Sin embargo, en base a su diseño:

– ¿Ha logrado comparar el desempeño de ambos métodos para el análisis de la muestra?

– O– ¿Ha logrado comparar el desempeño del analista para el uso de ambos

métodos? (Dado que es claro que el analista poseía más experiencia en su método que en el tradicional)

• De aquí la importancia de realizar los experimentos con un adecuado diseño.

Page 12: Técnicas graficas de exploración de datos

Química y ciencia

• La ciencia práctica no debe iniciar con la colección de datos, sino con una hipótesis acerca de un problema o técnica.

• La data a ser colectada deber ser relevante para responder al problema o probar la hipótesis.

• Una mala selección de los parámetros a evaluar resultará en un costo innecesario.

• Un experimento correctamente realizado, nos permite identificar parámetros redundantes que serán omitidos en futuros análisis.

Page 13: Técnicas graficas de exploración de datos

Calidad de resultados• La calidad de cualquier resultado es dependiente de la muestra

utilizada.

• No existe técnica estadística que “recupere” un dato mal levantado.

• El resultado de cualquier análisis estadístico es solo tan bueno como la calidad de los datos utilizados.

• De aquí la importancia de contar con una muestra representativa y un adecuado diseño.

• En casos donde el diseño experimental no es aplicable (ej. monitoreo ambiental), la muestra debe ser representativa del sistema.

Page 14: Técnicas graficas de exploración de datos

Calidad de resultados

• Entonces, la pregunta inicial sería:– ¿Cuál es el propósito del experimento, y qué propongo

como resultado?

• Pregunta que deberá ser transformada en una hipótesis.

• Finalmente la hipótesis deberá ser evaluada en base a técnicas estadísticas apropiadas e identificadas a priori.

Page 15: Técnicas graficas de exploración de datos

Calidad de resultados

• Sin embargo, siempre es posible “torturar” sus datos, a fin de “escuchar” lo que desean.

• Sin embargo, resultados obtenidos en base a una “tortura” estadística suelen ser difíciles de defender ante expertos (eg. transformaciones).

• Mucho mejor cuando un correcto diseño y adecuados métodos son utilizados para dejar “hablar” por sí solos a sus datos.

Page 16: Técnicas graficas de exploración de datos

FUENTES DE ERROREvaluación estadística de datos

Page 17: Técnicas graficas de exploración de datos

Fuentes de error

• Una vez realizado el análisis químico, el resultado final será un valor, que predominantemente cuantifica los niveles de un parámetro de interés.

• Sin embargo, ése valor está sujeto a variables que pueden incidir en su magnitud (i.e. fuentes de error).

• Por tal motivo, consientes de la variabilidad en la naturaleza, es necesario contar con una medida de ese error o incertidumbre en la medida.

Page 18: Técnicas graficas de exploración de datos

Fuentes de error

• Es importante también no sólo conformarse con el resultado arrojado por la estadística, sino también confrontar ese resultado con la población de la cual fue obtenido.

– Ej. Se calcula el promedio de la estatura de los estudiantes del presente curso, y se determina una media de 296 cm.

– ¿Lo aceptamos?

– Es necesario confrontar ese valor con lo que nosotros observamos en base a un criterio experto en la población.

Page 19: Técnicas graficas de exploración de datos

Principales tipos de error

• Los científicos generalmente consideran tres tipos de error:– Errores groseros o accidentales– Errores sistemáticos– Errores aleatorios.

Page 20: Técnicas graficas de exploración de datos

Principales tipos de error

• Errores groseros– Causados por un daño en el equipo tales como

fallas de voltaje, daño en la lámpara, contaminación severa de la muestra, soluciones contaminadas, etc.

– Un error de este tipo en el experimento DEBE anular completamente los resultados

– Sin embargo, ¿cómo los detectamos si no contamos con una réplica?

Page 21: Técnicas graficas de exploración de datos

Principales tipos de error

• Errores sistemáticos:– Debidos a imperfecciones en el procedimiento, que

conllevan un bias en la data (ej. datos superiores o inferiores)

– Surgen por pobre calibración de instrumentos o uso incorrecto de la vidriería para medición de volúmenes.

– Este tipo de errores pueden ser constantes o proporcionales.

– Generalmente de fácil detección por medios gráficos (ej. recta de calibración).

– Difíciles de detectar cuando existen errores sistemáticos positivos y negativos !

Page 22: Técnicas graficas de exploración de datos

Principales tipos de error

• Principales tipos de errores sistemáticos:– De muestreo, en cuyo caso la muestra no es

representativa de la población– Error del método, debido a sus limitaciones– Errores de medida, debido a la tolerancia de los

instrumentos utilizados (ej. 25mL +/- 0.03mL)– Errores personales, debido a los sesgos

introducidos por el analista

Page 23: Técnicas graficas de exploración de datos

Principales tipos de error

• Principales tipos de errores sistemáticos:– Error sistemático constante, cuyo valor es igual

en todas las muestras.– Error sistemático proporcional, cuyo valor

depende de la cantidad de muestra analizada

Page 24: Técnicas graficas de exploración de datos

Principales tipos de error

• Errores aleatorios (o ruido):– Generan resultados dispersos alrededor del valor

promedio.– Mientras mayor la aleatoriedad mayor la

dispersión.– Generalmente no tenemos control sobre ellos.– Pudiendo afectar la precisión (Reproductibilidad)

de los resultados experimentales.– Nuestro objetivo: reducirlos.– La precisión es determinada a partir de réplicas.

Page 25: Técnicas graficas de exploración de datos

Algunos términos comunes

• Generalmente referidos en laboratorio:– Exactitud– Precisión– Dentro de rachas (Within-run)– Entre rachas (Between-run)– Repetitividad– Reproducibilidad

Page 26: Técnicas graficas de exploración de datos

Algunos términos comunes

• Exactitud:– Decimos que un resultado es exacto cuando las

mediciones realizadas son cercanas al valor real (patrón).

– La ISO define exactitud como el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado del analito.

– Esto implica que los errores sistemáticos son mínimos.

Page 27: Técnicas graficas de exploración de datos

Algunos términos comunes

• Precisión:– Decimos que un análisis es preciso cuando las

mediciones realizadas poseen una pequeña dispersión de sus valores.

– Por lo tanto, es una medida de la reproducibilidad.

– Es decir que los errores aleatorios son mínimos.

Page 28: Técnicas graficas de exploración de datos

Algunos términos comunes

• Within-run:– Conjunto de mediciones realizadas en secuencia

en el mismo laboratorio utilizando el mismo equipo.

Page 29: Técnicas graficas de exploración de datos

Algunos términos comunes

• Between-run:– Conjunto de mediciones realizadas en diferentes

ocasiones, posiblemente en diferentes laboratorios y bajo diferentes circunstancias

Page 30: Técnicas graficas de exploración de datos

Algunos términos comunes

• Repetitividad:– Una medida de la precisión de dentro de rachas

(within-run).

• Reproducibilidad:– Una medida de la precisión de entre rachas

(between-run).

Page 31: Técnicas graficas de exploración de datos

PRECISIÓN Y EXACTITUDEvaluación estadística de datos

Page 32: Técnicas graficas de exploración de datos

Precisión y exactitud

• Para la química analítica, es vital realizar mediciones analíticas que provean resultados precisos y exactos.

• Incluso, la calidad de la información puede ser evaluada mediante su precisión y exactitud.

• La exactitud puede ser definida como la habilidad del resultado medido de ser igual al valor verdadero en la data [E= - x̄� ].

Page 33: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión

• Exactitud:– Evaluada en base al valor promedio.

• Precisión:– Evaluada en base a la desviación estándar.

Page 34: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión

• Cuatro principales escenarios de precisión y exactitud para los resultados:

Page 35: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión

• En química analítica, se suele dar prioridad a la precisión más que a la exactitud.

• Los resultados obtenidos con precisión podrían ser corregidos mediante comparación con estándares.

• En cambio, resultados con baja precisión no pueden ser corregidos posteriormente.

Page 36: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión• ¿Cómo evaluar la precisión de mis resultados?

• La desviación estándar provee una medición útil de la dispersión de mis resultados alrededor de un valor central (¿y la forma de la distribución?).

• Sin embargo, a fin de evaluar la precisión de los resultados se puede recurrir a las distribuciones de frecuencia.

• Mientras más amplia sea la distribución, menor será la precisión de los resultados.

• Se suele asumir que datos correctamente colectados presentarán una distribución normal, lo cual nos permite el posterior uso de modelos estadísticos basados en esta distribución (normal).

Page 37: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión

Page 38: Técnicas graficas de exploración de datos

Midiendo la exactitud y la precisión

• A fin de graficar un histograma que refleje la distribución de mis resultados, necesitaré una gran cantidad de datos (i.e. 500 observaciones).

• Sin embargo, puedo hacer uso del teorema del límite central:

– Un conjunto de datos (resultados) presentarán la misma distribución que la de la población a la que pertenecen.

– Conforme el tamaño de la muestra se incrementa, los datos se aproximarán más a un distribución normal.

Page 39: Técnicas graficas de exploración de datos

DISTRIBUCIÓN DE PROBABILIDADES

Evaluación estadística de datos

Page 40: Técnicas graficas de exploración de datos

Distribución normal

• Obtenida al graficar una distribución de probabilidad en base a una gran cantidad (infinita) de observaciones.

• Su forma y simetría alrededor de la media es función de la desviación estándar.

• Independientemente de su media y desviación estándar, es siempre cierto que aproximadamente:– 68% de las observaciones recaen entre +/- 1 DS a partir de la

media.– 95% de las observaciones entre +/- 2 DS.– 99.7% entre +/- 3 DS.

Page 41: Técnicas graficas de exploración de datos
Page 42: Técnicas graficas de exploración de datos

Distribución normal

• Responde a la fórmula:

Page 43: Técnicas graficas de exploración de datos

La Distribución normal estándar• Por conveniencia, la distribución normal puede ser transformada

a una distribución normal estándar en términos de z, donde:

• Y considerando:– Media ()= 0– Desviación estándar ()= 1

– Donde:

Page 44: Técnicas graficas de exploración de datos

La Distribución normal estándar

• De esta manera, conociendo y , y asumiendo que dicha variable posee una distribución normal, es posible calcular (z)

• Así, se puede determinar el área bajo la curva de la distribución.

Page 45: Técnicas graficas de exploración de datos

La Distribución normal estándar

Page 46: Técnicas graficas de exploración de datos

La Distribución normal estándar

• Ejemplo: – Si las medidas repetidas de una valoración se

distribuyen de forma normal con media de 10.15 mL y desviación estándar de 0.02 mL, encuentre:

• La proporción de medidas que serán inferior a 10.20 mL.

• La proporción de medidas que serán inferiores a 10.12

• La proporción de medidas que estarán entre 10.12 mL y 10.20 mL.

Page 47: Técnicas graficas de exploración de datos

EL PROBLEMA DE LAS MUESTRAS PEQUEÑAS

Evaluación estadística de datos

Page 48: Técnicas graficas de exploración de datos

La distribución t

• La Distribución t– Nunca podremos muestrear a todos los

representantes de la población.

– Necesidad de estimar la y la de la población N en base a una muestra de tamaño n.

– De aquí:• x̄�• s

Page 49: Técnicas graficas de exploración de datos

La distribución t

• Sin embargo, toda estimación conlleva una incertidumbre.

• La incertidumbre en la estimación de y dependerá del tamaño de la muestra.

• Es por esto que la distribución t [o (t)] nos sirve para “ajustar” esa incertidumbre en función de n.

• Cuando n es pequeña (ej. 3 o 5) la incertidumbre es mayor que cuando n es grande (ej. 30 a 50).

Page 50: Técnicas graficas de exploración de datos

La distribución t

• Ahora, el valor de puede ser estimado a partir de x̄� mediante:

• Donde:– sx̄� es la desviación estándar de la muestra

– t/2 es el valor de t para el nivel de confianza deseado (ej. 95%) y con cierto número de grados de libertad (n - 1).

• Obteniéndose un rango de posibles valores de .

Page 51: Técnicas graficas de exploración de datos

La distribución t

• ¿Qué son los grados de libertad?– Número de combinaciones independientes que son

utilizadas para calcular s.– Por ejemplo:

• Una muestra de 5 observaciones permitirían un total de 4 combinaciones posibles independientes (xi - x̄� ):

• Serían cuatro las observaciones posibles de ser seleccionadas aleatoriamente para estimar , mientras x̄�que la quinta sería tomada “obligatoriamente”.

– Con una muestra de n=30 la distribución t se acerca mucho a la distribución normal.

Page 52: Técnicas graficas de exploración de datos

La Distribución t

Page 53: Técnicas graficas de exploración de datos

INTERVALOS DE CONFIANZAEvaluación estadística de datos

Page 54: Técnicas graficas de exploración de datos

Intervalo de confianza

• El intervalo de confianza es el rango dentro del cual podemos asumir que el resultado obtenido es verdadero.

• Los valores ubicados en los extremos de este rango son conocidos como los limites de confianza

Page 55: Técnicas graficas de exploración de datos

Intervalo de confianza• Muestras grandes:

– En el caso de muestras grandes, asumimos una distribución íntegramente normal.

– El rango estará dado por:

– donde

Page 56: Técnicas graficas de exploración de datos

Intervalo de confianza

• Muestras grandes:– Ejemplo:

• Calcule los límites de confianza de la media al 95% y al 99% para las mediciones indicadas en la siguiente tabla:

• Considere s = 0.0165 g mL-1

Page 57: Técnicas graficas de exploración de datos

Intervalo de confianza

Page 58: Técnicas graficas de exploración de datos

Intervalo de confianza

• Muestras pequeñas:– En el caso de muestras pequeñas:

– Donde t corresponde a la t critica con (n-1) grados de libertad y a un determinado nivel de confianza.

Page 59: Técnicas graficas de exploración de datos

Intervalo de confianza

• Muestras pequeñas:– El contenido del ion sodio de una muestra de

orina fue determinado mediante un electrodo selectivo al ión. Se obtuvieron los valores de: 102, 97, 99, 98, 101, 107 mM.

– ¿Cuáles serían los límites de confianza al 95% y 99% para la concentración del ión sodio?

Page 60: Técnicas graficas de exploración de datos

Intervalo de confianza

• Muestras pequeñas:

Page 61: Técnicas graficas de exploración de datos

Intervalo de confianza

Page 62: Técnicas graficas de exploración de datos

Intervalo de confianza• A partir de una determinada desviación

estándar (s), podemos construir un intervalo de confianza alrededor de la media.

• En el caso de una variable con distribución aleatoria:

– 68% de las observaciones recaen entre +/- 1 DS a partir de la media.

– 95% de las observaciones entre +/- 2 DS.– 99.7% entre +/- 3 DS.

Page 63: Técnicas graficas de exploración de datos

Intervalo de confianza

• Para el caso de la distribución normal, si definiéramos un intervalo de confianza del 95% tendríamos que:– El 95% de las observaciones se encuentran entre:

• ¿De dónde surgió el “1.96”?

Page 64: Técnicas graficas de exploración de datos

Intervalo de confianza

• El 1,96 proviene de la distribución t.

• Recordemos que su forma depende de los grados de libertad (n-1):

Page 65: Técnicas graficas de exploración de datos

Intervalo de confianza

• El valor t depende de:– Grados de libertad (n-1)– Grados de confianza (ej. 95%)

• 1.96 corresponde a infinitos grados de libertad y 95% de confianza.

• Con esta premisa:– ¿que ocurrirá si incrementamos el tamaño de la muestra?– ¿Que ocurrirá si alteramos nuestro “nivel” de confianza deseado?– ¿Nuestro “intervalo de confianza” será siempre el mismo?

Page 66: Técnicas graficas de exploración de datos

Intervalo de confianza

• Ejercicio:– Imagine que cuenta con un lote de 1000 botellas de agua.– Se procede a tomar una muestra de 100 botellas.– En base a esa muestra, usted determina el valor promedio y

la desviación estándar de un parámetro en particular (ej. conductividad).

– Si vuelve a tomar una muestra de 100 botellas:• ¿esperaría que el parámetro medido presente la misma media y

DS?• ¿Cree que siempre será el mismo?• ¿Es posible que en un momento dado obtenga un valor

completamente diferente?

Page 67: Técnicas graficas de exploración de datos

Intervalo de confianza

• De aquí la necesidad de establecer los intervalos de confianza

Page 68: Técnicas graficas de exploración de datos

Intervalo de confianza

Page 69: Técnicas graficas de exploración de datos

Intervalo de confianza

Page 70: Técnicas graficas de exploración de datos

Intervalo de confianza

Page 71: Técnicas graficas de exploración de datos

Intervalo de confianza

• A fin de conocer el intervalo de confianza:

• Consideremos una observación a partir de una población de:– x=105– s= 3.2– n=6

• ¿Cuál sería el intervalo de confianza?

Page 72: Técnicas graficas de exploración de datos
Page 73: Técnicas graficas de exploración de datos

Intervalo de confianza

• Entonces

Page 74: Técnicas graficas de exploración de datos

Interpretación

• Errónea:– Existe un 95% de probabilidad que la media real

de la población se encuentre dentro de este intervalo

• Correcta– El 95% de las veces que se calcule el intervalo de

confianza de esta manera, éste contendrá el valor verdadero de la media de la población.

Page 75: Técnicas graficas de exploración de datos

Interpretación

• Si repitiéramos un experimento 100 veces, y creáramos 100 intervalos de confianza:– aproximadamente 95 de éstos intervalos

contendrían el valor real de la media– 5 no lo contendrían.

Page 76: Técnicas graficas de exploración de datos

Otras medidas de dispersión

• El rango, que es la diferencia numérica entre los valores mayor y menor de un conjunto de datos.

• La desviación estándar relativa (DER):– sr= s/x̄�

• La DER porcentual– sr x 100 (%)

Page 77: Técnicas graficas de exploración de datos

CONTRASTES DE SIGNIFICACIÓNPruebas de hipótesis

Page 78: Técnicas graficas de exploración de datos

Contrates de significación

• Analicemos un experimento clásico:– Pensemos en un análisis realizado a dos muestras

de agua diferentes (A y B).– Cada análisis es realizado por triplicado.– Al comparar las medias de ambas mediciones,

resulta que el valor medio de A es superior al valor observado en B.

– ¿Podemos decir que la muestra A presenta una mayor concentración del analito que B?

Page 79: Técnicas graficas de exploración de datos

Contrates de significación

• Analicemos un experimento clásico:– ¿Por qué no puedo decir que A presenta una mayor

concentración del analito que B?– La respuesta:

• La diferencia podría deberse simplemente a errores en el análisis.

• Fuentes de errores aleatorios y sistemáticos.• Errores aleatorios (variabilidad natural)

– Es por esto que necesitamos definir si una diferencia entre observaciones es diferente de manera significativa en términos estadísticos.

Page 80: Técnicas graficas de exploración de datos

Contrates de significación

• Importancia– Si no llevamos a cabo una prueba estadística,

únicamente podremos decir “no existe diferencia entre las muestras”.

– No hay manera de cuantificar la “fortaleza” de esa diferencia.

– En cambio, en base a un análisis estadístico, diríamos “no existe una diferencia significativa entre las muestras”.

– Las técnicas descriptivas revisadas solo nos permiten llegar a conclusiones empíricas, mas no cuantitativas.

Page 81: Técnicas graficas de exploración de datos

Contrates de significación

• Recordar:– Un resultado estadístico dependerá del cuidado

que se tenga en:• La selección del método estadístico• El procesamiento de los datos• El diseño experimental adecuado• Reducción de errores en el análisis• Los niveles de significación

Page 82: Técnicas graficas de exploración de datos

Contrates de significación

• Niveles de significación– 0.05, significativo

• 1/20

– 0.01, muy significativo• 1/100

– 0.001, altamente significativo• 1/1000

Page 83: Técnicas graficas de exploración de datos

ALGUNOS CASOS COMUNESContrastes de significación

Page 84: Técnicas graficas de exploración de datos

Evaluar la exactitud de un método

• Estrategia:– Análisis de una muestra de referencia cuyo valor

medio es conocido ().– Hipótesis nula (H0):

• No existe diferencia significativa entre el valor medido ( ) y el valor real del analito (x̄� ).

– Análisis utilizado• El análisis t del estudiante

Page 85: Técnicas graficas de exploración de datos

Evaluar la exactitud de un método

• T-test– Calculado en base a:

– Si t calculado es superior al valor t crítico, no existe evidencia suficiente para aceptar H0, siendo por tanto rechazada.

– Por tal motivo, si existe una diferencia significativa entre y x̄� .

s

nXt

Page 86: Técnicas graficas de exploración de datos

Evaluar la exactitud de un método

• T-test: Ejemplo– En un nuevo método para determinar selenourea en agua

se obtuvieron los siguientes valores:

– 50.4, 50.7, 49.1, 49.0, 51.1 ng/mL

– Conociendo que la muestra contenía 50 ng/mL de selenourea, ¿Existe alguna evidencia de error sistemático?

– Deberemos definir nuestro nivel de significación (p<0.05, 0.01, 0.001).

Page 87: Técnicas graficas de exploración de datos

Evaluar la exactitud de un método

• T-test: Ejemplo– Determinamos la media (50.06 ng/mL), y la desviación estándar

(0.956 ng/mL).– Procedemos a determinar el valor de t.

– Comparamos el valor t con el valor t crítico (tn-1).– Dado que el valor t es menor que el t critico, la hipótesis nula se

retiene.– No existe diferencia entre y x̄� , por tanto tampoco existe evidencia

suficiente para constatar la presencia de un error sistemático.

s

nXt

Page 88: Técnicas graficas de exploración de datos

Comparación de dos medias experimentales• Estadístico t es calculado mediante:

• Donde s es calculado a partir de:

• Y t posee (n1+ n2-2) grados de libertad• Considerando que ambas poblaciones poseen una s similar.

21

21

11nn

s

XXt

)2(

)1()1(

21

222

2112

nn

snsnS

Page 89: Técnicas graficas de exploración de datos

Comparación de dos medias experimentales• Ejemplo 1:

– Se realiza una comparación de dos métodos para determinar el contenido de Cromo (mg/kg) en muestras de hierba de centeno.

– Al realizar cinco determinaciones para cada método, se obtuvo que:

• Método 1: = 1.48; s= 0.28x̄�• Método 2: = 2.33; s= 0.31x̄�

– Asumiendo que ambos métodos poseen una similar, ¿estos dos métodos proveen medias que difieren significativamente?

Page 90: Técnicas graficas de exploración de datos

Comparación de dos medias experimentales• Ejemplo 2:

– A fin de determinar el contenido de estaño en productos alimenticios, las muestras fueron llevadas a ebullición con HCl a reflujo para diferentes tiempos. Los resultados fueron:

• 30 min: 55, 57, 59, 56, 56, 59• 75 min: 57, 55, 58, 59, 59, 59

– Asumiendo que es similar para ambas poblaciones, ¿Es significativamente diferente el contenido de Sn obtenido mediante ambos tiempos de ebullición?

Page 91: Técnicas graficas de exploración de datos

Comparación de dos medias experimentales• Casos especiales

– ¿Qué ocurre cuando no es posible asumir que las s de ambas poblaciones son similares?– El estadístico t es obtenido mediante:

– Con grados de libertad

– Redondeado a un número entero

Page 92: Técnicas graficas de exploración de datos

Comparación de dos medias experimentales• Ejemplo:

– Los datos de la siguiente tabla proporcionan la concentración de tiol (mM) en el lisado sanguíneo de dos grupos de voluntarios, siendo el primer grupo “normal” y el segundo sufriendo de artritis reumatoide.

– Normal: 1.84; 1.92; 1.94; 1.92; 1.85; 1.91; 2.07– Reumatoide: 2.81; 4.06; 3.62; 3.27; 3.27; 3.76

– ¿Existe evidencia suficiente que indique una diferencia significativa en los niveles de tiol entre los dos grupos?

Page 93: Técnicas graficas de exploración de datos

T-test pareado

• Objetivo:– Necesidad de comparar dos métodos de análisis

en base a varias muestras que contienen diferente cantidad del analito.

Page 94: Técnicas graficas de exploración de datos

T-test pareado

• Estrategia:– Diferencias pueden deberse a:

• Diferencias por errores aleatorios• Diferencias en las concentraciones del analito en cada

muestra• Diferencias en la técnica de análisis.

– Las diferencias que realmente nos interesa son las obtenidas para cada par de mediciones

– Se define así la variable d.

Page 95: Técnicas graficas de exploración de datos

T-test pareado

• Estrategia:– Adicional a la variable d, es necesario definir la s

de los valores de d (sd). – Con esta información se calcula el estadístico t:

– Importante indicar que los valores medidos podrían ser también valores promedios.

Page 96: Técnicas graficas de exploración de datos

T-test pareado

• Algunas asunciones:– Los valores de d se encuentran normalmente

distribuidos– La precisión y el bias en ambos métodos se

mantienen constantes a diferentes concentraciones del analito

– n mediciones deben ser realizadas por el método 1 para cada muestra, y m mediciones por el método 2.

– m y n no necesariamente deben ser iguales.

Page 97: Técnicas graficas de exploración de datos

T-test pareado

• Ejercicio:– Determinar si existe una diferencia significativa

entre los dos métodos de análisis empleados para la determinación de paracetamol (%m/m) en tabletas.

Page 98: Técnicas graficas de exploración de datos

Contrastes de una y dos colas

• Motivos:– Hasta ahora, los contrastes de significación han sido

realizados haciendo uso de las dos colas de la distribución.

– Es decir, damos la oportunidad de que la diferencia entre las poblaciones sea positiva o negativa.

– Sin embargo, en ocasiones es posible con antelación conocer que lo que contrastaremos es un aumento.

– En esos casos, es recomendable hacer uso de un contraste unilateral.

Page 99: Técnicas graficas de exploración de datos

Contrastes de una y dos colas

• Estrategia:– Hacer uso del valor de t indicado en la tabla para

el doble del nivel de significación deseado:• Contraste de una cola al nivel P=0.01, se emplea la

columna P=0.02• Contraste de una cola al nivel P=0.05, se emplea la

columna P=0.10

Page 100: Técnicas graficas de exploración de datos

Contrastes de una y dos colas

• Ejemplo:– Se sospecha que un método de valoración ácido-base tiene

un error de indicador significativo, y por tanto, tiende a dar resultados sistemáticos positivos (sesgo positivo). Para comprobar esto se utiliza una disolución exactamente 0.1M de ácido para valorar 25.00 mL de otra disolución exactamente 0.1M de una base, con los siguientes resultados (mL):

– 25.06; 25.18; 24.87; 25.51; 25.34; 25.41

– Contrastar la existencia de sesgo positivo en estos resultados.

Page 101: Técnicas graficas de exploración de datos

La prueba F• Objetivo:

– Comparación de la varianza (precisión)

• Estrategia:– Determinación de una relación entre las varianzas de las dos poblaciones– Donde el valor de F 1– Necesidad de ordenar el numerador y denominador adecuadamente.– Se asume que las varianzas de ambas poblaciones son relativamente similares– Comparación del estadístico F con el valor crítico (tablas).

• Posibilidades– Evaluar si existe una diferencia entre la varianza de ambas poblaciones (dos colas).– Evaluar si existe una diferencia positiva o negativa entre las poblaciones (una cola).

22

21

S

SF

Page 102: Técnicas graficas de exploración de datos

La prueba F

• Ejemplo:– Se desea evaluar si dos métodos de síntesis para

un mismo producto poseen una misma precisión:

Page 103: Técnicas graficas de exploración de datos

La prueba F

• Ejemplo:– Se comparó un método propuesto para la

determinación de DQO en aguas residuales con otro método patrón. Los siguientes resultados fueron obtenidos para una misma muestra de aguas residuales:

• Método patrón: x= 72; s= 3.31; n=5• Método propuesto: x= 72; s= 1.51; n=6

– ¿Existe evidencia de que el método propuesto es más preciso que el patrón?

Page 104: Técnicas graficas de exploración de datos

ANOVAPruebas de Hipótesis

Page 105: Técnicas graficas de exploración de datos

ANOVA

• Cuando necesitamos probar diferencias significativas entre dos poblaciones (o métodos) hemos recurrido al test t.

• Sin embargo, cuando se desea probar diferencias significativas entre mas de dos poblaciones se recurre al Análisis de Varianza (ANOVA).

• Importante indicar que el ANOVA únicamente nos indicará si existe o no una diferencia entre las poblaciones evaluadas.

• El ANOVA no me indica las relaciones entre poblaciones.

Page 106: Técnicas graficas de exploración de datos

ANOVA

• Asunciones:– Las poblaciones evaluadas poseen una distribución

normal.– Las varianzas (2) es la misma para todas las

poblaciones.– La única diferencia entre poblaciones radica en sus

valores medios.– ANOVA considera dos potenciales fuentes de variación

de las medias:• Variación entre poblaciones• Variación dentro de cada una de las poblaciones

Page 107: Técnicas graficas de exploración de datos

ANOVA• Ejemplo:

– Un químico desea evaluar cuatro métodos diferentes de extracción a fin de determinar un compuesto orgánico en el agua de mar. Para este fin, el químico prepara una solución en agua de mar del compuesto orgánico a ser evaluado, y lo analiza por triplicado con cada uno de los métodos propuestos. Los resultados obtenidos se muestran a continuación:

Método de extracción

Valor medido(unidades)

Valor promedio (unidades)

A 300, 294, 304 299

B 299, 291, 300 296

C 280, 281, 289 283

D 305, 310, 300 305

296

Page 108: Técnicas graficas de exploración de datos

ANOVA

• Solución:– Es claro que existen potenciales diferencias entre

los métodos (entre poblaciones), así como en las lecturas obtenidas dentro de cada método (dentro de cada población).

Page 109: Técnicas graficas de exploración de datos

ANOVA

• Variación dentro de tratamientos – Cálculo de la varianza (2) para cada uno de los

tratamientos.– Obtención de una varianza promedio.

Page 110: Técnicas graficas de exploración de datos

ANOVA

• Variación dentro de cada tratamiento

Page 111: Técnicas graficas de exploración de datos

ANOVA

• Variación dentro de cada tratamiento

Método de extracción

Valor medido(unidades)

Valor promedio (unidades)

2

A 300, 294, 304 299 25.5

B 299, 291, 300 296 25.0

C 280, 281, 289 283 24.5

D 305, 310, 300 305 25.0

Media global 296 25.0

Page 112: Técnicas graficas de exploración de datos

ANOVA

• Variación entre tratamientos

– Considerando que:• Varianza promedio dentro de los tratamientos= 25 con

8 grados de libertad (g.l.)• Varianza entre los tratamientos= 86 con 3 g.l.

Page 113: Técnicas graficas de exploración de datos

ANOVA• Hipótesis nula:

– No existe diferencia significativa entre los tratamientos• Análisis estadístico utilizado:

– F test

– Comparación del F calculado contra el F crítico.– H0 se acepta si Fcalc es menor que Fcrit

– En este caso Fcrit = 4.006 (p=0.05)– Por tanto: No existe diferencia significativa entre las medias de los

tratamientos

entosen tratami promedio Varianza

tos tratamienentre VarianzacalcF

Page 114: Técnicas graficas de exploración de datos

ANOVA

• ¿Y donde esta la diferencia?– Método de la Mínima Diferencia Significativa (m.d.s.)

– Donde n es el número de replicas, s es la estimada dentro de los tratamientos, y (n-1) son los grados de libertad de esta estimación.

– Si la magnitud de la m.d.s. es inferior a la diferencia entre las medias de los tratamientos ordenados, entonces no hay evidencia de una diferencia significativa.

)1(

2... nhtnssdm

Page 115: Técnicas graficas de exploración de datos

ANOVA• Volviendo a nuestro ejemplo:

• Donde la m.d.s. es inferior a la diferencia de varianza existente entre cualquiera de los tratamientos.

• A= 25.5 B= 25.0 C= 24.5 D=25.0

)1(

2... nhtnssdm

63.936.23

225... sdm

Page 116: Técnicas graficas de exploración de datos

ANOVA

• Ejercicio:– Se evalúa la estabilidad de un reactivo a diferentes

condiciones de almacenamiento, obteniéndose los siguientes resultados:

Condiciones Valores medidos MediaA

recién preparado102, 100, 101 101

B una hora en la oscuridad

101, 101, 104 102

Cuna hora luz tenue

97, 95, 99 97

Dna hora luz brillante

90, 92, 94 92

Media global 98

Page 117: Técnicas graficas de exploración de datos

DATOS ANÓMALOSPruebas de Hipótesis

Page 118: Técnicas graficas de exploración de datos

Datos anómalos

• Frecuentemente nos encontramos con datos extremos, que podrían proceder de:– Un error en la medición– Un error en la calibración– Un dato inusual

• ¿Cómo identificarlos?– Técnicas gráficas de exploración (ej. diagrama de cajas)– Otras técnicas estadísticas

• Contrate de Dixon (o contrates Q)• Contrate de Grubbs

Page 119: Técnicas graficas de exploración de datos

Datos anómalos

• Contraste de Dixon (Q)– Basado en el cálculo de Q:

• Qcalc contrastado con Qcrit.

• Asunciones:– Válido para tamaños de muestra de 3 a 7– La población presenta una distribución normal

*pequeño másvalor -grande másvalor

cercano másvalor -sospechosovalor Q

*Rango considerando el valor sospechoso

Page 120: Técnicas graficas de exploración de datos

Datos anómalos

• Contraste de Dixon (Q)– Ejemplo 1:

• Se obtuvieron los siguientes valores para la concentración de nitrito (mg/L) en una muestra de agua de río:

• 0.403 0.410 0.401 0.308

• ¿Deberíamos rechazar la última medición?

Page 121: Técnicas graficas de exploración de datos

Datos anómalos

• Contraste de Dixon (Q)– Ejemplo 2:

• Al análisis anterior se adicionan tres nuevas mediciones:

• 0.403 0.410 0.401 0.380 0.400 0.413 0.411

• ¿Se debería mantener la observación de 0.380?

Page 122: Técnicas graficas de exploración de datos

Datos anómalos• Contraste de Grubbs

– Basado en el cálculo de G1, G2 y G3:

– donde:• S es la desviación estándar de todos los datos

(incluyendo los datos extremos)• xi es la observación sospechosa

• S2n-2 es la varianza calculada al excluir los valores

extremos

– Si G1, G2 y G3 calculados son mayores que los G críticos, entonces existe evidencia significativa de que son valores anómalos (provenientes de otra población)

s

xxG

i1

s

xxG in 2

2

22

3 1

31

sn

snG n

Page 123: Técnicas graficas de exploración de datos

Datos anómalos

• Contraste de Grubbs

n

Page 124: Técnicas graficas de exploración de datos

Datos anómalos

• Contraste de Grubbs

Page 125: Técnicas graficas de exploración de datos

Datos anómalos

• Ejemplo:– Los resultados obtenidos para la determinación de

Cd (ng/g) en cabello humano mediante TXRF se muestran a continuación: