41
Instituto tecnológico de Tuxtla Gutiérrez. Química analítica I Examen de la unidad 1 Errores y tratamientos estadísticos de los datos analíticos. Integrantes: Espinoza Arrioja Yesenia Guadalupe Hernández Ovalle Karina López López lea Ramírez Jiménez Evelin Ramírez Santizo Fredy Ulises Velázquez Córdova Alejandro Jakousi

1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Embed Size (px)

Citation preview

Page 1: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Instituto tecnológico de Tuxtla

Gutiérrez.

Química analítica I

Examen de la unidad 1

Errores y tratamientos estadísticos de los datos analíticos.

Integrantes:

Espinoza Arrioja Yesenia Guadalupe

Hernández Ovalle Karina

López López lea

Ramírez Jiménez Evelin

Ramírez Santizo Fredy Ulises

Velázquez Córdova Alejandro Jakousi

Page 2: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Tuxtla Gutiérrez, Chiapas. 19 de marzo del 2013.

Índice

Resumen……………………………………………………………...............................1

Introducción………………………………………………………………………………. 2

1.4. Errores y tratamiento estadístico de los datos analíticos………………………..3

1.4.1. Concepto y clasificación de errores……………………………………………..4

1.4.2. Eliminación y control de errores………………………………………………….7

1.4.3. Cálculo del valor más probable y límites de confianza……………………….19

1.4.4 Criterios estadísticos para rechazo de valores dudosos……………………...21

1.4.5 T de student y pruebas de significancia………………………………………...23

Bibliografía………………………………………………………………………………..28

Page 3: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

RESUMEN

Los errores experimentales son responsables de variación en la predicción y en la exactitud de los resultados experimentales por eso debemos analizar la importancia del tratamiento estadístico de los datos analíticos.Debemos definir los términos precisión y exactitud y los métodos para expresarla de igual forma.La precisión y exactitud con la que se determina una variable se refiere a cualidades distintas de su valor. Se dice que una variable fue determinada con exactitud, y su valor vista muy poco del valor verdadero o esperado.En cambio, se dice que una variable fue determinada con precisión, si su valor es altamente reproducible; es decir en una serie de medidas hay muy poca variación entre los valores determinados para la variable. La exactitud se mide usando el error absoluto o discrepancia porcentual respecto al valor verdadero.

Existen distintas pruebas para el rechazo de información dudosa como la prueba Q para poder utilizarla debemos de conocer su criterio al aplicarla en la evaluación de datos analíticos.Así como esta debemos de analizar otros métodos como t de Student y la prueba F como elementos para pruebas de significancia que sirven para la determinación de las diferencia entre dos medidas muéstrales y para la construcción de intervalos de confianza.

Page 4: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

1

INTRODUCCION

Como una ciencia experimental, la química analítica es cada día más cuantitativa, las mediciones (de masa, volumen, potencial eléctrico, unidades de absorbencia, etc.) Realizadas en el laboratorio tienen como metas cuantificar los valores para variables que en la naturaleza son continuas lo que implica que dichas mediciones deben estar sujetas a errores; incluso medidas independientes de la misma cantidad, cuando se realizan en condiciones aparentemente idénticas, difieren dentro de ciertos límites.

El análisis de los datos debe presentarse de manera que sea fácilmente comprensible. Con demasiada frecuencia, el lenguaje puramente estadístico significa poco o nada para los químicos y bioquímicos; expresiones tales como “existe una diferencia significativa” puede ser verdadera, pero es demasiado general para ser útil.

Toda medida física está sujeta a un grado de incertidumbre que, en el mejor de los casos, puede ser reducido a un valor aceptable, pero nunca podrá eliminarse totalmente. Determinar la magnitud de esta incertidumbre puede ser difícil y requiere de un esfuerzo adicional al de la medición y de criterio por parte del observador. Existen distintas pruebas que nos pueden ayudar en la comparación de la hipótesis, para los cálculos de los valores más probables y límites de confianza así como pruebas para el rechazo de valores dudosos.

Cualquier determinación cuantitativa en la que se exprese un resultado numérico sin el conocimiento de la incertidumbre asociada con él es un dato inútil. Por otra parte, un resultado de menor exactitud podrá ser de utilidad si se conoce el límite de error que lo afecta. Es decir, no existen resultados cuantitativos válidos si no van acompañados de una estimación de los errores inherentes a ellos. Es esencial conocer los errores experimentales para interpretar adecuadamente el resultado obtenido.

Existen varias causas para producir errores estadísticos, según las causas son clasificadas es errores de muestro y de no muestreos. El error de muestro puede ocurrir en cualquier encuesta sea un censo o una muestra. Estos errores comprenden errores sistemáticos y equivocaciones.

Los errores de no muestreo se originan en el conjunto de operaciones que se realizan en el proceso de recogida y almacenamiento de información. La magnitud

Page 5: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

del error ajeno al muestreo depende básicamente del número de observaciones registradas.

2

1.4. ERRORES Y TATAMIENTO ESTADISTICO DE LOS DATOS ANALITICOS

TRATAMIENTO ESTADÍSTICO DE DATOS

En una serie de determinaciones independientes de una cantidad dada, si los errores determinados se han eliminado efectivamente o corregido, el promedio o la media de los valores numéricos obtenidos puede tomarse como el valor más probable de la serie, y una evaluación del grado de este valor promedio puede considerarse como una medida del grado de limitación en que el resultado puede diferir del valor verdadero, desconocido. Esto es, por tanto, una medida de la seguridad del resultado.

RECHAZO DE UN RESULTADO

En una serie de medidas similares puede aparecer un resultado que difiere de manera considerable de los otros por estar aparentemente alejado, es decir, presenta una desviación considerablemente mayor que los demás; surge la tentación de descartarlo para calcular la media. La única base cierta para descartar este valor, es saber si al realizar el análisis alguno anduvo mal en esa determinación en particular. Por ejemplo, se pudo haber pensado una cantidad diferente anotada, se perdió algo de material durante la etapa de disolución, o en la transferencia de un recipiente a otro hubo perdida de líquido (se derramo), o se hirvió cuando el procedimiento lo impedía, etc. especial interés debe de ponerse al realizar los cálculos para descartar un error numérico.

El valor sospechoso puede ser descartado con 90% o 95% de confianza, dependiendo de las exigencias de las normas del departamento de aseguramiento de la calidad de la institución o empresa.

Todas las medidas experimentales son variables, suponiendo que el instrumento de medida sea lo suficiente sensible para detectar el nivel de variabilidad existente. Esta variabilidad es la determinante fundamental de la magnitud de los efectos que pueden ser detectados. A menos que las medidas presenten variabilidad, el experimentador está incapacitado para estimar la magnitud del

Page 6: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

efecto más pequeño que puede observar y no puede estimar cuantitativamente la veracidad de una diferencia observada.

3

Por consiguiente, es conveniente que en cualquier experimento las medidas repetidas sean variables y, naturalmente, que la magnitud de la variación sea pequeña. Nadie puede jactarse de haber obtenido una serie de medidas idénticas.

1.4.1 CONCEPTO Y CLASIFICACION DE ERRORES

Errores determinados, indeterminados y grandes

Todo resultado contendrá algo de error, independientemente de lo cuidados que haya sido la medición. Los errores se pueden clasificar como indeterminados o determinados, según su origen.

Los errores indeterminados son los que causan una distribución aleatoria de los datos en torno a un punto medio. A veces se les llama errores aleatorios. En el caso normal se relacionan con el efecto neto de varias fluctuaciones pequeñas e impredecibles, que podrían no identificarse o eliminarse con facilidad. Errores de este tipo son la causa de baja precisión.

Los errores determinados (o sistemáticos) causan, sin embargo, que todos los resultados se desplacen en una dirección. En consecuencia, se corren hacia los valores que son demasiado bajos o demasiado altos. Los errores de este tipo son la causa de la poca exactitud.

También puede haber errores de un tercer tipo, llamados errores grandes o gruesos. En el caso normal son grandes, y se deben a que se ha cometido un error de importancia en el mismo procedimiento analítico, invalidando así el resultado. Los errores grandes causan los puntos sospechosos que, bajo ciertas circunstancias, se podrán rechazar para no distorsionar el resto del conjunto de datos.

Page 7: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

4

Los errores indeterminados sólo causan dispersión de los datos en torno a un punto medio, que con frecuencia es cercano al valor verdadero. Si se calcula el valor medio de varias medidas replicadas, muchas veces se minimiza el efecto de los errores de esta clase. La magnitud de los errores indeterminados es, con frecuencia, una función de la magnitud del resultado; pero ello no necesariamente es cierto.

Por otra parte, los errores determinados, desplazan todos los datos en una dirección, todos en la misma cantidad. Por consiguiente, los errores determinados son más significativos cuando los valores de los datos son pequeños, ya que el porcentaje de error en ese caso aumenta en consecuencia.

Un error grande suele hacer que un punto de datos está muy alejado del resto de los datos, y de esta forma se identifica con facilidad.

Page 8: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

FUENTES DE ERRORES INDETERMINADOS

5

Los errores indeterminados o aleatorios surgen debido a variaciones pequeñas e impredecibles. La fuente del error puede deberse a muchos factores, como error humano, fluctuaciones de temperatura o pequeñas diferencias en las cantidades de reactivos usados. Como hay distintas fuentes de error que a veces hacen disminuir o aumentar el resultado, los datos se dispersan en torno al valor verdadero. En algunos casos, dos o más errores aleatorios se suman y aumentan el valor del dato. En otros, pueden causar una disminución neta en el valor del dato medido.

FUENTES DE ERRORES DETERMINADOS

Los errores determinados o sistemáticos hacen que todos los datos se desplacen en una dirección. Esos errores tienen, con frecuencia, una magnitud muy parecida. Este comportamiento se debe a que se presenta el mismo tipo de error de esta clase. Imagine una báscula que no está puesta en cero (tarada) antes de hacer la primer determinación; ésta da una indicación de 0.5g por ejemplo, cuando nada hay en el platillo. Después, cada masa que se pese será 0.5g menor que el valor que indica la báscula. También es claro que el error adquiere más importancia cuando se miden menores cantidades de reactivo.

Hay tres fuentes principales de errores determinados, que son:

1. Errores instrumentales

2. Errores de metodología

3. Errores personales

ERRORES INSTRUMENTALES

Debidos a la discrepancia entre el valor nominal y el real se corrigen procediendo periódicamente al contraste y aforo del material (calibración de instrumentos):

Contenido y vertido del material volumétrico (especialmente cuando se ha estado sometido a variaciones térmicas: calentar matraces aforados o guardarlos en la nevera)

Deriva de las señales en la instrumentación (desajuste del cero por calentamiento, aparición de radiación parasita, etc.)

Reactivos conteniendo impurezas

Page 9: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Efecto de memoria por la retención accidental de restos de muestra en el instrumento (dificultad de eliminar vestigios de compuestos poco volátiles en espectrometría de masas, elución muy lenta de componentes en cromatografía de gases, etc.)

6

ERRORES DE METODOLOGÍA

Se pueden presentar errores de metodología cuya causa es que el método que se sigue tiene fallas, o se realiza en forma incorrecta. En este caso, un ejemplo sería el uso de una pipeta de vidrio que tenga la punta rota y que, en consecuencia, no permita retener el pequeño volumen residual de titulación. La pipeta está calibrada para tener en cuenta ese volumen, y si no se retiene, todos los puntos de equivalencia en la titulación estarán desplazados por el mismo valor. De forma similar, un alumno puede sacudir con rigor la última gota de la pipeta cuando lo indicado es que se retenga; una vez más, el punto de equivalencia de la titulación estará desplazado.

ERRORES PERSONALES

Se relacionan con el juicio personal, en el caso normal. Hay muchos análisis donde intervienen el hecho de formarse un juicio. Por ejemplo la anotación de un punto de equivalencia de titulación a ojo o la estimación de una indicación en una escala. Algunas personas podrían pasarse en forma consistente de los puntos finales de las titulaciones si son daltónicas, mientras que otras siempre tenderán a redondear hacia abajo o hacia arriba la posición de la aguja respecto a la división más cercana. Son difíciles de eliminar los errores de esta clase, ya que todos tenemos prejuicios incorporados, independientemente de los objetivos que tratemos de ser. También es muy fácil tener una idea preconcebida de “que resultado se debe obtener” antes de hacer realmente un experimento. Tiene especial importancia precaverse de este tipo de errores.

1.4.2. ELIMINACION Y CONTROL DE ERRORES

La consideración de los errores experimentales Todos los datos contienen cierto grado de incertidumbre, inexactitud y errores asociados. Por consiguiente es imperativo estimarlos de modo que se tomen en cuenta o bien, si se cree que son inaceptables, los datos se puedan rechazar para volver a hacer la medición.

Los métodos principales para cuantificar y manejar errores implican la aplicación de una estadística sencilla.

MEDICIONES REPLICADAS

Page 10: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

En cualquier conjunto de datos siempre se presentan errores, no importa el cuidado con que se haga el análisis. Por consiguiente se aconseja hacer un análisis varias veces si es posible, para dar certidumbre de que la prueba produzca una indicación cierta y válida.

7

Si uno o más análisis resultan en una cifra que parezca dudosa al compararla con el resto de los datos, se aconseja hacer más lecturas antes de rechazar los datos dudosos. En este caso el dato dudoso puede ser útil para llamar la atención sobre un proceso que podría conducir a resultados incorrectos. Si el conjunto de datos tiene una dispersión grande de valores, poco correlacionados entre sí, la validez de todo el procedimiento analítico se puede poner en duda. En casa caso, tener en cuenta el conjunto total de datos puede ser muy útil.

La práctica para obtener varios resultados se conoce como obtener medidas replicadas o duplicadas (pueden ser varios duplicados). Los procesos que tienen por objeto vigilar la calidad y fiabilidad de los datos se llaman técnicas de aseguramiento de la calidad.

DISPERSIÓN DE LOS DATOS

La dispersión o intervalo de los datos es la diferencia aritmética entre los datos mínimo y máximo, para un conjunto de mediciones. Primero deben ordenarse los datos aritméticamente de menor a mayor, y restar el valor menor del mayor. Ejemplo 1:

Una determinación analítica de Pb en una solución acuosa se hace con seis replicados, con los resultados siguientes. Determinar la dispersión (o intervalo) de los datos.

ppm Pb2+

a) 20.1

b) 19.5

c) 20.3

d) 19.7

e) 20.0

f) 19.4

g) 19.6

Page 11: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Solución

La dispersión de los datos describe la diferencia entre el dato (o el punto de dato, es decir, el valor del dato) máximo y el mínimo.

8

El valor máximo corresponde a 20.3 ppm Pb2+ y el mínimo valor, a 19.4 ppm Pb2+.

Por consiguiente, la dispersión es (20.3 – 19.4) ppm Pb2+.

La dispersión es de 0.9 ppm Pb2+.

LA MEDIA

La media de un conjunto de medidas replicadas también se llama a veces media aritmética o promedio; sólo son sinónimos del mismo término. La media de un conjunto de datos es igual a la suma de todos los valores de los datos, dividida entre la cantidad de mediciones que contiene el conjunto de datos.

Se acostumbra usar la letra N para indicar la cantidad total de valores de datos, o de medidas replicadas.

También se usa con frecuencia la letra i como subíndice, para identificar cada valor de dato; i puede ir de i=1 a i=N. Por lo tanto, si hay cinco valores de datos, i puede ser 1,2,3,4 o 5. La letra griega mayúscula sigma (Σ), se usa para indicar la suma de varios datos. En el caso normal, se acompaña a Σ con índices y subíndices, para describir los valores mínimo y máximo de datos que se suman.

Entonces por consiguiente, significa que se deben sumar los datos desde su primero (i=1) hasta su último (i=N) valor. Con frecuencia hay varios valores de datos dentro de un conjunto, y en ese caso lo normal es identificar cada valor para evitar confusiones. Si se va a sumar el conjunto de datos x, este hecho puede

expresarse como , lo cual quiere decir que se deben sumar todos los datos (i=1 hasta N).

En consecuencia, la media de un conjunto de datos (x) será igual a:

Ejemplo 2:

Page 12: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Si se toma el mismo conjunto de datos que para el ejemplo 1, ppm Pb2+.

a) 20.1

b) 19.5

9

c) 20.3

d) 19.7

e) 20.0

f) 19.4

g) 19.6

= 20.1 + 19.5 + 20.3 + 19.7 + 20.0 + 19.4 + 19.6 = 138.6 ppm

Si N=7 entonces

LA MEDIANA

Si un conjunto de datos consiste en una cantidad impar de valores, la mediana es el valor del dato que está a la mitad del conjunto, cuando se ordena por valores aritméticos.

Sin embargo, si un conjunto de datos contiene una cantidad par de valores, la mediana es el promedio de los dos valores de los datos que están a la mitad del conjunto cuando se ordena por valores aritméticos. Ejemplo 3:

Si se toma el mismo conjunto de datos, ppm Pb2+. Determinar la mediana.

a) 20.1

b) 19.5

c) 20.3

d) 19.7

Page 13: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

e) 20.0

f) 19.4

g) 19.6

10

Se ordenan numéricamente los datos

a) 19.4

b) 19.5

c) 19.6

d) 19.7

e) 20.0

f) 20.1

g) 20.3

Aritméticamente, el punto medio es 19.7 ppm Pb2+, y en este caso es lo que se busca: la mediana = 19.7 ppm Pb2+.

Si el conjunto de datos tiene una cantidad par de valores, se debe dar un paso adicional:

Ejemplo 4:

Calcular la mediana de los datos que aparecen a continuación.

Los datos siguientes son iguales a los del ejemplo anterior, pero con un valor adicional. Hay ocho (cantidad par de valores), ppm Pb2+.

a) 20.1

b) 19.5

c) 20.3

d) 19.7

e) 20.0

f) 19.4

Page 14: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

g) 19.6

h) 19.9

Solución:

11

Se ordenan los datos numéricamente

Se calcula el promedio de los dos valores de datos que están a la mitad del conjunto, para determinar la mediana.

a) 19.4

b) 19.5

c) 19.6

d) 19.7

e) 19.9

f) 20.0

g) 20.1

h) 20.3

Se determina la mediana de los dos valores de dato que están a la mitad del conjunto ya ordenado. Estos dos valores se sumen y dividen entre 2 para calcular su promedio, y en consecuencia, la mediana del conjunto de datos:

CUANTIFICACIÓN DE LOS ERRORES EXPERIMENTALES

Precisión y exactitud son dos términos que se confunden con frecuencia.

La precisión describe la reproducibilidad de los resultados; en otras palabras, lo cerca que están las mediciones replicadas entre sí. La reproducibilidad y, en consecuencia, la precisión del conjunto de datos, se determinan viendo la dispersión de los valores.

La precisión del conjunto de datos, se puede evaluar mediante:

1. La desviación estándar.

Page 15: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

2. La desviación estándar relativa (coeficiente de variación).

3. La varianza.

12

Cada uno de estos términos es una función de la dispersión de los datos, la exactitud de los datos, en contraste, describe lo cerca que están los valores respecto al valor verdadero o aceptado para la medición. Naturalmente, puede ser que nunca sea posible determinar la exactitud, ya que esto implicaría suponer que ya se sabe el valor verdadero, con certeza absoluta.

La exactitud de los datos puede ser descrita en función del error de los valores.

EL ERROR ABSOLUTO

El error absoluto de un sistema es igual a la diferencia entre el valor obtenido xi y el valor verdadero (o aceptado) xy:

EL ERROR RELATIVO

El error relativo, Et, describe la diferencia en relación con la magnitud del valor verdadero y, en consecuencia, puede ser más útil que considerar el error absoluto aislado.

En el caso normal, el error relativo se describe en términos de un porcentaje del valor verdadero, o en milésimos del valor verdadero. Si el error relativo se debe escribir como porcentaje, entonces se puede calcular con la ecuación siguiente:

En forma parecida, si se va a expresar en partes por mil (o tanto por uno) (‰) del valor verdadero, Er se calcula con la ecuación siguiente:

Ejemplo 5:

Calcular el error relativo, en porcentaje, para un análisis de hierro que da como resultado 115 ppm de contenido de Fe, si el valor verdadero es 100 ppm.

Solución:

Page 16: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Se asigna el valor verdadero xt y xi; a continuación se calcula el porcentaje de error en el resultado:

Xt = 110 ppm de Fe

Xi = 115 ppm de Fe 13

Er puede ser un valor negativo, si el valor medido es menor que el valor verdadero. El signo negativo sirve para indicar que le resultado es bajo. Un valor positivo de Er indica que un resultado es mayor que el valor verdadero.

Ejemplo 6:

De nuevo se usan los datos que en el ejemplo anterior, para calcular el error relativo en partes por mil, para un análisis cuyo resultado es 115 ppm de Fe y el valor verdadero es 110 ppm de contenido de Fe.

Solución:

Se asignan los valores de xt, el valor verdadero, y de xi, el valor medido; a continuación se calcula el error, en el resultado, en partes por mil del valor verdadero.

Xt = 110 ppm de Fe

Xi = 115 ppm de Fe

Exactitud y Precisión

Page 17: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Se pueden comparar la exactitud y la precisión, imaginando un tiro al blanco al que disparan varios deportistas. Si un tirador apunta bien, cabe esperar que pegue en el blanco una y otra vez. Este caso es análogo al de un procedimiento analítico que tiene altos valores de exactitud y precisión.

14

DESVIACIONES ESTÁNDAR

Page 18: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Los errores indeterminados o aleatorios se pueden manejar con normalidad mediante la estadística. Se debe calcular una desviación estándar muestral, o de la muestra, para conjuntos de datos de 10 valores o menos; se deben calcular desviaciones estándar poblacionales, o de población, si los conjuntos tienen más de 10 datos.

Las desviaciones estándar tienen las mismas unidades que las mediciones originales; si los análisis originales producen resultados en partes por millón ppm de Pb, entonces la desviación estándar también se expresará en ppm Pb.

15

El concepto de desviación estándar supone una distribución de datos en torno al valor medio o verdadero; por consiguiente, una desviación estándar grande corresponde a una gran dispersión de datos.

INTERPRETACIÓN Y APLICACIÓN

La desviación estándar es una medida del grado de dispersión de los datos del valor promedio. Dicho de otra manera, la desviación estándar es simplemente el "promedio" o variación esperada con respecto de la media aritmética.

Una desviación estándar grande indica que los puntos están lejos de la media, y una desviación pequeña indica que los datos están agrupados cerca de la media.

Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estándar son 7, 5 y 1, respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.

La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida en desviaciones estándar), entonces consideramos que las medidas contradicen la teoría. Esto es de esperarse, ya que las mediciones caen fuera del rango de valores de los cuales sería razonable esperar que ocurrieran si el modelo teórico fuera correcto. La desviación estándar, es uno de tres parámetros de ubicación central, nos muestra la agrupación de los datos alrededor de un valor central.

DESVIACIÓN ESTÁNDAR MUESTRAL

Page 19: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

La desviación estándar muestral, s, describe la dispersión de los datos respecto al punto medio de sus valores, para un conjunto de mediciones replicadas. La ecuación es:

16

Ejemplo:

Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos.

Los datos representan la edad de los miembros de un grupo de niños. { 4, 1, 11, 13, 2, 7 }

1. Calcular el promedio o media aritmética .

En este caso, N = 6 porque hay seis datos:

i=número de datos para sacar desviación estándar

Page 20: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

2. Calcular la desviación estándar s

17

DESVIACIÓN ESTÁNDAR POBLACIONAL

Cuando un conjunto de datos tiene una cantidad mayor de valores (>10, en el caso típico), se altera un poco la ecuación que se usa para calcular la desviación estándar y es:

Ahora se usa σ para representar la desviación estándar de un conjunto grande de datos, y se llama desviación estándar poblacional.

Page 21: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

LA VARIANZA

La varianza es el cuadrado de la desviación estándar:

Varianza = s2 (para conjuntos de datos con <10 valores)

O bien

Varianza = σ2 (para conjuntos de datos con >10 valores)

18

1.4.3 CALCULO DEL VALOR MÁS PROBABLE Y LÍMITES DE CONFIANZA

Para una serie de medias constituida por un gran número de datos, se han calculado los valores de las probabilidades de que cualquier medida caiga dentro de ciertos límites en torno a la media; para infinito número de medidas se puede plantear que:

μ=x

En la siguiente tabla se dan algunos valores de esta probabilidad. Esto quiere decir que la probabilidad de encontrar un valor dentro del intervalo [la media ±σ ] solo comprende al 68.3% de ellos; dentro del intervalo [la media ±2σ ] correspondiente al 95.5%, etc.

Como en química analítica no es posible obtener “infinito” numero de medidas, no es confiable tomar que la media, x , sea una estimación del valor verdadero, μ. Luego es necesario hacer un estimativo del intervalo de incertidumbre, planteando que el valor “verdadero” o mas probable obtenido de una serie de medidas se encuentre en el intervalo:

μ=x ±δ

Llamado “limite de confiabilidad”

Límite de error expresado en ±σ Probabilidad de que un resultado quede entre los limites

0.5 0.3831.0 0.6831.5 0.8662.0 0.9552.5 0.9983.0 0.9974.0 0.9999

Page 22: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

En 1908 W.S. Grosset, quien escribía bajo el seudónimo de Student, desarrollo un parámetro “t”, para calcular valores para el intervalo de incertidumbre δ , que depende

tanto del número de medidas como del grado de confiabilidad de experimentador. Este

valor se puede expresar como:δ=±t∗s√N

El reporte final de los resultados vendrá dado por la expresión:

CL=x± t∗s√N

19

En donde x es el promedio, “N” es el tamaño de la muestra, “s” es la desviación estándar, y el valor de “t” es la distribución de la tabla siguiente:

No. De mediciones replicadas Probabilidad90% 95%

2 6.314 12.7063 2.920 4.3034 2.235 3.1825 2.132 2.7766 2.015 2.5717 1.943 2.4478 1.895 2.3659 1.860 2.30610 1.833 2.262*Tabla de distribución t

Ejemplo:

Calcular los limites de confianza de 95% y 90% para los datos del valor medio de la concentración de Pb, en:

a) 19.4b) 20.6c) 18.7d) 19.2e) 21.6f) 18.9g) 19.9

CL 95%=19.8±(2.447 )(1.1)

√7=19.8±1.0 ppm

Page 23: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

CL 90%=19.8±(1.943 )(1.1)

√7=19.8±0.8 ppm

Ppm = partes por millón

19.8 = límite de confianza

20

1.4.4. CRITERIOS ESTADÍSTICOS PARA RECHAZO DE VALORES DUDOSOS.

PUNTOS SOSPECHOSOS

Si un conjunto de datos contiene un valor que apreciablemente es distinto de todos los demás, hay una gran posibilidad de que esté equivocado, y que sea el resultado de un error grande. Debe optarse por conservar o rechazar su valor. Si se conserva un valor espurio, el promedio de los datos, y también la desviación estándar de éstos, quedarán distorsionados. Por otra parte, naturalmente existe la posibilidad de que el valor dudoso sea válido en realidad, y simplemente sea inesperado; en este caso puede ser que la precisión del procedimiento analítico sea menor que la esperada. Debe tenerse mucho cuidado, ya que si se rechaza un dato válido, se introducirá un sesgo (o prejuicio) en los datos.

LA PRUEBA Q

Si se sospecha que existe un punto dudoso, la prueba Q permite calcular un cociente, “Qexp”, y compararlo con una table, para decidir si se debe rechazar o

conservar el valor. La prueba no produce un resultado definido, pero da alguna idea de la confianza que se puede asociar al rechazar un valor de dato. Se calcula con la ecuación:

Qexp=xq−xnxh−x 1

Donde xq representa al valor dudoso, xn es el valor vecino más cercano, xh es el

dato con valor máximo y x1 es el dato con el valor mínimo.

Page 24: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Habiendo calculado el valor Qexp debemos compararlo con los valores de la tabla

que correspondan a la cantidad de datos replicados que se midieron. Si Qexp es

menor que todos los valores de la tabla, no se pueden rechazar los datos con la certeza indicada en esa tabla. Si Qexp es mayor que un valor de Q que aparezca

en la tabla, se puede rechazar ese valor (al menos), con la certidumbre asociada con el cociente Q que muestre la tabla. Con frecuencia,, un valor de Qexp queda

entre dos valores, y en este caso los datos se pueden rechazar con una certidumbre entre los dos valores que aparecen.

21______________________________________________________Nªde medidas rechazo con rechazo con rechazo conReplicadas 90%de confianza 95%de confianza 99% de confianza 3 0.941 0.970 0.994 4 0.765 0.829 0.926 5 0.642 0.710 0.821 6 0.560 0.625 0.740 7 0.507 0.568 0.680 8 0.468 0.526 0.634 9 0.437 0.493 0.598 10 0.412 0.466 0.568

Tabla para la prueba Q

Ejemplo Una serie de medidas replicadas de contenido de agua en una muestra de etanol, para el método Kart-Fischer, tuvo los siguientes resultados:

a) 0.71% b) 0.65% c) 0.68% d) 0.72% e) 0.91%

¿Con qué confianza se puede rechazar el dato e), si se usa la prueba Q? Solución: Calcular Qexp y comparar con la tabla Q

xq = 0.91% es el valor dudoso

xn = 0.72% es el valor vecino más cercano

xh = 0.91% es el valor máximo de los datos

x1 = 0.65% es el valor mínimo de los datos

Page 25: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

comparar Qexp con la tabla de la prueba Q, con los valores adecuados que

correspondan a cinco puntos de dato: Qexp = 0.73

Los valores Q para cinco datos son 0.642 si no se va a rechazar dato alguno, con 90% de confianza, 0.710 para rechazar datos con 95% de confianza y 0.821 para rechazarlos con un 99% de confianza:

Qexp = 0.73 > 0.710, pero <0.821

Por consiguiente se puede llegar a la conclusión que este punto dudoso se puede rechazar con más de 95% de confianza, pero con menos de 99% de confianza.

22

1.4.5. T DE STUDENT Y PRUEBA DE SIGNIFICANCIA

LA PRUEBA T Otra prueba para evaluar si se debe rechazar un punto dudoso es la prueba Tn, a

la que con frecuencia se le conoce sólo como la prueba T.

Tn=(xq−xn)

s

donde xq es el valor dudoso en cuestión y nxes el valor del dato vecino más

cercano. En este caso, el valor de Tn también se compara con una tabla estándar de la

prueba T, para la cantidad adecuada de medidas replicadas

Nº de medidas rechazo con rechazo con rechazo con

Replicadas 95% de confianza 97% de confianza 99% de confianza

3 1.15 1.16 1.17

4 1.46 1.48 1.49

5 1.67 1.71 1.75

6 1.82 1.89 1.94

7 1.94 2.02 2.10

Page 26: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

8 2.03 2.13 2.22

9 2.11 2.21 2.52

10 2.18 2.29 2.41

Tabla para la prueba T

Ejemplo: Si se usan los datos del ejemplo anterior, para medidas replicadas del contenido de agua en un solvente orgánico, ¿Con qué confianza se puede rechazar el valor e)?

23f) 0.71% g) 0.65% h) 0.68% i) 0.72% j) 0.91%

Se calcula primero s, la desviación estándar de los datos. Se calcula la media de los datos. Se calcula el valor T y se compara con la tabla de la prueba T s = 0.10% H2O

x = 0.73% H2O

Tn = (0.91 – 0.73)/0.1 = 1.8 para cinco datos

Lo mejor hace la estadística inferencial es ayudarnos a tomar decisiones acerca de las poblaciones con base en la información que poseemos de las muestras.

Una de las herramientas más útiles para hacer esto es una prueba de significancia estadística que puede aplicar a diferentes tipos de situaciones, dependiendo de la naturaleza de la pregunta que se está planteando y de la forma de la hipótesis nula.

Las pruebas de significancia inician con el punto de partida, la hipótesis nula.Las pruebas de significancia se basan en el hecho de que cada tipo de hipótesis nula (como Ho:M1=M2 que representa la ausencia de diferencia entre las medidas de dos muestras) tiene asociado un tipo de estadística especifico .

PRUEBA DE SIGNIFICACIÓN.

Page 27: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Un método analítico debe arrojar libres de errores sistemáticos, de tal forma que solo involucren errores aleatorios y el valor final este lo más próximo verdadero. Esta propiedad se puede estudiar al aplicar el método analítico a una muestra patrón que contenga una cantidad conocida de analito.el ensayo de significación es una prueba de estadística que permite diferenciar entre la cantidad medida y la conocida, para justificar los errores aleatorios que acompañan al método aplicado. Este ensayo prueba si las diferencias entre los resultados son significativas, o si se pueden justificar solo por variaciones aleatorias .las pruebas de significación se ha utilizado en la evaluación de los resultados experimentales.

LA PRUEBA F PARA LA COMPARACION DE DESVIACIONES DE ESTÁNDAR.

Las pruebas de significación descritas antes se utilizan para las medidas muéstrales y, por tanto, para detectar errores sistemáticos.

24En muchos casos, también es importante comparar desviaciones estándar, es decir errores aleatorios de dos conjuntos de datos. Esta comparación ,como en el caso de las pruebas de las medias muéstrales ,puede tener dos formas : o bien probar si el método A es más preciso que el método B(es decir, una prueba de cola) o si los dos métodos A,B difieren en su precisión (o prueba de dos colas).Así ,si se quisiera probar si un método analítico nuevo es más preciso que uno estándar ,se debería utilizar la prueba de una cola; para saber si dos desviaciones estándar difieren significativamente (por ejemplo ,antes de aplicar la prueba t),seria adecuada una prueba de dos colas.

En la prueba f se considera la razón que existe entre las dos varianzas les, es decir la razón de los cuadros de las desviaciones estándar individuales. El valor calculado para F está dado por:

f=S1²s2²

EL CONCEPTO DE LA PRUEBA DE HIPÓTESIS (PRUEBAS DESIGNIFICANCIA)

Lo que realmente queremos saber es: “¿Se debe al azar la asociación observada?”, o “¿Qué tan probable es que la asociación observada se deba al azar?”. Nuestra creencia de que la hipótesis es verdadera antes de tener los resultados). La escuela frecuentista de estadística, de la cual provienen las pruebas de significancia, no puede contestar esta pregunta directamente. En vez, las pruebas de significancia y los valores p intentan dar una respuesta indirecta, reformulando la pregunta como: “¿Con qué frecuencia se vería una asociación tan fuerte como la observada sólo por azar?”. El rol del azar es llevado a cabo por un modelo adecuado de probabilidad, seleccionado para representar la estructura de probabilidad de los datos y el

Page 28: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

diseño de estudio. Pero la mayor parte de los estudios epidemiológicos se desvían marcadamente de los modelos probabilísticos sobre los cuales se basan las pruebas estadísticas (p.ej., ver Sander Greenland, Aleatorización, estadística, e inferencia causal [Randomization, statistics, and causalinference]), de manera que aunque la teoría estadística es extremadamente precisa, debe ser aplicable interpretada con mucho cuidado. Una versión intermedia de la pregunta que subyace una prueba de significancia es “¿Qué tan consistentes son los datos numéricos con lo que se esperaría “por azar” – según un modelo de probabilidad adecuado”.

El modelo de probabilidad es frecuentemente uno que supone que no hay diferencia sistemática entre los grupos, en parte porque dichos modelos son más fáciles de derivar y también porque es a menudo conveniente para el marco de la prueba de hipótesis.

25El resultado de una prueba de significancia es una probabilidad (el valor p) que da una respuesta cuantitativa a esta pregunta intermedia. (Nota: La “hipótesis nula” estadística es pocas veces de interés desde el punto de vista sustancial. Una hipótesis de estudio debe ser planteada en términos de ausencia de asociación sólo cuando es lo que el investigador realmente desea demostrar. De hecho, es bastante difícil demostrar la ausencia de asociación, dado que la evidencia para la ausencia de asociación está relacionada con la probabilidad de error de tipo II (1 – potencia estadística) para el estudio, que estén general considerablemente mayor que el nivel de significancia – ver más adelante)

PRUEBA F

La comparación de la variabilidad de los datos en dos grupos independientes se hace mediante la prueba “ F ” que permite comparar dos varianzas (varianza es el cuadrado de la desviación estándar) obteniendo un coeficiente, mayor que uno resultante de dividir la varianza mayor entre la menor.

Page 29: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

Prueba de hipótesis para la razón de dos varianzas de población

26

Para interpretar la prueba se compara este valor de F calculado, con el indicado en la tabla de F de Fisher, para los grados de libertad de los dos grupos, correspondientes (g.l = n-1 de cada grupo, siendo el del numerador el que corresponda al del grupo que tenga la varianza mayor, o bien, se busca en un computador el valor de la probabilidad que corresponde al valor de F (distribución F, en EXCEL)

Si la probabilidad es p menor que 0.05 o en general, menor que el valor hipotético previsto, para el valor de F obtenido, se acepta generalmente que la diferencia entre las varianzas es significativa (lo que también se expresa diciendo que las varianzas son heterogéneas o heterocedásticas); si p mayor que 0.05, se dice que las varianzas son iguales (estadísticamente), homogéneas u homocedásticas.

Page 30: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

En el segundo caso los dos grupos se pueden considerar como pertenecientes a la misma población en consecuencia se pueden juntar, es decir, fusionarlos para tratarlos como un solo grupo.

Actualmente, se prefiere reportar la probabilidad correspondiente a la prueba y se deja al lector decidir si el nivel de error es aceptable, teniendo en cuenta las circunstancias y la importancia clínica.

27

BIBLIOGRAFIA

Alfonso Clavijo Díaz. Fundamentos de química analítica: equilibrio iónico y análisis químico. Universidad Nacional de Colombia, sede Bogotá. Primera

edición, 2002.

Carlos Mongay Fernández. Quimiometria. Universidad de Valencia, 2005.

Neil J. Autor Salkind. Métodos de investigación. Prentice Hall México, 1999.

Page 31: 1.4. Errores y tratamiento estadistico de los datos analiticos (examen unidad1).docx

I.Q. Carlos Josué Herrera Guzmán, http://www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r44765.PDF

I.Q. Carlos Josué Herrera Guzmán, http://www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r44766.PDF

28