44
MODELADO CALIBRACIÓN MULTIVARIADA

MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

MODELADO

CALIBRACIÓN MULTIVARIADA

Page 2: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Calibración multivariada

aproximaciones multivariadas para crear una curva de calibración:

regresión clásica u ordinaria (classical/ordinary least squares, CLS)regresión de componentes principales (principal component regression, PCR)regresión de cuadrados mínimos parciales (partial least squares regression, PLS)

optimizan el ajuste de los datos de manera diferente

método de evaluación y resultados similares

Page 3: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por componentes principales (PCR)

objetivo:

reducir el número de variables predictoras usando los primeros componentes principales en lugar de las variables originales

el método funciona bien si hay un alto grado de correlación entre variables predictoras, lo cual suele ocurrir en casos de calibración inversa

Page 4: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por componentes principales (PCR)

emplea una calibración inversa

no correlaciona las concentraciones directamente con las respuestas instrumentales

correlaciona las concentraciones con la matriz de puntuaciones (scores)

scores o variables latentes: deben condensar de un modo eficiente la información espectral completa (las variables manifiestas) en una matriz de tamaño adecuado

Page 5: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

aspecto fundamental: estimación del número de PC (por scree plot, PRESS, variación explicada)

si se emplean menos PC que los necesarios se obtiene una situación poco deseable llamada subajuste de los datos

demasiados PC no aportan información relevante sino esencialmente ruido: sobreajuste

en general, no es aconsejable utilizar un número de PC superior a la mitad del número de mezclas de calibración

Page 6: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Ejemplo regresión PCR

C1 C2 C3 A1 A2 A3 A4 A5 A6

A 0,89 0,02 0,01 18,7 26,8 42,1 56,6 70,0 83,2B 0,46 0,09 0,24 31,3 33,4 45,7 49,3 53,8 55,3C 0,45 0,16 0,23 30,0 35,1 48,3 53,5 59,2 57,7D 0,56 0,09 0,09 20,0 25,7 39,3 46,6 56,5 57,8E 0,41 0,02 0,28 31,5 34,8 46,5 46,7 48,5 51,1F 0,44 0,17 0,14 22,0 28,0 38,5 46,7 54,1 53,6G 0,34 0,23 0,20 25,7 31,4 41,1 50,6 53,5 49,3H 0,74 0,11 0,01 18,7 26,8 37,8 50,6 65,0 72,3I 0,75 0,01 0,15 27,3 34,6 47,8 55,9 67,9 75,2J 0,48 0,15 0,06 18,3 22,8 32,8 43,4 49,6 51,1

Page 7: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

debe realizarse primero un PCA

para los datos de la tabla anterior

Principal Component Analysis: A1.A2.A3.A4.A5.A6

Eigenanalysis of the Covariance Matrix

Eigenvalue 210,01 73,86 4,62 0,93 0,79 0,28Proportion 0,723 0,254 0,016 0,003 0,003 0,001Cumulative 0,723 0,977 0,993 0,996 0,999 1,000

Page 8: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

Principal Component Analysis: A1.A2.A3.A4.A5.A6 Variable PC1 PC2 PC3

A1 -0,124 -0,592 -0,253A2 -0,017 -0,513 0,048A3 0,066 -0,571 -0,102A4 0,244 -0,239 0,575A5 0,510 -0,042 0,545A6 0,813 0,043 -0,544

los primeros PCs explican más del 99 % de la variación en las absorbanciasse pueden seleccionar solo estas dos absorbancias (sin sentido cuando son tan pocas variables predictoras)

Page 9: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

obtener las puntuaciones (scores) de los PC seleccionados, en este caso 3, pero se pueden calcular más

Muestra Z1 Z2 Z3A 117,126 -61,6838 17,7148B 82,975 -73,3721 16,6156C 89,007 -76,0823 20,8135D 86,833 -58,4389 18,3197E 76,229 -74,0041 14,4500F 81,880 -60,4513 19,0386G 78,686 -66,9623 22,2530H 103,970 -58,0594 17,9048I 108,561 -74,1204 18,1318J 76,919 -51,4731 17,3175

Page 10: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

obtener la ecuación de regresiónRegression Analysis: c1 versus z1. z2. z3

The regression equation isc1 = 0,0685 + 0,0119 z1 + 0,00419 z2 - 0,0171 z3

Predictor Coef SE Coef T PConstant 0,06849 0,06571 1,04 0,337

z1 0,0118502 0,0003480 34,05 0,000z2 0,0041884 0,0005868 7,14 0,000z3 -0,017058 0,002345 -7,27 0,000

S = 0,0151299 R-Sq = 99,5% R-Sq(adj) = 99,3%PRESS = 0,00301908 R-Sq(pred) = 98,96%

Page 11: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

PCR: PRESS = 0,00301908

CLS: PRESS = 0,0274584

en este caso PRESS PCR < PRESS CLS

¿cuál modelo es mejor?

Page 12: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)

z1 z2 z3-0,123596 -0,592342 -0,253000-0,017376 -0,512546 0,0479360,066134 -0,570740 -0,1023000,243876 -0,238879 0,5750980,509940 -0,041775 0,5449490,812733 0,043296 -0,543617

Page 13: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)

z1 = - 0,124A1 -0,017A2 + 0,066A3 + 0,244A4 +0,510A5 +0,813A6

c1 = 0,06849 + 0,00037 A1 – 0,00317 A2 +

0,00014 A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6

repetir para las otras concentraciones

Page 14: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Minitab

para obtener la concentración de una muestra incógnita:A1 32,6A2 29,8A3 37,9A4 48,5A5 60,3A6 63,9

c1 = 0,61repetir para las otras concentraciones

Page 15: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pcr_cv.m

2. Calibración del modelo PCR empleando rutina: pcr_cal.m

3. Predicción de muestras incógnita > rutina pcr-pred.m

Page 16: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1- Validación cruzada: usar la rutina pcr_cv.m

% COMO EJECUTAR LA RUTINA 'pcr_cv.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado)% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada espectro.% Los datos de concentracion se guardan en un arc hivo con una columna e I filas.% 2) Ejecutar 'pcr_cv.m'.% 3) Introudcir el numero maximo de factores a prob ar.% 4) Introducir los nombres de los archivos ASCII e ntre comillas simples. Ejemplo: 'resp_cal.txt'

Page 17: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1- Validación cruzada: usar la rutina pcr_cv.m

Page 18: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1- Validación cruzada: usar la rutina pcr_cv.m

Page 19: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1- Validación cruzada: usar la rutina pcr_cv.m

Page 20: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

2- Calibración: usar la rutina pcr_cal.m

● se calibra un analito a la vez

% ************************************************* **% COMO EJECUTAR LA RUTINA 'pcr_cal.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado)% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada espectro.% Los datos de concentracion se guardan en un arc hivo con una columna e I filas.% 2) Ejecutar 'pcr_cal.m'.% 3) Introducir el numero de factores para la calib racion.% 4) Introducir los nombres de los archivos ASCII e ntre comillas simples. Ejemplo: 'resp_cal.txt'

Page 21: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 610

20

30

40

50

60

70

80

90Espectros de calibracion

Abso

rban

cia

Longitud de onda / nm

1 2

3

4

5 6

7

8

9 10

2- Calibración: usar la rutina pcr_cal.m

Page 22: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

3- Predicción: usar la rutina pcr_pred.m

COMO EJECUTAR LA RUTINA 'pcr_pred.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con tantas columnas como muestras incognita% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada muestra.% 2) Ejecutar 'pcr_pred.m'.% 4) Introducir el nombre del archivo ASCII entre c omillas simples. Ejemplo: 'resp_test.txt'

Page 23: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

PCR: c1= 0,61 (r. esp.= 5,35)

CLS: c1 = 0,61 (r. esp.= 5,45)

Empleando Matlab

3- Predicción: usar la rutina pcr_pred.m

Page 24: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Ventajas de la PCR

PCR combina las ventajas de la regresión multivariada CLS

es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado

el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Page 25: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Ventajas de la PCR

PCR combina las ventajas de la regresión multivariada CLS

es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado

el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral

Page 26: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Desventajas de la PCR

interferencias no modeladas: si aparece en una muestra incógnita un compuesto no contenido en la calibración, el análisis no será exacto

los modelos son capaces de detectar interferencias, aunque no de corregirla

PCR sólo utiliza factores calculados en base a información espectral del calibrado únicamente, sin referencia a las concentraciones de calibrado

Page 27: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por cuadrados mínimos parciales (PLS)

PLS (partial least-squares) emplea combinaciones lineales para predecir

diferencia con PCR es la forma de elegir estas combinaciones:

PCR: describen la máxima variación de las variables predictoras

PLS: las variables que tienen mayor correlación con la respuesta tienen un peso extra por ser más efectivas para la predicción

Page 28: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

PLS opera de manera similar a PCR weigth loading factors: contenidos en una matriz usualmente llamada W

loadings: contenidos en una matriz llamada P

las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR

Page 29: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una técnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibración del analito de interés

la obtención de estos factores se lleva a cabo mediante un algoritmo iterativo cíclico, muy similar a PCR

diferencia fundamental: en PLS los factores describen la máxima correlación posible entre la matriz de datos y el vector de concentraciones del analito de interés

Page 30: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

Formas de llevar a cabo PLS:

PLS1: cada variable respuesta se trata separadamente (más común)

PLS2: las variables respuesta se tratan colectivamente, se suele usar solamente cuando las variables respuesta están correlacionadas entre sí

Page 31: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS empleando Minitab

PLS Regression: c1 versus A1, A2, A3, A4, A5, A6

Number of components selected by cross-validation: 4Number of observations left out per group: 1Number of components cross-validated: 6

Analysis of Variance for c1

Source DF SS MS F PRegression 4 0,289476 0,0723690 333,84 0,000Residual Error 5 0,001084 0,0002168Total 9 0,290560

Page 32: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

Model Selection and Validation for c1

Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0,457325 0,0287984 0,900887 0,0469069 0,838564 2 0,957200 0,0255230 0,912159 0,0511899 0,823823 3 0,988793 0,0021123 0,992730 0,0078758 0,972894 4 0,992990 0,0010839 0,996270 0,0052733 0,981851 5 0,0010724 0,996309 0,0186933 0,935664 6 0,0010681 0,996324 0,0274584 0,905498

Page 33: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

c1 c1 standardized

Constant 0,0426293 0,00000A1 0,0039542 0,11981A2 -0,0111737 -0,27695A3 0,0038227 0,10753A4 -0,0092380 -0,22261A5 -0,0003408 -0,01425A6 0,0176165 1,16114

Page 34: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

Page 35: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

evaluación de los resultados: método leave-one-out

usando validación cruzada el número de componentes necesario para modelar c1 = 4

se elige a partir del valor de PRESS es menor para el modelo de 4 componentes (PRESS=0,0052733)

la capacidad predictiva del modelo disminuye si se agregan más componentes

Page 36: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Regresión por PLS

la ecuación de regresión es:

c1 = 0,0426 + 0,0040 A1 – 0,0112 A2 +0,0038 A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6

obtener ecuaciones para predecir c2 y c3 de manera similar

Page 37: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Comparación de resultados empleando Minitab

ecuación de regresión para c1 empleando los distintos métodos multivariados:

CLS c1 = 0,0501 + 0,000252A1 – 0,00939A2 + 0,00375A3 – 0,00920A4 – 0,00106A5 + 0,0179A6

PCR c1 = 0,06849 + 0,00037A1 – 0,00317A2 + 0,00014A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6

PLS c1 = 0,0426 + 0,0040A1 – 0,0112A2 +0,0038A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6

Page 38: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pls_cv.m

2. Calibración del modelo PLS empleando rutina: pls_cal.m

3. Predicción de muestras incógnita > rutina pls_pred.m

Page 39: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Empleando Matlab

PLS: c1 = 0,61 (r. esp. = 5,36)

PCR: c1 = 0,61 (r. esp. = 5,35)

CLS:

c1 = 0,61 (r. esp.= 5,45)

Page 40: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Ventajas de la regresión por PLS

es el método de calibración multivariada más empleado cuando la información instrumental proveniente de cada muestra es de tipo vectorial

incorpora información útil referida a concentraciones de calibrado durante la etapa de cálculo de las variables latentes

Page 41: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Desventajas de la regresión por PLS

interfencias no modeladas: desventaja de los métodos multivariados

métodos para calibración multivariada: se basan en el procesamiento de datos del tipo vectorial (espectros, voltamperogramas u otro tipo similar de datos instrumentales)

Page 42: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Tipos de calibraciones

calibración de orden cero: calibración univariada se clasificaría como de orden cero

calibración de primer orden: basada en vectores para cada muestra se llama calibración (un vector se considera, en lenguaje tensorial, como un tensor de primer orden)

Page 43: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Tipos de calibraciones

● calibración de segundo orden: empleando datos matriciales para cada muestras (EEM, obtenidas fácilmente en un espectrofluorómetro convencional), matrices de absorbancia-tiempo (obtenidas a través de una reacción química en un espectrofotómetro de arreglo de diodos), etc.

Page 44: MODELADO - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales el método funciona bien si hay un alto grado de correlación entre variables predictoras

Ventajas de las calibraciones de orden superior

ventaja de segundo orden: se pueden cuantificar analitos calibrados en presencia de interferencias no calibradas

propiedad ausente en los datos de primer orden

presenta inmensas posibilidades en el análisis de mezclas complejas, en particular las de origen biológico, alimentos

métodos: PARAFAC , ...