Selección de variables y análisis de clasi cación en datos

Preview:

Citation preview

Selección de variables y análisis de clasi�cación en datosde alta dimensión

Tejeda, Y.E.1, Valenzuela, C.2, Nazabal, M.2, Fernández, J.R.2,Guerra,

V.3,Sánchez, J.E.3

1Departamento de Bioinformática

Universidad de las Ciencias Informáticas

2Ensayos Clínicos

Centro de Ingeniería Genética y Biotecnología

3Departamento de Matemática

Instituto de Cibernética, Matemática y Física

II Encuentro Cuba-México de Métodos Numéricos y Optimización

Tejeda, et al. (UCI, CIGB, ICIMAF) 1 / 23

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 2 / 23

Motivación

En la minería de datos el especialista se enfrenta a menudo conmatrices donde el número de �las o columnas son muy grandes

Un área de la minería de datos es la expresión de genes en datosmicroarray que permite el monitoreo simultáneo de miles deexpresiones de genes por muestra

Una aplicación importante de la expresión de genes en datosmicroarray es la clasi�cación de muestras en categorías talescomo el tipo de tumor

Tejeda, et al. (UCI, CIGB, ICIMAF) 3 / 23

Motivación Problema básico

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 4 / 23

Motivación Problema básico

Ensayos Clínicos

Detectar genes con niveles de expresión diferentes en ratonesC57BL6 tratados para modelar la enfermedad Esclerosis Múltiple.

Alta dimensionalidad (pocas replicas y muchas variables)

Altos niveles de ruido

Variación biológica, experimental, sistemática y al azar

Mismos genes participan en varios procesos y rutas

Tejeda, et al. (UCI, CIGB, ICIMAF) 5 / 23

Motivación Problema básico

Ensayos Clínicos

Detectar genes con niveles de expresión diferentes en ratonesC57BL6 tratados para modelar la enfermedad Esclerosis Múltiple.

Alta dimensionalidad (pocas replicas y muchas variables)

Altos niveles de ruido

Variación biológica, experimental, sistemática y al azar

Mismos genes participan en varios procesos y rutas

Tejeda, et al. (UCI, CIGB, ICIMAF) 5 / 23

Descomposición matricial CUR Ideas generales de CUR

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 6 / 23

Descomposición matricial CUR Ideas generales de CUR

Descomposición matricial CUR

La descomposición matricial CUR permite obteneraproximaciones matriciales de menor rango para una matriz dedatos

La descomposición matricial CUR consiste en descomponer unamatriz Am×n por el producto de tres matrices C, U y R

Tejeda, et al. (UCI, CIGB, ICIMAF) 7 / 23

Descomposición matricial CUR Algoritmo ColumnSelect

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 8 / 23

Descomposición matricial CUR Algoritmo ColumnSelect

Algoritmo ColumnSelect (Mahoney & Drineas, 2009)

πj =1

k∑kξ=1

(v

ξ

j

)21 Calcular los k principales vectores singulares derechos de A y πj

2 Mantener la j-ésima columna de A con probabilidadpj =min

{1, c ·πj

}∀ j ∈ {1, . . . , n}

3 Retornar la matriz C que consiste en las columnas seleccionadasde A

‖ A−PCA ‖F≤ (1+ ε/2) ‖ A−Ak ‖F

Tejeda, et al. (UCI, CIGB, ICIMAF) 9 / 23

Descomposición matricial CUR Algoritmo ColumnSelect

Algoritmo ColumnSelect (Mahoney & Drineas, 2009)

πj =1

k∑kξ=1

(v

ξ

j

)21 Calcular los k principales vectores singulares derechos de A y πj

2 Mantener la j-ésima columna de A con probabilidadpj =min

{1, c ·πj

}∀ j ∈ {1, . . . , n}

3 Retornar la matriz C que consiste en las columnas seleccionadasde A

‖ A−PCA ‖F≤ (1+ ε/2) ‖ A−Ak ‖F

Tejeda, et al. (UCI, CIGB, ICIMAF) 9 / 23

Descomposición matricial CUR Algoritmo ColumnSelect

Algoritmo ColumnSelect (Mahoney & Drineas, 2009)

πj =1

k∑kξ=1

(v

ξ

j

)21 Calcular los k principales vectores singulares derechos de A y πj

2 Mantener la j-ésima columna de A con probabilidadpj =min

{1, c ·πj

}∀ j ∈ {1, . . . , n}

3 Retornar la matriz C que consiste en las columnas seleccionadasde A

‖ A−PCA ‖F≤ (1+ ε/2) ‖ A−Ak ‖F

Tejeda, et al. (UCI, CIGB, ICIMAF) 9 / 23

Descomposición matricial CUR Algoritmo ColumnSelect

Otros algoritmos

paquete rCUR

Ihaka R. & Gentleman R.R: a language for data analysis and graphics

1 random

2 exact.num.random

3 top.scores

4 ortho.top.scores

5 highest.ranks

Tejeda, et al. (UCI, CIGB, ICIMAF) 10 / 23

Modelo de clasi�cación Análisis Discriminante Lineal

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 11 / 23

Modelo de clasi�cación Análisis Discriminante Lineal

(Boulesteix, A.-L., 2004)

Análisis Discriminante Lineal (LDA)Mínimos Cuadrados Parciales (PLS) (Wold, 1975)

Cuando el número de grupos es 2, entonces se pueden ranguear las

variables según su importancia en la clasi�cación (Boulesteix, 2004)Tejeda, et al. (UCI, CIGB, ICIMAF) 12 / 23

Modelo de clasi�cación Análisis Discriminante Lineal

(Boulesteix, A.-L., 2004)

Análisis Discriminante Lineal (LDA)Mínimos Cuadrados Parciales (PLS) (Wold, 1975)

Cuando el número de grupos es 2, entonces se pueden ranguear las

variables según su importancia en la clasi�cación (Boulesteix, 2004)Tejeda, et al. (UCI, CIGB, ICIMAF) 12 / 23

Resultados y discusión Descripción de los datos

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 13 / 23

Resultados y discusión Descripción de los datos

Tejeda, et al. (UCI, CIGB, ICIMAF) 14 / 23

Resultados y discusión Método de trabajo

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 15 / 23

Resultados y discusión Método de trabajo

Tejeda, et al. (UCI, CIGB, ICIMAF) 16 / 23

Resultados y discusión Resultados y discusión

Índice

1 Motivación

El problema básico que estudiamos

2 Descomposición matricial CUR

Ideas generales de CUR

Algoritmo ColumnSelect

3 Modelo de clasi�cación

Análisis Discriminante Lineal

4 Resultados y discusión

Descripción de los datos

Método de trabajo

Resultados y discusión

5 Conclusiones

Tejeda, et al. (UCI, CIGB, ICIMAF) 17 / 23

Resultados y discusión Resultados y discusión

Resultados: todas las variables

Tejeda, et al. (UCI, CIGB, ICIMAF) 18 / 23

Resultados y discusión Resultados y discusión

Resultados: las primeras 1000 variables

Tejeda, et al. (UCI, CIGB, ICIMAF) 19 / 23

Conclusiones

Conclusiones

Se presenta un método de trabajo para seleccionar variables endatos microarray usando la descomposición matricial CUR

La descomposición matricial CUR por los métodos top.scores yortho.top.scores son mejores que por el método random cuandose toman todas las variables

La descomposición matricial CUR por el método random es mejorque por los métodos top.scores y ortho.top.scores cuando seseleccionan las primeras 1000 variables

Recomendaciones

Obtener un modelo de clasi�cación con las variablesseleccionadasGenerar las matrices aleatorias por programación paralelausando el paquete snow

Tejeda, et al. (UCI, CIGB, ICIMAF) 20 / 23

Conclusiones

Conclusiones

Se presenta un método de trabajo para seleccionar variables endatos microarray usando la descomposición matricial CUR

La descomposición matricial CUR por los métodos top.scores yortho.top.scores son mejores que por el método random cuandose toman todas las variables

La descomposición matricial CUR por el método random es mejorque por los métodos top.scores y ortho.top.scores cuando seseleccionan las primeras 1000 variables

Recomendaciones

Obtener un modelo de clasi�cación con las variablesseleccionadasGenerar las matrices aleatorias por programación paralelausando el paquete snow

Tejeda, et al. (UCI, CIGB, ICIMAF) 20 / 23

Conclusiones

Conclusiones

Se presenta un método de trabajo para seleccionar variables endatos microarray usando la descomposición matricial CUR

La descomposición matricial CUR por los métodos top.scores yortho.top.scores son mejores que por el método random cuandose toman todas las variables

La descomposición matricial CUR por el método random es mejorque por los métodos top.scores y ortho.top.scores cuando seseleccionan las primeras 1000 variables

Recomendaciones

Obtener un modelo de clasi�cación con las variablesseleccionadasGenerar las matrices aleatorias por programación paralelausando el paquete snow

Tejeda, et al. (UCI, CIGB, ICIMAF) 20 / 23

Conclusiones

Conclusiones

Se presenta un método de trabajo para seleccionar variables endatos microarray usando la descomposición matricial CUR

La descomposición matricial CUR por los métodos top.scores yortho.top.scores son mejores que por el método random cuandose toman todas las variables

La descomposición matricial CUR por el método random es mejorque por los métodos top.scores y ortho.top.scores cuando seseleccionan las primeras 1000 variables

Recomendaciones

Obtener un modelo de clasi�cación con las variablesseleccionadasGenerar las matrices aleatorias por programación paralelausando el paquete snow

Tejeda, et al. (UCI, CIGB, ICIMAF) 20 / 23

Apéndice Lecturas complementarias

Lecturas complementarias I

Boulesteix, A. L.

PLS dimensional reduction for classi�cation with high-dimensional

microarray data.

Statistical Applications in Genetics and Moleculas Biology, vol. 3, 1,

Article 33, 2004

Boulesteix, A.-L. & Strimmer, K.

Partial Least Squares: A Versatile Tool for the Analysis of High-

dimensional Genomic Data.

Bioinformatics. 8(1):32�44, 2006

Mahoney, M. W. & Drineas, P.

CUR matrix decompositions for improved data analysis.

PNAS. 106(3):697�702, 2009

Tejeda, et al. (UCI, CIGB, ICIMAF) 21 / 23

Apéndice Lecturas complementarias

Lecturas complementarias II

Bodor, A., Csabai, I., Mahoney, M. & Solymosi, N.

rCUR:an R package for CUR matrix decomposition.

BMC Bioinformatics. 13:103, 2012

Tejeda, et al. (UCI, CIGB, ICIMAF) 22 / 23

Apéndice Lecturas complementarias

GRACIAS

Tejeda, et al. (UCI, CIGB, ICIMAF) 23 / 23

Recommended