Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Métodos de Regresión y Clasi�cación Lineales
Alvaro J. Riascos Villegas
Junio de 2018
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Supongamos que Y es una variable real y X es un p-vector:
X ∈ Rp
Denotamos la distribución conjunta por Pr(X ,Y ).Nuestro objetivo es encontrar f : X → Y para, dado X ,
predecir Y pero necesitamos una noción de pérdida.
Vamos a utilizar el error al cuadrado (alternativamente podría
ser del error absoluto):
R(f ) = E [(Y − f (X ))2] (1)
R(f ) denota el error de prueba (o Riesgo de acuerdo a la
terminología introducida en las clases anteriores).
El problema es minimizar este error en un espacio de funciones
F.Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
R(f ) se puede escribir como:
R(f ) = EXEY |X[(Y − f (X ))2|X
]
Ahora, si para cada X = x hacemos que f (x) sea tal que:
EY |X[(Y − f (x))2|X = x
](2)
sea mínimo, entonces la función que a x le asocia f (x)resuelve el problema.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
R(f ) se puede escribir como:
R(f ) = EXEY |X[(Y − f (X ))2|X
]
Ahora, si para cada X = x hacemos que f (x) sea tal que:
EY |X[(Y − f (x))2|X = x
](2)
sea mínimo, entonces la función que a x le asocia f (x)resuelve el problema.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Luego, formalmente el problema que queremos resolver es:
f (x) = argminc
EY |X[(Y − c)2|X = x
]
Se puede demostrar que la solución a este problema es:
f (x) = E (Y |X = x)
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Modelo de Regresión Óptimo
Luego, formalmente el problema que queremos resolver es:
f (x) = argminc
EY |X[(Y − c)2|X = x
]
Se puede demostrar que la solución a este problema es:
f (x) = E (Y |X = x)
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Otras funciones de pérdida
Si usamos como función de pérdida E [|Y − f (X )|] se puede
demostrar que la solución óptima es:
f̂ (x) =Median (Y |X = x )
Esta es menos sensible a datos atípicos pero mas difícil de
trabajar analíticamente (no es diferenciable).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Otras funciones de pérdida
Si usamos como función de pérdida E [|Y − f (X )|] se puede
demostrar que la solución óptima es:
f̂ (x) =Median (Y |X = x )
Esta es menos sensible a datos atípicos pero mas difícil de
trabajar analíticamente (no es diferenciable).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
El modelo de regresión lineal asume que:
f (x)≈ XTβ
Si minimizamos el riesgo sujeto a que las funciones deben ser
lineales obtenemos:
β = E(XXT
)−1E (XY )
El modelo de regresión lineal asume f (x) es globalmente lineal.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
El modelo de regresión lineal asume que:
f (x)≈ XTβ
Si minimizamos el riesgo sujeto a que las funciones deben ser
lineales obtenemos:
β = E(XXT
)−1E (XY )
El modelo de regresión lineal asume f (x) es globalmente lineal.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
El modelo de regresión lineal asume que:
f (x)≈ XTβ
Si minimizamos el riesgo sujeto a que las funciones deben ser
lineales obtenemos:
β = E(XXT
)−1E (XY )
El modelo de regresión lineal asume f (x) es globalmente lineal.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
k-NN: k-vecinos más cercanos
k-NN estima la esperanza condicional localmente como una
función constante.
f̂ (x) = Ave (y |x ∈ Nk(x))
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Comparación entre la regresión lineal y k-NN
Ambos métodos aproximan E (Y |X = x) con promedios perohacen supuestos muy distintos sobre la verdadera función deaprendizaje.
El modelo de regresión lineal asume f (x) es globalmente lineal.k-NN asume que f (x) es localmente constante.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Comparación entre la regresión lineal y k-NN
Ambos métodos aproximan E (Y |X = x) con promedios perohacen supuestos muy distintos sobre la verdadera función deaprendizaje.
El modelo de regresión lineal asume f (x) es globalmente lineal.k-NN asume que f (x) es localmente constante.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Ejemplo: Cáncer de próstata
Stamey et.al (1989). Examina la relación entre al antígeno
prostático (lpsa) y marcadores clínicos.Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 1
lpsa
−1 1 2 3 4
oo oooo ooo ooo ooooo oo o o oo oo ooo o ooo ooo ooo ooo oo ooo oo ooo oo o ooooo oo o oooo ooo o ooo o ooo oooo oooo ooo oo ooo o
ooo
o oo ooo oooo oooo oo ooo ooooo oo ooo o ooo oo ooo ooo ooooo oooo o oo oo oo o oo ooo oo ooo o ooo oo oo ooo oo o oooo oo oo oo ooo o o
40 50 60 70 80
o o oooo ooo oooo oo o ooo oooo o oooooooo oo oo oo oo o ooo oo ooo oooo oo ooo oo oo oooo o oooo ooo oo o ooooo ooo oo oo ooo oo
o oo
oooooo o oooo ooooo ooo oo oo o ooo ooo ooooo ooo oooo oo oo ooo oo oooo oo oo o ooo oo o o oo oo oo oo o oooo ooo o oo ooo oo oooo oo
0.0 0.4 0.8
oooooooooooooooooooooooooooooooooooooo oooooooo ooooooooooooooo oo ooooooo oo oooooo oooo ooo oo oooo oo
oooo
oooooooooooo oo oo o oooo oo ooo oo o ooooo oo oo oooo o ooo ooo ooo o ooo ooooo oo oo o ooo o oo o o o ooo ooo oo oo oo o oooo o o
oo o
6.0 7.0 8.0 9.0
oo oooooooooo oooo ooooo oo ooo ooooooooo o oooo ooo ooo oooo oo oooooo ooo o ooo oooo oooo oooooooooo oooo oooo oo
oooo
01
23
45
oo oooooooooo oooo ooooo oo ooo oo oooooooo oo oo oooo oo oooo oo ooo ooo o oo o ooo o oooo ooo oo o oo ooo oo oo oo o o oo o oo
o oo
−1
12
34
oooo
o
o
oo
o
oo
o
oooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
oo
o
o
oooo
ooo
o
ooooo
o
o
o
oooooo
ooooooo
o
ooooo
oo
oooo
o
ooo
o
o
oo
o
o
ooo
o
ooo
lcavolo
oo
o
o
o
oo
o
o o
o
oo oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
oo
o
o
ooo
o
ooo
o
ooo o
o
o
o
o
ooo oo
o
oo
ooooo
o
oo
o oo
oo
ooo o
o
o oo
o
o
oo
o
o
oo o
o
o oo
oo
oo
o
o
oo
o
oo
o
o oo o
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
o o
o o
o
o
o oo
o
o oo
o
oo
ooo
o
o
o
ooo o
oo
oo
ooo
o o
o
oo
ooo
oo
oooo
o
o oo
o
o
o o
o
o
oo o
o
o oo
oooo
o
o
o o
o
oo
o
oooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
oo
o
o
ooo
o
o oo
o
oo
ooo
o
o
o
oooo
oo
oo
ooo
o o
o
oo
ooo
o o
oooo
o
oo o
o
o
oo
o
o
ooo
o
o oo
oooo
o
o
oo
o
oo
o
oooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
oo
o
o
oooo
ooo
o
ooooo
o
o
o
oooooo
oo
ooooo
o
oo
o oo
oo
oo oo
o
o oo
o
o
o o
o
o
ooo
o
ooo
oooo
o
o
oo
o
oo
o
oo oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
o o
o o
o
o
ooo
o
ooo
o
oo
ooo
o
o
o
o ooooo
oo
ooo
oo
o
oo
o oo
o o
oo oo
o
oo o
o
o
o o
o
o
oo o
o
ooo
oo
oo
o
o
oo
o
oo
o
oooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o o
o
o
o oo
o
ooo
o
ooo oo
o
o
o
ooo o
oo
oo
ooooo
o
oooo
o
oo
oooo
o
oo o
o
o
o o
o
o
ooo
o
ooo
oo
oo
o
o
oo
o
oo
o
oooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o o
o
o
o oo
o
o oo
o
ooo oo
o
o
o
ooo o
oo
oo
ooo
oo
o
oo
ooo
o o
oo oo
o
oo o
o
o
o o
o
o
oo o
o
o oo
o
o
o
o oooooooo
oo
oo
ooo
oooooo
o
oo
oo
oo
ooo
o
o
o
o
oo
ooo
oo
oo
oo
oo
o
o
o
o
o
o
oo
o
ooooooooo
oo
o
o
o
o
oo
oo
oo
oooooo
o
oo
ooo
ooo
o
o
o
o oo
oooooo
oo
oo
o oo
oo oo o
o
o
oo
oo
oo
ooo
o
o
o
o
oo
oo o
oo
oo
oo
oo
o
o
o
o
o
o
oo
o
oo
oo
o oo
oo
oo
o
o
o
o
o o
oo
oo
oooo
oo
o
oo
oo o
oo
o
lweighto
o
o
o oo
oooooo
o o
oo
ooo
oooo o
o
o
oo
oo
oo
oo o
o
o
o
o
o o
ooo
oo
oo
o o
oo
o
o
o
o
o
o
oo
o
oo
oo
o oo
oo
oo
o
o
o
o
o o
oo
oo
oooo
oo
o
oo
ooo
ooo
o
o
o
oooo oo
oo o
oo
oo
ooo
oo oo o
o
o
o o
oo
oo
ooo
o
o
o
o
oo
ooo
oo
oo
o o
oo
o
o
o
o
o
o
oo
o
oo
oo
o oo
oo
oo
o
o
o
o
oo
oo
oo
o o oo
oo
o
oo
ooo
oo
o
o
o
o
ooooooooo
oo
oo
ooo
oooooo
o
oo
oo
oo
ooo
o
o
o
o
oo
ooo
oo
oo
oo
oo
o
o
o
o
o
o
oo
o
oo
ooooooo
oo
o
o
o
o
oo
oo
oo
oooo
oo
o
oo
ooo
ooo
o
o
o
ooooooooo
oo
oo
o oo
oo oo oo
o
oo
oo
oo
oo o
o
o
o
o
oo
oo o
oo
oo
o o
oo
o
o
o
o
o
o
oo
o
oo
oo
o oo
oo
oo
o
o
o
o
oo
oo
oo
o ooo
oo
o
oo
oo o
oo
o
o
o
o
ooooooooo
oo
oo
ooo
oo oo oo
o
oo
oo
oo
ooo
o
o
o
o
o o
oo o
oo
oo
oo
oo
o
o
o
o
o
o
oo
o
oo
oo
ooo
oo
oo
o
o
o
o
oo
oo
oo
o ooo
oo
o
oo
ooo
ooo
2.5
3.5
4.5
o
o
o
ooooooooo
oo
oo
ooo
oo oo oo
o
oo
oo
oo
ooo
o
o
o
o
o o
ooo
oo
oo
oo
oo
o
o
o
o
o
o
oo
o
oo
oo
o oo
oo
oo
o
o
o
o
oo
oo
oo
o ooo
oo
o
oo
ooo
oo
o
4050
6070
80
o
o
o
oo
o
oo
o
ooooo
o
ooo
o
o
ooooooooooooo
o
oo
o
oo
oo
ooooo
o
o
o
ooooo
o
o
oo
o
o
o
o
oooo
oooo
o
o
o
o
oooo
ooo
o
o
oooooo
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
ooo oo
o
oo
o
o
o
o ooo
o ooo o ooo
o
o
o o
o
oo
oo
oo o
oo
o
o
o
oooo
o
o
o
oo
o
o
o
o
ooo
o
oo
oo
o
o
o
o
ooo
o
oo
o
o
o
oo
oo
oo
o
o
o
o
o
o
o o
o
o
o
oo
o
oo
o
o oooo
o
ooo
o
o
oooo
ooooo o oo
o
o
o o
o
oo
oo
ooo
oo
o
o
o
o ooo
o
o
o
o o
o
o
o
o
ooo
o
oo
oo
o
o
o
o
oooo
oo
o
o
o
oo
oo
oo
o
o
o
o
o
o
o o
ageo
o
o
oo
o
oo
o
oo ooo
o
oo
o
o
o
o ooo
ooo ooo oo
o
o
o o
o
oo
oo
oooo
o
o
o
o
oooo
o
o
o
o o
o
o
o
o
ooo
o
oo
oo
o
o
o
o
o ooo
oo
o
o
o
oo
oo
oo
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
ooooo
o
ooo
o
o
ooooooooooooo
o
oo
o
oo
oo
ooooo
o
o
o
ooooo
o
o
oo
o
o
o
o
ooo
o
oooo
o
o
o
o
oooo
ooo
o
o
oo
oo
oo
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
ooo oo
o
oo
o
o
o
o ooo
oooo o ooo
o
o
oo
o
oo
oo
oo oo
o
o
o
o
ooo o
o
o
o
oo
o
o
o
o
ooo
o
oo
oo
o
o
o
o
o oo
o
oo
o
o
o
oo
oo
oo
o
o
o
o
o
o
o o
o
o
o
oo
o
oo
o
ooo oo
o
oo
o
o
o
o ooo
oooooooo
o
o
o o
o
oo
oo
oo o
oo
o
o
o
o oo o
o
o
o
oo
o
o
o
o
oooo
oo
oo
o
o
o
o
oooo
ooo
o
o
ooo
ooo
o
o
o
o
o
o
oo
o
o
o
oo
o
oo
o
ooo oo
o
oo
o
o
o
o ooo
oooo oooo
o
o
oo
o
oo
oo
ooo
oo
o
o
o
o oo o
o
o
o
oo
o
o
o
o
ooo
o
oo
oo
o
o
o
o
o oo
o
oo
o
o
o
oo
oo
oo
o
o
o
o
o
o
oo
oooo oo
o
o
ooo
o
oooo
o
oo
o
o
o
o
o
o
o
o
o
o
o
ooo
oo
o
o
o
oo
oo
o
o
o
o
oo
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
oo
oo
oo
o
oo
o
o
oo
o
o
o
ooo
o
o
oo oo oo
o
o
o oo
o
oooo
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
o
oo
o o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o o
oo
o o
o
oo
o
o
o o
o
o
o
o oo
o
o
o oo ooo
o
o
oo o
o
oo oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
o
oo
o o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
o o
o o
o
oo
o
o
o o
o
o
o
ooo
o
o
o o oo oo
o
o
o oo
o
o oo o
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o o
o
o
o
oo
o o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o o
oo
oo
o
oo
o
o
oo
o
o
o
oo o
o
o lbph
oooooo
o
o
ooo
o
oooo
o
oo
o
o
o
o
o
o
o
o
o
o
o
ooo
oo
o
o
o
oo
oo
o
o
o
o
oo
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
oo
oo
oo
o
oo
o
o
oo
o
o
o
ooo
o
o
oooooo
o
o
ooo
o
oo oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
ooo
o o
o
o
o
oo
oo
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
oo
o o
o
oo
o
o
o o
o
o
o
o oo
o
o
oo oooo
o
o
ooo
o
oooo
o
oo
o
o
o
o
o
o
o
o
o
o
o
ooo
oo
o
o
o
oo
oo
o
o
o
o
oo
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
oo
oo
oo
o
oo
o
o
oo
o
o
o
ooo
o
o
−1
01
2
oo oooo
o
o
ooo
o
oooo
o
oo
o
o
o
o
o
o
o
o
o
o
o
ooo
oo
o
o
o
oo
oo
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
oo
o o
o
oo
o
o
o o
o
o
o
ooo
o
o
0.0
0.4
0.8
oooo oooooooooooooooooooooooooooooooooo
o
ooooooo
o
oooooooooooooo
o
o
o
oooooo
o
o
oooo
oo
o
ooo
o
oo
o
o
ooo
o
oooooo
oo oo oo ooo ooo ooooo oo o o oo oo ooo o ooo ooo ooo
o
oo oo ooo
o
o ooo oo o ooooo oo
o
o
o
oo ooo o
o
o
o o oo
o o
o
oo o
o
oo
o
o
o oo
o
oo ooo o
o oo ooo oooo oooo oo ooo ooooo oo ooo o ooo oo ooo
o
oo ooooo
o
ooo o oo oo oo o oo o
o
o
o
o ooo o o
o
o
oo oo
oo
o
oo o
o
oo
o
o
o oo
o
o ooo o o
o o oo oo ooo oooo oo o ooo oooo o oooooooo oo oo oo
o
o o ooo oo
o
oo oooo oo ooo oo o
o
o
o
oo o ooo
o
o
oo oo
o o
o
ooo
o
oo
o
o
oo o
o
o oo o oo
oooooo o oooo ooooo ooo oo oo o ooo ooo ooooo ooo
o
ooo oo oo
o
oo oo oooo oo oo o o
o
o
o
o o o oo o
o
o
o oo o
oo
o
o oo
o
o o
o
o
oo o
o
oooo oo
svi
oooooooooooo oo oo o oooo oo ooo oo o ooooo oo oo
o
ooo o ooo
o
oo ooo o ooo ooooo
o
o
o
o o ooo o
o
o
o o o o
oo
o
oo o
o
oo
o
o
o oo
o
o o ooo o
oo oooooooooo oooo ooooo oo ooo ooooooooo o oo
o
o ooo ooo
o
ooo oo oooooo ooo
o
o
o
o oooo o
o
o
o ooo
oo
o
ooo
o
oo
o
o
ooo
o
oooooo
oo oooooooooo oooo ooooo oo ooo oo oooooooo oo
o
o oooo oo
o
ooo oo ooo ooo o oo
o
o
o
o o oooo
o
o
o oo o
oo
o
oo o
o
oo
o
o
o o o
o
o ooo oo
oooo oooooooo
o
o
o
o
o
o
ooo
o
o
o
oooo
o
o
oooooo
o
o
o
o
oo
o
o
o
o
o
o
oooo
o
o
oo
o
oooo
ooo
o
o
o
o
oo
o
o
o
ooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
oo oo oo ooo ooo
o
o
o
o
o
o
o o o
o
o
o
o oo
o
o
o
oo oo
oo
o
o
o
o
o o
o
o
o
o
o
o
ooo o
o
o
oo
o
oo oo
oo
o
o
o
o
o
oo
o
o
o
ooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
o oo ooo oooo oo
o
o
o
o
o
o
o oo
o
o
o
oooo
o
o
ooo o
oo
o
o
o
o
o o
o
o
o
o
o
o
oo
o o
o
o
o o
o
o oo o
oo
o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
o o oo oo ooo ooo
o
o
o
o
o
o
o oo
o
o
o
oooo
o
o
oo oo
oo
o
o
o
o
o o
o
o
o
o
o
o
oo
oo
o
o
o o
o
o oo o
oo
o
o
o
o
o
oo
o
o
o
ooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo
o
o o
o
o
oooooo o oooo o
o
o
o
o
o
o
o oo
o
o
o
ooo
o
o
o
oooo
oo
o
o
o
o
oo
o
o
o
o
o
o
oo
o o
o
o
o o
o
oo o o
oo
o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
o o
o
o
o
o
o
o
o
o
o
o o
o
oo
o
o
oooooooooooo
o
o
o
o
o
o
ooo
o
o
o
oooo
o
o
oooooo
o
o
o
o
oo
o
o
o
o
o
o
oooo
o
o
oo
o
oooo
oo
o
o
o
o
o
oo
o
o
o
ooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o o
o
oo
o
o
lcp
oo oooooooooo
o
o
o
o
o
o
ooo
o
o
o
oooo
o
o
ooooo
o
o
o
o
o
oo
o
o
o
o
o
o
oo
oo
o
o
oo
o
o ooo
oo
o
o
o
o
o
oo
o
o
o
ooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o o
o
oo
o
o
−1
01
23
oo oooooooooo
o
o
o
o
o
o
ooo
o
o
o
ooo
o
o
o
oooooo
o
o
o
o
oo
o
o
o
o
o
o
oo
oo
o
o
o o
o
o o oo
oo
o
o
o
o
o
oo
o
o
o
oo
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o o
o
oo
o
o
6.0
7.0
8.0
9.0
oo
o
o oooooooo
ooo
o
o
oooo
o
o
o
oo
ooo
oooooo
o
o
ooo
o
o
o
ooo
o
o
oo
o
o
ooooo
o
oo
o
o
o
o
o
ooo
o
oooo
o
ooooooooo
o
oo
o
ooo
o
oooooo
oo
o
o oo ooo ooo
ooo
o
o
oo o o
o
o
o
o o
oo o
ooo ooo
o
o
o oo
o
o
o
ooo
o
o
oo
o
o
o o ooo
o
o o
o
o
o
o
o
o oo
o
o ooo
o
ooo oooo oo
o
o o
o
o oo
o
oo ooo o
o o
o
ooo oooo oo
oo o
o
o
oo oo
o
o
o
oo
ooo
o ooo oo
o
o
o oo
o
o
o
ooo
o
o
oo
o
o
o oo oo
o
oo
o
o
o
o
o
ooo
o
ooo o
o
oo ooo oo o o
o
oo
o
o oo
o
o ooo o o
o o
o
o oo ooo ooo
o oo
o
o
oo oo
o
o
o
oo
ooo
ooo oo o
o
o
o oo
o
o
o
o oo
o
o
o o
o
o
o oo oo
o
oo
o
o
o
o
o
o o o
o
oo oo
o
oo o ooooo o
o
o o
o
oo o
o
o oo o oo
oo
o
ooo o oooo o
ooo
o
o
oo oo
o
o
o
oo
o oo
o ooooo
o
o
o oo
o
o
o
o oo
o
o
o o
o
o
ooo oo
o
o o
o
o
o
o
o
o o o
o
oo oo
o
o o oooo ooo
o
oo
o
oo o
o
oooo oo
oo
o
ooooooooo
ooo
o
o
oooo
o
o
o
oo
ooo
oooooo
o
o
o oo
o
o
o
ooo
o
o
oo
o
o
ooooo
o
oo
o
o
o
o
o
ooo
o
o oo o
o
oooo oooo o
o
o o
o
ooo
o
oooooo
oo
o
ooooooooo
oo o
o
o
oooo
o
o
o
oo
oo o
ooooo o
o
o
o oo
o
o
o
ooo
o
o
o o
o
o
o ooo o
o
oo
o
o
o
o
o
o oo
o
o oo o
o
o ooo ooo oo
o
o o
o
o oo
o
o o ooo ogleason
oo
o
ooooooooo
ooo
o
o
oooo
o
o
o
oo
oo o
oooooo
o
o
o oo
o
o
o
o oo
o
o
oo
o
o
ooo oo
o
o o
o
o
o
o
o
o oo
o
o ooo
o
o o oo ooo oo
o
o o
o
o o o
o
o ooo oo
0 1 2 3 4 5
oo
o
o oooooooo
o
ooo
o
oooo
o
o
o
oo
o
o
o
ooooooooo
o
o
o
ooooo
o
o
oo
o
o
o
o
oooo
o
o
o
o
o
o
o
o
o
ooo
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
oo
o
o oo ooo ooo
o
ooo
o
oo o o
o
o
o
o o
o
o
o
ooo ooo ooo
o
o
o
oo o
oo
o
o
oo
o
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
oo o
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
2.5 3.5 4.5
o o
o
ooo oooo oo
o
o oo
o
oo oo
o
o
o
oo
o
o
o
o ooo oo ooo
o
o
o
ooo
oo
o
o
oo
o
o
o
o
oo
o o
o
o
o
o
o
o
o
o
o
oo o
o
o o
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
o o
o
o oo ooo ooo
o
oo o
o
oo oo
o
o
o
oo
o
o
o
ooo oo oooo
o
o
o
ooo
oo
o
o
o o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
ooo
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
−1 0 1 2
oo
o
ooo o oooo o
o
ooo
o
oo oo
o
o
o
oo
o
o
o
o ooooo ooo
o
o
o
ooooo
o
o
o o
o
o
o
o
oo
o o
o
o
o
o
o
o
o
o
o
oo o
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
oo
o
ooooooooo
o
ooo
o
oooo
o
o
o
oo
o
o
o
ooooooooo
o
o
o
ooooo
o
o
oo
o
o
o
o
oooo
o
o
o
o
o
o
o
o
o
ooo
o
o o
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
−1 0 1 2 3
oo
o
ooooooooo
o
o oo
o
oooo
o
o
o
oo
o
o
o
ooooo oooo
o
o
o
oo ooo
o
o
o o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
oo o
o
o o
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
oo
o
ooooooooo
o
ooo
o
oooo
o
o
o
oo
o
o
o
oooooo ooo
o
o
o
oo o
oo
o
o
oo
o
o
o
o
oooo
o
o
o
o
o
o
o
o
o
oo o
o
oo
o
o
oo
o
o
oo
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
0 20 60 1000
2060
100
pgg45
FIGURE 1.1. Scatterplot matrix of the prostate can-cer data. The first row shows the response against eachof the predictors in turn. Two of the predictors, svi
and gleason, are categorical.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Ejemplo: Cáncer de próstata
Correlación entre la variables predictoras.50 3. Linear Methods for Regression
TABLE 3.1. Correlations of predictors in the prostate cancer data.
lcavol lweight age lbph svi lcp gleason
lweight 0.300age 0.286 0.317lbph 0.063 0.437 0.287svi 0.593 0.181 0.129 −0.139lcp 0.692 0.157 0.173 −0.089 0.671
gleason 0.426 0.024 0.366 0.033 0.307 0.476pgg45 0.483 0.074 0.276 −0.030 0.481 0.663 0.757
TABLE 3.2. Linear model fit to the prostate cancer data. The Z score is thecoefficient divided by its standard error (3.12). Roughly a Z score larger than twoin absolute value is significantly nonzero at the p = 0.05 level.
Term Coefficient Std. Error Z Score
Intercept 2.46 0.09 27.60lcavol 0.68 0.13 5.37lweight 0.26 0.10 2.75
age −0.14 0.10 −1.40lbph 0.21 0.10 2.06svi 0.31 0.12 2.47lcp −0.29 0.15 −1.87
gleason −0.02 0.15 −0.15pgg45 0.27 0.15 1.74
example, that both lcavol and lcp show a strong relationship with theresponse lpsa, and with each other. We need to fit the effects jointly tountangle the relationships between the predictors and the response.
We fit a linear model to the log of prostate-specific antigen, lpsa, afterfirst standardizing the predictors to have unit variance. We randomly splitthe dataset into a training set of size 67 and a test set of size 30. We ap-plied least squares estimation to the training set, producing the estimates,standard errors and Z-scores shown in Table 3.2. The Z-scores are definedin (3.12), and measure the effect of dropping that variable from the model.A Z-score greater than 2 in absolute value is approximately significant atthe 5% level. (For our example, we have nine parameters, and the 0.025 tailquantiles of the t67−9 distribution are ±2.002!) The predictor lcavol showsthe strongest effect, with lweight and svi also strong. Notice that lcp isnot significant, once lcavol is in the model (when used in a model withoutlcavol, lcp is strongly significant). We can also test for the exclusion ofa number of terms at once, using the F -statistic (3.13). For example, weconsider dropping all the non-significant terms in Table 3.2, namely age,
Ejemplo: Cáncer de próstata
Regresión lineal entre lpsa y las variables predictoras.
50 3. Linear Methods for Regression
TABLE 3.1. Correlations of predictors in the prostate cancer data.
lcavol lweight age lbph svi lcp gleason
lweight 0.300age 0.286 0.317lbph 0.063 0.437 0.287svi 0.593 0.181 0.129 −0.139lcp 0.692 0.157 0.173 −0.089 0.671
gleason 0.426 0.024 0.366 0.033 0.307 0.476pgg45 0.483 0.074 0.276 −0.030 0.481 0.663 0.757
TABLE 3.2. Linear model fit to the prostate cancer data. The Z score is thecoefficient divided by its standard error (3.12). Roughly a Z score larger than twoin absolute value is significantly nonzero at the p = 0.05 level.
Term Coefficient Std. Error Z Score
Intercept 2.46 0.09 27.60lcavol 0.68 0.13 5.37lweight 0.26 0.10 2.75
age −0.14 0.10 −1.40lbph 0.21 0.10 2.06svi 0.31 0.12 2.47lcp −0.29 0.15 −1.87
gleason −0.02 0.15 −0.15pgg45 0.27 0.15 1.74
example, that both lcavol and lcp show a strong relationship with theresponse lpsa, and with each other. We need to fit the effects jointly tountangle the relationships between the predictors and the response.
We fit a linear model to the log of prostate-specific antigen, lpsa, afterfirst standardizing the predictors to have unit variance. We randomly splitthe dataset into a training set of size 67 and a test set of size 30. We ap-plied least squares estimation to the training set, producing the estimates,standard errors and Z-scores shown in Table 3.2. The Z-scores are definedin (3.12), and measure the effect of dropping that variable from the model.A Z-score greater than 2 in absolute value is approximately significant atthe 5% level. (For our example, we have nine parameters, and the 0.025 tailquantiles of the t67−9 distribution are ±2.002!) The predictor lcavol showsthe strongest effect, with lweight and svi also strong. Notice that lcp isnot significant, once lcavol is in the model (when used in a model withoutlcavol, lcp is strongly significant). We can also test for the exclusion ofa number of terms at once, using the F -statistic (3.13). For example, weconsider dropping all the non-significant terms in Table 3.2, namely age,
Ejemplo: Cáncer de próstata
Primero se estandarizan variables para tener varianza unitaria.
Se elige muestra de entrenamiento de 67 observaciones y
prueba de 30.
Los Z Score son estadísticos de pruebas de hipótesis de
coe�cientes iguales a cero (valor absoluto mayor que 2
representa una signi�cancia de 5%).
Si se usa como predictor de la lpsa el promedio de la variable
en la muestra de entrenamiento, el error de prueba es 1.057(i.e., error base). El modelo arroja un error de predicción de
0.521.
Ejemplo: Cáncer de próstata
Primero se estandarizan variables para tener varianza unitaria.
Se elige muestra de entrenamiento de 67 observaciones y
prueba de 30.
Los Z Score son estadísticos de pruebas de hipótesis de
coe�cientes iguales a cero (valor absoluto mayor que 2
representa una signi�cancia de 5%).
Si se usa como predictor de la lpsa el promedio de la variable
en la muestra de entrenamiento, el error de prueba es 1.057(i.e., error base). El modelo arroja un error de predicción de
0.521.
Ejemplo: Cáncer de próstata
Primero se estandarizan variables para tener varianza unitaria.
Se elige muestra de entrenamiento de 67 observaciones y
prueba de 30.
Los Z Score son estadísticos de pruebas de hipótesis de
coe�cientes iguales a cero (valor absoluto mayor que 2
representa una signi�cancia de 5%).
Si se usa como predictor de la lpsa el promedio de la variable
en la muestra de entrenamiento, el error de prueba es 1.057(i.e., error base). El modelo arroja un error de predicción de
0.521.
Ejemplo: Cáncer de próstata
Primero se estandarizan variables para tener varianza unitaria.
Se elige muestra de entrenamiento de 67 observaciones y
prueba de 30.
Los Z Score son estadísticos de pruebas de hipótesis de
coe�cientes iguales a cero (valor absoluto mayor que 2
representa una signi�cancia de 5%).
Si se usa como predictor de la lpsa el promedio de la variable
en la muestra de entrenamiento, el error de prueba es 1.057(i.e., error base). El modelo arroja un error de predicción de
0.521.
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Selección de variables
Dos problemas típicos:1 Error de prueba: Es posible reducir el error de prueba
disminuyendo el número de variables (reduciendo complejidady varianza) aunque aumente el sesgo: reducir error deestimación por más error de aproximación.
2 Interpretación: Un menor número de variables usualmentepermite una mejor interpretación.
Vamos a discutir diferentes formas de reducir el número de
variables, Todas estas técnicas son ejemplos de técnicas de
selección de modelos que más adelante voleveremos a discutir.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Selección de variables
Dos problemas típicos:1 Error de prueba: Es posible reducir el error de prueba
disminuyendo el número de variables (reduciendo complejidady varianza) aunque aumente el sesgo: reducir error deestimación por más error de aproximación.
2 Interpretación: Un menor número de variables usualmentepermite una mejor interpretación.
Vamos a discutir diferentes formas de reducir el número de
variables, Todas estas técnicas son ejemplos de técnicas de
selección de modelos que más adelante voleveremos a discutir.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Selección de variables: Mejor subconjunto de variables
Mejor subconjunto de variables.
Se elige el subconjunto de variables que minimiza el error deprueba.Computacionalmente intensivo. Es computacionalmente viablesolo para casos con menos de 40 variables predictoras.
Selección de variables: Mejor subconjunto de variables
Mejor subconjunto de variables.
Se elige el subconjunto de variables que minimiza el error deprueba.Computacionalmente intensivo. Es computacionalmente viablesolo para casos con menos de 40 variables predictoras.
Selección de variables: Mejor subconjunto de variables58 3. Linear Methods for Regression
Subset Size k
Res
idua
l Sum
−of
−S
quar
es
020
4060
8010
0
0 1 2 3 4 5 6 7 8
•
•
•••••••
••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
•••••••••••••••••••••••••••••••••••••••••••••
••••••••••••••••••••••••••
•••••••
•
•
•
•• • • • • • •
FIGURE 3.5. All possible subset models for the prostate cancer example. Ateach subset size is shown the residual sum-of-squares for each model of that size.
cross-validation to estimate prediction error and select k; the AIC criterionis a popular alternative. We defer more detailed discussion of these andother approaches to Chapter 7.
3.3.2 Forward- and Backward-Stepwise Selection
Rather than search through all possible subsets (which becomes infeasiblefor pmuch larger than 40), we can seek a good path through them. Forward-stepwise selection starts with the intercept, and then sequentially adds intothe model the predictor that most improves the fit. With many candidatepredictors, this might seem like a lot of computation; however, clever up-dating algorithms can exploit the QR decomposition for the current fit torapidly establish the next candidate (Exercise 3.9). Like best-subset re-gression, forward stepwise produces a sequence of models indexed by k, thesubset size, which must be determined.
Forward-stepwise selection is a greedy algorithm, producing a nested se-quence of models. In this sense it might seem sub-optimal compared tobest-subset selection. However, there are several reasons why it might bepreferred:
Selección de variables: Forward Backward selection
Forward: Comenzar con un modelo que solo tiene una
constante y añadir secuencialmente la variable que mas ayude
a reducir el error de predicción.En cada etapa se reestima.
Es computacionalmente menos demandante.
En la medida que es un busqueda restringida (a la forma
especí�ca como se recorren las variables) tiene mayor sesgo
pero potencialmente menos varianza que el mejor subconjunto.
Backward: Comienza con el modelo que tiene todas la
variables y va eliminando la variable que menos contribuye al
poder predictivo (una forma de implementarlo es eliminando la
variable con el menor Z-score). En cada etapa se reestima.
Selección de variables: Forward Backward selection
Forward: Comenzar con un modelo que solo tiene una
constante y añadir secuencialmente la variable que mas ayude
a reducir el error de predicción.En cada etapa se reestima.
Es computacionalmente menos demandante.
En la medida que es un busqueda restringida (a la forma
especí�ca como se recorren las variables) tiene mayor sesgo
pero potencialmente menos varianza que el mejor subconjunto.
Backward: Comienza con el modelo que tiene todas la
variables y va eliminando la variable que menos contribuye al
poder predictivo (una forma de implementarlo es eliminando la
variable con el menor Z-score). En cada etapa se reestima.
Selección de variables: Forward Backward selection
Forward: Comenzar con un modelo que solo tiene una
constante y añadir secuencialmente la variable que mas ayude
a reducir el error de predicción.En cada etapa se reestima.
Es computacionalmente menos demandante.
En la medida que es un busqueda restringida (a la forma
especí�ca como se recorren las variables) tiene mayor sesgo
pero potencialmente menos varianza que el mejor subconjunto.
Backward: Comienza con el modelo que tiene todas la
variables y va eliminando la variable que menos contribuye al
poder predictivo (una forma de implementarlo es eliminando la
variable con el menor Z-score). En cada etapa se reestima.
Selección de variables: Forward Backward selection
Forward: Comenzar con un modelo que solo tiene una
constante y añadir secuencialmente la variable que mas ayude
a reducir el error de predicción.En cada etapa se reestima.
Es computacionalmente menos demandante.
En la medida que es un busqueda restringida (a la forma
especí�ca como se recorren las variables) tiene mayor sesgo
pero potencialmente menos varianza que el mejor subconjunto.
Backward: Comienza con el modelo que tiene todas la
variables y va eliminando la variable que menos contribuye al
poder predictivo (una forma de implementarlo es eliminando la
variable con el menor Z-score). En cada etapa se reestima.
Selección de variables: Forward stagewise
Comienza con el intercepto y va añadiendo variables según la
variable que más correlación tenga con el residuo del modelo
anterior.
No se reestima, se añade la variable, si y aun no esta en la
regresión, o se le añade el coe�ciente de correlaciõn al
coe�ciente que en ese momento tiene la variable (i.e., puede
ser cero en ese momento).
Es una busqueda más restringida que forward stepwise.
A diferencia de forward stepwise, genera un conjunto anidado
de variables (i.e. solo aumentan y no cambian en cada
iteración).
Es un método competitivo cuando existen muchas variables.
Selección de variables: Forward stagewise
Comienza con el intercepto y va añadiendo variables según la
variable que más correlación tenga con el residuo del modelo
anterior.
No se reestima, se añade la variable, si y aun no esta en la
regresión, o se le añade el coe�ciente de correlaciõn al
coe�ciente que en ese momento tiene la variable (i.e., puede
ser cero en ese momento).
Es una busqueda más restringida que forward stepwise.
A diferencia de forward stepwise, genera un conjunto anidado
de variables (i.e. solo aumentan y no cambian en cada
iteración).
Es un método competitivo cuando existen muchas variables.
Selección de variables: Forward stagewise
Comienza con el intercepto y va añadiendo variables según la
variable que más correlación tenga con el residuo del modelo
anterior.
No se reestima, se añade la variable, si y aun no esta en la
regresión, o se le añade el coe�ciente de correlaciõn al
coe�ciente que en ese momento tiene la variable (i.e., puede
ser cero en ese momento).
Es una busqueda más restringida que forward stepwise.
A diferencia de forward stepwise, genera un conjunto anidado
de variables (i.e. solo aumentan y no cambian en cada
iteración).
Es un método competitivo cuando existen muchas variables.
Selección de variables: Forward stagewise
Comienza con el intercepto y va añadiendo variables según la
variable que más correlación tenga con el residuo del modelo
anterior.
No se reestima, se añade la variable, si y aun no esta en la
regresión, o se le añade el coe�ciente de correlaciõn al
coe�ciente que en ese momento tiene la variable (i.e., puede
ser cero en ese momento).
Es una busqueda más restringida que forward stepwise.
A diferencia de forward stepwise, genera un conjunto anidado
de variables (i.e. solo aumentan y no cambian en cada
iteración).
Es un método competitivo cuando existen muchas variables.
Selección de variables: Forward stagewise
Comienza con el intercepto y va añadiendo variables según la
variable que más correlación tenga con el residuo del modelo
anterior.
No se reestima, se añade la variable, si y aun no esta en la
regresión, o se le añade el coe�ciente de correlaciõn al
coe�ciente que en ese momento tiene la variable (i.e., puede
ser cero en ese momento).
Es una busqueda más restringida que forward stepwise.
A diferencia de forward stepwise, genera un conjunto anidado
de variables (i.e. solo aumentan y no cambian en cada
iteración).
Es un método competitivo cuando existen muchas variables.
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Métodos de contracción
El mejor subconjunto puede tener el menor error de prueba.
Pero es un método discreto. Las variables o se incluyen o se
descartan.
El método puede tener una varianza alta.
Los métodos de contracción son más continuos y usualmente
tiene menor varianza.
Vamos a considerar la regresión de Ridge y Lasso.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Métodos de contracción
El mejor subconjunto puede tener el menor error de prueba.
Pero es un método discreto. Las variables o se incluyen o se
descartan.
El método puede tener una varianza alta.
Los métodos de contracción son más continuos y usualmente
tiene menor varianza.
Vamos a considerar la regresión de Ridge y Lasso.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Métodos de contracción
El mejor subconjunto puede tener el menor error de prueba.
Pero es un método discreto. Las variables o se incluyen o se
descartan.
El método puede tener una varianza alta.
Los métodos de contracción son más continuos y usualmente
tiene menor varianza.
Vamos a considerar la regresión de Ridge y Lasso.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Métodos de contracción
El mejor subconjunto puede tener el menor error de prueba.
Pero es un método discreto. Las variables o se incluyen o se
descartan.
El método puede tener una varianza alta.
Los métodos de contracción son más continuos y usualmente
tiene menor varianza.
Vamos a considerar la regresión de Ridge y Lasso.
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Métodos de contracción: Ridge
3.4 Shrinkage Methods 63
TABLE 3.3. Estimated coefficients and test error results, for different subsetand shrinkage methods applied to the prostate data. The blank entries correspondto variables omitted.
Term LS Best Subset Ridge Lasso PCR PLS
Intercept 2.465 2.477 2.452 2.468 2.497 2.452lcavol 0.680 0.740 0.420 0.533 0.543 0.419lweight 0.263 0.316 0.238 0.169 0.289 0.344
age −0.141 −0.046 −0.152 −0.026lbph 0.210 0.162 0.002 0.214 0.220svi 0.305 0.227 0.094 0.315 0.243lcp −0.288 0.000 −0.051 0.079
gleason −0.021 0.040 0.232 0.011pgg45 0.267 0.133 −0.056 0.084
Test Error 0.521 0.492 0.492 0.479 0.449 0.528Std Error 0.179 0.143 0.165 0.164 0.105 0.152
squares,
β̂ridge = argminβ
{ N∑
i=1
(yi − β0 −
p∑
j=1
xijβj
)2+ λ
p∑
j=1
β2j
}. (3.41)
Here λ ≥ 0 is a complexity parameter that controls the amount of shrink-age: the larger the value of λ, the greater the amount of shrinkage. Thecoefficients are shrunk toward zero (and each other). The idea of penaliz-ing by the sum-of-squares of the parameters is also used in neural networks,where it is known as weight decay (Chapter 11).
An equivalent way to write the ridge problem is
β̂ridge = argminβ
N∑
i=1
(yi − β0 −
p∑
j=1
xijβj
)2
,
subject to
p∑
j=1
β2j ≤ t,
(3.42)
which makes explicit the size constraint on the parameters. There is a one-to-one correspondence between the parameters λ in (3.41) and t in (3.42).When there are many correlated variables in a linear regression model,their coefficients can become poorly determined and exhibit high variance.A wildly large positive coefficient on one variable can be canceled by asimilarly large negative coefficient on its correlated cousin. By imposing asize constraint on the coefficients, as in (3.42), this problem is alleviated.
The ridge solutions are not equivariant under scaling of the inputs, andso one normally standardizes the inputs before solving (3.41). In addition,
Métodos de contracción: Ridge3.4 Shrinkage Methods 65
Coe
ffici
ents
0 2 4 6 8
−0.
20.
00.
20.
40.
6
•
••••
••
••
••
••
••
••
••
••
•••
•
lcavol
••••••••••••••••••••••••
•
lweight
••••••••••••••••••••••••
•
age
•••••••••••••••••••••••••
lbph
••••••••••••••••••••••••
•
svi
•
•••
••
••
••
••
••••••••••••
•
lcp
••••••••••••••••••••••••
•gleason
•
•••••••••••••••••••••••
•
pgg45
df(λ)
FIGURE 3.8. Profiles of ridge coefficients for the prostate cancer example, asthe tuning parameter λ is varied. Coefficients are plotted versus df(λ), the effectivedegrees of freedom. A vertical line is drawn at df = 5.0, the value chosen bycross-validation.
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Contenido
1 Teoría de la decisión
2 Regresión lineal y k-NN
3 Ejemplo: Cáncer de próstata
4 Selección de variables
5 Métodos de contracción (shrinkage)
6 Modelos de lineales de clasi�cación
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
Se ajusta una regresión lineal por cada clase
f̂k(x) = β̂k0+ β̂Tk x
Un punto x se clasi�ca k si f̂k(x)≥f̂l(x) ∀l .De esta forma la frontera de decisión entre la clase k y l seríacuando f̂k(x) = f̂l(x) que corresponde a un plano.
Esto pasaría para cualquier 2 clases.
El espacio se divide en regiones separadas por fronteras de
decisión hiperplanas (no necesariamente pasan por el origen).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
Se ajusta una regresión lineal por cada clase
f̂k(x) = β̂k0+ β̂Tk x
Un punto x se clasi�ca k si f̂k(x)≥f̂l(x) ∀l .De esta forma la frontera de decisión entre la clase k y l seríacuando f̂k(x) = f̂l(x) que corresponde a un plano.
Esto pasaría para cualquier 2 clases.
El espacio se divide en regiones separadas por fronteras de
decisión hiperplanas (no necesariamente pasan por el origen).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
Se ajusta una regresión lineal por cada clase
f̂k(x) = β̂k0+ β̂Tk x
Un punto x se clasi�ca k si f̂k(x)≥f̂l(x) ∀l .De esta forma la frontera de decisión entre la clase k y l seríacuando f̂k(x) = f̂l(x) que corresponde a un plano.
Esto pasaría para cualquier 2 clases.
El espacio se divide en regiones separadas por fronteras de
decisión hiperplanas (no necesariamente pasan por el origen).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
Se ajusta una regresión lineal por cada clase
f̂k(x) = β̂k0+ β̂Tk x
Un punto x se clasi�ca k si f̂k(x)≥f̂l(x) ∀l .De esta forma la frontera de decisión entre la clase k y l seríacuando f̂k(x) = f̂l(x) que corresponde a un plano.
Esto pasaría para cualquier 2 clases.
El espacio se divide en regiones separadas por fronteras de
decisión hiperplanas (no necesariamente pasan por el origen).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión lineal
Se ajusta una regresión lineal por cada clase
f̂k(x) = β̂k0+ β̂Tk x
Un punto x se clasi�ca k si f̂k(x)≥f̂l(x) ∀l .De esta forma la frontera de decisión entre la clase k y l seríacuando f̂k(x) = f̂l(x) que corresponde a un plano.
Esto pasaría para cualquier 2 clases.
El espacio se divide en regiones separadas por fronteras de
decisión hiperplanas (no necesariamente pasan por el origen).
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión logística
Este método de clasi�cación es lineal porque las fronteras de
decisión son lineales. Luego transformaciones monótonas de
f̂k(x) también van a de�nir modelos de clasi�cación lineales.
Por ejemplo: el modelo logístico.
Pr(G = 1|X = x) =eβ1,0+βT
1 x
1+∑K−1l=1
eβl ,0+βTl x
Pr(G = k |X = x) =eβk,0+βT
k x
1+∑K−1l=1
eβl ,0+βTl x
Pr(G = K |X = x) =1
1+∑K−1l=1
eβl ,0+βTl x
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión logística
Este método de clasi�cación es lineal porque las fronteras de
decisión son lineales. Luego transformaciones monótonas de
f̂k(x) también van a de�nir modelos de clasi�cación lineales.
Por ejemplo: el modelo logístico.
Pr(G = 1|X = x) =eβ1,0+βT
1 x
1+∑K−1l=1
eβl ,0+βTl x
Pr(G = k |X = x) =eβk,0+βT
k x
1+∑K−1l=1
eβl ,0+βTl x
Pr(G = K |X = x) =1
1+∑K−1l=1
eβl ,0+βTl x
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales
Teoría de la decisiónRegresión lineal y k-NN
Ejemplo: Cáncer de próstataSelección de variables
Métodos de contracción (shrinkage)Modelos de lineales de clasi�cación
Regresión logística
Las fronteras de decisión se pueden calcular cómo:
log(Pr(G = 1|X = x)
Pr(G = K |X = x) = β1,0+β
T1 x
log(Pr(G = k−1|X = x)
Pr(G = K |X = x) = βk−1,0+β
Tk−1x
Universidad de los Andes y Quantil Métodos de Regresión y Clasi�cación Lineales