View
4
Download
0
Category
Preview:
Citation preview
JUGADORES DE LAS GRANDES LIGAS DE
BEISBOL AMERICANO COMO BATEADORES
04/06/2013
Pablo Ernesto
Escobar Vera
Análisis de Datos
1
1. INTRODUCCIÓN.
El béisbol es un deporte de equipo, que se practica en
campo cuadrado de 30 m de lado que a su vez está
dentro de otro con forma de abanico. Consiste en
golpear con un bate una pequeña pelota lanzada con la
mano por un contrario y recorrer el perímetro del
cuadrado pasando por las cuatro esquinas o bases
antes de que el rival recupere la pelota y la envíe a la
base siguiente más próxima al bateador, pudiendo de
esta forma eliminarle. Gana el equipo que más veces
consigue recorrer las cuatro bases, anotar carrera, a lo
largo de las nueve partes de que consta el partido.
El béisbol es un deporte en el que se pueden recoger muchos datos útiles y su análisis e interpretación ayuda a
los equipos en la toma de decisiones.
El objetivo principal de nuestro estudio será agrupar los jugadores con características similares en un
determinado número de clases pudiendo ser útil el resultado obtenido para numerosas cuestiones. Un ejemplo
de estas podría ser:
Un equipo desea fichar a un determinado jugador, valioso tanto por su rendimiento en el campo
como por su proyección mediática. Pero este equipo no dispone del presupuesto necesario para
ficharle. Haciendo uso de los resultados obtenidos puede cambiar sus pretensiones de fichar al
“jugador mediático” por otro de similares características sin tener que desembolsar una gran
cantidad de dinero.
Para conseguir el objetivo planteado haremos uso de herramientas del análisis de datos multivariantes tales
como el análisis de componentes principales, ACP, y la clasificación automática o también llamado análisis
clúster. Todo el proceso se realiza utilizando el paquete estadístico SPAD.
2. DATOS: INDIVIDUOS Y VARIABLES.
Disponemos de ciertos datos que corresponden a jugadores de equipos de béisbol de la Major League Baseball
(MLB) de Estados Unidos, de la temporada 2013, en los que se miden distintas variables relacionadas con el
bateo. El numero jugadores que usaremos va a ser de 319, que son los que han disputado al menos el 50% del
total de partidos que se juegan. No utilizamos los datos de los 1202 jugadores disponibles porque en la mayoría
de ellos, alrededor de 700, todas las variables toman valores iguales a 0 o muy cercanos (por ejemplo, un
jugador que no suele batear porque su especialidad sea otra o un jugador que se lesiona a principio de
temporada y no juega el resto) y esto nos puede distorsionar el análisis. Para cada uno de estos jugadores
disponemos de datos correspondientes a 25 variables que detallamos a continuación:
AB: veces que el jugador sale a batear obviando aquellas en las que se producen bases por bolas o por golpeo
y sacrificios.
R: carreras anotadas.
H: veces que el bateador llega a una base como consecuencia de su bateo (incluye 2B, 3B y HR).
2B: veces que el bateador llega a segunda base como consecuencia de su bateo.
3B: veces que el bateador llega a tercera base como consecuencia de su bateo.
HR: veces que el bateador recorre todas las bases como consecuencia de su bateo.
RBI: carreras impulsadas como consecuencia de su bateo.
BB: veces que el bateador llega a primera base por recibir cuatro bolas.
2
SO: veces que el bateador es eliminado tras recibir los tres strikes.
SB: bases robadas, el corredor consigue llegar a la base siguiente sin que sea consecuencia de ninguna acción
del bateador.
CS: veces que un corredor es cogido robando una base.
AVG: promedio de bateo (H/AB).
OBP: promedio de "embasado" ((H+BB+HBP)/(AB+BB+HDP+SF)), veces que se "embasa" por apariciones al
bate.
SLG: promedio de bases recorridas por cada bateo (TB/AB).
OPS: OBP+SLG.
IBB: bases por bolas intencionadas.
HBP: bases por ser golpeado por el lanzamiento del pitcher.
SAC: sacrificios por toque.
SF: nº de sacrificios de fly.
GDP: veces que tras el bateo del jugador se elimina a este y a otro jugador que estuviera en una base.
GO: veces que el bateador es eliminado tras botar pelota en el suelo al menos una vez.
AO: veces que el bateador es eliminado sin tocar la pelota en el suelo.
GO_AO: ratio (GO/AO).
NP: lanzamientos que le envían al bateador durante sus apariciones al bate.
PA: veces que un jugador sale a batear incluyendo bases por bolas o por golpeo y sacrificios.
Veamos a continuación los estadísticos descriptivos de las 25 variables disponibles:
Variable Media Desviación Típica Mínimo Máximo
AB 419,448 131,194 128,000 667,000
R 53,332 22,663 6,000 126,000
H 110,138 41,360 23,000 199,000
dosB 21,768 9,648 0,000 55,000
tresB 3,003 2,127 1,000 12,000
HR 12,567 8,650 0,000 53,000
RBI 51,110 24,707 7,000 138,000
BB 38,492 19,880 4,000 135,000
SO 87,069 35,511 17,000 212,000
SB 7,229 9,686 0,000 52,000
CS 3,611 2,958 1,000 16,000
AVG 0,258 0,032 0,179 0,348
OBP 0,323 0,036 0,227 0,442
SLG 0,405 0,068 0,226 0,638
OPS 0,728 0,097 0,479 1,078
IBB 3,815 3,384 1,000 28,000
HBP 4,966 3,555 1,000 27,000
SAC 2,931 2,704 1,000 17,000
SF 4,288 2,275 1,000 13,000
GDP 9,584 5,495 1,000 31,000
GO 124,398 47,198 28,000 272,000
AO 112,596 40,220 21,000 216,000
GO_AO 1,147 0,344 0,460 2,600
NP 1799,390 573,835 486,000 3033,000
PA 467,194 146,415 136,000 726,000
Tabla 1. Estadísticos descriptivos de las variables.
Vemos en la Tabla 1 como tanto las medias como las desviaciones típicas de las 25 variables oscilan entre valores
bastante distintos. La medias varían entre 0.258 y 1799.390 correspondientes a las variables AVG (promedio de
bateo) y NP (lanzamientos que recibe el bateador en sus apariciones al bate) respectivamente, mientras que las
desviaciones típicas lo hacen entre 0.032 y 573.835 correspondientes a las mismas variables. Esta
3
heterogeneidad de las medias y de las desviaciones típicas nos condicionara el tipo de análisis factorial que
realizaremos más adelante.
3. ANALISIS DE COMPONENTES PRINCIPALES.
Vamos a realizar un análisis de componentes principales. Elegimos aplicar ACP normado ya que como vimos
antes las desviaciones típicas de las variables eran muy diferentes y además no encontramos ninguna razón que
nos lleve a no aplicarlo. De esta forma daremos la misma importancia a cada una de las 25 variables. SPAD
realiza el análisis de componentes principales en un procedimiento.
Valores propios.
Los valores propios de la matriz XtX nos informan de las
inercias que recogen cada uno de los 25 ejes factoriales
definidos por los vectores propios de la misma matriz. Las
inercias nos indican cuan bien están representados los
puntos originales en cada uno de los ejes.
En la Tabla 2 podemos ver como la mejor recta, definida por
el primer eje factorial, recoge casi la mitad de la
información con un 46.27%, el mejor plano, formado por los
dos primeros ejes factoriales, recoge un 60.31% de
información, mientras que el mejor espacio de dimensión 3,
formado por los tres primeros ejes factoriales, recoge un
69.19% de la información.
Como estamos realizando un ACP normado y por lo tanto
el promedio de inercia recogida por eje es de 1 resulta útil
seleccionar los ejes del 1 al 5 dado que en estos sus
autovalores superan dicho promedio.
También resulta destacable el hecho de que los tres últimos
ejes no aportan información alguna.
Matriz de correlaciones.
Ahora veamos la matriz de correlaciones, dividida en tres tablas, en la que podremos identificar aquellos pares
de variables que presenten una mayor asociación:
AB R H dosB tresB HR RBI BB SO SB CS AVG
AB 1
R 0,88 1
H 0,96 0,9 1
dosB 0,83 0,82 0,86 1
tresB 0,36 0,4 0,37 0,26 1
HR 0,58 0,67 0,56 0,54 0,01 1
RBI 0,78 0,8 0,8 0,74 0,12 0,86 1
BB 0,61 0,72 0,6 0,58 0,13 0,61 0,64 1
SO 0,59 0,59 0,48 0,52 0,19 0,69 0,62 0,58 1
SB 0,32 0,39 0,33 0,19 0,61 -0,04 0,05 0,12 0,14 1
CS 0,33 0,34 0,32 0,22 0,51 -0,08 0 0,13 0,13 0,74 1
AVG 0,44 0,56 0,67 0,55 0,26 0,28 0,48 0,27 0,01 0,22 0,16 1
Tabla 3.1. Matriz de correlaciones entre variables 1.
Numero Valor propio Porcentaje Porcentaje Acumulado
1 11,5664 46,27 46,27
2 3,5104 14,04 60,31
3 2,2199 8,88 69,19
4 1,5904 6,36 75,55
5 1,1291 4,52 80,06
6 0,9255 3,70 83,77
7 0,7737 3,09 86,86
8 0,5950 2,38 89,24
9 0,5278 2,11 91,35
10 0,4820 1,93 93,28
11 0,4683 1,87 95,15
12 0,3275 1,31 96,46
13 0,2382 0,95 97,42
14 0,2309 0,92 98,34
15 0,1657 0,66 99,00
16 0,0818 0,33 99,33
17 0,0729 0,29 99,62
18 0,0358 0,14 99,76
19 0,0239 0,10 99,86
20 0,0168 0,07 99,93
21 0,0109 0,04 99,97
22 0,0071 0,03 100,00
23 0,0000 0,00 100,00
24 0,0000 0,00 100,00
25 0,0000 0,00 100,00
Tabla 3. Valores propios.
4
AB R H dosB tresB HR RBI BB SO SB CS AVG
OBP 0,35 0,58 0,54 0,49 0,16 0,41 0,49 0,67 0,18 0,13 0,09 0,79
SLG 0,42 0,62 0,55 0,59 0,14 0,8 0,74 0,47 0,43 0,02 -0,04 0,68
OPS 0,43 0,66 0,59 0,6 0,16 0,71 0,7 0,58 0,37 0,07 0 0,77
IBB 0,37 0,41 0,42 0,39 -0,03 0,5 0,53 0,57 0,29 -0,05 -0,08 0,31
HBP 0,25 0,34 0,26 0,24 0,14 0,21 0,22 0,27 0,24 0,15 0,22 0,17
SAC 0,04 0 0,02 -0,09 0,32 -0,43 -0,27 -0,21 -0,21 0,38 0,42 -0,02
SF 0,48 0,45 0,48 0,42 0,07 0,31 0,53 0,34 0,21 0,03 0 0,27
GDP 0,62 0,45 0,62 0,5 0,03 0,33 0,55 0,35 0,19 0,01 0,01 0,32
GO 0,86 0,67 0,83 0,64 0,35 0,24 0,52 0,38 0,22 0,36 0,4 0,41
AO 0,87 0,71 0,8 0,71 0,22 0,46 0,66 0,48 0,32 0,18 0,19 0,3
GO_AO -0,01 -0,04 0,05 -0,08 0,18 -0,28 -0,17 -0,1 -0,14 0,25 0,27 0,16
NP 0,96 0,9 0,91 0,82 0,33 0,64 0,79 0,78 0,68 0,29 0,3 0,39
PA 0,99 0,9 0,95 0,84 0,35 0,6 0,79 0,69 0,62 0,31 0,33 0,43
Tabla 3.2. Matriz de correlaciones entre variables 2.
OBP SLG OPS IBB HBP SAC SF GDP GO AO GO_AO NP PA
OBP 1
SLG 0,7 1
OPS 0,86 0,96 1
IBB 0,45 0,42 0,46 1
HBP 0,33 0,21 0,27 0,08 1
SAC -0,18 -0,39 -0,34 -0,27 0,09 1
SF 0,21 0,25 0,26 0,23 0,09 -0,03 1
GDP 0,22 0,23 0,24 0,36 0,07 -0,1 0,36 1
GO 0,23 0,15 0,19 0,24 0,16 0,28 0,38 0,71 1
AO 0,2 0,28 0,27 0,28 0,18 0,01 0,55 0,55 0,7 1
GO_AO 0,08 -0,17 -0,09 -0,05 -0,02 0,35 -0,22 0,19 0,37 -0,34 1
NP 0,46 0,47 0,5 0,43 0,3 -0,02 0,48 0,56 0,76 0,81 -0,05 1
PA 0,42 0,44 0,47 0,41 0,29 0,02 0,5 0,61 0,83 0,86 -0,02 0,98 1
Tabla 3.3. Matriz de correlaciones entre variables 3.
En las tablas podemos ver como hay muchas más correlaciones positivas que negativas, en torno al 79% son
positivas frente al 11% que son negativas.
Entre las negativas la más extrema, cuyo valor es de -0.43, corresponde a la correlación entre las variables SAC
(sacrificios por toque) y H (homeruns), lo cual tiene sentido ya que es lógico que un buen bateador que realice
muchos homeruns no sea sacrificado evitando su eliminación. Entre las positivas, la correlación más extrema,
con un valor del 0.99, corresponde a la que hay entre las variables AB (veces que sale a batear obviando bases
por bola o golpeo y sacrificios) y PA (veces que sale a batear), lo cual es razonable ya que la segunda variable es
la suma de la primera más las veces que sale a batear y se produce una base por bola o por golpeo o sacrificio.
Vemos también como no hay ningún tipo de asociación, correlación con valor 0, entre las variables RBI (carreras
impulsadas) y CS (veces cogido robando base), CS y OPS (suma del promedio de embasado y promedio de bases
recorridas por bateo), R (carreras anotadas) y SAC, y finalmente entre CS (veces que es cogido robando base) y
SF (sacrificios por fly).
Además observamos como para las variables SAC y GAO_AO (cociente entre las veces que es eliminado tras
batear con bote de la pelota y veces que es eliminado tras batear sin botar la pelota) la mayoría de las
correlaciones con el resto de variables son negativas.
Puesto que las correlaciones entre las variables normadas son las mismas que entre las variables originales,
mediante el grafico de puntos-variable en el plano 1-2 visualizamos la estructura de correlaciones que
presentamos a continuación:
5
Mostramos además una ampliación de la zona en la que hay una mayor concentración de puntos-variable para
poder ver mejor su distribución en el plano 1-2.
En ambos gráficos podemos ver cómo las variables mejor representadas en el plano 1-2, que son las que más se
acercan a la esfera, son GO, AB, PA, H, NP, R, dosB, RBI, OPS, HR y SLG, mientras que las que peor quedan
representadas son HBP y SE.
Vemos como, con excepción de las variables SAC y GO_AO, todas las variables tienen una correlación positiva
con el eje factorial 1. Esta situación era previsible tras haber visto la matriz de correlaciones en la que como
mencionamos antes SAC y GO_AO tenían correlaciones negativas con casi todas las variables.
Atendiendo a la calidad de la representación y a la dirección de cada uno de los puntos-variable, podemos ver
como existe una correlación positiva alta entre las variables pertenecientes, a un primer grupo formado por las
variables AB, PA, H, NP, R y dosB, y un segundo grupo formado por las variables OPS, HR y SLG.
Identificamos también aquellos grupos de variables entre los que prácticamente hay ausencia de asociación,
aquellos que forman un ángulo recto o casi recto en los gráficos. Se da esta situación entre el grupo formado por
CS, SB y tresB, y el grupo OPS, HR y SLG, también entre el grupo formado por BB, RBI y OBP y el grupo formado
por CS, SB y tresB, y finalmente entre el grupo formado por AB, PA, AO, H, NP, R y dosB, y la variable SAC.
Interpretación de las componentes principales.
Interpretamos los dos primeros ejes factoriales que son los que más información recogen y que podemos
visualizar con mayor facilidad a la hora de realizar gráficos. A continuación presentamos la tabla de coordenadas
de las variables en los ejes factoriales de 1 al 5:
Grafico 1.1. Esfera de correlaciones en el plano 1-2.
AO
Grafico 1.2. Ampliación de la esfera de correlaciones en el plano 1-2.
AO
6
Variable Eje 1 Eje 2 Eje 3 Eje 4 Eje 5 Eje 1 Eje 2 Eje 3 Eje 4 Eje 5
AB 0,93 0,24 0,24 0 -0,01 0,27 0,13 0,16 0 -0,01
R 0,94 0,1 -0,07 0,12 0,03 0,28 0,05 -0,04 0,1 0,03
H 0,95 0,18 0,03 -0,14 0,07 0,28 0,1 0,02 -0,11 0,06
dosB 0,87 0,02 0,05 -0,04 0,09 0,26 0,01 0,03 -0,03 0,08
tresB 0,33 0,55 -0,32 0,27 0,12 0,1 0,29 -0,21 0,21 0,11
HR 0,73 -0,48 0,07 0,25 -0,13 0,21 -0,26 0,04 0,2 -0,12
RBI 0,89 -0,27 0,12 0 -0,01 0,26 -0,15 0,08 0 -0,01
BB 0,75 -0,19 -0,01 0,17 -0,27 0,22 -0,1 0 0,13 -0,25
SO 0,61 -0,14 0,18 0,54 -0,35 0,18 -0,07 0,12 0,43 -0,33
SB 0,28 0,67 -0,35 0,3 0,03 0,08 0,36 -0,23 0,24 0,03
CS 0,26 0,71 -0,28 0,3 -0,02 0,08 0,38 -0,19 0,24 -0,02
AVG 0,61 -0,05 -0,57 -0,41 0,28 0,18 -0,03 -0,38 -0,32 0,26
OBP 0,62 -0,26 -0,61 -0,16 0,02 0,18 -0,14 -0,41 -0,13 0,02
SLG 0,68 -0,5 -0,41 0,05 0,11 0,2 -0,26 -0,27 0,04 0,11
OPS 0,71 -0,45 -0,51 -0,03 0,09 0,21 -0,24 -0,34 -0,02 0,08
IBB 0,52 -0,34 -0,02 -0,16 -0,32 0,15 -0,18 -0,01 -0,13 -0,3
HBP 0,33 0,06 -0,22 0,29 -0,03 0,1 0,03 -0,15 0,23 -0,03
SAC -0,11 0,75 -0,09 -0,04 0,1 -0,03 0,4 -0,06 -0,03 0,1
SF 0,52 -0,03 0,31 -0,13 0,44 0,15 -0,02 0,21 -0,1 0,41
GDP 0,59 0,09 0,31 -0,52 -0,2 0,17 0,05 0,21 -0,42 -0,19
GO 0,72 0,53 0,19 -0,35 -0,1 0,21 0,28 0,13 -0,28 -0,1
AO 0,77 0,17 0,44 -0,02 0,32 0,23 0,09 0,3 -0,02 0,3
GO_AO -0,05 0,48 -0,36 -0,44 -0,56 -0,02 0,25 -0,24 -0,35 -0,53
NP 0,94 0,14 0,19 0,1 -0,09 0,28 0,07 0,13 0,08 -0,08
PA 0,95 0,21 0,22 0,02 -0,04 0,28 0,11 0,14 0,02 -0,04
Coordenadas de las variables en los ejes factoriales. Antiguos ejes unitarios.
Tabla 4. Coordenadas de las variables en los ejes factoriales y antiguos ejes unitarios.
- Eje 1.
La primera componente principal presenta correlaciones positivas (23) y negativas (2) aunque
predominan las positivas medias-altas. Sus valores oscilan entre -0.11 y 0.95.
Podemos interpretar este factor como la cuantificación de la “calidad del jugador como bateador”.
Este primer eje factorial constituye la primera fuente de variabilidad, con 46.27% de la información
total.
- Eje 2.
La segunda componente principal también presenta correlaciones positivas (15) y negativas (10) y
predominan los valores bajos en valor absoluto. Sus valores oscilan entre -0.45 y 0.75.
Esto provoca que efectuar una interpretación del significado del eje factorial 2 resulte algo difícil. No
obstante, al haber tres variables con correlaciones algo más altas y de estas, dos de ellas, SB (bases
robadas) y CS (veces que es cogido robando), nos proporcionan información relevante sobre una
7
característica importante en el béisbol, como es el robado de bases, podremos interpretar parcialmente
este factor como “capacidad del jugador en la acción de robado de base”.
Este segundo eje factorial supone la segunda fuente de variabilidad con un 14.04% de la información
total
Algunas de las conclusiones que podemos extraer en una interpretación conjunta de los dos primeros ejes en el
plano factorial 1-2 son:
Individuos situados a la derecha serán buenos bateadores.
Individuos situados a la izquierda no serán buenos bateadores.
Individuos situados en la parte superior serán buenos robadores de base.
Individuos situados en la parte inferior no serán buenos robadores de bases.
Proyección de los individuos.
Representamos los jugadores, en el plano factorial 1-2 que contiene un 60.31% de la información, de forma que
el tamaño del punto de cada uno aparezca en relación con su contribución relativa (calidad de la
representación). El grafico resultante es el siguiente:
En el grafico podemos ver como la mayoría de los individuos quedan bien representados, es decir su
contribución relativa es alta. También vemos como los que quedan peor representados se agrupan en torno al
origen de coordenadas.
Grafico 2. Representación de los individuos en el plano factorial 1-2.
8
Identificamos tres zonas donde hay una ausencia de puntos notable. Una zona en la esquina superior derecha,
que quiere decir que existe una ausencia de buenos bateadores y a la vez buenos robadores de bases, lo cual
podría tener cierto sentido ya que por lo general los buenos bateadores son jugadores corpulentos lo que les
impide ser jugadores veloces. Otra zona en la esquina superior izquierda, que quiere decir que existe una
ausencia de jugadores que sean muy malos bateadores y a su vez buenos robadores de base, lo cual tiene su
explicación en la existencia de otros grupos de jugadores que desempeñan otras funciones importantes en el
béisbol. Finalmente, una zona en la parte inferior centro-izquierda, que se explica con el hecho de, como es
lógico, la ausencia de malos bateadores y a su vez muy malos robadores de base.
Destacamos a M. Trout y P. Goldschmidt como los mejores bateadores; a E. Andrus y E. Young Jr. como los
mejores robadores de base; a L. Nix, M. Kotsay y C. Tracy como los peores bateadores, y esto es porque los dos
primeros son outfielders y el ultimo third baseman, que son funciones defensivas, importantes cuando batea el
equipo contrario; y como peores robadores de base M. Cabrera, C. Davis y D. Ortiz pero que resultan ser buenos
bateadores.
4. CLASIFICACIÓN AUTOMÁTICA
Finalizado el análisis de componentes principales, nos planteamos realizar una clasificación automática de los
individuos. En ella intentaremos conseguir agrupar individuos los más parecidos posible en una misma clase y
clases lo más diferenciadas posible.
La clasificación automática la realizaremos, en primer lugar aplicando un método jerárquico, en el que se
utilizara el criterio de la inercia WARD como medida de proximidad entre clases y todas las variables artificiales
resultantes del análisis de componentes principales hecho anteriormente, y en segundo lugar se aplicara la
estabilización por centros móviles a las clases resultantes consiguiendo de esta forma mejorar las particiones.
Dendograma y corte del mismo.
En un primer procedimiento SPAD nos presenta el dendograma, que es la representación de la ejecución del
método jerárquico donde se observa que clases se juntan en cada paso. Este nos sirve para tomar la decisión de
donde realizar un corte apropiado, de esta forma definiremos las clases en las que se dividirán los individuos.
Este corte debe realizarse entre dos vértices de altura sensiblemente diferente, de forma que se asegure una
diferencia importante entre el índice de agregación de las dos clases juntadas/separadas en el último paso y el
de las dos clases a juntar/separar en el siguiente paso. También hay que tener en cuenta la naturaleza de los
datos a la hora de realizar el corte y analizar cuantas clases resulta interesante obtener.
A continuación presentamos el dendograma para nuestro conjunto de datos con los posibles cortes más
razonables:
Grafico 3.1. Dendograma.
9
Establecemos los cortes más razonables en 4,
5 y 6 clases atendiendo a los criterios
mencionados antes. Menos clases resulta ser
poco útil ya que en una misma clase podría
haber individuos bastante diferentes.
Tampoco consideramos más clases, ya que
podría resultar menos interesante
atendiendo al significado de las variables. Por
lo tanto cualquiera de estos tres cortes
podría ser perfectamente válido. Otro grafico
que nos puede ayudar a decidir dónde cortar
es el de índices de agregación. Vemos en este
como efectivamente los cortes en 4, 5 y 6
clases son los más apropiados considerando los de menor número de clases insuficientes.
Por lo tanto como tenemos que decantarnos por uno de ellos lo hacemos por el corte en 5 clases al ser un punto
medio entre las 3 opciones.
Estabilización por centros móviles.
Una vez seleccionado el número de clases en el que se desea realizar la clasificación, en un segundo
procedimiento SPAD realiza la misma y aplica el algoritmo de estabilización por centros móviles.
El algoritmo pretende reducir la inercia intraclase (simultáneamente aumentar la interclases) en cada iteración
hasta que se estabilice, es decir, varié muy poco.
A continuación mostramos en una tabla la variación de las inercias según ha ido avanzando el algoritmo:
Iteración Inercia Total Inercia Interclase Inter/Intra
0 24,99999 11,65900 0,46636
1 24,99999 12,35801 0,49432
2 24,99999 12,40161 0,49606
3 24,99999 12,40576 0,49623
4 24,99999 12,41101 0,49644
Tabla 5.1. Inercias en las iteraciones de centros móviles.
A partir de la iteración 4, la inercia interclases se estabiliza, creciendo la misma únicamente un 0.042% respecto
de la iteración anterior.
En la tabla siguiente veremos cómo afecta el proceso de estabilización por centros móviles a las inercias
intraclase, al número de individuos que tiene cada una, a la inercia por individuo dentro de cada clase y a la
distancia al origen de los centros de cada clase:
Inercias Individuos Intraclases / Nº individuos
Distancias
Antes Después Antes Después Antes Después
Antes Después
Interclases 11.6590 12.4110
Clase 1 4.7868 3.6126 99 82 0.0484 0.0441
10.6424 10.9627
Clase 2 0.5340 0.8684 8 14 0.0668 0.0620
70.7082 55.4738
Clase 3 1.9142 2.3173 27 40 0.0709 0.0579
19.0816 16.0825
Clase 4 3.6767 3.4060 108 102 0.0340 0.0334
1.6716 1.5396
Clase 5 2.4293 2.3847 77 81 0.0315 0.0294
18.2366 18.3111
Total 25.0000 25.0000
Inter/Intra 0.4664 0.4964
Tabla 5.2. Inercias, nº de individuos, distancias al origen de los centros de gravedad e inercia por individuo dentro de cada clase, antes y después de la estabilización
Grafico 3.2. Índices de agregación.
10
Vemos como, tras la estabilización, el descenso de las inercias de las clases 1 y 4 se compensan con el
crecimiento de las inercias del resto de clases. Lo mismo ocurre con el número de individuos de las clases 1 y 4,
su disminución se compensa con el aumento de las demás clases. También vemos como la clase 5 es la que tiene
menor inercia por individuo tanto antes como después de la estabilización.
Las clases que menos y más inercia tienen son la 2 y la 1. En términos relativos vemos como la clase 5 es la que
tiene menor inercia por individuo y la 2 la que más, tanto antes como después de la estabilización. Igualmente,
tanto antes como después de la estabilización, el centro de gravedad más cercano al origen corresponde a la
clase 4 mientras que el más alejado corresponde a la clase 2.
La estabilización por centros móviles ha resultado eficaz, ya que nos ha mejorado la calidad de la partición en un
6.45%.
Composición de las clases.
- Clase 1.
La clase 1 está formada por 82 jugadores, un 25.71% del total, y tiene una inercia intraclase de 3.6126 y
una distancia de su centro de gravedad al origen de 10.9627. Los individuos que la forman son:
Butler_B Fielder_P Pence_H Murphy_D Jones_A
Markakis_N Pedroia_D Rizzo_A Seager_K Hardy_J
Hosmer_E Martinez_V Trumbo_M Desmond_I Donaldson_J
Loney_J Carpenter_M Gonzalez_A Zobrist_B Gordon_A
Morales_K Prado_M Lowrie_J Santana_C Alvarez_P
Dominguez_M LaRoche_A Morneau_J Brantley_M Hamilton_J
Phillips_B Soriano_A Belt_B Frazier_T Dunn_A
Kipnis_J Upton_J Carter_C Posey_B Wieters_M
Byrd_M Dozier_B Lucroy_J Young_M Zimmerman_R
Beltran_C Moss_B Swisher_N Hunter_T Lind_A
Ethier_A Johnson_C Headley_C Holliday_M Sandoval_P
Brown_D Napoli_M Freese_D Perez_S Schierholtz_N
Cabrera_A Molina_Y Cespedes_Y Craig_A Nava_D
Pierzynski_A Walker_N Crisp_C Utley_C Cuddyer_M
Werth_J Tulowitzki_T Drew_S Kendrick_H Castro_J
Bautista_J Harper_B Stanton_G Mauer_J Wright_D
Gonzalez_C Puig_Y
- Clase 2.
La clase 2 está formada por 14 jugadores, un 4.39% del total, y tiene una inercia intraclase de 0.8684 y
una distancia de su centro de gravedad al origen de 55.4738. Los individuos que la forman son:
Votto_J Beltre_A Bruce_J Cano_R Davis_C
Goldschmidt_P Longoria_E McCutchen_A Trout_M Choo_S
Cabrera_M Freeman_F Encarnacion_E Ortiz_D
- Clase 3.
La clase 3 está formada por 40 jugadores, un 12.54% del total, y tiene una inercia intraclase de 2.3173 y
una distancia de su centro de gravedad al origen de 16.0825. Los individuos que la forman son:
Castro_S Rollins_J Escobar_A Ramirez_A Jay_J
Simmons_A Andrus_E Machado_M Parra_G Rios_A
11
Aoki_N De.Aza_A Escobar_Y Span_D Altuve_J
Cozart_Z Venable_W Suzuki_I Hechavarria_A Young.Jr_E
Gomez_C Martin_L McLouth_N Segura_J Gardner_B
Blanco_G Jennings_D Aybar_E Bonifacio_E Kinsler_I
Marte_S Ellsbury_J Bourn_M Jackson_A Shuck_J
Scutaro_M Victorino_S Fowler_D LeMahieu_D Cabrera_E
- Clase 4.
La clase 4 está formada por 102 jugadores, un 31.97% del total, y tiene una inercia intraclase de 3.4060
y una distancia de su centro de gravedad al origen de 1.5396. Los individuos que la forman son:
Crawford_B Moreland_M Stubbs_D Denorfia_C Jones_G
Kozma_P Murphy_D Overbay_L Barney_D Joyce_M
Arencibia_J Betancourt_Y Pollock_A Barnes_B Callaspo_A
Moustakas_M Sanchez_G Uggla_D Doumit_R Reynolds_M
Florimon_P Gillaspie_C Mayberry_J Arenado_N Saunders_M
Uribe_J Dirks_A Smoak_J Sogard_E Wells_V
Plouffe_T Ruggiano_J Martin_R Ellis_M Konerko_P
Upton_B Gyorko_J Aviles_M Francisco_J Helton_T
Ibanez_R Viciedo_D DeJesus_D Lagares_J Rosario_W
Saltalamacchia_J Infante_O Johnson_K Rasmus_C Keppinger_J
Smith_S Crawford_C Gomes_J Montero_M Cain_L
Ellis_A Iannetta_C Hundley_N Reddick_J Ackley_D
Castillo_W Willingham_J Buck_J Cruz_N Iglesias_J
Adams_M Davis_R Valbuena_L Lawrie_B Peralta_J
Young_C Gattis_E Heyward_J Weeks_R Beckham_G
Davis_I Gregorius_D Mercer_J Young_D Avila_A
Franklin_N McCann_B Duda_L Pujols_A Norris_D
Rendon_A Alonso_Y Arcia_O Middlebrooks_W Ross_C
Reyes_J Ramirez_A Navarro_D Gomes_Y Myers_W
Hill_A Carp_M Raburn_R Ramirez_H Quentin_C
Chavez_E Howard_R
- Clase 5.
La clase 5 está formada por 81 jugadores, un 25.39% del total, y tiene una inercia intraclase de 2.3847 y
una distancia de su centro de gravedad al origen de 18.3111. Los individuos que la forman son:
Amarista_A Schafer_L Guzman_J Schumaker_S Descalso_D
Frandsen_K Fuld_S Lombardozzi_S Polanco_P Punto_N
Dobbs_G Pierre_J Bernadina_R Kelly_D Johnson_E
Snider_T Stewart_C Barmes_C Izturis_M Gentry_C
Tabata_J Kotsay_M Ryan_B Mesoraco_D Torres_A
Arias_J Robinson_D Solano_D Parmelee_C Bianchi_J
Lobaton_J Molina_J Robinson_S Chavez_E Kubel_J
Paul_X Hairston_J Kawasaki_M Lough_D Pennington_C
Rodriguez_S Pacheco_J Quintanilla_O Chisenhall_L Lucas_E
Schafer_J Suzuki_K Conger_H Ruiz_C Thomas_C
Tracy_C Scott_L Nunez_E Cedeno_R Pena_C
Blanks_K Cabrera_M DeRosa_M Morse_M Revere_B
Rutledge_J Dyson_J Heisey_C Nix_J Martinez_J
Turner_J Flaherty_R Hairston_S Morrison_L Profar_J
Flowers_T Hannahan_J Blackmon_C Hafner_T Francoeur_J
Herrera_J Hicks_A Nix_L Tuiasosopo_M Freiman_N
Santiago_R
12
Caracterización de la partición por las variables.
La tabla que presentamos a continuación nos muestra las variables ordenadas de mayor a menor valor del
estadístico F, que nos cuantifica lo diferentes que son las mismas en las distintas clases, es decir las variables en
las que haya mayor diferencias entre grupos se situaran en la parte de arriba de la tabla, por el contrario
aquellas variables que sean difícilmente diferenciables entre los grupos se situaran en la parte de debajo de la
tabla. Veamos la tabla:
V. Test Probabilidad Id. Variable Variable Grados de
libertad Valor F
21.94 0.0000 25 PA 314 305.97
21.85 0.0000 3 H 314 301.29
21.35 0.0000 24 NP 314 275.72
21.19 0.0000 1 AB 314 268.09
20.85 0.0000 2 R 314 252.91
20.51 0.0000 7 RBI 314 238.13
17.43 0.0000 4 dosB 314 139.32
16.69 0.0000 6 HR 314 122.39
15.63 0.0000 16 IBB 314 101.5
15.59 0.0000 21 GO 314 100.67
15.35 0.0000 8 BB 314 96.49
14.79 0.0000 22 AO 314 87.26
14.62 0.0000 15 OPS 314 84.67
14.2 0.0000 14 SLG 314 78.35
12.01 0.0000 18 SAC 314 51.83
11.67 0.0000 11 CS 314 48.53
11.46 0.0000 13 OBP 314 46.49
11.37 0.0000 9 SO 314 45.73
11.24 0.0000 10 SB 314 44.54
10.29 0.0000 5 tresB 314 36.59
10.05 0.0000 12 AVG 314 34.8
9.51 0.0000 20 GDP 312 30.96
9.02 0.0000 19 SF 314 27.72
5.91 0.0000 23 GO_AO 314 12.56
4.63 0.0000 17 HBP 314 8.42
Tabla 6. ANOVA.
Vemos como las variables que más varían entre grupos son PA, H, NP y AB, mientras que las que menos varían
son HDP y GO_AO.
Caracterización de clases por variables.
Ahora veremos para cada clase cómo se comportan las medias de cada una de las variables en relación a la
media de las mismas pero en conjunto, por lo tanto localizaremos las variables más características de cada
grupo.
- Clase 1.
Variables características
Media en la clase
Media global
Desviación Típica en la
clase
Desviación Típica global
V Test Probabilidad
RBI 75.951 51.110 14.152 24.707 10.55 0.000
H 147.317 110.138 22.127 41.360 9.43 0.000
NP 2311.890 1799.390 288.264 573.835 9.37 0.000
PA 596.854 467.194 69.455 146.415 9.29 0.000
dosB 30.281 21.768 6.750 9.648 9.25 0.000
AB 534.622 419.448 65.776 131.194 9.21 0.000
R 72.195 53.332 13.859 22.663 8.73 0.000
13
HR 19.561 12.567 6.487 8.650 8.48 0.000
AO 143.280 112.596 32.791 40.220 8.00 0.000
SLG 0.453 0.405 0.041 0.068 7.39 0.000
OPS 0.796 0.728 0.060 0.097 7.35 0.000
BB 51.744 38.492 16.169 19.880 6.99 0.000
SF 4.768 3.288 2.286 2.275 6.82 0.000
GDP 13.134 9.584 5.936 5.495 6.79 0.000
SO 109.451 87.069 32.731 35.511 6.61 0.000
GO 153.280 124.398 36.299 47.198 6.42 0.000
AVG 0.276 0.258 0.026 0.032 5.80 0.000
OBP 0.343 0.323 0.028 0.036 5.73 0.000
IBB 4.012 2.815 2.361 3.384 3.71 0.000
HBP 4.902 3.966 3.409 3.555 2.76 0.003
SAC 0.805 1.931 1.409 2.704 -4.37 0.000
Tabla 7.1. Variables características de la clase 2.
En la clase 1 las variables características que presentan un comportamiento más extremo positivo son
RBI, H, NP, PA, dosB y AB, de forma que los individuos de esta clase presentaran valores de estas
variables más altos. Solo obtenemos una variable que presenta un comportamiento extremo negativo,
que es la variable SAC, por lo tanto individuos de este grupo presentaran valores más pequeños en esta
variable.
- Clase 2.
Variables características
Media en la clase
Media global
Desviación Típica en la
clase
Desviación Típica global
V Test Probabilidad
IBB 13.643 2.815 5.588 3.384 12.23 0.000
BB 83.429 38.492 22.430 19.880 8.64 0.000
HR 31.000 12.567 8.669 8.650 8.14 0.000
RBI 101.429 51.110 22.302 24.707 7.78 0.000
OPS 0.924 0.728 0.067 0.097 7.73 0.000
OBP 0.392 0.323 0.033 0.036 7.37 0.000
SLG 0.531 0.405 0.051 0.068 7.09 0.000
R 95.357 53.332 8.657 22.663 7.08 0.000
H 175.286 110.138 14.983 41.360 6.02 0.000
NP 2669.500 1799.390 243.378 573.835 5.79 0.000
PA 676.714 467.194 36.931 146.415 5.47 0.000
dosB 35.286 21.768 5.444 9.648 5.35 0.000
AVG 0.302 0.258 0.023 0.032 5.23 0.000
AB 581.286 419.448 32.729 131.194 4.71 0.000
SO 123.357 87.069 39.516 35.511 3.90 0.000
AO 146.786 112.596 23.824 40.220 3.25 0.001
GDP 14.143 9.584 6.323 5.495 3.17 0.001
HBP 6.857 3.966 5.938 3.555 3.11 0.001
SF 4.786 3.288 1.739 2.275 2.51 0.006
GO 155.000 124.398 20.361 47.198 2.48 0.007
SAC 0.214 1.931 0.773 2.704 -2.43 0.008
Tabla 7.2. Variables características de la clase 2.
En esta clase las variables que presentan un comportamiento más extremo positivo son IBB, BB, HR,
RBI, OPS, OBP, SLG y R, de forma que los individuos de esta clase presentaran valores de estas variables
más altos. Como ocurría en la clase anterior solo obtenemos la variable SAC con un comportamiento
extremo negativo y por lo tanto individuos de este grupo presentaran valores más pequeños en esta
variable.
14
- Clase 3.
Variables características
Media en la clase
Media global
Desviación Típica en la
clase
Desviación Típica global
V Test Probabilidad
CS 7.350 2.611 3.525 2.958 10.82 0.000
SB 22.225 7.229 13.371 9.686 10.45 0.000
SAC 5.975 1.931 3.503 2.704 10.10 0.000
tresB 4.875 2.003 2.722 2.127 9.12 0.000
GO 185.050 124.398 39.753 47.198 8.68 0.000
AB 541.925 419.448 71.833 131.194 6.30 0.000
PA 596.000 467.194 73.339 146.415 5.94 0.000
H 145.750 110.138 21.140 41.360 5.81 0.000
R 70.700 53.332 14.232 22.663 5.17 0.000
NP 2228.200 1799.390 281.549 573.835 5.05 0.000
GO_AO 1.389 1.147 0.351 0.344 4.76 0.000
AO 138.675 112.596 33.842 40.220 4.38 0.000
dosB 26.625 21.768 7.774 9.648 3.40 0.000
IBB 1.550 2.815 1.731 3.384 -2.52 0.006
HR 9.100 12.567 5.540 8.650 -2.71 0.003
Tabla 7.3. Variables características de la clase 3.
En la clase 3 las variables que presentan un comportamiento más extremo positivo son CS, SB y SAC, de
forma que los individuos de esta clase presentaran valores de estas variables más altos. Las que
presentan un comportamiento más extremo negativo son HR y IBB y por lo tanto los individuos de este
grupo presentaran valores más pequeños en estas variable.
- Clase 4.
Variables características
Media en la clase
Media global
Desviación Típica en la
clase
Desviación Típica global
V Test Probabilidad
GDP 8.451 9.584 3.772 5.495 -2.52 0.006
RBI 46.000 51.110 11.184 24.707 -2.53 0.006
dosB 19.559 21.768 5.114 9.648 -2.80 0.003
IBB 2.020 2.815 1.826 3.384 -2.87 0.002
AVG 0.251 0.258 0.029 0.032 -2.88 0.002
NP 1659.800 1799.390 277.578 573.835 -2.97 0.001
CS 1.853 2.611 2.046 2.958 -3.13 0.001
AB 383.216 419.448 63.097 131.194 -3.38 0.000
PA 426.392 467.194 67.227 146.415 -3.41 0.000
SB 4.245 7.229 5.981 9.686 -3.77 0.000
R 46.020 53.332 9.197 22.663 -3.94 0.000
H 95.578 110.138 17.104 41.360 -4.30 0.000
SAC 0.971 1.931 1.636 2.704 -4.34 0.000
GO_AO 1.012 1.147 0.234 0.344 -4.78 0.000
GO 105.529 124.398 27.165 47.198 -4.89 0.000
tresB 1.137 2.003 1.221 2.127 -4.98 0.000
Tabla 7.4. Variables características de la clase 4.
La clase 4 no tiene variables características con valores extremos positivos mientras que si tiene
variables que presentan comportamientos extremos negativos, estas son tresB, GO, GO_AO, SAC y H, y
por lo tanto los individuos de este grupo presentaran valores más pequeños en estas variables.
15
- Clase 5.
Variables características
Media en la clase
Media global
Desviación Típica en la
clase
Desviación Típica global
V Test Probabilidad
GO_AO 1.248 1.147 0.412 0.344 3.05 0.001
SAC 2.580 1.931 2.408 2.704 2.50 0.006
SB 4.160 7.229 6.468 9.686 -3.30 0.000
tresB 1.284 2.003 1.372 2.127 -3.52 0.000
CS 1.543 2.611 1.750 2.958 -3.76 0.000
HBP 2.543 3.966 2.277 3.555 -4.16 0.000
IBB 1.358 2.815 1.716 3.384 -4.48 0.000
AVG 0.237 0.258 0.027 0.032 -6.96 0.000
GDP 5.747 9.584 3.058 5.495 -7.15 0.000
OBP 0.298 0.323 0.030 0.036 -7.31 0.000
SF 1.654 3.288 1.424 2.275 -7.47 0.000
GO 83.679 124.398 26.992 47.198 -8.98 0.000
BB 20.654 38.492 8.127 19.880 -9.33 0.000
OPS 0.641 0.728 0.064 0.097 -9.41 0.000
SLG 0.343 0.405 0.045 0.068 -9.49 0.000
SO 54.284 87.069 19.228 35.511 -9.60 0.000
HR 4.494 12.567 3.027 8.650 -9.71 0.000
AO 69.914 112.596 19.732 40.220 -11.04 0.000
RBI 24.432 51.110 8.103 24.707 -11.23 0.000
dosB 11.198 21.768 4.253 9.648 -11.40 0.000
R 27.605 53.332 8.073 22.663 -11.81 0.000
H 61.988 110.138 16.401 41.360 -12.11 0.000
AB 260.025 419.448 56.798 131.194 -12.64 0.000
PA 287.494 467.194 61.412 146.415 -12.77 0.000
NP 1094.170 1799.390 238.467 573.835 -12.79 0.000
Tabla 7.5. Variables características de la clase 5.
Finalmente en la clase 5, tenemos dos variables que presentan comportamientos extremos positivos y
son GO_AO y SAC, por lo tanto los individuos que pertenezcan a esta clase tendrán valores positivos
altos en estas variables. Las variables que presentan comportamientos más extremos negativos son NP,
PA, AB, H, R, dosB, RBI y AO, de forma que los individuos de esta clase presentaran valores de estas
variables más bajos.
5. CONCLUSIONES.
Vamos a presentar las conclusiones finales que podemos sacar tras realizar el análisis de componentes
principales y la clasificación automática. Nos ayudaremos del grafico representación de los individuos ya
clasificados en el plano factorial 1-2.
En el grafico podemos ver como hay clases que se interseccionan levemente. La clase 1 se intersecciona con las
clases 2 y 3 y la clase 4 se intersecciona con la clase 5.
Teniendo en cuenta la localización de las clases y la caracterización de las mismas por variables, vamos a detallar
que tipo de jugadores se encontraran en cada una de ellas.
En la clase 1, situada en la zona centro derecha del plano factorial 1-2, podremos encontrar jugadores, que
poseen características que poseen los bateadores eficientes que sin ser los mejores bateadores dan buenos
resultados al equipo. Estas características son:
Buenos impulsadores de carreras.
Aprovechan bien las oportunidades al bate.
16
Poseen buenos números en cuanto a carreras anotadas.
Sus éxitos en el bate les lleva más a segunda base que a tercera o que a hacer homeruns.
Tienden a no ser sacrificados.
En la clase 2, que se sitúa en la parte más a la derecha y un poco escorado hacia abajo, encontraremos jugadores
cuyas características como bateadores son excelentes. Estas son:
Tienen un gran número de bases por bola intencionadas ya que al ser excelentes bateadores el rival
prefiere entregarle la primera base antes que darle la oportunidad de, por ejemplo, anotar un homerun
y que todos los jugadores que estén en bases puedan anotar carreras.
Realizan más homeruns que otros jugadores de otras clases.
También son grandes impulsadores de carreras.
En relación con sus apariciones al bate suelen embasarse con facilidad.
Dada su condición como excelentes bateadores nunca son sacrificados.
La clase 3, situada en la parte superior central, ligeramente escorada a la derecha, está formada por jugadores
de calidad media-alta como bateadores y que destacan robando bases. Sus características son:
Grandes robadores de bases.
Poseen un elevado número de veces cogido robando bases, lo cual tiene bastante sentido ya que un
buen robador de bases lo intentara un mayor número de veces de las cuales muchas fracasara, por el
Grafico 4. Representación de los individuos ya clasificados en el plano factorial 1-2.
17
contrario un jugador lento o poco hábil en el robo de bases tendrá vetado por su entrenador el hecho
de intentarlo siquiera.
Son jugadores que tienden a ser sacrificados en mayor medida que en los dos grupos anteriores.
No suelen ser jugadores a los que el equipo contrario regale una base por bolas.
No son jugadores que realicen muchos homeruns.
La clase 4, situada en la parte central, ligeramente escorada hacia la izquierda, en el plano factorial 1-2, posee
jugadores con características de bateo de calidad media-baja. Estas son:
Las veces que batean no suelen llegar nunca a la tercera base.
No son jugadores que anoten muchas carreras.
Carecen de acierto a la hora de batear.
No son cogidos robando (porque no lo intentan).
Tienen un promedio de bateo más bajo.
Finalmente en la clase 5, situada en la parte central izquierda del plano factorial 1-2, se sitúan aquellos jugadores
que tienen pésimas características de bateo por lo que se deduce que ocupan otras funciones y posiciones del
béisbol. Sus características son:
Se les conceden menos oportunidades al bate.
Anotan muchas menos carreras.
No aprovechan sus oportunidades al bate.
Apenas impulsan carreras.
No realizan homeruns.
Nunca se les regala la base por bolas al no ser considerados bateadores peligrosos.
Tienden a ser sacrificados.
Por lo tanto si un equipo de béisbol quiere fichar un bateador excelente tendrá que buscar en la clase 2. Dentro
de esta, si su presupuesto se lo permite, debería elegir a P. Goldschmidt que es el que más destaca. Si el equipo
lo que necesita es un bateador de calidad media-alta, podría buscarlo en las clases 1 y 3, teniendo en cuenta que
los jugadores de la clase 3 son ligeramente peores en aspectos de bateo pero mejores robadores de base que los
de la clase 1. Podrían ser interesantes E. Andrus, de la clase 3, y M. Carpenter, de la clase 2. Si el equipo tiene un
presupuesto muy ajustado tendrá que buscar bateadores en la clase 4 en el que encontramos bateadores de
calidad media-baja. Como ejemplo de jugador a considerar de esta clase tenemos a D. Barney. Finalmente nunca
buscaremos bateadores de ningún tipo en la clase 5 ya que en esta clase están agrupados aquellos que tienen
una calidad baja como bateadores.
18
BIBLIOGRAFÍA.
[1] Valentín Glz. de Garibay Prz. de Heredia. Material teórico y práctico de la asignatura
Análisis de Datos del Grado de Estadística de la Universidad de Valladolid.
[2] Mónica Bécue Bertaut y Joan Valls i Marsal. Manual de introducción a los métodos
factoriales y clasificación con SPAD. Universidad Politécnica de Catalunya y Universidad
Autónoma de Barcelona.
Recommended