1_1 Analisis Factorial Abr11

El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)

Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional

Análisis Factorial

1

INTRODUCCIÓN

El análisis factorial es una técnica que nos permite identificar un número relativamente pequeño de

factores que pueden ser utilizados para representar la relación existente entre un conjunto de

variables intercorrelacionadas.

El modelo matemático que subyace a esta técnica, en donde aparece cada variable como una

combinación lineal de una serie de factores.

La técnica del análisis factorial:

ikikiii UFAFAFAX ++++= ...2211

donde,

F son los factores comunes a todas las variables,

U es el factor único referido a la parte de la variable i que no puede ser explicada por los

factores comunes,

Ai son los coeficientes de cada uno de los factores.

Los factores únicos se asume que están incorrelacionados con el resto de factores únicos y con los

factores comunes.

El análisis factorial nos puede permitir reflejar el conjunto de variables con el menor número de

factores posible y que a su vez éstos tengan una interpretación clara y un sentido preciso.

Aunque en la práctica el análisis factorial y el método de componentes principales se utilizan

indistintamente y dan resultados similares, en el análisis de componentes principales el objetivo

consiste en encontrar una serie de componentes que expliquen el máximo de varianza total de las

variables originales, sin embargo, el objetivo del análisis factorial es encontrar una serie de factores

que expliquen el máximo de varianza común de las variables originales.



Análisis Factorial

2

DESCRIPTIVOS Y MATRIZ DE CORRELACIONES

Para comprobar el grado de asociación de las variables se utilizan los métodos:

a) Determinante de la matriz de correlaciones. Si el determinante tiene a cero, entonces una o

más variables pueden ser expresadas como un combinación lineal de las otras.

b) Prueba de esfericidad de Barlett’s. Esta prueba se utiliza para verificar si la matriz de

correlaciones es una matriz identidad (I), es decir, existe ausencia de correlación significativa

entre las variables.

c) El índice Kaiser‐Meyer‐Olkin (KMO). Compara los coeficientes de correlación de Pearson con

los coeficientes de correlación parcial entre variables. Valores bajos del índice KMO

desaconsejan el uso de esta técnica.

KMO < 0.50 son considerados inaceptables o muy malos

0.50 < KMO ≤ 0.60 son considerados malos

0.60 < KMO ≤ 0.70 son considerados mediocres o regulares

0.70 < KMO ≤ 0.80 son considerados aceptables

0.80 < KMO ≤ 0.90 son considerados buenos

0.90 < KMO ≤ 1.00 son considerados excelentes

d) Correlación Anti‐imagen.‐ Es el negativo del coeficiente de correlación parcial entre dos

variables; deberá haber pocos coeficientes altos.

e) Medida de Adecuación de la Muestra (MSA).‐ Valores bajos de este índice desaconsejan

también el uso de esta técnica.

EXTRACCIÓN DE FACTORES

Componentes principales (PC)

El método de componentes principales consiste básicamente en llevar a cabo una combinación

lineal de todas las variables de modo que el primer componente principal sea una combinación que

explique la mayor proporción de varianza en la muestra, el segundo la segunda mayor y que a su vez

esté incorrelacionado con el primero, y así sucesivamente hasta tantos componentes como variables.



Análisis Factorial

3

Si utilizamos tantos componentes principales como variables, cada variable puede ser explicada

por ella misma y por toda la variabilidad de cada variable, que expresada en unidades de desviación

estandarizadas es igual a la unidad, explicada a su vez por los factores comunes.

Comunalidades

Estadísticos iniciales.‐ Total de varianza explicada.

Gráfica de sedimentación.‐ Número de factores y eigenvalores.

Matriz factorial.‐ Matriz de componentes.

Matriz de correlaciones reproducidas y residuales.‐ Correlaciones reproducidas.

La proporción de variabilidad de cada variable explicada por los factores del modelo es lo que

se conoce con el nombre de comunalidad de la variable. Su valor oscila entre 0 y 1 y la parte de

la varianza no explicada por el modelo factorial, esto es, 1‐comunalidad, es lo que se conoce

con el nombre de factor único o unicidad.

La diferencia entre los coeficientes de correlación estimados y los coeficientes de correlación

observados es lo que se conoce como residuales.

Formalización matemática de Componentes Principales

Cuando se tiene un conjunto de p variables, X1, X2, X3 ,…, Xp, que están interrelacionadas; es común

que se busque la reducción de variables. A través de éste método se permite la reconstrucción de las

variables originales, en base a combinaciones lineales llamadas Componentes Principales, que son de

tipo:

C1 = a11⋅X1 + a12⋅X2 + a13⋅X3 + … + a1p⋅Xp

C2 = a21⋅X1 + a22⋅X2 + a23⋅X3 + … + a2p⋅Xp

C3 = a31⋅X1 + a32⋅X2 + a33⋅X3 + … + a3p⋅Xp

: : : : :

Cp = ap1⋅X1 + ap2⋅X2 + ap3⋅X3 + … + app⋅Xp

Los componentes principales son no correlacionados entre si (ortogonales), y cada uno tiene su

correspondiente varianza.



Análisis Factorial

4

La solución para determinar la matriz de coeficientes se obtiene de la siguiente manera: Sea A

una matriz cuadrada simétrica, λ es un vector de las varianzas de los componentes y u la matriz de

coeficientes, entonces tenemos que:

uA = uλ

igualando a cero: uA ‐ uλ = 0

factorizando: (A ‐ λI)u = 0

esto nos lleva a: ⏐A ‐ λI⏐ = 0 (ecuación característica),

de la cual se obtiene la solución del vector de raíces características λ (eigenvalores) y de la

matriz de vectores característicos u (eigenvectores); obtenidos a partir de la matriz A.

Para resolver la ecuación característica para un conjunto de p variables interrelacionadas, se puede

usar la matriz de varianzas y covarianzas Σ; que es una matriz cuadrada simétrica, en donde la diagonal

principal son las varianzas obtenidas para las p variables, y fuera de la diagonal están las covarianzas de

cada par de variables. Esta matriz se representa por:

Σ =

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

σ σ σ σσ σ σ σσ σ σ σ

σ σ σ σ

12

12 13 1

21 22

23 2

31 32 32

3

1 2 32

..

..

..: : : . :

..

p

p

p

p p p p

Otra opción para la solución a la ecuación característica se puede obtener a partir de la matriz

de correlaciones ρ, que es a la matriz de varianzas y covarianzas para las p variables estandarizadas.

Esta también es una matriz cuadrada, donde la diagonal principal son las varianzas (todas iguales a

uno) y fuera de la diagonal son las correlaciones de cada par de variables. Esta matriz se representa

por:



Análisis Factorial

5

ρ

ρ ρ ρρ ρ ρρ ρ ρ

ρ ρ ρ

=

⎡

⎣

⎢⎢⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥⎥⎥

11

1

1

12 13 1

21 23 2

31 32 3

1 2 3

..

..

..: : : . :

..

p

p

p

p p p

ROTACIÓN

La finalidad de la rotación es ayudar a interpretar. Existen varios procedimientos ortogonales:

VARIMAX, EQUAMEX y QUARTIMAX, no oblicuos o no ortogonales: PROMAX y DIRECT OBLIMIN. De los

procedimientos ortogonales, el más utilizado es el VARIMAX, y trata de minimizar el número de

variables que hay con pesos o saturaciones elevadas en cada factor. Todos ellos tratan de obtener una

matriz factorial que se aproxime al principio de estructura simple.

Matriz de pesos factoriales rotada.‐ Matriz de componentes rotada.

Gráfica tridimensional de la solución rotada VARIMAX y componentes principales. Los valores

de cada variable en las coordenadas corresponden a los pesos factoriales de las mismas en los

ejes de cada factor.

PUNTUACIONES FACTORIALES

Matriz de coeficientes de puntuaciones factoriales.

Las puntuaciones factoriales tendrán media 0 y desviación estándar que en componentes

principales será igual a la unidad en todos los casos.

Documents

1_1 Analisis Factorial Abr11