Upload
trinhngoc
View
220
Download
0
Embed Size (px)
Citation preview
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
1
Facultad de Psicología y Ciencias Sociales
Licenciatura en Sociología
ESTADÍSTICA II (Plan 2008)
ANANÁÁLISIS DE COMPONENTES PRINCIPALES y LISIS DE COMPONENTES PRINCIPALES y ANANÁÁLISIS DE FACTORES COMUNESLISIS DE FACTORES COMUNES
Prof. Titular
Lic. Rubén José Rodríguez
4 de abril de 2011
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
2
ANTECEDENTES ANÁLISIS FACTORIAL (1)
Charles Spearman (1863-1945): Psicólogo inglés. Fue oficial del ejercito británico en la India y a su vuelta, a los 40 años, influido por la lectura de Francis Galton, decidió realizar su tesis doctoral sobre la medición objetiva de la inteligencia. Propuso el primer modelo factorial, basado en un factor común (factor g), y un factor específico (factor s) (1901), conocida como Teoría bifactorialista de la inteligencia. Ocupo la primera Cátedra de Psicología en la University Collegeen Londres. El Análisis Factorial (AF) engloba dos técnicas: Análisis de Componentes Principales (ACP) y Análisis de Factores Comunes (AFC).
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
3
ANTECEDENTES ANÁLISIS FACTORIAL (2)
Karl Pearson (1857-1936): Científico inglés, discípulo de Galton. Conocido por sus aplicaciones de la estadística a los problemas biológicos y psicoló-gicos. Cofundador de la revista Biométrika (1902). Fue el que presentó la propuesta del Análisis de Componentes Principales (1901)(ACP) primer paso para el cálculo del Análisis Factorial. El ACP es una técnica descriptiva que intenta condensar la matriz de correlaciones entre las variables en unos componentes principales la variabilidad total que presentan los individuos en las pruebas o variables medidas.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
4
OBJETIVO DEL ANÁLISIS FACTORIAL (1)
El objetivo del AF consiste en identificar un númerode factores o componentes, inferior al número devariables observadas (F<V) mediante los cuales se pueda describir el fenómeno observado en forma simplificada. El AF es un método de reducción de la información, identificando los factores que sonconstructos no directamente observables (variables latentes).A partir de la matriz de datos original se calcula la matriz de correlaciones y el ACP/AFC convierte a ésta en una matriz factorial. “El AF es, en fin de cuentas, un estudio de los coeficientes de correlación” (Yela, Mariano (1957). La Técnica del Análisis Factorial. Madrid: Biblioteca Nueva, 1997, p. 32
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
5
OBJETIVO DEL ANÁLISIS FACTORIAL (2)
El AF al ser un técnica descriptiva o de interdepen-dencia busca resumir, reducir o simplificar la informa-ción contenida en una matriz de datos con V variables. Reduce un gran número de variables empíricas a pocas variables fundamentales donde aquellas están altamente saturadas en éstas.E identifica un reducido número de factores o
componentes F siendo F < V, de modo que expliquen un máximo de la variabilidad total (ACP), o bien, solamente la variabilidad común (AFC) (Análisis Factorial Común) (Hair, et al., 1999: 90 y 768). El AF debe cumplir los Principios de parsimonia e interpretabilidad.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
6
DIAGRAMA DE ANÁLISIS CAUSAL
Índice de industrializaciónPeriódicos semanales por hab.
U$ por Hab de Ventas al DetalleU$ por Hab del Ventas al Por Mayor
% de Mujeres > 14 años que trabajan% de Trabajadoras en agricultura
Índice de Fomento del Nivel de VidaÍndice de Salud
Gastos en Ayudas a los Niños x Hab.Índice de Paro Laboral (Desocup.)Extensión de las Enferm. Mentales
% de Viviendas Construidas reciént.Estabilidad de la Población
Índice de Actividad Migratoria
INDUSRI
PERIODIC
VENTASDE
VENTASMA
EMPLEOMU
AGRICULT
NIVELVID
SALUD
AYUDASNI
PARO
MENTALEN
VIVIENDA
ESTAPOBL
MEGRACIO
F 1
F 2
F 3
VARIABLES ORIGINALES COEFICIENTES FACTORIALES
FACTORESEXTRAIDOS
NOMBRE FACTOR LATENTE
Actividad Económica
Bienestar Social
Estabilidad Social
.913
.866
.840
.834
.082-.657
.888
.791
-.755-.625
-.475
.842
-.822
.777
Bisquerra Alzina, Rafael (1989). Introducción conceptual al Análisis Multivariable. Tomo I. Madrid: PPU-Promociones y Publicaciones Universitarias, 1989, p. 329.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
7
PASOS DEL ANÁLISIS FACTORIAL(1)
1º Exámen de la Matriz de Correlaciones: El requisito es que las variables estén intercorrelacionadas. Los indicadores estadísticos para medir la significación del grado de correlación: Test de Esfericidad de Barlett, Índice de K-M-O de Kaiser, Meyer y Olkin, Coeficiente de Correlación Parcial y Múltiple, y Gráfico de Sedimentación. Si de estos indicadores estadísticos surge que las variables en la matriz de datos están incorrelaciona-das, por lo tanto no es posible aplicar el ACP o el AFC, pues, no hay variabilidad o variancia (total o común) que explicar para obtener un componente principal o factor común.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
8
PASOS DEL ANÁLISIS FACTORIAL(2)2º Extracción de los Factores o Componentes: Determinar un número reducido de factores que puedan representar a las variables originales. Uno de los métodos de extracción es de Componentes Principales (CP), que a su vez es una técnica estadística del AF: ACP.El método de CP analiza la variancia total y extrae la primera proporción de máxima varianza (primer CP) que explique los datos. El segundo CP extrae la mayor proporción de la varianza residual, y así sucesivamente. Los CP extraídos deben no estar correlacionados entre sí (ortogonales). Los posteriores CP explican cada vez menos de la variancia residual.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
9
PASOS DEL ANÁLISIS FACTORIAL(3)
3º Rotación de Factores: Consiste en hacer rotar, girar los ejes factoriales hasta que se aproximen al máximo a las a las variables. La finalidad es obtener una representación gráfica fácilmente interpretable.4º Cálculo de las Puntuaciones Factoriales: Una vez obtenidos los factores donde las variables tienen alta saturación se pueden calcular las puntuaciones que obtendrían los sujetos en esos factores. A partir de la matriz factorial rotada se calculan las puntua-ciones factoriales que se transforman en puntuacioes estandarizadas Zij y expresan al AF como una ecuación de regresión múltiple:
1 1 2 2 ...ij i i i i i jF FZ F Z FZ
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
10
TEST DE ESFERICIDAD DE BARLETT
El test pone a prueba la H0 mediante X2 que dice que la matriz de correlaciones empírica R es igual a la matriz identidad I (cuya diagonal principal son unos y el resto de los coeficientes son 0):
H0 : │R│= 1 (Hay incorrelación)H1 : │R│ 1 (Hay correlación)
Si se confirma la H0 significa que las variables no están intercorrelacionadas, por lo tanto la nube de puntos en el espacio formaría una esfera (esfericidad).
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
11
ÍNDICE KMO de KAISER, MEYER y OLKIN
ijr .ij zr
.ij zrEste índice compara las magnitudes de los coeficientes de correlación observados rij con los coeficientes de correlación parcial . El índice KMO varía entre 0,0 a 1,0. Si el índice tiende a 1,0 señala la existencia de intercorrelación entre las variables.Valores de KMO inferiores a 0,50 suponen, por el con trario, la no adecuación del AF, al haber poca correlación. Su fórmula es:
2
1 1
2 2.
1 1 1 1
N N
iji j
N N N N
ij ij zi j i i
rKMO
r r
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
12
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 VariablesPérez, César (2004). Técnicas de análisis multivariante de datos con SPSS,
Madrid: Pearson, 2004, pp. 195-203.
Estadísticos descriptivos
78,14 23,056 105
1,696 1,1929 105
69,94 10,695 105
43,317 38,3699 105
3,551 1,8909 105
26,124 12,3582 105
3,4086 ,62725 10549181,51 149318,927 105
9,62 4,277 105
Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)
MediaDesviación
típica N del análisis
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
13
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 VariablesMatriz de correlacionesa
1,000 -,698 ,865 -,901 -,866 -,870 ,731 -,062 -,485
-,698 1,000 -,579 ,603 ,835 ,856 -,571 -,054 -,029
,865 -,579 1,000 -,962 -,847 -,865 ,833 -,067 -,703
-,901 ,603 -,962 1,000 ,844 ,870 -,824 ,082 ,636
-,866 ,835 -,847 ,844 1,000 ,975 -,713 -,067 ,424
-,870 ,856 -,865 ,870 ,975 1,000 -,783 -,043 ,384
,731 -,571 ,833 -,824 -,713 -,783 1,000 -,198 -,401-,062 -,054 -,067 ,082 -,067 -,043 -,198 1,000 -,053
-,485 -,029 -,703 ,636 ,424 ,384 -,401 -,053 1,000
,000 ,000 ,000 ,000 ,000 ,000 ,266 ,000
,000 ,000 ,000 ,000 ,000 ,000 ,293 ,386
,000 ,000 ,000 ,000 ,000 ,000 ,249 ,000
,000 ,000 ,000 ,000 ,000 ,000 ,203 ,000
,000 ,000 ,000 ,000 ,000 ,000 ,247 ,000
,000 ,000 ,000 ,000 ,000 ,000 ,331 ,000
,000 ,000 ,000 ,000 ,000 ,000 ,021 ,000,266 ,293 ,249 ,203 ,247 ,331 ,021 ,295
,000 ,386 ,000 ,000 ,000 ,000 ,000 ,295
Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)
Correlación
Sig. (Unilateral)
Alfabetización(%)
Aumento dela población(% anual)
Esperanza devida femenina
Mortalidadinfantil
(muertes por1000
nacimientosvivos)
Númeropromediode hijos
Tasa denatalidad(por 1.000habitantes)
Log(10) dePIB_CAP
Poblaciónx1000
Tasa demortalidad(por 1.000habitantes)
Determinante = 5,065E-07a.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
14
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
KMO y prueba de Bartlett
,841
1451,999
36
,000
Medida de adecuación muestral deKaiser-Meyer-Olkin.
Chi-cuadradoaproximadogl
Sig.
Prueba de esfericidadde Bartlett
ÏNDICE KMO: 0,841 Alta intercorrelación entre los indicadores
TEST DE ESFERICIDAD DE BARLETT: X2 = 1451,999 Sig. 0,000
Rechazo de H0 Hay intercorrelación entre las variables
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
15
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
Los Componentes extraídos varían entre 0,782 y 0,974 indicando una alta comunalidad (h2). Estas indican la proporción de varianza explicada por todos los factores (resultantes de la extracción). La comunalidad de cada variable es igual a la suma de cuadrados de los coeficiente factoriales de cada variable.
Comunalidades
1,000 ,868
1,000 ,955
1,000 ,972
1,000 ,952
1,000 ,940
1,000 ,974
1,000 ,7821,000 ,973
1,000 ,956
Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)
Inicial Extracción
Método de extracción: Análisis de Componentes principales.
2 2 2 2 21 2 ...k j j kj kjh F F F F
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
16
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
Los Autovalores o Eigenvalores (Valores propios: Lmbda) son el cuadra-do del Coeficiente Factorial e indican la proporción de la variancia total de una variable explicada por ese factor. Se convierte en el % explicado por el Factor I, II, etc., dividiendo el Autovalor por el nº de variables y multiplicado por 100. Se observa que el FI explica el 67,95% de la variancia total, el FII el 13,23% y FIII el 11,83%. Los tres primeros factores explican el 93,01% de la variancia total, pues sus Autovalores son > que 1 (1,065 a 6,116).
Varianza total explicada
6,116 67,954 67,954 6,116 67,954 67,954 5,9671,190 13,227 81,182 1,190 13,227 81,182 2,0601,065 11,830 93,011 1,065 11,830 93,011 1,126
,305 3,389 96,401,162 1,797 98,198,067 ,744 98,942,056 ,622 99,564,025 ,280 99,845,014 ,155 100,000
Componente123456789
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado Total
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracciónSuma de
las
Método de extracción: Análisis de Componentes principales.Cuando los componentes están correlacionados, las sumas de los cuadrados de las saturaciones nose pueden añadir para obtener una varianza total.
a.
I
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
17
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
I
Los Autovalores mayores a 1 son los tres primeros componentes (1,065; 1,190; 6,116) y que sintetizan el 93% de la explicación de la variancia total.
Gráfico de sedimentación
Número de componente
987654321
Auto
valo
r
7
6
5
4
3
2
1
0
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
18
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
Componente 1: Alfabet (-,931), Inc_pob (,755), Espvidaf (,957) , Mortinf,958), Fertilid (,944), Tasa_nat (,961)
Componente 2: Tasa_mor (-,710)
Componente 3: Poblac (,919)
Matriz de componentesa
-,931 -,009 -,025
,755 ,608 ,125
-,957 ,232 ,051
,958 -,181 -,010
,944 ,210 -,063
,961 ,225 -,010
-,851 ,096 -,220,038 -,355 ,919
,551 -,710 -,385
Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)
1 2 3Componente
Método de extracción: Análisis de componentes principales.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
19
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
Matriz rotada según el Método OBLIMIN con KAISERMatriz de estructura
-,920 ,378 -,097
,851 ,234 -,097
-,901 ,618 -,139
,913 -,562 ,153
,963 -,244 -,070
,984 -,221 -,029
-,831 ,367 -,311,016 -,005 ,981
,407 -,960 ,021
Alfabetización (%)Aumento de lapoblación (% anual)Esperanza de vidafemeninaMortalidad infantil(muertes por 1000nacimientos vivos)Número promedio dehijosTasa de natalidad(por 1.000 habitantes)Log(10) de PIB_CAPPoblación x1000Tasa de mortalidad(por 1.000 habitantes)
1 2 3Componente
Método de extracción: Análisis de componentes principales. Metodo de rotación: Normalización Oblimin con Kaiser.
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
20
EJEMPLO DE APLICACIÓN DEL AF - MUNDO 95 109 Países X 26 Variables
El Gráfico de componentes visualiza la ubicación en el espacio tridimensional de los 3 factores los coeficiente factoriales que mejor saturan a cada indicador.
Gráfico de componentes en espacio rotad
mortalidad infantil
población x1000tasa de natalidad (pnúmero promedio de h
aumento de la poblac
nte 2
tasa de mortalidad (
1,01,0
-,5
0,0
,5,5
,5
1,0
Componente 3Componente 10,00,0
alfabetización (%)
esperanza de vida fe
-,5-,5
log(10) de pib_cap
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
21
ESCALA DE NACIONALISMO - MATRIZ FACTORIAL COEFICIENTES FACTORIALES Fj (Cargas o Saturaciones Factoriales)
0,519Los peruanos somos mejores que las personas de otros países
0,719Los peruanos son más valientes y patriotas que las personas de los países vecinos.
0,766A pesar de que hay excepciones, está claro que los peruanos somos más capaces que los habitantes de los países vecinos
0,626Siento que tengo sangre chola
0,682Siento que comparto un mismo pasado con todos los peruanos
0,723Siento que formo parte de una familia peruana
0,625Las inversiones chilenas en el Perú son un peligro para el país
0,653Todos los problemas del Perú surgen con la venida de los españoles durante la conquista
0,671Las empresas norteamericanas vienen y se llevan la plata
0,702No hay que confiar mucho en los países vecinos
0,478Se debe cerrar las fronteras a productos de afuera
0,528Todos los peruanos deberían vivir en el Perú y no irse al extranjero
0,808En el Perú solamente debería vivir la gente que es peruana
0,811Los peruanos no debemos mezclarnos con gente de otros países
0,620Prefiero ser peruano más que de cualquier otro país
0,651En general me agradan los peruanos
0,790Estoy orgulloso de ser peruano
0,800Me gusta ser peruano
F5F4F3F2F1
http://www.waporcolonia.com/presentaciones/chaparro-saravia.pps#792,28,Diapositiva%2028http://www.waporcolonia.com/presentaciones/chaparro-saravia.pps#792,28,Diapositiva%2028
Autor: Prof. Rubén J. Rodríguez Estadística IILicenciatura en Sociología
22
ANIMOSIDAD (3.68 de promedio)
ENDOGAMIA (2.89 de promedio)
PERTENENCIA GRUPAL (4.01 de promedio)
ORGULLO (4.24 de promedio)
DENOMINACIÓN DE LAS DIMENSIONES FACTORIALESPromedio en las Escalas Likert
SENTIMIENTO DE SUPERIORIDAD (3.42 de prom)
DIMENSIONES INCLUYENTES
DIMENSIONES DE CONFRONTACION
• De los 66 ítems iniciales se obtiene una escala de 18 ítems• Las dimensiones que mejor explican los cambios en puntuaciones generales son la
Endogamia, la Animosidad y Superioridad. Es ahí donde hay mayor varianza.