279
UNIVERSIDAD AUTONOMA DE COAHUILA Facultad de Mercadotecnia Análisis Multivariable Antología Didier Varela Castro SALTILLO COAHUILA 25de junio de 2007

Analisis-Mltivariado ANTOLOGIA

Embed Size (px)

Citation preview

UNIVERSIDAD AUTONOMA DE COAHUILA Facultad de Mercadotecnia Anlisis Multivariable Antologa Didier Varela Castro SALTILLO COAHUILA 25de junio de 2007 1 UNIDAD 1: Introduccin al Anlisis Multivariante Enlascienciaseconmicaselanlisisnumricodelainformacingeneralmenteseha realizado por medio de simples clculos estadsticos, o bien, cuando es ms complejo con el uso del anlisis de regresin lineal. Es importante mostrar una serie de tcnicas de anlisis quepuedenserconsideradascomohermanasdelaregresinlineal.Esteparentescotan cercanoseexplicaporprovenirdelaramadelaestadsticaconocidacomoanlisis multivariable. Estashermanasdelaregresinlinealsonlassiguientes:elanlisisdecomponentes principales, el anlisis discriminante, el anlisis factorial, el anlisis de correlacin cannica y el de conglomerados. Todos estos anlisis son variaciones de un mismo tema en el que el objetivoprincipalespresentardiferentesdesglosesdelasvarianciasdeunconjuntode datosysometerlosaunaseriedepruebasestadsticasparadeterminarelgradode asociacin entre esas variancias y, por tanto, entre las variables. El anlisis multivariable tiene una historia que data desde el uso de la regresin lineal por parte de Gauss en 1809 y, posteriormente, por otros estadsticos como Markov en 1900. Las tcnicasmsrecientesdatandesdelosaosde1930.Enlaactualidad,lospaquetes estadsticosyeconomtricosincluyenprocedimientosparaaplicarestasotrastcnicasdel anlisisdedatos.Acontinuacinseresumenlasprincipalescaractersticasdeestas tcnicas. 2 1.1EXPLICARENQUECONSISTEELANALISISMULTIVARIANTEY CUANDO ES APROPIADO APLICARLO. Eselconjuntodemtodosestadsticoscuyafinalidadesanalizarsimultneamente conjuntosdedatosmultivariantesenelsentidodequehayvariasvariablesmedidaspara cada individuo objeto estudiado. Surazndeserradicaenunmejorentendimientodelfenmenoobjetodeestudio obteniendoinformacinquelosmtodosestadsticosunivariantesybivariantesson incapaces de conseguir. As, como Hair et al. (1999) dicen: Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas enlasquelosconsumidoreseranconsideradoshomogneosycaracterizadosporun nmero pequeo de variables demogrficas. En su lugar, deben desarrollar estrategias que atraigananumerosossegmentosdeclientesconcaractersticasdemogrficasy psicogrficasdiversasenunmercadoconmltiplesrestricciones(legales,econmicas, competitivas,tecnolgicas,etc).Sloatravsdelanlisismultivariantelasrelaciones mltiplesdeestetipopodrnserexaminadasadecuadamenteparaobtenerun entendimientomscompletoyrealdelentornoquepermitatomarlasdecisionesms adecuadas. Se debe de aplicar para evaluar caractersticas de distintas cosas, en mercadotecnia podran ser caractersticas demogrficas, psicogrficas, etc, con el fin de desarrollar estrategias para atraer clientes, y al final tomar las decisiones ms acertadas Elanlisismultivarianteesunmtodoestadsticoutilizadoparadeterminarla contribucin de varios factores en un simple evento o resultado. Losfactoresdeestudiosonlosllamadosfactoresderiesgo(bioestadstica),variables independientes o variables explicativas.El resultado estudiado es el evento, la variable dependiente o la variable respuesta.Elanlisismultivariantemediantetcnicasdeproyeccinsobrevariableslatentestiene muchas ventajas sobre los mtodos de regresin tradicionales: 3 Se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente independientesPuede trabajar con matrices que contengan ms variables que observacionesPuedetrabajarconmatricesincompletas,siemprequelosvaloresfaltantesestn aleatoriamente distribuidos y no superen un 10%Puestoquesebasanenlaextraccinsecuencialdelosfactores,queextraenla mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que serdependientes)puedensepararlainformacindelruido.SeasumequelasXse miden con ruido. Los mtodos estadsticos multivariantes y el anlisis multivariante sonherramientasestadsticasqueestudianelcomportamientodetresoms variables al mismo tiempo. Se usan principalmente para buscar las variables menos representativas para poder eliminarlas, simplificando as modelos estadsticos en los queelnmerodevariablesseaunproblemayparacomprenderlarelacinentre varios grupos de variables. Algunos de los mtodos ms conocidos y utilizados son la Regresin lineal y el Anlisis discriminante. Cuando es apropiado aplicarlo Pueden sintetizarse en dos: 1) Proporcionar mtodos cuya finalidad es el estudio conjunto de datos multivariantes que el anlisis estadstico uni y bidimensional es incapaz de conseguir 2) Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en cuenta la informacin disponible por el conjunto de datos analizado. UnAFresultaradecuadocuandoexistanaltascorrelacionesentrelasvariables,quees cuando podemos suponer que se explican por factores comunes. El anlisis de la matriz de correlaciones ser pues el primer paso a dar. Analticamente, podemos comprobar el grado de correlacin con las siguientes pruebas o test:-Test de esfericidad de Bartlett. Esnecesariosuponerlanormalidaddelasvariables.ContrastalaH0dequela matrizdecorrelacionesesunamatrizidentidad(incorrelacinlinealentrelas 4 variables).Si,comoresultadodelcontraste,nopudisemosrechazarestaH0,yel tamaodelamuestrafueserazonablementegrande,deberamosreconsiderarla realizacin de un AF, ya que las variables no estn correlacionadas. El estadstico de contraste del test de Bartlett es: B = - ( n - 1 - (2p + 5)/6 ) ln | R* | bajo la hiptesis nula resultaX 2(p2 - p)/2 donde: op es el nmero de variables yo| R* | es el determinante de la matriz de correlaciones mustrales.1.2DEFINIRYDISCUTIRLASTCNICASESPECIFICASQUEINCLUYEEL ANALISIS MULTIVARIANTE Envezdelimitarseaverlasventasenfuncindelapublicidad,unacompaadesea emprenderunanlisisquelasconsiderecomodependientesdediversasvariables.por ejemplo,niveldelapublicidad,numerodevendedores,precioeingresosdisponiblespor persona.enestaaplicacinconvieneutilizarelanlisisderegresinmltipleelcual describelarelacinlinealdemejorajusteentrelavariabledependienteyy2omas variables independientes las x. Se pueden clasificaren tres grandes grupos: TcnicasMultivariantesMtodos deDependenciaDependienteMtricaDependienteNo MtricaAnlisis de RegresinAnlisis de SupervivenciaMANOVACorrelacin CannicaAnlisis DiscriminanteRegresin LogsticaAnlisis ConjointModelos estructuralesMtodos deInterdependenciaDatos MtricosDatos No MtricosA. Comp. PrincipalesAnlisis FactorialEscalas MultidimensionalesAnlisis ClusterAnlisis de CorrespondenciasModelos log-linealesEscalas MultidimensionalesAnlisis Cluster5 1. MTODOS DE DEPENDENCIA Suponenquelasvariablesanalizadasestndivididasendosgrupos:lasvariables dependientesylasvariablesindependientes.Elobjetivodelosmtodosdedependencia consisteendeterminarsielconjuntodevariablesindependientesafectaalconjuntode variables dependientes y de qu forma. 1.1 Anlisis de Regresin Eslatcnicaadecuadasienelanlisishayunaovariasvariablesdependientes mtricas cuyo valor depende de una o varias variables independientes mtricas. Porejemplo,intentarpredecirelgastoanualencinedeunapersonaapartirdesu nivel de ingresos, nivel educativo, sexo y edad. 1.2Anlisis de Supervivencia Es similar al anlisis de regresin pero con la diferencia de que la variableIndependiente es el tiempo de supervivencia de un individuo objeto. Porejemplo,intentarpredecireltiempodepermanenciaeneldesempleodeun individuo a partir de su nivel de estudios y de su edad. 1.3 Anlisis de la varianza Se utilizan en situaciones en las que la muestra total est dividida en varios grupos basadosenunaovariasvariablesindependientesnomtricasylasvariablesdependientes analizadassonmtricas.Suobjetivoesaveriguarsihaydiferenciassignificativasentre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, hay diferencias en el nivel de colesterol por sexos? Afecta, tambin, el tipo de ocupacin? 1.4 Correlacin Cannica Su objetivo es relacionar simultneamente variasvariables mtricas dependientes e independientescalculandocombinacioneslinealesdecadaconjuntodevariablesque maximicen la correlacin existente entre los dos conjuntos de variables. Por ejemplo, analizar cmo est relacionado el tiempo dedicado al trabajo y al ocio de una persona con su nivel de ingresos, su edad y su nivel de educacin 6 Silavariabledependienteescualitativaalgunasdelastcnicasquesepueden aplicar son las siguientes:

1.5 Anlisis Discriminante Esta tcnica proporciona reglas de clasificacin ptimas de nuevas observaciones de las que se desconoce sugrupo de procedencia basndose en la informacin proporcionada los valores que en ella toman las variables independientes. Por ejemplo, determinar los ratios financieros que mejor permiten discriminar entre empresas rentables y poco rentables.

1.6 Modelos de regresin logstica Sonmodelosderegresinenlosquelavariabledependienteesnomtrica.Se utilizan como una alternativa al anlisis discriminante cuando no hay normalidad

1.7 Anlisis Conjoint Esunatcnicaqueanalizaelefectodevariablesindependientesnomtricassobre variables mtricas o no mtricas. La diferencia con el Anlisis de la Varianza radica en dos hechos:lasvariablesdependientespuedensernomtricasylosvaloresdelasvariables independientes no mtricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseo de Experimentos. Porejemplo,unaempresaquieredisearunnuevoproductoyparaellonecesita especificarlaformadelenvase,suprecio,elcontenidoporenvaseysucomposicin qumica.Presentadiversascomposicionesdeestoscuatrofactores.100clientes proporcionan un ranking de las combinaciones que se le presentan. Se quiere determinar los valores ptimos de estos 4 factores. 2) MTODOS DE INTERDEPENDENCIA 7 Estosmtodosnodistinguenentrevariablesdependienteseindependientesysuobjetivo consiste en identificar qu variables estn relacionadas, cmo lo estn y por qu. Si los datos son mtricos, se pueden utilizar, entre otras, las siguientes tcnicas: 2.1 Anlisis Factorial (AF) y Anlisis de Componentes Principales (ACP) Seutilizaparaanalizarinterrelacionesentreunnmeroelevadodevariablesmtricas explicandodichasinterrelacionesentrminosdeunnmeromenordevariables denominadasfactores(sisoninobservables)ocomponentesprincipales(sison observables). As, por ejemplo, si un analista financiero quiere determinar cul es el estado desaludfinancierodeunaempresaapartirdelconocimientodeunnmeroderatios financieros, construyendo varios ndices numricos que definan su situacin, el problema se resolveramedianteunACP.Siunpsiclogoquieredeterminarlosfactoresque caracterizanlainteligenciadeunindividuoapartirdesusrespuestasauntestde inteligencia, utilizara para resolver este problema un AF. 2.2 Escalas Multidimensionales Suobjetivoestransformarjuiciosdesemejanzaopreferenciaendistanciasrepresentadas enunespaciomultidimensional.Comoconsecuencia,seconstruyeunmapaenelquese dibujanlasposicionesdelosobjetoscomparadosdeformaqueaquellospercibidoscomo similares estn cercanos unos de otros y alejados de objetos percibidos como distintos. Por ejemplo,analizar,enelmercadoderefrescos,laspercepcionesqueungrupode consumidorestieneacercadeunalistaderefrescosymarcasconelfindeestudiarqu factores subjetivos utiliza un consumidor a la hora de clasificar dichos productos. 2.3 Anlisis Cluster Suobjetivoesclasificarunamuestradeentidades(individuosovariables)enunnmero pequeodegruposdeformaquelasobservacionespertenecientesaungruposeanmuy similares entre s y muy disimilares del resto. A diferencia del Anlisis Discriminante, en el Anlisis Cluster se desconoce el nmeroy la composicin de dichos grupos. Por ejemplo, 8 clasificargruposdealimentos(pescados,carnes,vegetalesyleche)enfuncindesus valores nutritivos.Silosdatosfuesennomtricos,sepodranutilizar,ademsdelasEscalas Multidimensionales y el Anlisis Cluster, las siguientes tcnicas: 2.4 Anlisis de Correspondencias Se aplica a tablas decontingencia multidimensionalesy persigue un objetivo similar al de las escalas multidimensionales pero representando simultneamente las filas y columnas de lastablasdecontingencia.Porejemplo,analizarelparoteniendoencuentalaprovincia, sexo, edad y nivel de estudios del parado. 2.5 Modelos log-lineales Seaplicanatablasdecontingenciasmultidimensionalesymodelizanrelacionesde dependenciamultidimensionaldelasvariablesobservadasquebuscanexplicarlas frecuencias observadas. 3) MTODOS ESTRUCTURALES Suponen que las variables estn divididas en dos grupos: el de las variables dependientes y eldelasindependientes.Elobjetivodeestosmtodosesanalizar,noslocomolas variablesindependientesafectanalasvariablesdependientes,sinotambincmoestn relacionadas las variables de los dos grupos entre s. Analizan las relaciones existentes entre un grupo de variables representadas por sistemas de ecuacionessimultneasenlasquesesuponenquealgunasdeellas(denominadas constructos)semidenconerrorapartirdeotrasvariablesobservablesdenominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos partes: Unmodeloestructural,queespecificalasrelacionesdedependenciaexistenteentrelos constructos latentes.9 yunmodelodemedida,queespecificacomolosindicadoresserelacionanconsus correspondientes constructos.Por ejemplo, los Modelos Estructurales permiten analizar cmo se relacionan los niveles de utilizacin de los servicios de una empresa con las percepciones que sus clientes tienen de ella. 1.3DETERMINARCUALTECNICADELANALISISMULTIVARIANTEY CUANDO ES APROPIADA PARA UN PROBLEMA ESPECIFICO, DANDO PARA ELLO EJEMPLOS DEL AREA ADMINISTRATIVA Para la aplicacin en un problema especifico, en el rea de administracin resulta adecuada la implementacin de la tcnica de anlisis dependiente de tipo discriminante, debido a que poyaenlatomadedecisionesdentrodelaorganizacin,control,direccinplaneaciny evaluacin de proyectos Porejemplo:eneldepartamentodeproveedoresdeunaempresadeseguridadprivadase realizan licitaciones en las cuales se evalan cada uno de los factores determinantes para la obtencindeunbuendesempeodelosserviciosymaterialesrequeridos,despusde evaluarcadaunodeellossetomaladecisinbasadaencualeslaquemanejaelmejor precio,tiempodeentrega,tiempodevida,ycualeslaqueadaptaacondicionesdela empresa. Envezdelimitarseaverlasventasenfuncindelapublicidad,unacompaadesea emprenderunanlisisquelasconsiderecomodependientesdediversasvariables.por ejemplo,niveldelapublicidad,numerodevendedores,precioeingresosdisponiblespor persona.enestaaplicacinconvieneutilizarelanlisisderegresinmltipleelcual describe la relacin lineal de mejor ajuste entre la variable dependiente y2 o mas variables independientes las x. 10 1.4 DEFINIRLANATURALEZADELASESCALASDEMEDICIONYSU RELACION CON LAS TECNICAS MULTIVARIANTES. Las variables, se pueden clasificar en uno de las escalas siguientes: Nominal:Susvaloresslosepuedenclasificarenclases(ocategoras),nosepueden ordenardepequeoagrandeodemenosams.Ejemplos:sexo,estadocivil,profesin, ocupacin.Ordinal:Susvaloressepuedenclasificarencategorasysepuedenordenarenjerarquas conrespectoalacaractersticaqueseevala.Ejemplos:nivelsocioeconmico,Apgar, puntaje Apache de Gravedad cardiaca, clase social, lugar en la clase.De intervalo: Sus valores tienen un orden natural, es posible cuantificar la diferencia entre dos valores de intervalo. Generalmente tienen unidad de medida. Una variable de intervalo es discretacuando slopuede tomar un valorentero (por ejemplo: nmero de hijos, veces queseconsultalestablecimientodesalud);obienescontinuasipuedetomarcualquier valor en un intervalo (por ejemplo.: peso, talla, ndice de masa corporal, etc). De proporcin: El cero representa la ausencia de la caracterstica que se evala. Ejemplos: costo por atencin, adecuacin peso (edad). ESCALAS DE MEDIDA Elanlisisdelosdatosimplicalaseparacin,identificacinymedidadelavariacinenun conjuntodevariables,tantoentreellasmismascomoentreunavariabledependienteyunao msvariablesindependientes.Eltrminoclaveaquesmedida,dadoqueelinvestigadorno puedesepararoidentificarunavariacinamenosquepuedasermesurable.Lamedidaes importantepararepresentarconprecisinelconceptodenuestrointersyescrucialenla seleccin del mtodo deanlisis multivariante apropiado. En los siguientes prrafos vamos a discutir el concepto de medida en lo que se refiere al anlisis de datos y particularmente a las diversas tcnicas multivariantes. Existen dos tipos bsicos de datos: no mtricos (cualitativos) y mtricos (cuantitativos). Los datosnomtricossonatributos,caractersticasopropiedadescategricasqueidentificano describen a un sujeto. Describen diferencias en tipo o clase indicando la presencia o ausencia deunacaractersticaopropiedad.Muchaspropiedadessondiscretasporquetienenuna 11 caractersticapeculiarqueexcluyetodaslasdemscaractersticas.Porejemplo,siunoes hombre, no puede ser mujer; No hay cantidad de gnero, slo la condicin de ser hombre o mujer. Por el contrario, las medidas de datos mtricos estn constituidas de tal forma que los sujetos pueden ser identificados por diferencias entre grado o cantidad. Las variables medidas mtricamentereflejancantidadesrelativasogrado.Lasmedidasmtricassonlasms apropiadas para casos que involucran cantidad o magnitud, tales como el nivel de satisfaccin o la demanda de trabajo. Escalas de medidas no metricasLasmedidasnomtricaspuedentenerescalasnominalesuordinales.Lamedidaconuna escala nominal asigna nmeros que se usan paraetiquetar o identificar sujetos u objetos. Las escalas nominales, tambin conocidas como escalas de categora, proporcionan el nmero de ocurrenciasencadaclaseocategoradelavariablequeseestestudiando.Portanto,los nmeros o smbolos asignados a los objetos no tienen ms significado cuantitativo que indicar la presencia o ausencia del atributo o caracterstica bajo investigacin. Los ejemplos de datos conescalanominalincluyenelsexo,lareliginoelpartidopolticodeunapersona.Para trabajarconestosdatos,elanalistapuedeasignarnmerosacadacategora,porejemplo,2 paramujeresy1parahombres.Estosnmerosslorepresentancategorasoclasesyno implican cantidades de un atributo o caracterstica. Lasescalasordinalesrepresentanunnivelsuperiordeprecisindelamedida.Lasvariables pueden ser ordenadas o clasificadas con escalas ordinales en relacin a la cantidad del atributo posedo. Cada subclase puede ser comparada con otra en trminos de una relacin de mayor queomenorque.Porejemplo.losdiferentesnivelesdesatisfaccindelconsumidor individual con diferentes productos nuevos puede ilustrarse en una escala ordinal. La siguiente escalamuestralaideaquetieneunencuestadoacercadetresproductos.Elencuestadoest ms satisfecho con A que con B y ms satisfecho con B que con C. Los nmeros utilizados en escalas ordinales como stas no son cuantitativos, dado que indican slo posiciones relativas en series ordenadas. No hay medida de cunta satisfaccin recibe el consumidor en trminos absolutos, el investigador ni conoce la diferencia exacta entre puntos de la escala de satisfaccin. Muchas escalas de las ciencias del comportamiento caen dentro de esta categora ordinal. 12 Escalas de medidas mtricasLasescalasdeintervalosyderazn(ambasmtricas)proporcionanelnivelmsaltode medidadeprecisin,permitiendorealizarcasitodaslasoperacionesmatemticas.Estasdos escalastienenunidadesconstantesdemedida,detalformaquelasdiferenciasentredos puntos adyacentes de cualquier parte de la escala son iguales. La nica diferencia real entre las escalasdeintervaloylasderaznesquelasdeintervalotienenunpuntoceroarbitrario, mientrasquelasescalasderazntienenunpuntodeceroabsoluto.Lasescalasdeintervalo ms familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un punto de cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemosregistrartemperaturaspordebajodelpuntocerodeesaescala.Portanto,noes posibledecirqueunvalorcualquierasituadoenunintervalodelaescalaesunmltiplode cualquier otro punto de la escala. Por ejemplo, si un da se registran 80F, no se puede decir queseadosvecesmscalurosoqueunode40Fporquesabemosque80F,enunaescala diferentecomoCelsius,equivalena26,7C.Delamismaforma,40FenCelsius correspondena4,4C.Aunque80Fson,desdeluego,dosveces40F,nosepuedeafirmar que el calor de 80F sea dos veces el calor de 40F porque usando diferentes escalas, el calor no es dos veces mayor; esto es, 4,4F X 2 '* 26,7C. Lasescalasderaznrepresentanlaformasuperiordemedidadeprecisin,dadoqueposeen las ventajas de todas las escalas inferiores ms un punto de cero absoluto. Con las medidas de escaladeraznsepermitentodaslasoperacionesmatemticas.Elpesoquetenemosenel baouotrasmquinasdepesocomunesutilizanestasescalas,dadoquetienenunpuntode ceroabsolutoyquepuedenserexpresadosentrminosdemltiploscuandoserelacionaun punto con otro de la escala; por ejemplo, 100 kilos es dos veces ms pesado que 50 kilos. Esimportanteentenderlosdiferentestiposdeescalasdemedidapordosrazones.Enprimer lugar,elinvestigadordebeidentificarlaescalademedidadecadavariableempleada,detal forma que no se estn utilizando datos no mtricos como si fueran mtricos. En segundo lugar, la escala de medida es crucial para determinar qu tcnica multivariante es la ms conveniente paralosdatos,consideracinhechatantoparalasvariablesdependientescomolas independientes. En la discusin de las tcnicas y su clasificacin, que haremos en posteriores seccionesdeestecaptulo,laspropiedadesmtricasonomtricasdelasvariables 13 dependientesoindependientessonlosfactoresdeterminantesenlaseleccindelatcnica apropiada. Error de medida y medidas multivariantesEl uso de mltiples variables as como la dependencia de su combinacin (el valor terico) en lastcnicasmultivariantestambindirigesuatencinauntemacomplementario,elerrorde medida. Elerrordemedidaeselgradoenquelosvaloresobservadosnosonrepresentativosdelos valores verdaderos. El error de medida tiene mltiples fuentes, que van desde errores en la entradadedatosalaimprecisinenlamedicin(porejemplo,imponiendoescalasde puntuacindesietepuntosalaactitudmedidacuandoelinvestigadorsabequelos encuestadosslopuedenresponderconprecisinaunapuntuacindetrespuntos)pasando porlaincapacidaddelosencuestadosaproporcionarinformacinprecisa(porejemplo,las respuestasalarentadeunaeconomafamiliarpuedenserrazonablementeprecisasperorara vezlosoncompletamente).Portanto,sedebeasumirquetodaslasvariableusadasenlas tcnicas multivariantes tienen algn grado de error de medida. El impacto del error de medida es aadir ruido a las variables medidas u observadas. Por tanto, el valor observado obtenido representatantoelnivelverdaderocomoelruido.Cuandosecalculancorrelacioneso medias,normalmenteelefectoverdaderoestparcialmentecamufladoporelerrorde medida, causando la debilidad de las correlaciones y la prdida de precisin de las medias. Elobjetivodelinvestigadordereducirelerrordemedidapuedeseguirvarioscaminos.Al valorarelgradodeerrordemedidapresenteencualquiermedicin,elanalistadebe enfrentarse tanto con la validez como con la fiabilidad de la medida. La validez es el grado en quelamedidarepresentaconprecisinloquesesuponequerepresenta.Porejemplo,si queremosmedirlarentadiscrecional,nopreguntaremosporlarentatotaldelaseconomas domsticas.Asegurarlavalidezempiezaconunconocimientoprofundodeloquesevaa medirysloentoncesrealizarlamedidatancorrectayprecisacomoseaposible.Sin embargo,laprecisinnoaseguralavalidez.Ennuestroejemplodelarenta,elinvestigador podra definir muy precisamente el total de la renta familiar pero no tiene una medida vlida de la renta discrecional porque no se ha planteado la pregunta correcta. 14 Silavalidezestasegurada,elinvestigadordebeconsiderarlafiabilidaddelasmedidas.La fiabilidad es el grado en que la variable observada mide el valor verdadero y est libre de error;portantoesloopuestoalerrordemedida.Silamismamedidaserealizarepetidas veces,porejemplo,lasmedidasmsfiablesmostrarnunamayorconsistenciaquelas medidas menos fiables. El investigador deber valorar siempre las variables que estn siendo usadasysisepuedenencontrarmedidasalternativasvlidas,elegirlavariableconlamayor fiabilidad. Elinvestigadorpuedetambinoptarpordesarrollarmedicionesmultivariantes,tambin conocidas como escalas sumadas, donde diversas variables se unen en una medida compuesta pararepresentarunconcepto(porejemplo,unaescaladepersonalidaddeentradamltipleo puntuaciones sumadas de un producto). El objetivo es evitar usar slo una nica variable para representarunconcepto,yensulugarutilizarvariasvariablescomoindicadores, representandotodosellosdiferentesfacetasdelconceptoparaobtenerunaperspectivams completa. El uso de indicadores mltiples permite al investigador llegar a una especificacin ms precisa de las respuestas deseadas y no deja la fiabilidad plena a una nica respuesta sino en la respuesta media o tpica de un conjunto de respuestas relacionadas. Por ejemplo, al medirlasatisfaccin,unopodrapreguntarunanicacuestin,culessugradode satisfaccin?,ybasarelanlisisenunanicarespuesta.Osepodradesarrollarunaescala aditivaquecombinaravariasrespuestasdesatisfaccin,quizendiferentesformatosde respuestayendiferentesreasdeinters,quecontemplelasatisfaccintotal.Lapremisa bsicaesquelasrespuestasmltiplesreflejanconmayorprecisinlarespuestaverdadera que la respuesta nica. El impacto del error de medida y la escasa fiabilidad no pueden ser observadas directamente, dadoqueseencuentranenlasvariablesobservadas.Elinvestigadordebe,portanto,trabajar siempreparaaumentarlavalidezylafiabilidad,loquealfinalllevaraunretratoms autntico de las variables de inters.Los malos resultados no siempre se deben al error de medida,perolapresenciadelerrordemedidaesgarantadedistorsinenlasrelaciones observadasyhacemenospoderosaslastcnicasmultivariantes.Reducirelerrordemedida, aunqueimpliqueesfuerzo,tiempoyrecursosadicionales,puedemejorarresultadosdbileso marginales, as como fortalecer resultados probados. 15 UNIDAD 2: Anlisis de Factores. 2.1 EXPLICAR CON SUS PROPIAS PALABRAS EN QUE CONSISTELA TECNICA DE ANALISIS DE FACTORES. Es una tcnica de anlisis estadstico multivariado que sirve para explicar un problema que est en funcin de algunas variables. Este determina el nmero y naturaleza de un grupo de constructorsubyacentesenunconjuntodemediciones(unconstructoesunatributopara explicarunfenmeno),comotambinsirveparagenerarvariablesartificialestambin llamadasfactoresquerepresentanaunconstructor.Estosfactoresseobtienendelas variables originales y deben de ser interpretadas de acuerdo con estas. Este mtodo busca factores que expliquen la mayor parte de la varianza comn. La varianza comn es la parte de lavariacin de la variableque es compartida con las otras variables. La varianza nica es la parte de la variacin de la variable que es propia de esa variable. ElAnlisisFactorial(mtodofactorprincipal)suponequeexisteunfactorcomn subyacente a las variables.Consiste en resumir la informacin contenida en una matriz de datos con V variables. Para elloseidentificanunreducidonmerodefactoresF,siendoelnmerodefactoresmenor queelnmerodevariables.Losfactoresrepresentanalavariablesoriginales,conuna prdida mnima de informacin.ElmodelodelAnlisisFactorialseexpresacomounacombinacinlinealdefactoresno directamente observables: Xij = F1i ai1 + F2i ai2+....+Fki aik + Vi. El anlisis factorial es una tcnica queconsiste en resumir la informacin contenida en una matriz de datos de m variables ( X1 , X2 , ... X m ).Para ello se identifican unreducido nmerodefactores,menorqueelnmerodevariables.Losfactoresrepresentarnalas variables, con una prdida mnima de informacin.16 Siconcretamosaunmodelode5variablesobservadasdelasquellegamosa2factores subyacentes,laexpresinalgebraicaygrfica del modelo sera: X 1 =a11F1 + a12F2 +d 1V1X 2 =a21F1 + a22F2 +d 2V2 X 3 =a31F1 + a32F2 +d 3V3X 4 =a41F1 + a42F2 +d 4V4X 5 =a51F1 + a52F2 +d 5V5 En general el modelo factorialse puede expresar: X i j = Fi 1a j1 + Fi 2 aj 2 + ...+ F i k a j k + V i j d j Siendo X i j la puntuacin del individuo i en la variable j F kel k-esimo factor comna jk puntuacionesfactorialeseselpesodelaregresindelfactorkenlavariablej. Tambin se las llama cargas factoriales o saturacin de la variable j en el factor k V jes el factor nico de cada variable d jesladiscrepanciaexistenteentrelapuntuacinobservadayelvalorquedarala relacin funcional exacta Seasumequelosfactoresnicosnoestncorrelacionadosentresniconlosfactores comunes. Se puede distinguir entre Anlisis Factorial exploratorio, donde no se conocen los factores "a priori", que se calculan mediante el anlisis Factorialy anlisis Factorial Confirmatorio donde se propone"a priori" un modelo, segn el cual hay unos factoresque representan a lasvariablesoriginales,siemprehaymasvariablesquefactoresysesometea comprobacin el modelo. 17 Paraqueelanlisisfactorialtengasentidohacenfaltadoscondiciones:Parsimoniae interpretabilidad.Segnelprincipiodeparsimonialosfenmenosdebenexplicarseconel menornmerodeelementosposibles,porloquecuantomenosfactorestengamosmejor. Peroademsestosfactoresdebenpoderserinterpretadosmedianteteorasustantiva.Una buena solucin factorial es siempre sencilla e interpretable. El mtodo de Anlisis de factores exploratorios (EFA) es una tcnica que se puede utilizar para descubrir la estructura subyacente (dimensiones) de un grupo grande de variables. Por lotanto,elEFAreduceungrupograndedevariablesenunpardefactoressubyacentes. Ejemplo: Usted ha instalado un cuestionario sobre la satisfaccin de cliente en la industria de la aviacin civil (United Airlines, Delta, Lufthansa). Usted ha identificado 30 items para describiryparaevaluarlasatisfaccindecliente(e.g.convenienciadeboletosque compran,convenienciaderevisandoen,entornodelossalones,cordialidaddelos asistentes de vuelo, satisfaccin de deseos especiales, calidad del alimento de a bordo, de la comodidad de los asientos, ofertas especiales tales como proyeccin de pelculas, delaexactituddelallegada).Usandoel EFAustedpuedereducirelgrupode30items dentro de un proceso que analiza un par de los factorescentrales que fueron la base de su grupodeitems.Ustedpuedeconsiderar,porejemplo,quelositemsconvenienciade boletosquecompran,convenienciadechequeo,entornodelossalones,calidaddel alimentodeabordo,comodidaddelosasientosyofertasespecialestalescomo proyeccin de pelculas son parte de una dimensin potencial. Las cosas tangibles que las lneas areas pueden realizar para conducir su negocio. Sin embargo, la cordialidad de los asistentes de vuelo, los la satisfaccin de deseos especiales y la exactitud de la llegada son ms bien una dimensin de un proceso. Esosignificaqueel EFAestdescifrandoestasestructuras-ennuestroejemplo,elfactor potencial y proceso. Los gerentes ahora pueden conseguir una comprensin ms profunda paradesarrollar lasactividadesde marketing quesemejoren lasatisfaccindesusclientes centrndose ms en la dimensin potencialo en la dimensin proceso. 18 Uso del Anlisis de factores exploratorios. Aplicaciones -Encuestas sobre satisfaccin de cliente. -Mediciones de Calidad del servicio.-Pruebas de personalidad.-Encuestas sobre imagen.-Identificacin de segmentos de mercado.-Tipificacin de Clientes, productos o comportamientos. 2.2DIFERENCIARLATCNICADEANLISISDEFACTORESDEOTRAS TCNICAS DE ANLISIS DE FACTORES Es un mtodo estadstico multivariado para determinar el nmero y naturaleza de un grupo de constructo subyacentes en un conjunto de mediciones. Un constructo es un atributo para explicar un fenmeno (Wiersma, 1986). En este anlisis se generan variables artificiales (denominadasfactores)querepresentanconstructor.Losfactoresseobtienendelas variables originales y deben ser interpretados de acuerdo con estas. Como menciona Naghi (1984),enunatcnicaparaexplicarunfenmenocomplejoenfuncindeunascuantas variables Esunprocedimientoestadsticoquecreaunnuevoconjuntodevariablesno correlacionadasentres,llamadasfactoressubyacentesofactorescomunes,conla esperanza de que estas nuevas variables proporcionen una mejor comprensin de los datos. UnodelosobjetivosbsicosdelanlisisdefactoresesdeterminarsilasPvariables respuestaexhibenpatronesderelacinentres,detalmaneraquelasvariablessepuedan dividir en m grupos,y que cadagrupo conste devariables altamente correlacionadas entre s, pero bajamente correlacionadas con variables de otros grupos.

Los OBJETIVOS del anlisis de factores son: 19 1)Determinarsiexisteunconjuntomspequeodevariablesnocorrelacionadasque expliquen las relaciones que existen entre las variables originales. 2) Determinar el nmero de variables (diferentes) subyacentes. 3) Interpretar estas nuevas variables. 4) Evaluar a los individuos del conjunto de datos sobre estas nuevas variables. 5) Usar estas nuevas variables en anlisis estadsticos posteriores. -Noesunatcnicadedependencia(nohayseleccinaprioridedependientey exgenas), es una Tcnica de Interdependencia Noesunatcnicadeagrupacin:Aunquepuedeaplicarseconfinesdeagrupacinsobre matrices de correlaciones entre objetos / sujetos(Factorial Q),lo habitual es su aplicacin sobre matrices de correlaciones entre variables (Factorial R). Mtodo 1 - AF de Componentes Principales (ACP) Elmtododecomponentesprincipalessebasaensuponerquelosfactorescomunes explicanelcomportamientodelasvariablesoriginalesensutotalidaddemaneraqueel modelo es: X = Lf Lascomunalidadesinicialesdecadavariablesoniguala1,porqueel100%dela variabilidad de las p variables se explicar por los p factores. Evidentemente, carecera de interssustituirlaspvariablesoriginalesporpfactoresque,enocasiones,sondedifcil interpretacin. No obstante, si las correlaciones entre las p variables fuesen muy altas, sera deesperarqueunospocosfactoresexplicasengranpartedelavariabilidadtotal. Supongamosquedecidimosseleccionarrfactores.Lacomunalidadfinaldecadavariable 20 indicarlaproporcindevariabilidadtotalqueexplicanlosrfactoresfinalmente seleccionados. La estimacin de los coeficientes l j se obtiene diagonalizando la matriz de correlaciones. Mtodo 2 - AF de Ejes Factoriales (PAF) Enestemtodopartimosdelabasedequeslounapartedelavariabilidadtotaldecada variable depende de factores comunes y, por tanto, la comunalidad inicial no ser 1. Estima dichas comunalidades mediante los coeficientes de determinacin mltiple de cada variable conelresto.SesustituyenestosvaloresenladiagonalprincipaldelamatrizR*yse procedeaefectuarunACP.Unavezobtenidoelresultado,seestimandenuevolas comunalidades, se vuelven a sustituir en la diagonal principal de la matriz R* y el proceso se retroalimenta hasta alcanzar un criterio de parada (por ejemplo cuando la diferencia entre lasa comunalidades de dos iteraciones sucesivas sea menor que una cantidad prefijada). Laeleccindeunouotromtodo(ACPoPAF)dependedelosobjetivosdelAF.Asel ACPesadecuadocuandoelobjetivoesresumirlamayoradelainformacinoriginal (varianza total) con una cantidad mnima de factores con propsitos de prediccin. El AFC resultaadecuadoparaidentificarlosfactoressubyacentesolasdimensionesquereflejan qu tienen encomn las variables. El inconveniente del mtodoPAF esque el clculo de lascomunalidadesrequieremuchotiempoymuchosrecursosinformticosy,adems,no siempre se pueden estimar o, incluso, pueden ser no vlidas (comunalidades menores que 0 o mayores que 1). Empricamente, se llega a resultados muy parecidos cuando el nmero de variables excede de 30 o las varianzas compartidas exceden de 0.6 para la mayora de las variables. 2.3APLICARLATCNICADEANLISISDEFACTORESAUNPROBLEMA ESPECFICO DEL REA ADMINISTRATIVA Ejemplo 1: Sedeseaextrapolardelaprovinciaalmunicipio,unmodeloderegresin explicativodelnivelderentadisponiblefuncindeunaseriedemanifestacionesdeesa 21 renta.Para ello, se parte de un amplio conjunto de variables provinciales y para los 8.000 municipios espaoles. Recaudacin de los distintos impuestos directos e indirectos Tasa de paro y actividad Generacin neta de empleo Kilmetros de carreteras de cada tipo en servicios Kilmetros de lnea frrea en servicio Nmero de vehculos de distintos tipos por habitante Lneas telefnicas por cada 100 habitantes Camas hospitalarias por cada 1000 habitantes Empresas creadas y cerradas en el ao ndice de precios al consumo ndice de precios industriales ndice de comercio al por menor Licencias fiscales concedidas .etc Conelfindepoderabordarcongradosdelibertadsuficientelaestimacindel modelo de renta, la informacin relativa a estas variables se intenta resumir en tres factores, sin perder excesiva informacin y logrando una incorrelacin muy conveniente. El factorial arroj tres factores cuyos significados se asociaron a: Factor 1: Factor de renta y riqueza personal - familiar Factor 2: Factor de salud y desarrollo del mercado laboral Factor 3: Factor de desarrollo infraestructural 22 Ejemplo 2 Unejemplodelusodeestatcnicaloconstituyelainvestigacinrealizadapor Panigua (1988) con la colaboracin de los autores. El estudio pretenda analizar los factores que determinan la relacin entre los vendedores y los compradores industriales de la ciudad deMxico.Semidierondiversasvariablesentrelasquedestacan:coordinacin(Coord.), conflicto(Conf.),frecuenciadelarelacincomprador-vendedor(FREC.),reciprocidad econmicaenlarelacin(RF2),reciprocidadenelmanejodeconsideraciones administrativas(RF1)eimportanciadelarelacin(montodeoperaciones)(impor.).Los resultados se muestran en la tabla. ObsrvesequedebajodelascolumnasFIaFVIaparecenunoscoeficientesque corresponden a los tems de una escala. Si estos coeficientes son medios o elevados se dice que los tems cargan o forman parte del factor correspondiente. Por ejemplo,los tems 23, 24, 25, 26 cargan en el primer factor (obtienen valores de .84392, .71642, .67853, y .74737, respectivamente) y no cargan en otros factores (tienen valores bajos). As, descubrimos una estructuradeseisfactoresen19tems.Losfactoresrecibenunnombreparasaberque constructorseencuentransubyacentes.Elanlisisdefactorestambinproporcionala varianzaexplicadaypuedeexplicarsegrficamenteenlascoordenadasXyY.Latcnica escomplejaydebeconocersemuybien.Essumamentetilparalavalidezdeconstructo. Las variables deben estar medidas en un nivel por intervalos o razn. 23 24 Seintentanconocerlosdeterminantesdelosingresosdelaocupacinprincipaldelos asalariados. Dado que se supone que estos estn asociados a un conjunto de caractersticas de la persona y del puesto. Dado que el conjunto de variables es grande y se sospecha que algunasdeellasestnmuyrelacionadas,porloqueparececonvenienteantesdelanlisis intentar determinar si existen subconjuntos diferenciados de ellas. 2.4 EXPLICAR QUE ES UN FACTOR, PUNTAJE Y CARGAS DE FACTOR. FACTOR Variable quese incluyeen un modelo con el propsito de explicar la variacin en la variable respuesta. Ver variable independiente o explicativa. Cubreunaseriedeanlisisfactorialesdecomponentesprincipalesyanlisisde correspondenciasquetenganespecificacionescomunes.Dalaposibilidaddeejecutar,con unasolalecturadedatos,losanlisisfactorialesdecorrespondencias,deproductos escalares, de productos escalares normados, de covariancias y de correlaciones.Para cada anlisis, el programa construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y sus vectores propios. Despus calcula los factores de"caso"y"variable"quedan,paracada"caso"y"variable",suordenada,sucalidadde representacinysucontribucinalosfactores.Tambinsepuedeimprimiruna representacin grfica de los factores con opciones ordinarias o simplicio-factoriales. PUNTUACIONES FACTORIALESUnavezquesetienenlosfactorespuedeinteresarconocerquepuntuacinobtendranlos sujetosenestosfactores.Paracontestaraestohayquecalcularloqueseconocecomo puntuaciones factoriales de cada individuo.El clculo de las puntuaciones factoriales se realiza a partir de la matriz factorial rotada y se basa en el modelo de la regresin mltiple, de acuerdo con la frmula: Fij = Pi1 Zl +Pi2 Z2 + .... +Pi r Zr

Fij= en la puntuacin factorial del individuo j en el factor i.Pil es la ponderacin factorial de la variable l en el factor i.25 Zl son las puntuaciones tpicas del sujeto con cada variable.Las puntuaciones factoriales exactas slo pueden calcularse estrictamente cuando el mtodo deextraccinhasidoeldeAnlisisdeComponentesPrincipales.Conlosotrosmtodos slo podrn hacerse estimaciones por medio de algn mtodo correlacionado.Puntaje de factorUnavezquesetienenlosfactorespuedeinteresarconocerquepuntuacinobtendranlos sujetosenestosfactores.Paracontestaraestohayquecalcularloqueseconocecomo puntuaciones factoriales de cada individuo.El clculo de las puntuaciones factoriales se realiza a partir de la matriz factorial rotada y se basa en el modelo de la regresin mltiple, de acuerdo con la frmula: Fij= en la puntuacin factorial del individuo j en el factor i.Pil es la ponderacin factorial de la variable l en el factor i.Zl son las puntuaciones tpicas del sujeto con cada variable.Laspuntuacionesfactorialesexactasslopuedencalcularseestrictamentecuandoel mtododeextraccinhasidoeldeAnlisisdeComponentesPrincipales.Conlosotros mtodos slo podrn hacerse estimaciones por medio de algn mtodo correlacionado.Unavezestimadoslosfactorescomunes,esimportantecalcularlaspuntuacionesdelos sujetos(individuosuobjetos)investigadosparasabercuntopuntanencadafactor.As, podremos: -Sustituir los valores de las p variables originales para cada sujeto de la muestra por las puntuaciones factoriales obtenidas. En la medida en que el nmero de factores es menorqueelnmerodevariablesiniciales,sielporcentajedeexplicacindela varianzatotalfueseelevado,dichaspuntuacionesfactorialespodransustituiralas variables originales en muchos problemas de anlisis o prediccin. Adems, muchas tcnicasestadsticassevenseriamenteafectadasporlacorrelacinentrelas variablesoriginales.Enlamedidaenquelaspuntuacionesfactorialesestn incorrelacionadas podrn utilizarse en ulteriores anlisis.26 -Colocar a cada sujeto en una determinada posicin en el espacio factorial y conocer qusujetossonlosmsrarosoextremos,dndeseubicanciertosgruposdela muestra, los ms jvenes frente a los mayores; los de clase alta frente a los de clase media o baja; los creyentes frente a los no creyentes, etc obteniendo en qu factores sobresalen unos y otros.Cargas factoriales:Coeficientesbsicosparadeterminacincontenidoconceptualdelosfactoresen anlisis exploratorio. Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las variables con cargas prximas a 1 se explican en gran parte por el factor, mientras que las que tengan cargas prximas a 0 no se explican por el factor. Una variable debe tener cargas factoriales elevadas con un slo factor. Es deseable que la mayor parte de la variabilidad de una variable sea explicada por un solo factor. No debe haber factores con similares cargas factorialesAs,siconlasolucininicialnoseconsiguieseunafcilinterpretacindelos factores,stospuedenserrotadosdemaneraquecadaunadelasvariablestengauna correlacinlomsprximaa1conunfactorya0conelrestodefactores.Comohay menos factores que variables, conseguiremos que cada factor tenga altas correlaciones con ungrupodevariablesybajaconelresto.Siexaminsemoslascaractersticasdelas variablesdeungrupoasociadoaunfactor,sepodranencontrarrasgoscomunesque permitanidentificarelfactorydarleunadenominacinquerespondaaesosrasgos comunes.As,conseguiremosdesvelarlanaturalezadelasinterrelacionesexistentesentre las variables originales. 2.5EXPLICARENQUECONSISTEELANLISISDECOMPONENTES PRINCIPALES El anlisis de componentes principales se ocupa de explicar la estructura de variabilidad de unconjuntodedatosatravsdeunascuantascombinacioneslinealesdelasvariables originales. Sus objetivos son reducir datos y eliminar variables aleatorias irrelevantes. 27 ElAnlisisdeComponentesPrincipalestratadehallarcomponentes(factores)que sucesivamente expliquen la mayor parte de la varianza total. MientrasqueelAnlisisdeComponentesPrincipalesbuscahallarcombinacioneslineales de las variables originales que expliquen la mayor parte de la variacin total El anlisis de componentes principales se ocupa de explicar la estructura de variabilidad de un conjunto de datosa travs de unas cuantas combinaciones lineales de las variables originales. Sus objetivos son reducir datos y eliminar variables aleatorias irrelevantes. e es s u un na a c co om mb bi in na ac ci i n n l li in ne ea al l d de e v va ar ri ia ab bl le es s p pt ti im ma am me en nt te e p po on nd de er ra ad da as s. .c c1 1 = = b b1 11 1 ( (x x1 1) ) + + b b1 12 2 ( (x x2 2) ) + + . .. . b b1 1p p ( (x xp p) )d do on nd de e: : c1eselpuntajedelsujetorespondenteenelcomponenteextrado(creado)porel procedimiento que analiza la matriz de correlaciones entre las variables observadas. b b1 1p pe es s e el l c co oe ef fi ic ci ie en nt te e d de e r re eg gr re es si i n n a as so oc ci ia ad do o c co on n c ca ad da a v va ar ri ia ab bl le e n n x xp p e es s e el l p pu un nt ta aj je e o ob bs se er rv va ad do o p pa ar ra a e el l s su uj je et to o e en nc ca ad da a v va ar ri ia ab bl le e p p Proporcionalaestructurainterna,lasdimensionessubyacentes,eltransformadodeun conjuntoampliodevariables,elaborandounaestructuramssimple,conmenos dimensiones,queproporcionelamismainformacinypermitaglobalizarasel entendimiento del fenmeno. Simplificalamodelizacinconvirtiendo,poreliminacinderedundanciasexpresadasen altascorrelacionesentrevariables,unamplioconjuntodevariablesenfactores "estructurales". Elanlisisdecomponentesprincipales(ACP),esunatcnicaestadsticadeviejadataya que fue propuesta a principios del siglo pasado por Karl Pearson como parte del anlisis de factores.Sinembargolacomplejidaddelosclculosretrasaronsudesarrollohastala aparicindeloscomputadoresysuutilizacinenlasegundamitaddelsigloXX.El relativamenterecienteflorecimientodelosmtodosbasadosencomponentesprincipales 28 hace que ellos sean poco utilizados por una gran cantidad de investigadores no especialistas en estadstica. ElpropsitodeestasnotasesdivulgarlanaturalezadelACPymostraralgunasdesus posibles aplicaciones. PodradecirsequeelobjetivoprincipalquepersigueelACPeslarepresentacindelas medidas numricas de varias variables en un espacio de pocas dimensiones donde nuestros sentidospuedanpercibirrelacionesquedeotramanerapermaneceranocultasen dimensionessuperiores.Dicharepresentacindebesertalquealdesechardimensiones superiores(generalmentedelaterceraocuartaenadelante)laprdidadeinformacinsea mnima.Unsmilpodrailustrarlaidea:imaginemosunagranlminarectangular(objeto detresdimensiones)deporejemplo,3mdelarga,2mdeanchay4cmdeespesor.Para efectosprcticos,dichalminapuedeserconsideraracomounobjetoplano(dedos dimensiones)de3mdelargopor2mdeancho.Alrealizarestareduccinde dimensionalidadsepierdeciertacantidaddeinformacinyaque,porejemplo,puntos opuestossituadosenlasdoscarasdelalminaaparecernconfundidosenunsolo.Se pierdenlasdistanciasperpendicularesalascaras.Sinembargo,laprdidadeinformacin se ve ampliamente compensada con la simplificacin realizada,ya que muchas relaciones, como la vecindad entre puntos, es ms evidente cuando stos se dibujan sobre un plano que cuandosehacemedianteunafiguratridimensionalquenecesariamentedebeserdibujada en perspectiva. Lo anterior, aunque sugiere que el ACP es una tcnica descriptiva, no niega la posibilidad de que tambin pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones delACPsonnumerosasyentreellaspodemoscitarlaclasificacindeindividuos,la comparacin de poblaciones, la estratificacin multivariada, etc. Principios del ACP EnlaslneasquesiguensepresentarnlosfundamentosdelACP,tratandodereduciral mnimoelaparatomatemticoformalquelosustenta,stoenarasdelasencillezyla brevedadyconelfindequeeltemaseaadecuadoapblicosdemedianapreparacinen matemticas. 29 Comencemos con un sencillo ejemplo ficticio en dos dimensiones. Supngase que se mide el peso en kilogramos y la longitud en centmetros de 20 peces y que se obtiene? ElAnlisisdeComponentesPrincipales(ACP)esunatcnicaestadsticadesntesisdela informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un banco de datosconmuchasvariables,elobjetivoserreducirlasaunmenornmeroperdiendola menor cantidad de informacin posible. Losnuevoscomponentesprincipalesofactoressernunacombinacinlinealdelas variables originales, y adems sern independientes entre s. UnaspectoclaveenACPeslainterpretacindelosfactores,yaquestanovienedadaa priori,sinoqueserdeducidatrasobservarlarelacindelosfactoresconlasvariables iniciales(habr,pues,queestudiartantoelsignocomolamagnituddelascorrelaciones). Estonosiempreesfcil,yserdevitalimportanciaelconocimientoqueelexpertotenga sobre la materia de investigacin. Buscanhallarcombinacioneslinealesdelasvariablesoriginalesqueexpliquenlamayor parte de la variacin total, el primer factor o componente seria aquel que explica una mayor partedelavarianzatotal,elsegundofactorseriaaquelqueexplicalamayorpartedela varianza restante y as sucesivamente Fases de un anlisis de componentes principales Anlisis de la matriz de correlaciones Un anlisis de componentes principales tiene sentido si existen altas correlaciones entre las variables,yaqueestoesindicativodequeexisteinformacinredundantey,portanto, pocos factores explicarn gran parte de la variabilidad total. Seleccin de los factores Laeleccindelosfactoresserealizadetalformaqueelprimerorecojalamayor proporcinposibledelavariabilidadoriginal;elsegundofactordeberecogerlamxima 30 variabilidadposiblenorecogidaporelprimero,yassucesivamente.Deltotaldefactores se elegirn aquellos que recojan el porcentaje de variabilidad que se considere suficiente. A stos se les denominara componentes principales. Anlisis de la matriz factorial Una vez seleccionados los componentes principales, se representan en forma de matriz. Cadaelementodestarepresentaloscoeficientesfactorialesdelasvariables(las correlacionesentrelasvariablesyloscomponentesprincipales).Lamatriztendrtantas columnas como componentes principales y tantas filas como variables. Interpretacin de los factores Para que un factor sea fcilmente interpretable debe tener las siguientes caractersticas, que son difciles de conseguir: Los coeficientes factoriales deben ser prximos a 1. Una variable debe tener coeficientes elevados slo con un factor. No deben existir factores con coeficientes similares. Sonlaspuntuacionesquetienenloscomponentesprincipalesparacadacaso,quenos permitirn su representacin grfica. 2.6 EXPLICAR EL MODELO DE FACTOR COMUN. Entidadquetieneinfluenciasobremsdeunavariableobservadasedenominafactor comn por que ms de una variable lo tiene en comn. Para identificar la estructura factorial subyacentea un conjunto de variables observadas la nica tcnica apropiada es el anlisis factorial. Es decir, solo esta tcnica permite identificar el nmeroy naturaleza de factores latentes a las que se puede atribuir la covariacion en el conjunto de datos. Variablelatentehipotticaalaqueseatribuyealcovariaciondedosomsvariables observadas. Lavariacinexplicadaporlosfactorescomunesesaquellaquesederivadelavarianza comnocompartidaentredosoasvariablesyquecorrespondealconceptode 31 comunalidad.Lacomunalidadsedefinecomoelporcentajedevarianzaenunavariable observada que se atribuye a los factores retenidos despus de la extraccin. La porcin restante de varianza (la que no es compartida) se considera varianza nica de las variables. Esteeselprimercasoyseempleaparafactorizarunaexpresinenlacualtodoslos trminostienenalgoencomn(puedeserunnmero,unaletra,olacombinacindelos dos). Ejemplo: Factor Comn por agrupacin de trminos Aqu utilizaremos el caso anterior, adicionando que uniremos los factores que se parezcan, es decir, los que tengan un factor comn. Ejemplo: En una expresin de multiplicacin tenemos los siguientes componentes: axb= ab Enmuchasocasionesesnecesarioescribirunproductoyaobtenidoentrminodesus factores.A este proceso lo conocemos como factorizacin. Cuandoestudiamos lasexpresionesalgebraicasenloscaptulos1y2 estudiamosla factorizacin mediante mximo factor comn. Ejemplo I: Factoriza 4x2 - 12x + 6 = 2 (2x2 - 6x + 3) Sinembargo,enestecasosolamentebuscbamos elmximofactorcomnentreloscoeficientesnumricos. Ahoraveremosalgunosejemplosdondelavariableovariables 32 tambin forman parte del mximo factor comn.En este caso lavariable deber estar en todoslos trminosdel polinomio. Ejemplo 2:Factoriza 4x3-12x2 + 6x Enestecaso podemosobservarquelavariablexapareceentodoslostrminosydebe formar parte del mximo factor comn.Podemos decir que el mximo factor comn de un conjunto de variables es el producto de las variables que se repiten al exponente menor. Volviendoalejemploanteriorpodemosdecirqueelmximofactorcomnentrelos trminosdel polinomio es 2x y la factorizacin se llevar a cabo de la siguiente manera: 4x3-12x2 + 6x=2x (4x3-12x2 + 6x) 2x2x2x Esto es: Buscamos el mximo factor comn y dividimos cada trmino del polinomio por el mximo factor comn. =2x (2x2 - 6x + 3) Recuerda en divisin: si las bases son iguales los exponentes se restan. Veamos otros ejemplos: Ejemplo 3:Factoriza6x5 - 8x4 - 10x3

El mximo factor comn entre los coeficientes numricos es 2. La variable x se repite en todos los trminos y al exponente menor que aparece es 3. Por lo tanto el mximo factor comn es: 6x5 - 8x4 - 10x3= 2x3( 6x5 - 8x4 - 10x3) 2x3 2x3 2x3 = 2x3 ( 3x2 - 4x - 5) El paso de divisin es opcional y lo podemos hacer mentalmente.33 Partedeunconjuntoampliodevariablesquepresentaninterrelacionesimportantes,se asumequelasrelacionesexistenporquelasvariablessonmanifestacionescomunesde factores no "observables" de forma directa, se pretende llegar a un clculo de esos factores: (a)-resumiendoinformacin(b)-clarificandolasrelacionesentreellasy(c)sinprdida excesiva de informacin. Elanlisisfactorialintentaidentificarvariablessubyacentes,ofactores,queexpliquenla configuracindelascorrelacionesdentrodeunconjuntodevariablesobservadas.El anlisisfactorialsesueleutilizarenlareduccindelosdatosparaidentificarunpequeo nmero de factores que explique la mayora de la varianza observada en un nmero mayor de variables manifiestas. Tambin puede utilizarse para generar hiptesis relacionadas con losmecanismoscausalesoparainspeccionarlasvariablesparaanlisissubsiguientes(por ejemplo, para identificar la colinealidad antes de realizar un anlisis de regresin lineal).El procedimiento de anlisis factorial ofrece un alto grado de flexibilidad. Existen siete mtodos de extraccin factorial disponibles.Existencincomtodosderotacindisponibles,entreelloseloblimindirectoyelpromax para rotaciones no ortogonales.Existentresmtodosdisponiblesparacalcularlaspuntuacionesfactoriales;ylas puntuacionespuedenguardarsecomovariablesparaanlisisadicionales.Ejemplo.Qu actitudessubyacenteshacenquelaspersonasrespondanalaspreguntasdeunaencuesta poltica de la manera en que lo hacen? Examinando las correlaciones entre los elementos de la encuesta se deduce que hay una superposicin significativa entre los diversos subgrupos de elementos (las preguntas sobre los impuestos tienden a estar correlacionadas entre s, las preguntassobretemasmilitarestambinestncorrelacionadasentres,yas sucesivamente).Conelanlisisfactorial,sepuedeinvestigarelnmerodefactores subyacentesy,enmuchoscasos,sepuedeidentificarloquelosfactoresrepresentan conceptualmente.Adicionalmente,sepuedencalcularlaspuntuacionesfactorialespara cadaencuestado,quepuedenutilizarseenanlisissubsiguientes.Porejemplo,esposible 34 construirunmodeloderegresinlogsticaparapredecirelcomportamientodevoto basndose en las puntuaciones factoriales. Un factor comn es una entidad que tiene influencia sobre ms de una variable observada. se le denomina factor comn porque ms de una variable lo tiene en comn.P Pa ar ra a i id de en nt ti if fi ic ca ar r l la a e es st tr ru uc ct tu ur ra a f fa ac ct to or ri ia al l s su ub by ya ac ce en nt te ea a u un n c co on nj ju un nt to o d de e v va ar ri ia ab bl le es s o ob bs se er rv va ad da as s l la a n ni ic ca a t t c cn ni ic ca a a ap pr ro op pi ia ad da a e es s e el l a an n l li is si is s f fa ac ct to or ri ia al l. . e es s d de ec ci ir r, , s so ol lo o e es st ta a t t c cn ni ic ca a p pe er rm mi it te e i id de en nt ti if fi ic ca ar r e el l n nu um me er ro o y yn na at tu ur ra al le ez za a d de e f fa ac ct to or re es s l la at te en nt te es s a a l lo os s q qu ue e s se e p pu ue ed de e a at tr ri ib bu ui ir r l la a c co ov va ar ri ia ac ci io on n e en n l le e c co on nj ju un nt to o d de e d da at to os s. . U Un n f fa ac ct to or r c co om m n n e es s u un na a v va ar ri ia ab bl le e l la at te en nt te e h hi ip po ot t t ti ic ca a a a l la a q qu ue e e e a at tr ri ib bu uy ye e a al l c co ov va ar ri ia ac ci io on n d de e d do os s o o m m s s v va ar ri ia ab bl le es s o ob bs se er rv va ad da as s. . Elinvestigadorpuedeutilizardosmodelosbsicosparaobtenersolucionesfactoriales. Estosseconocen:anlisisfactorialcomn,yanlisisdecomponentesprincipales.Conel findeseleccionarelmodeloapropiado,enprimerlugarsetienequecomprenderla diferenciaentrelostiposdevarianza.Paralospropsitosdelanlisisfactorial,existetres tipos de varianza total: uno comn, dos especifica (tambin conocida como nica) y tres de error.Estos tipos de varianza y su relacin con el proceso de seleccin de modelo factorial. Sedefinelavarianzacomncomoaqullavarianzaenunavariablequesecompartecon todas las otras variablesen el anlisis.La varianza especifica esaqulla varianza asociada solamente con otra variable especifica. La varianza de error es aquella varianza que se debe alapocafiabilidadenelprocesoderecoleccindedatos,alerrordemedicinoun componentealeatorioenelfenmenomedido.Elanlisisdecomponentesprincipales consideralavarianzatotalyestimalosfactoresquecontienenproporcionesbajasdela varianzanicay,enalgunoscasoslavarianzadeerror.Losfactoresqueresultandel anlisis factorial comn se basan solamente en la varianza comn 2.7INTERPRETARLAINFORMACIONDELAMATRIZDEFACTORESNO ROTADA UTILIZANDO UN EJEMPLO DEL AREA ADMINISTRATIVA. Elanlisisfactorial(af)esunatcnicadeanlisismultivariantequeseutilizaparael estudio e interpretacin de las correlaciones entre un grupo de variables. parte de la idea de 35 quedichascorrelacionesnosonaleatoriassinoquesedebenalaexistenciadefactores comunes entre ellas.Elobjetivodelafeslaidentificacinycuantificacindedichosfactorescomunes.por ejemplo, hay fenmenos como estilo de vida, imagen de un producto, actitudes de compra, nivel socioeconmico, que es necesario conocer pero que no se pueden medir con una sola pregunta,porquesetratadefenmenoscomplejosquesemanifiestaneninfinidadde situaciones,sentimientos,comportamientosyopinionesconcretas.estosfenmenossonel resultadodelamedicindeunconjuntodecaractersticas.elafnospermitircombinar preguntasdemaneraquepodamosobtenernuevasvariablesofactoresquenoson directamente medibles pero que tienen un significado. 2.8 EXPLICAR LOS CONCEPTOS EIGENVALUE Y COMUNALIDAD Elcuadradodeunacargafactorialindicalaproporcindelavarianzaexplicadaporun factor en una variable particular. Lasumadeloscuadradosdelospesosdecualquiercolumnadelamatrizfactorialeslo que denominamos eigenvalues, indica la cantidad total de varianza que explica ese factor. Las cargas factoriales pueden tener como valor mximo 1, por tanto el valor mximo que puede alcanzar el valor propio es igual al nmero de variables. COMUNALIDADESSedenomina"comunalidad"alaproporcindelavarianzaexplicadaporlosfactores comunes en una variable.La comunalidad (h ) es la suma de los pesos factoriales al cuadrado en cada una de las filas.ElAnlisisFactorialcomienzasusclculosapartirdeloqueseconocecomomatriz reducidacompuestaporloscoeficientesdecorrelacinentrelasvariablesyconlas comunalidades en la diagonal.Comolacomunalidadnosepuedesaberhastaqueseconocenlosfactores,esteresulta ser uno de los problemas del Anlisis Factorial.36 En el Anlisis de Componentes Principales como no suponemos la existencia de ningn factorcomnlacomunalidadtomacomovalorinicial1.Enlosotrosmtodosseutilizan diferentes modos de estimar la comunalidad inicial:-Estimandolacomunalidadporlamayorcorrelacinenlafilai-simadelamatrizde correlaciones. - Estimando la comunalidad por el cuadrado del coeficiente de correlacin mltiple entre xylasdemsvariables.(EselquedaelordenadorSPSSpordefecto). -Elpromediodeloscoeficientesdecorrelacindeunavariablecontodaslasdems. -Calculandoapartirdelosdoscoeficientesdecorrelacinmayoresdeesavariablela siguiente operacin: La comunalidad final de cada variable viene dada por:h= P 1j + P2j + ... + P kj Eigenvalue de dicho factor: debe interpretarse como la varianza que es capaz de explicar ese factor de todas las variables en conjunto La tabla de Eigenvalue La tabla de Eigenvalue nos permite seleccionar los factores que resultan adecuados. en el ejemplo de los test, con que venimos trabajando, supongamos que dicha tabla nos mostrara lo siguiente: total variance explained initial eigenvalues component total % of variance cumulative % 1 2,4400 30,5000 30,5 2 2,3715 29,6438 60,1 3 2,3400 29,2500 89,4 4 0,4200 5,2500 94,6 37 5 0,2592 3,2400 97,9 Horacio chitarroni 7 de 13 Autovalor (Eigenvalue) Es una medida de la cantidad de varianza contenida en la matriz de correlacin de tal forma que la suma de los autovalores debe ser igual al nmero de variables. Es la cantidad de informacin explicada por el modelo AF y su varianza asociada con cada factor. Otra definicin Elcuadradodeunacargafactorialindicalaproporcindelavarianzaexplicadaporun factor en una variable particular.Lasumadeloscuadradosdelospesosdecualquiercolumnadelamatrizfactorialeslo que denominamos eigenvalues, indica la cantidad total de varianza que explica ese factor. Las cargas factoriales pueden tener como valor mximo 1, por tanto el valor mximo que puede alcanzar el valor propio es igual al nmero de variables. Comunalidad Sedenomina"comunalidad"alaproporcindelavarianzaexplicadaporlosfactores comunesenunavariable.Lacomunalidadeslasumadelospesosfactorialesalcuadrado en cada una de las filas.ElAnlisisFactorialcomienzasusclculosapartirdeloqueseconocecomomatriz reducidacompuestaporloscoeficientesdecorrelacinentrelasvariablesyconlas comunalidades en la diagonal. Como la comunalidad no se puede saber hasta que se conocen los factores, este resulta ser uno de los problemas del Anlisis Factorial. 2.9CONOCERLASDISTINTASTCNICASUSADASPARADETERMINAREL NUMERO DE FACTORES A EXTRAER. Existendiferentesreglasocriteriosparadefinirestenmerodefactores.Elcriterio utilizadoaqueseldelarazlatente[2],queindicaqueelnmerodefactoresaextraer debe ser igual al nmero de factores con valor propio mayor que uno.38 As, si lo que quedara por explicar de la varianza total resultara menor a uno, ese factor ya no seIncluirporelcriteriodelarazlatente,quenopermiteretenerfactoresconvalorpropio menora uno. Mtodo de las Componentes Principales Elmtodoconsisteenestimarlaspuntuacionesfactorialesmediantelaspuntuaciones tipificadasdelaskprimerascomponentesprincipalesylamatrizdecargasfactoriales mediante las correlaciones de las variables originales con dichas componentes. Este mtodo tienelaventajadequesiempreproporcionaunasolucin.Tieneelinconveniente,sin embargo,dequealnoestarbasadoenelmodelodeAnlisisFactorialpuedellevara estimadoresmuysesgadosdelamatrizdecargasfactoriales,particularmente,siexisten variables con comunalidades bajas. Mtodo de los Ejes Principales Este mtodo est basado en la identidad fundamental del Anlisis Factorial (2) sustituyendo la matriz de correlaciones poblacionales R por la de correlaciones mustrales R. Se sigue de (2) que R* = R- = AA (3). El mtodo es iterativo y consiste en alternar una estimacin de la matriz de especificidades , con una estimacin de la matriz de cargas factoriales A respetando laidentidad (3). Se parte de unaestimacininicial de la matriz, (0)y en el paso i-simodel algoritmo se verifica que: R-(i) = A(i)A(i) (4). La estimacin A(i) se obtiene aplicando el mtodo de componentes principales a la matriz R-(i-1). Posteriormente se calcula (i) a partir de la identidad (4) y se itera hasta que los valoresdedichasestimacionesapenascambien.Estemtodotienelaventajadeestar basadoenelmodelodelAnlisisFactorialporloquesueleproporcionarmejores estimaciones que el mtodo anterior. Sin embargo, no est garantizada su convergencia, sobre todo en muestras pequeas. 39 Mtodo de la Mxima Verosimilitud Estemtodoestbasadoenelmodelo(1)adoptando,adems,lahiptesisdenormalidad multivariante y consiste en aplicar el mtodo de la mxima verosimilitud. El mtodo tiene laventajasobrelosdosanterioresdequelasestimacionesobtenidasnodependendela escalademedidadelasvariables.Adems,alestarbasadoenelmtododelamxima verosimilitud,tienetodaslaspropiedadesestadsticasdestey,enparticular,es asintticamenteinsesgada,eficienteynormalsilashiptesisdelmodelofactorialson ciertas.Permite,adems,seleccionarelnmerodefactoresmediantecontrastesde hiptesis.EstemtodotambinsepuedeutilizarenelAnlisisFactorialConfirmatorio, dondeelinvestigadorpuedeplantearhiptesiscomoquealgunascargasfactorialesson nulas, que algunos factores estn correlacionados con determinados factores, etc. y aplicar testsestadsticosparadeterminarsilosdatosconfirmanlasrestriccionesasumidas.Su principalinconvenienteradicaenque,alrealizarselaoptimizacindelafuncinde verosimilitudpormtodositerativos,silasvariablesoriginalesnosonnormales,puede haber problemas de convergencia sobre todo en muestras finitas. Otros mtodos de extraccin 2.10EXPLICAR EL CONCEPTO DE ROTACIN DE FACTORES Rotacin de los Factores Iniciales Con frecuencia es difcil interpretar los factores iniciales, por lo tanto, la extraccin inicial se rota con la finalidad de lograr una solucin que facilite la interpretacin. Hay dos sistemas bsicos de rotacin de factores: los mtodos de rotacin ortogonales(mantienenlaindependenciaentrelosfactoresrotados:varimax,quartimaxy equamax) y los mtodos de rotacin no ortogonales (proporcionan nuevos factores rotados que guardan relacin entre s). MTODOSDEROTACIN.Laideadelosmtodosderotacinesquesetengan factores fciles de interpretar. Para ello, el objetivo es que las variables originales no tengan peso alto en ms de un factor. El mtodo ms comn es el VARIMAX. 40 CUNTOSfactoressonnecesarios?Recuerdaqueelnmerodefactorescomuneso subyacentes es un nmero fijo que, en principio, se determina a priori. Una posible eleccin inicial sera tomar a m como el nmero de componentes significativas en un anlisis de componentes principales, o tomar el nmero de cmulos resultantes de un anlisis de cmulos de variables usando como distancias una funcin de la correlacin. La interpretacin de los resultados del AF se basar en el anlisis de las correlaciones entre las variables y los factores que como sabemos viene dado por las cargas factoriales. Para que dicha interpretacin sea factible, es recomendable que: -Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las variablesconcargas prximas a 1 seexplican en gran parte porel factor, mientras que las que tengan cargas prximas a 0 no se explican por el factor.-Una variable debe tener cargas factoriales elevadas con un slo factor. Es deseable quelamayorpartedelavariabilidaddeunavariableseaexplicadaporunsolo factor.-No debe haber factores con similares cargas factorialesAs,siconlasolucininicialnoseconsiguieseunafcilinterpretacindelosfactores, stos pueden ser rotados de manera que cada una de las variables tenga una correlacin lo ms prxima a 1 con un factor y a 0 con el resto de factores. Como hay menos factores que variables,conseguiremosquecadafactortengaaltascorrelacionesconungrupode variablesybajaconelresto.Siexaminsemoslascaractersticasdelasvariablesdeun grupo asociado a un factor, se podran encontrar rasgos comunes que permitan identificar el factory darle una denominacin que responda a esos rasgos comunes. As, conseguiremos desvelarlanaturalezadelasinterrelacionesexistentesentrelasvariablesoriginales.Los tipos de rotaciones ms habituales son la ortogonal y la oblicua. Larotacinortogonalpermiterotarlosfactoresestimadosinicialmente,demaneraquese mantengalaincorrelacinentrelosmismos.Elmtodomsutilizadoderotacinesla varimax(Varianzamxima),ideadoporKaiser.Larotacinoblcuanomantienela ortogonalidad de los factores, lo que nos lleva a aceptar que dos o ms factores expliquen a 41 lavezunamismarealidad.Lascomunalidadesfinalesdecadavariablepermanecen inalteradas con la rotacin. Es una tcnica de anlisis multivariante que se utilizapara e estudio e interpretacin de las correlacionesentreungrupodevariables.suobjetivoeslaidentificacinycuantificacin de dichos factores. Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90 2.11EXPLICARYDIFERENCIARLASDISTINTASTCNICAS DEROTACION DE FACTORES. Mtodos de rotacin de los factores. 42 Consisteenrotarogirarlosejesdereferenciadelosfactoresparalograrunpatrnde factores ms simple y ms significativo. Rotacin ortogonal: Es una rotacin ortogonal ya que se realiza en un ngulo de 90Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90 Anlisis factorial, variante del anlisis decomponentes principales, consiste enextraer los componentes principales de una matriz de correlacin de las variables x y de las y. Sediferenciadelanlisisdecomponentesprincipalesenquelasponderacionesyse transformandeformatalquesusumadecuadradosesigualalvalorcaractersticodela matriz.Elanlisisfactorialpermiteseleccionarelnmerodefactoresretenidosenla solucinfinal.ConsiderandoqueexistenciertosfactorescomunesFqueinfluyenalas variables y y simultneamente. De la misma forma, existen factores especficos G1que slo afectan a las variables y y factores G2que afectan exclusivamente a las x.La interpretacin de los resultados del AF se basar en el anlisis de las correlaciones entre las variables y los factores que como sabemos viene dado por las cargas factoriales. Para que dicha interpretacin sea factible, es recomendable que: -Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las variablesconcargas prximas a 1 seexplican en gran parte porel factor, mientras que las que tengan cargas prximas a 0 no se explican por el factor.-Una variable debe tener cargas factoriales elevadas con un slo factor. Es deseable quelamayorpartedelavariabilidaddeunavariableseaexplicadaporunsolo factor.-No debe haber factores con similares cargas factorialesAs,siconlasolucininicialnoseconsiguieseunafcilinterpretacindelosfactores, stos pueden ser rotados de manera que cada una de las variables tenga una correlacin lo ms prxima a 1 con un factor y a 0 con el resto de factores. Como hay menos factores que variables,conseguiremosquecadafactortengaaltascorrelacionesconungrupode variablesybajaconelresto.Siexaminsemoslascaractersticasdelasvariablesdeun 43 grupo asociado a un factor, se podran encontrar rasgos comunes que permitan identificar el factory darle una denominacin que responda a esos rasgos comunes. As, conseguiremos desvelarlanaturalezadelasinterrelacionesexistentesentrelasvariablesoriginales.Los tipos de rotaciones ms habituales son la ortogonal y la oblicua. Larotacinortogonalpermiterotarlosfactoresestimadosinicialmente,demaneraquese mantengalaincorrelacinentrelosmismos.Elmtodomsutilizadoderotacinesla varimax(Varianzamxima),ideadoporKaiser.Larotacinoblcuanomantienela ortogonalidad de los factores, lo que nos lleva a aceptar que dos o ms factores expliquen a lavezunamismarealidad.Lascomunalidadesfinalesdecadavariablepermanecen inalteradas con la rotacin. 2.12UTILIZARLAMATRIZDEFACTORESROTADAPARAAGRUPARLAS VARIABLES MANEJANDO UN EJEMPLOADMINISTRATIVO 1.Hallarunconjuntodedimensionesqueestnlatentesenungrupodevariables.El anlisis factorial se creo inicialmente para resolver un problema que se enfrentaban lospsiclogos:medirlapersonalidaddelindividuo.Queranresumirosimplificar 100preguntas,ydecidircualdeellosestnestrechamenterelacionadosy,porlo tanto, parecen medir, hasta cierto punto, las mismas dimensiones. 2.Hallarlamaneradeagruparalaspersonasenlosconglomeradosclaramente distintos que existen en una poblacin numerosa. La cuestin del grado y naturaleza delasegmentacindelmercadosecentraencuestionestalescomo:hastaque puntoexistensegmentosfamiliarescuyoshbitosdecomprasseanclaramente distintosdelosdeotrossegmentos?Dadounconjuntodehbitosdecomprasmedidos. 3.dentificar probables variables para subsecuentes anlisis de regresin, recurrieron al anlisis factorial para ayudar a determinar cules eran las variables socioeconmicas de las familias que deban eliminarse de un anlisis de regresin con el que trataban depredecirelconsumofamiliardemarcasprivadasdeproductosalimenticios.El anlisisfactorialproporcionunamedidadelgradoenquelasdiferentes caractersticas socioeconmicas estaban correlacionadas. 44 4.Crear un conjunto totalmente nuevo de variables para su inclusin en el anlisis de regresin,discriminanteodeconglomerados.lasnuevasvariablessecreany utilizan en subsecuente, que son promedios ponderados de las variables originales. 2.13 MENCIONAR LOS DISTINTOS CRITERIOS QUE EXISTEN PARA IDENTIFICAR CARGAS DE FACTORES DETERMINANTES. Criterios para determinar el nivel de significacin de las cargas factoriales. (Interpretacin de los factores) Alinterpretarlosfactores,sedebedeterminarqucargasfactorialesmerecelapena considerar. Para ello hay dos criterios importantes. a) Asegurar la significacin prctica. Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55 Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75 b) Valorar la significacin estadstica. Utilizar un nivel de significacin de 0,5 y potencia de 0,8. Caso practico. El caso TeleSake X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentacin de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atencin al clienteX7 : Calidad de la comida Elpunto6,Casoprctico,lorealizaremosconelSPSSyelDyane,conloqueelpunto7 quedar cubierto. El punto 7 lo trataremos primero, pero slo con el Dyane y simplemente para ver los criterios a utilizar y la interpretacin y el anlisis de los datos. HayquetenerencuentaqueelprogramaDyaneofrecetresopcionesdeaplicacindel AFC: (1) mdulo de tablas de frecuencias, 45 (2) mdulo de tablas de medios, y (3) mdulo de tablas especficas (DYANE, pp.318-337). Sivuestroscuestionariossebasanenvariablescategricas,normalmenteesrecomendable utilizarelprimermdulo(esdecir,lasvariablestantofilascomocolumnasson categricas).Sinembargo,siloscuestionariosusanvariablesnumricasconescalasde Likert,podramoselegirelsegundomdulo(esdecir,lasvariablesfilassonnumricas mientras que las variables columnas son categricas). Existendiversoscriteriosparadeterminarelnmerodefactoresaconservar.Unodelos msutilizadoseslaregladeKaiser:"conservaraquellosfactorescuyosvalorespropios (eigenvalues)sonmayoresalaunidad".Estecriteriotiendeasobreestimarelnmerode factores. Doscuestionespuedenayudaralainterpretacinyreconocimientodelosfactores:1) Ordenarlamatrizrotadadeformaquelasvariablesconsaturacionesaltasenunfactor aparezcan juntas. 2) Eliminar las variables con cargas factoriales bajas (aquellas por debajo de 0,25). Hallar un conjunto de dimensiones que estn latentes en un grupo de variables. El anlisis factorial se creo inicialmente para resolver un problema que se enfrentaban los psiclogos: medir la personalidad del individuo. Queran resumir o simplificar 100 preguntas, y decidir cualdeellosestnestrechamenterelacionadosy,porlotanto,parecenmedir,hastacierto punto, las mismas dimensiones.Hallar la manera de agrupar a las personasen los conglomeradosclaramente distintos que existen en una poblacin numerosa. La cuestin del grado y naturaleza de la segmentacin delmercadosecentraencuestionestalescomo:hastaquepuntoexistensegmentos familiarescuyoshbitosdecomprasseanclaramentedistintosdelosdeotrossegmentos? dado un conjunto de hbitos de comprasmedidos.Identificarprobablesvariablesparasubsecuentesanlisisderegresin,recurrieronal anlisis factorial para ayudar a determinar cules eran las variables socioeconmicas de las familias que deban eliminarse de un anlisis de regresin con el que trataban de predecir el 46 consumofamiliardemarcasprivadasdeproductosalimenticios.elanlisisfactorial proporcionunamedidadelgradoenquelasdiferentescaractersticassocioeconmicas estaban correlacionadas.Crearunconjuntototalmentenuevodevariablesparasuinclusinenelanlisisde regresin,discriminanteodeconglomerados.lasnuevasvariablessecreanyutilizanen subsecuente, que son promedios ponderados de las variables originales. 2.14MENCIONARELUSODELOSPUNTAJESDEFACTORESPARAMANEJARLAINFORMACIONDELOSFACTORESENANALISIS POSTERIORES Seleccindecasosyvariables.Sepuedeutilizarelfiltroestndarparalaseleccindeun subconjuntodecasosdelosdatosdeentrada.Lasvariablesparalascualessedeseala correlacin se especifican con los parmetros ROWVARS y COLVARS.Transformacin de datos. Se pueden usar las proposiciones de Recode.Ponderacin de datos. Se puede usar una variable para ponderar los datos de entrada;esta variabledeponderacinpuedetenercifrasenterasodecimales.Cuandoelvalordela variabledeponderacinparauncasoescero,negativo,datofaltanteononumrico, entonces el caso siempre se omite; se imprime el nmero de casos as tratados.Tratamientodedatosfaltantes.ElparmetroMDVALUESestdisponibleparaindicar cuales valores de datos faltantes, si los hay, se usarn para verificar los datos faltantes. Se calculanlasestadsticasunivariadasparacadavariableapartirdeloscasosquetengan datos vlidos (no faltantes) para la variable.Datosfaltantes:eliminacinporpares.Lasestadsticasporparesyelcoeficientede correlacin, se pueden calcular de los casos que tengan datos vlidos para ambas variables (MDHANDLING=PAIR). As, un caso se puede utilizar en los clculos para algunos pares devariablesynousarseparaotros.Estemtododemanejodedatosfaltantessellama 47 algoritmodeeliminacin"porpares".Nota:sihaydatosfaltantes,sepuedencalcular coeficientesdecorrelacinindividualesparadiferentessubconjuntosdedatos.Sihay muchosdatosfaltantes,sepuedenpresentarinconsistenciasinternasenlamatrizde correlacin, las cuales pueden causar dificultades en anlisis multivariados posteriores.Datosfaltantes:eliminacinporcasos.Elprogramapuedetambinrecibirlainstruccin (MDHANDLING=CASE) para calcular estadsticas pareadas y correlaciones a partir de los casosquetengandatosvlidosentodaslasvariablesdelalistadevariables.Deesta manera,uncasoseusaenelclculoparatodoslosparesdevariablesonoseusa.Este mtododemanejarlosdatosfaltantessellamaalgoritmodeeliminacin"porcasos" (tambin seencuentraen el programa REGRESSN)y slo se aplica a laopcin de matriz cuadrada. El proceso sigue los siguientes pasos: 1. Ajuste de los ingresos (va deflatacin), 2. Asignacin de puntajes a variables y combinaciones de variables, para el clculo del puntaje de Subfactores, 3. Aplicacin de ponderadores a los puntajes de variables y Subfactores, 4. Clculo de los puntajes de los factores, 5. Estandarizacin de los puntajes de los factores vivienda, educacin ocupacin, ingreso (ajustado) y patrimonio, va la aplicacin de los parmetros de promedio y desviacin estndar de cada factor, 6. Cambio de escala (reescalar), de los factores estandarizados, multiplicando cada factor por 100 y a dicho producto sumndole el valor 500, 7. Aplicacin del ponderador del factor respectivo a cada uno de los factores Reescalados, 8. Se obtiene el puntaje, sumando los factores reescalados y ponderados. 2.15 RESOLVER PROBLEMAS DELAREA ADMINISTRATIVA A LOS QUE PUEDA APLICARSE LA TECNICA DEL ANALISIS DE FACTORES HACIENDO USO DEL PAQUETE SAS 48 SAS, Statistical Analysis System* Comprende amplias posibilidades de procedimientos estadsticos (mtodos multivariados, regresinmltipleconposibilidadesdiagnsticas,anlisisdesupervivenciaconriesgos proporcionales y regresin logstica) y permite clculos exactos para tablas r x c y contiene potentes posibilidades grficas.* Todos los procedimientos pueden emplearse de una sola ejecucin.*Losresultadospuedenguardarsecomoarchivosyusarsecomoentradasparafuturas ejecuciones.* Es particularmente til en la gestin de datos y en la redaccin de informes.*Algunosprocedimientostienenvariasopcionesporlocualdebeexaminarse cuidadosamente el manual antes de seleccionar la opcin deseada.*SASofrecelamayorflexibilidadparapersonalizarelmanejoyanlisisdedatos,sin embargo su principal inconveniente es que no resulta fcil aprender a usarlo. PROBLEMA 1 Objetivos: *Identificar un diseo bifactorial de efectos fijos con bloques. *Estudiar la influencia de los bloques y de la interaccin entre los factores. *Plantear el modelo adecuado tras los anlisis anteriores. *Utilizar el programa SAS en su resolucin. Sedeseacompararelefectoconjuntodeldetergenteydeltipodeblanqueadorempleados enlalimpiezadeuntejidoconcreto,sobresuresistencia.Pararealizaresteanlisis,se seleccionaron cuatro tipos de blanqueadores y tres detergentes distintos. En cuatro rollos de tela,secortaron12muestrasde1metro,enlasqueseprobarontodaslascombinaciones blanqueador-detergente.Lasmedidasderesistenciaobtenidassonlosqueaparecena continuacin : 49 Rollo de tela Blanqueador 1234 DetergenteDetergenteDetergenteDetergente 123123123123 1636660687165707368687363 2626661677166697269667164 3626862677264707168677365 4646762677165717267687264 Se pide: 1.Identificarloselementosdelproblemaplanteado.Escribirelmodelomatemtico asociado y las condiciones del mismo.2.ConstruirlatablaANOVA.Sedeberealizaralgunamodificacinsobreelmodelo planteado? 3.Sacar conclusiones sobre los factores que influyen en la resistencia de los tejidos. 4.Obtenerungrficodelasresistenciasmediasconcadatratamiento.Escoherente conlosresultadosdelapartado3?Interpretarlasinteraccionesconlaayudadeeste grfico. Solucin 1.Identificarloselementosdelproblemaplanteado.Escribirelmodelomatemtico asociado y las condiciones del mismo Lavariablerespuestaenesteexperimentoeslaresistenciadeltejidosiendolostrozos de tela de 1 metro las unidades experimentales, contamos con 48 unidades experimentales. Sobrelaresistenciaintervienendosfactores:Blanqueador,quepresentacuatroniveles,y Detergente con tres niveles. El nmero de tratamientos es de doce, formados a partir de las 50 combinacionesdelosnivelesdelosdosfactores.Ademsenelexperimentoapareceuna nueve fuente de variacin, el rollo de tela, que al no ser objetivo de estudio del experimento y tal como se ha llevado a cabo la aleatorizacin, debe sertratado como Factor Bloque con cuatro niveles. Estos niveles de FactoresyBloque han sido fijados por el experimentador, por lo que se tiene un Modelo Bifactorial de Efectos Fijos con Bloques. El modelo matemtico asociado a nuestro experimento es, en consecuencia: ,( )ijk i j ij k ijky e o | o| = + + + + +con1,..., 4; 1,...,3; 1,..., 4. i j k = = =dondeijk yeselvalordelavariablerespuestaparaeli-simoBlanqueador,elj-simo Detergentey el k-simo Rollo; , media global,,io efecto del i-simo Blanqueador, j| , efectodelj-simoDetergente, k ,efectodelk-simoRollodetelasonparmetrosa estimar, con las condiciones, 4 3 41 1 10, 0, 0i j ki j ko | = = == = = . Adems consideramos laexistenciadeinteraccin( )ijo| entrelosdosfactoressiendoestoefectotambinun parmetroaestimar,conlascondiciones, 4 31 1( ) 0, ( ) 0,i jij ijo| o|= == = porltimo, ) , 0 ( o N eijk~ independientes. 2. Construir la tabla ANOVA. Se debe realizar alguna modificacin sobre el modelo planteado? Para la resolucin de este apartado, utilizamos el programa que se presenta a continuacin: Data limpiezas;Do rollo=1 to 4;do blanqueador=1 to 4;do detergente=1 to 3; input resistencia @@;output;51 end;end; end;datalines;63 66 60 68 71 65 70 73 68 68 73 63 62 66 61 67 71 66 69 72 69 66 71 64 62 68 62 67 72 64 70 71 68 67 73 65 64 67 62 67 71 65 71 72 67 68 72 64 ; proc print;run; proc glm data=limpiezas; Class rollo blanqueador detergente; Model resistencia=rollo blanqueador|detergente;run; En primer lugar analizamos la influencia del factor bloque en la tabla ANOVA que se presenta a continuacin, tabla 2, obtenida mediante el programa SAS anterior. Para ello observamos que el valor81 . 0 = = CME CMrollo Fes inferior a 1, lo que nos hace llegar a la conclusin de que realmente los rollos de tela no influyen sobre la resistencia del tejido. Por lo tanto, el modelo debe ser modificado. Tabla 1. The GLM Procedure Dependent Variable: resistencia SourceDF Sum of Squares Mean SquareF ValuePr > F Model14576.791666741.199404857.80 F rollo31.72916670.57638890.810.4982 blanqueador3 260.0625000 86.6875000121.62 > r > 0. A las funciones Di = uiY i=1,,r se les llama funciones discriminantes cannicas o funciones discriminantes de Fisher. Observacin SireselnmerodefuncionesdiscriminantessetienequeWD=IryBD= 1 r)dondeWDyBDsonlasmatricesWyBcalculadasutilizandolas puntuaciones discriminantes. Se sigue que: i = ( )=q1 g2i ig gd d n ; i=1,...,r donde{igd;g=1,..,q}sonlaspuntuacionesmediasdelai-simafuncindiscriminanteen los q grupos y id es la puntuacin media total. i ; i=1,...,r} miden el poder de discriminacin de lai-i=0lafuncindiscriminantenotiene ningn poder discriminante. Dado que el rango de la matriz W-1B es a lo ms min{q-1,p} el nmeromximodefuncionesdiscriminantesquesepodrncalcularserigualamin{q-1,p}. El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de sulaborempresarialentrelosclientesdeungrupoydelotroy,encasodequeexistan, analizar en qu sentido se dan dichas diferencias. Enestecaso,porlotanto,existen7variablesclasificadoras(p=7)ydosgruposa discriminar (q=2). El tamao de la muestra es n=100 con n1 = 60 y n2 = 40. 113 4.3EXPLICAELCRITERIODISCRIMINANTEPARACLASIFICAR NUEVAS OBSERVACIONES Criterio de la lambda de Wilks en anlisis discriminanteUtiliza la lambda de Wilks para medir la potencia discriminante ganada / perdida al introducir / sacar una variable del conjunto de discriminacin. q la lambda de Wilks basada en las q primeras variables. Para ver si es necesario incluir la variable Yq+1 en el conjunto de discriminacin se utiliza el estadstico F = n G qGqq +|\

|.|||111AA~ FG-1,n-G-q

si la variable Yq+1 no aporta informacin relevante al proceso de discriminacin entre los grupos. Un valor alto/bajo de F indica una prdida significativa / no significativa de informacin si la variable Yq+1 no es incluida / es incluida en el conjunto de discriminacin. Utilizando dicha variable es posible, por ejemplo, proporcionar un p-valor de entrada y otro de salida de forma que si el p-valor obtenido al introducir una variable en el conjunto de discriminacin, no es inferior al p-valor de entrada, la variable considerada no entra en dicho conjunto y si el p-valor obtenido al eliminarla del conjunto de discriminacin no es superior al de salida, la variable considerada no sale de dicho conjunto. Utilizar la ecuacin discrimnate para clasificar nuevas observacionesPara obtener los objetivos del anlisis discriminante se buscala obtencin de una funcin discriminante: 1.-predecir la categora de una unidad de anlisis u objeto o individuo.2.-determinar cuales son las variables predictoras con mayor poder discriminante para clasificar a las unidades de anlisis para que tengan uno o el otro atributo de la variable dependiente.114 FD = 1 X1 + 2 X2 + ...............+ m Xm donde xm es la m-sima variable independiente. La funcin discriminante obtenida por programas computacionales como el systat, BMD-07M o el statgrafics determinan los valores para cada variable independiente de los que reciben el nombre de coeficientes discriminantes, betas discriminantes o pesos discriminantes. Cada beta discriminante calculado tiene un monto o coeficiente determinado y su correspondiente signo positivo o negativo. El coeficiente de los betas determina el peso de cada una de las variables independientes en la discriminacin y el signo, positivo o negativo, representa su asignacin en uno u otro de los subgrupos definidos por las variables dependientes. La finalidad es remplazar una unidad de anlisis, objeto o individuo de la poblacin objetivo con sus variables independientes, parmetros o caracterstica en la funcin obtenida y calcular a priori su categora. Algebraicamente la funcin discriminante representa una combinatoria lineal de los datos originales que maximizan la razn de variabilidad entre grupos (por una parte la cuentas problemticas y por otra las seria) a variabilidad intra grupos. El criterio que se utiliza para decidir cuando son diferentes al mximo la variabilidad de grupos es la prueba anlisis de varianza F o tambin denominada F de Snedecor, conocida para hallar diferencias entre las varianzas. Por lo tanto, los coeficientes discriminantes se derivan de tal forma que: Variabilidad entre GruposF = --------------------------------- sea mxima Variabilidad intra Grupos El punto de partida de cualquier anlisis discriminante es la determinacin de la matriz de datos de variables dependientes, de carcter nominal, la que puede ser calculada por componentes principales o dadas. Tcnicayherramientaestadsticaquepermitepredecirelcomportamientonominalde unavariabledependienteatravsdeunacombinacinlinealdelasvariables 115 independientes, tambin llamadas variables predictivas, caractersticas o parmetros, que hagan que los puntajes promedios de las categoras de las variables dependientes en sta combinacin lineal se diferencien en forma mxima.Utilizadaeninvestigacionesdemercado,porejemplo,parapredecirsilasventas potencialesenunterritoriodadodemercadosern"buenas"o"malas",lasvariables dependientes,conbaseenciertasevaluacionessobreelingresopersonaldisponiblepor territorio,densidaddepoblacinynmerodeventasaldetalle,lasvariablespredictivas. Otrosejemplosdeaplicacineseninstitucionesfinancieras,dondedefinidascuentas "problemticas"o"serias",acadaunadeellasselesdescribeparmetroscomotasasde crdito,nmerosdevecesenmora,razonesdedeudaacapital,existenciadedemandas, posteriormente se obtienen aquellas variables predictivas que mejor puedan discriminar en queunadeterminadaunidaddeanlisis,individuos,objetosoenstecasounacuenta pueda convertirse en "seria " o "problemtica". Dos son los objetivos centrales del anlisis discriminante:1.-predecir la categora de una unidad de anlisis u objeto o individuo.2.-determinarcualessonlasvariablespredictorasconmayorpoderdiscriminantepara clasificaralasunidadesdeanlisisparaquetenganunooelotroatributodelavariable dependiente. El problema de seleccin de variables intenta responder a la pregunta Son necesarias todas las variables clasificadoras para discriminar? Para responderlaexisten, esencialmente, tres tipos de algoritmos: algoritmos de seleccin de variables hacia adelante, eliminacin hacia atrs y de regresin por pasos. Losalgoritmosdeseleccinhaciaadelantecomienzanelig