presentacion data mining

Embed Size (px)

Citation preview

  • 7/24/2019 presentacion data mining

    1/34

  • 7/24/2019 presentacion data mining

    2/34

    1

    Content

    Structural Equation Modeling (SEM)IntroductionConfirmatory Factorial analysis

    Pasos para la modelizacin estructuralConstruccin de un modeloFormalizacin Matemtica Del modeloIdentificacin de modeloEstimacin del modeloInterpretacin del modeloModificacin del modeloAplicacin 1

    Modelos de Regresin EstructuralDescripcin y motivacinFormalizacin matemtica del modeloIdentificacin del modeloEstimacin del modeloAplicacin 2

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    3/34

    2

    IntroductionObjetivo del SEM

    Los Modelos de ecuaciones estructurales (SEM, LISREL) permiten realizarinferencias de naturaleza causal a partir de datos obtenidos en investigacionescorrelacionales.

    Cuando el investigador tiene ideas claras sobre cules pueden ser las variableslatentes (constructor) y sobre qu relaciones puede haber entre ellas y con lasvariables observadas.

    El objetivo se reduce a estimar un conjunto de parmetros que indiquen larelacin (causal o correlacional) entre las variables, de modo que puedaestimarse una matriz de varianzas-covarianzas poblacional que sea lo ms

    parecida posible a la matriz observada en la muestra.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    4/34

    3

    IntroductionCFE, CFA & SEM

    Both exploratory factor analysis (EFA) and confirmatory factor analysis (CFA) areemployed to understand shared variance of measured variables that is believedto be attributable to a factor or latent construct.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    5/34

    3

    IntroductionCFE, CFA & SEM

    Both exploratory factor analysis (EFA) and confirmatory factor analysis (CFA) areemployed to understand shared variance of measured variables that is believedto be attributable to a factor or latent construct.

    CFA evaluates a priori hypotheses and is largely driven by theory. CFA analysesrequire the researcher to hypothesize, in advance, the number of factors, whetheror not these factors are correlated, and which items/measures load onto andreflect which factors.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    6/34

    3

    IntroductionCFE, CFA & SEM

    Both exploratory factor analysis (EFA) and confirmatory factor analysis (CFA) areemployed to understand shared variance of measured variables that is believedto be attributable to a factor or latent construct.

    CFA evaluates a priori hypotheses and is largely driven by theory. CFA analysesrequire the researcher to hypothesize, in advance, the number of factors, whetheror not these factors are correlated, and which items/measures load onto andreflect which factors.

    EFA The goal of EFA is to identify factors based on data and to maximize the amountof variance explained.

    SEM: CFA is also frequently used as a first step to assess the proposedmeasurement model in a structural equation model. Many of the rules ofinterpretation regarding assessment of model fit and model modification instructural equation modeling apply equally to CFA. CFA is distinguished fromstructural equation modeling by the fact that in CFA, there are no directed arrowsbetween latent factors. In other words, while in CFA factors are not presumed todirectly cause one another, SEM often does specify particular factors andvariables to be causal in nature. In the context of SEM, the CFA is often calledthe measurement model, while the relations between the latent variables (withdirected arrows) are called the structural model.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    7/34

    4

    Confirmatory Factorial analysisPasos para la modelizacin estructural

    Construccinde un modelo

    Paso

    Formalizacindel modelo

    Paso

    Identificacindel modelo

    Paso

    Estimacin delmodelo

    Paso

    Modificacin del modeloPaso

    Interpretacindel resultado

    Paso

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    8/34

    5

    Confirmatory Factorial analysisConstruccin de un modelo

    Figure:Modelo de medida delconstructo deducido DIIE.

    es la intensidad de unarelacin causal (AFE: la carga

    factorial).es la variable latente o factorescomunes.

    es la variable latente o el error.

    es la correlacin entre dosfactores comunes.

    xes la variable observada.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    9/34

    6

    Confirmatory Factorial analysisFormalizacin Matemtica Del Ejemplo 1

    Modelo tericoSiguiendo las notaciones de Joreskog y Sorbom (1989), las variables observadas y lasvariables latentes del ejemplo pueden expresarse:

    x1 =111+1

    x2 =211+2

    x3 =311+3

    x4 =422+4

    x5 =522+5x6 =622+6

    or x=+

    dondexes un vector q*1 que contiene las q variables observadas, es un vector s*1que contiene los s factores comunes, es una matriz q*s que contiene las cargasfactoriales de las variables latentes y es un vector q*1 de los errores.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    10/34

    7

    Confirmatory Factorial analysisFormalizacin Matemtica Del modelo

    Se estudian los supuestos del modelo y la estimacin de la matrizvarianza-Covarianza entre las variables.

    SupuestosE(x)=0 Estas condiciones no

    E()=0 afectan a las covarianzas

    E()=0 entre las variables.

    Normalidad (variables explicativas, trminos de perturbacin y errores demedida): violacin de esta condicin no lleva a sesgo la estimacin, sino afectala eficiencia de los estimadores.

    Formalizacin de

    (xx) =E(xx)

    =E[( + )( + )]

    =E[( + )( + )]

    = E() + E() + E() + E()

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    11/34

    8

    Confirmatory Factorial analysisFormalizacin Matemtica Del modelo

    Estimacin de Si

    E() =E()=0

    =E()

    =E(

    )tenemos

    = +. (1)

    la finalidad del CFA es obtener estimaciones de las matrices , y que hagan que la matriz de varianza covarianza poblacionalestimada obtenida a partir de ellas, sea lo ms parecida posible ala matriz de varianza covarianza muestral Sque se obtiene a partirde los valores muestrales de las variables observadas.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    12/34

    9

    Confirmatory Factorial analysisIdentificacin del modelo

    Identificabilidadcreacin del modelo teorico.

    un modelo es identificado si existe una nica solucin para cada parmetroestimado.

    No identificabilidad si q2 (q+ 1) p, donde q es el nmero de las variablesobservadas y p es el nmero de los parmetros a estimar(p qs+ s2 (s+ 1) +

    q2 (q+ 1))).

    identificabilidad (perfecta) si existe q2 (q+ 1) =p

    sobreidentificabilidad si otro caso.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    13/34

    10

    Confirmatory Factorial analysisEstimacin del modelo

    Estimacin del modeloMinimizarF = (S(p))W(S (p)): Wes la matriz de ponderacin y(S(p))es el vector de residuos.

    Mtodos de estimacin:Mnimos cuadrados no ponderados (W=I).Mnimos cuadrados ponderados (bajo normalidad: W = (S

    S)1).

    ML (MV) (supuesto de normalidad multivariante: W = (S

    )1

    ).Distribucin libre asinttica.EDT, elliptical distribution theory.WLSMV (no-normalidad y datos ordinal o ordinales-continuos).

    Sugerencias Y AdvertenciasSe recomienda una muestra mayor que igual a 200.Si la muestra es pequea, se recomienda trabajar con ML y GLS bajo lossupuestos de la normalidad y la independencia.

    Violacin de la independencia o normalidad ML y GLS funcionan mal.

    En caso de violacin de estos supuestos que recomienda usar EDT.

    Para datos ordinales se recomienda usar WLSVM.Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    14/34

    11

    Confirmatory Factorial analysisInterpretacin del modelo

    Bondad de ajuste del modeloSe dinstingue tres tipo de medidas de calidad del ajuste:

    medidas absolutas del ajuste: evalan el ajuste global del modelomedidas del ajuste incremental: comparan el modelo propuesto con el modelodel investigador.

    medidas del ajuste de parsimonia: ajustan las medidas de ajuste, para ofreceruna comparacin entre modelos con diferentes nmeros de coeficientesestimados. (Hair et., 2001).

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    15/34

    12

    Confirmatory Factorial analysisInterpretacin del modelo

    Estadsticos de bondad de ajuste del modelo

    Estadstico Abreviatura Criterio

    Ajuste absolutoChi cuadrado 2 Signif >0.05Razn Chi-cuadrado/gl 2/gl

  • 7/24/2019 presentacion data mining

    16/34

    13

    Confirmatory Factorial analysisInterpretacin del modelo

    Enfrentamiento de problemas en el modeloel modelo est mal especificado.

    o los datos no respaldan la hiptesis de normalidad multivariante de las variablesobservadas.

    o el modelo est demasiado cerca de no estar identificado, lo que hace laestimacin de algunos parmetros difcil o inestable.

    o la muestra est demasiada pequea.

    o los valores perdidos de algunas variables observadas han provocado que cadaelemento de la matriz de covarianzas muastral est calculado sobre una muestradiferente.

    Consecuenciasexisten correlaciones superiores a 1.

    o existen cargas factoriales estandarizadas fura del intervalo [-1,1].

    o los residuos estandarizados anormalmente grandes o pequeos.

    o Hay estimaciones negativas de las varianzas.

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    17/34

    14

    Confirmatory Factorial analysisModificacin del modelo

    Motivos para reespecificar un modelo

    Mejorar su ajuste.Contrastar alguna hiptesis terica.

    instrumentos analticos( contraste de Wald y de multiplicador de Langrange) queindican qu relaciones causales pueden aadirse o eliminarse y qu mejoras enel ajuste obtendramos con cada una de esta modificaciones.

    Tarik Faouzi |Structural Equation Modeling.

    C fi F i l l i

  • 7/24/2019 presentacion data mining

    18/34

    15

    Confirmatory Factorial analysisAplicacin 1

    Especificacin del problemaEl objetivo de este aplicacin es mostrar las etapas de validacin de una instrumentode investigacin que pretende explorar el impacto de la Investigacin Educativa en laprctica docente. Para ello se tuvieron en consideracin el tipo de problema ainvestigar, la disponibilidad de la muestra y los criterios de rigor cientfico para la

    construccin de instrumentos tipo encuesta. Es bastante conocido el hecho que laeducacin no ha logrado articularse como un campo basado en evidencias (Escudero,2006; Shneider & Keesler, 2007). Entre las razones de esta desarticulacin destacanla mala reputacin del impacto de la Investigacin Educativa (Fernndez-Cano, 2001)y el que los valores e ideales enseados durante la formacin no se consolidandurante la prctica profesional por razones burocrticas (Maben, Latter, & Clark, 2006;Cargo, M., 2008). Por lo anterior, se decide aplicar el instrumento a una muestra de 62

    docente universitarios y 117 docentes no universitarios de Granada (Espaa). Luegode realizar las diferentes etapas de validacin, de contenido y de contructo, se obtuvoun total de tres constructos representados por 16 sentencias (tems). Tal y comosugiere en la literatura especializada, parece existir un consenso entre los profesoresacerca del bajo impacto de la Investigacin Educativa en la prctica docente.

    Tarik Faouzi |Structural Equation Modeling.

    C fi t F t i l l i

  • 7/24/2019 presentacion data mining

    19/34

    16

    Confirmatory Factorial analysisAplicacin 1

    Modelos de medidas deducidos por el AFERealizando el analisis factorial exploratorio, se obtiene un modelo de tresfactores explicados por variables observadas (tems o indicadores) yconsediradas como continuas.

    Figure:Modelo de medida

    del constructo deducido DIIE.

    Figure:Modelo de medida del

    constructo deducido AMIIE.

    Figure:Modelo de medida

    del constructo deducidoOMIIE.

    Tarik Faouzi |Structural Equation Modeling.

    C fi t F t i l l i

  • 7/24/2019 presentacion data mining

    20/34

    17

    Confirmatory Factorial analysisAplicacin 1

    AFC para modelo deducidoSe realiz el analisis factorial comfirmatorio (AFC) con la finalidad de comprobarel ajuste de los dos modelo (modelo definido por expertos y otro deucido a travsel AFE) a los datos.

    En nuestro caso los datos son categoricos, por lo tanto se recomienda usar elmtodo de la estimacin diagonal weighted least square (DWLS)o Weighted

    least square mean and variance (WLSMV).Entonces, usando el paquetelavaandel programa R, se obtiene,

    Anlisis y interpretacin de los resultados

    Variable la-tente

    N

    tems2/gl CFDLI RMSEA CFI TLI VR2 vc Jor

    Constructos contodos los tems

    DIIE 18 3.54 [-.04,.77] .119 .845 .824 [.00,.60] .36 .88AMIIE 16 2.52 [.00,.65] .092 .732 .690 [.00,.42] .19 .75OMIIE 9 2.30 [.30,.75] .085 .960 .946 [.09,.56] .34 .81

    constructosdeducidos

    DIIE 13 1.85 [-.45,.78] .069 .973 .968 [.20;.62] .46 .92AMIIE 8 4.10 [.32;.68] .131 .86 .81 [.10,0.46] .30 .77OMIIE 4 .32 [.55,.73] .000 1.00 1.02 [.30,.53] .40 .72

    Nota. VR2: intervalo de la variacin de los valores del coeficiente de determinacin R2;CFDLI: Intervalo dela contribucin factorial de los indicadores. Para ver valores de referencia, vaseTabla1.

    Tarik Faouzi |Structural Equation Modeling.

    C fi t F t i l l i

  • 7/24/2019 presentacion data mining

    21/34

    18

    Confirmatory Factorial analysisAplicacin 1

    Ejercicio 1Demostrar que los modelos de medidas, propuestos abajo, tienen un buen bondad de ajuste.

    Compruebe la uni-dimensionalidad de cada constucto (variable latente) con la validezdiscriminante.

    Figure:Modelo de medida

    del constructo deducido DIIE.

    Figure:Modelo de medida del

    constructo deducido AMIIE.

    Figure:Modelo de medida

    del constructo deducidoOMIIE.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    22/34

    19

    Modelos De regresin EstructuralDescripcin y motivacin

    DescripcinMtodos predictivos con menor restrecciones.

    Nacieron de la necesidad de dotar de mayor flexibilidad a los modelos de regresin.

    para ms informaciones, volver al (Ruiz et. al., 2009).

    Compuesto de sud-modelo de medicin (asociacin entre la variavle latente y sus

    indicadores) y sub-modelo estructural (asociacin entre variables latentes).

    MotivacinProbar el ajuste de un modelo a los datos.

    Realizar anlisis con datos continuos o categoricos.

    Analizar modelos mixtos.Modelizacin multinivel.

    Anlisis de datos faltantes con Mxima de verosimilitud.

    Meta-anlisis.

    Tarik Faouzi |Structural Equation Modeling.

    Modelo de regresin estructural

  • 7/24/2019 presentacion data mining

    23/34

    20

    Modelo de regresin estructuralPresentacin grfica

    Figure:Modelo de regresin estructural.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    24/34

    21

    Modelos De regresin EstructuralFormalizacin matemtica del modelo

    Modelo estructural y de medicin[Estructural]: =B+ X+.

    [Medicin]: Y = (X)+ & X= (Y)+.

    Donde

    Xes una variable observada independiente.

    Yes una variable observada dependiente.

    es la intensidad de una relacin causal entre varaible observada y variable latente.

    es el error asociado a Y.

    es el error asociado aX.

    es la variable latente dependiente o endogena.

    es la variable latente independiente o exogena.

    es el error asociado a.

    es el coeficiente entre variables latentes dependientes.

    es el coeficiente entre variable latente independiente y otra independiente.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    25/34

    22

    Modelos De regresin EstructuralIdentificacin del modelo

    IdentificacinDe la misma forma que en la primera parte del diapositivo, seprocede a verificar si el modelo es identificable.

    Figure:Qu se puede identificar en esta foto?.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    26/34

    23

    Modelos De regresin EstructuralEstimacin del modelo[1]

    Ordinal responses caseThe questions were answered in terms of five ordinal response categories:

    1 disagree strongly2 disagree3 indifferent4 agree5 agree strongly

    Latent response variable approach:Yves Rosseelan elegant way to think about ordinal variables is that they are a crudeapproximation of an underlying continuous variable.

    since this continuous variable is not directly observed, we call it a latent responsevariable, denoted byy

    relationship between ordinaly(with K response categories) andy isy=kk1

  • 7/24/2019 presentacion data mining

    27/34

    24

    Modelos De regresin EstructuralEstimacin del modelo[2]

    Latent response variable regression model: Yves Rosseel

    the latent response variable regression model: y =p

    i=1ixi+ = X+ .

    P(y=k|X) =P(k1

  • 7/24/2019 presentacion data mining

    28/34

    25

    Modelos De regresin EstructuralEstimacin del modelo[3]

    Stage 1: Estimating the thresholds: Yves RosseelY

  • 7/24/2019 presentacion data mining

    29/34

    26

    Modelos De regresin EstructuralEstimacin del modelo[4]

    Stage 2: Estimating polychoric correlation: Yves Rosseelestimate correlation from bivariate data

    1 tetrachoric (binary binary)2 polychoric (ordered ordered)3 polyserial (ordered numeric)4 biserial (binary numeric)5 pearson (numeric numeric)

    ML estimation is available (see eg. Olsson 1979 and 1982)

    if exogenous covariates are involved, the correlations are based on the residualvalues ofy (eg bivariate probit regression)

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    30/34

    27

    Modelos De regresin EstructuralEstimacin del modelo[5]

    Stage 3: Estimating the SEM model: Yves Rosseel

    Fwls= (S(p

    )W1(S(p))

    sometimes, is very difficult to compute the matriz (p)

    Stage 3: alternative estimators, standard errors, and teststatistics : Yves Rosseel

    estimator DWLS: only the diagonal ofWis used during estimation

    estimator WLSMV implies:

    1 DWLS2 Robust standard error (using a sandwish type approach)3 scaled and shifted test statistic (new in Mplus 6)

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    31/34

    28

    Modelos De regresin EstructuralAplicacin 2[1]

    La continuation de lapplication 1El objetivo es medir el impacto de la investigacin sobre la docencia a travs unmodelo de regresin estructural.

    Tambin, se requiere encontrar un ndice de impacto que mida lo mismo.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    32/34

    29

    Modelos De regresin EstructuralAplicacin 2[2]

    Propuesta de modelo mixto de midicin y estructural.

    Figure:Modelo SEM propuesto.

    Tarik Faouzi |Structural Equation Modeling.

    Modelos De regresin Estructural

  • 7/24/2019 presentacion data mining

    33/34

    30

    gAplicacin 2[2]

    Anlisis y interpretacin de los resultados

    N

    temsrespuesta 2/gl CFDLI RMSEA CFI TLI VR2 vc Jor

    Modelopropuesto

    15 Impacto(p43) ? [?,?] ? ? ? [?,?] ? ?

    Nota. VR2: intervalo de la variacin de los valores del coeficiente de determinacin R2; CFDLI: Intervalo de

    la contribucin factorial de los indicadores. Para ver valores de referencia, vaseTabla1.

    Ejercicio con indicaciones1 complete la tabla anterior.

    2 [ind1:] Jor =

    q

    i=1

    2

    iqi=1 i que representa...

    3 [ind2:] vc= (q

    i=1 i)2

    qi=1 i

    que representa .....

    Tarik Faouzi |Structural Equation Modeling.

  • 7/24/2019 presentacion data mining

    34/34

    Thanks you for yourattention!