1. Métodos Cuantitativos en Ciencias Sociales [J. Fierro]-1

Embed Size (px)

Citation preview

  • Mtodos Cuantitativos en Ciencias Sociales

    Apuntes de Apoyo a la Docencia

    Jaime Fierro

    Actualizado al 21.11.12. Registro de Propiedad Intelectual N 226.895.

  • 2

    Presentacin El presente documento de trabajo tiene por objetivo enfatizar de un modo sencillo, tanto en trminos tericos como aplicados, un conjunto de contenidos en el mbito de la metodologa cuantitativa vinculados a: (i) Diseo de un proyecto de investigacin, (ii) Elementos de muestreo e intervalos de confianza, (iii) Anlisis univariado, bivariado y variables de control, (iv) Anlisis de regresin lineal mltiple (RLM), (v) Anlisis de regresin logstica binaria (RLB), y (vi) Anlisis de componentes principales. A su vez, se incluye un anexo en el que se han seleccionado seis ejemplos aplicados de investigacin utilizando Anlisis bivariado, RLM y RLB; como as tambin la creacin de ndices e integracin de teoras. En su origen, el texto que se presenta constituye un esfuerzo por sistematizar un conjunto de notas que he ido acumulando durante el ejercicio de la docencia, bajo la modalidad de apuntes de clases, en ciertas materias relevantes y recurrentes al momento de disear un proyecto de investigacin y, particularmente, cuando es necesario analizar estadsticamente la informacin recabada. Esto es complementado, mediante la incorporacin de extractos de estudios aplicados, en la seccin de Anexos. La modalidad de exposicin de los contenidos, con sus respectivas ejemplificaciones, ha sido especialmente pensada para estudiantes de las Ciencias Sociales a nivel de post-grado. La heterogeneidad disciplinar que caracteriza la composicin de los programas de Magster y Doctorado, plantea a los acadmicos el desafo de generar, en un tiempo relativamente breve, un estndar mnimo de conocimientos compartidos que les permita avanzar satisfactoriamente en las distintas etapas de sus respectivas tesis de investigacin. Es precisamente ah el lugar en donde se inscribe la presente iniciativa. Agradezco al Departamento de Sociologa, especialmente a Emmanuelle Barozet, Claudio Duarte, Manuel Canales y Ral Atria, la oportunidad de sistematizar y difundir este conjunto de apuntes tendientes a apoyar el aprendizaje de nuestros estudiantes, como as tambin, el inaugurar el primero de un conjunto de textos que seguirn a esta iniciativa. Sin embargo, se debe advertir, mucho de lo que aqu se expone est sujeto a futuras correcciones, actualizaciones y ampliaciones.

    Sobre el autor Jaime Fierro es Socilogo y Magster en Ciencias Sociales de la Universidad de Chile; Ph.D. en Ciencia Poltica de la Universidad de Essex, Inglaterra. Actualmente se encuentra terminando estudios de Doctorado en Filosofa, en rgimen de cotutela doctoral, entre la Universidad de Chile y la Universidad de Valladolid (Espaa). Es acadmico de la Universidad de Chile en FACSO e INAP. En FACSO dicta cursos de metodologa, talleres de tesis y anlisis de datos con SPSS, tanto en el Magster en Ciencias Sociales como en el Doctorado en Ciencias Sociales. Mientras que en el INAP, en el Magster de Ciencia Poltica, imparte cursos de metodologa y teora poltica.

  • 3

    Contenidos

    Cap. 1. Sobre el Diseo: Breves "otas para Recordar .............................................. 5

    1. Proceso de Formulacin del Problema de Investigacin......................................... 5

    2. Objetivos del Estudio ............................................................................................ 7

    3. Elaboracin del Marco o Perspectiva Terica ........................................................ 8

    4. Formulacin de Hiptesis .................................................................................... 10

    5. Metodologa ........................................................................................................ 12

    Cap. 2. Elementos de Muestreo e Intervalos de Confianza ..................................... 23

    1. Diseo de la Muestra ........................................................................................... 23

    2. Intervalos de Confianza ....................................................................................... 33

    Cap. 3. Anlisis Univariado, Bivariado y Variables de control ............................... 34

    1. Tipos de variables ............................................................................................... 34

    2. Anlisis Univariado ............................................................................................. 37

    3. Anlisis Bivariado: Variables Nominales y Ordinales .......................................... 43

    4. Introduccin de Variables de Control .................................................................. 50

    5. El papel de la Teora y los Modelos de Relaciones .............................................. 56

    Cap. 4. Regresin Lineal Mltiple ............................................................................ 58

    1. Descripcin de la Tcnica ................................................................................... 58

    2. Objetivos ............................................................................................................. 60

    3. Condiciones de Aplicacin .................................................................................. 60

    4. Mtodos de Seleccin de las Variables ................................................................ 62

    5. Tratamiento para las Variables Independientes Nominales .................................. 63

    6. Evaluando el Modelo .......................................................................................... 64

    7. Verificando los Supuestos de Aplicacin de la RLM ........................................... 65

    8. Ejecucin en SPSS .............................................................................................. 66

    9. Ejemplo Aplicado en SPSS ................................................................................. 67

    Cap. 5. Regresin Logstica Binaria ......................................................................... 77

    1. Descripcin de la Tcnica ................................................................................... 77

    2. Objetivos ............................................................................................................. 78

    3. Condiciones de Aplicacin .................................................................................. 78

    4. Mtodos de Seleccin de las Variables ................................................................ 79

    5. Evaluacin del Modelo ........................................................................................ 80

    6. Verificando los Supuestos de Aplicacin de la RLB ............................................ 81

    7. Ejecucin en SPSS .............................................................................................. 82

    8. Ejemplo Aplicado en SPSS ................................................................................. 82

  • 4

    Cap. 6. Anlisis Factorial Anlisis de Componentes Principales ......................... 93

    1. Descripcin de la Tcnica ................................................................................... 93

    2. Objetivos ............................................................................................................. 95

    3. Condiciones de aplicacin ................................................................................... 96

    4. Ejecucin en SPSS .............................................................................................. 96

    5. Ejemplo Aplicado en SPSS ................................................................................. 97

    Bibliografa.............................................................................................................. 103

    A"EXOS: EXTRACTOS DE ESTUDIOS ............................................................ 105

    Anexo 1. Inscripcin Automtica y Voto Voluntario: Aumentar la Participacin Electoral? [Ej. Anlisis Bivariado] .................................................. 106

    Anexo 2. Clase Media en Chile, 1990-2011: Algunas Implicancias Sociales y Polticas ................................................................................................................. 115

    Actitudes hacia la democracia [pp. 34-41] - Extracto Ej. RLM ............................. 115

    Elecciones presidenciales 2009-2010 [pp. 42-50] - Extracto Ej. RLB .................... 123

    La cada en el apoyo al gobierno de Piera [pp. 50-59] - Extracto Ej. RLM ........... 131

    Anexo 3. Ciudadana y Democracia en Amrica Latina [Ej. Integracin de Teoras, RLM e ndices] ......................................................................................... 140

  • 5

    Cap. 1. Sobre el Diseo: Breves "otas para Recordar

    Son variados los textos de metodologa que intentan cubrir de maneara amplia y exhaustiva el proceso de investigacin en cada una de sus etapas, por lo que a continuacin simplemente se enfatizar sumariamente, y se ejemplificar toda vez que sea posible, un conjunto de aspectos que se han de tener muy presentes al momento de disear un estudio. Se entender por etapa de diseo, desde la formulacin del problema hasta la metodologa. El resto de las etapas corresponde a la realizacin emprica del estudio.

    Principales etapas en el proceso de investigacin

    Formulacin del problema Objetivos Marco o perspectiva terica Hiptesis Metodologa Anlisis e interpretacin de los datos Principales resultados Conclusiones

    1. Proceso de Formulacin del Problema de Investigacin En el proceso de formulacin del problema de una investigacin se consideran un conjunto de procedimientos y pasos a seguir que pueden ser caracterizados brevemente del siguiente modo.

    1.1. Determinacin del Tema y su Delimitacin Al momento de escoger un tema y avanzar hacia su delimitacin, tenemos que dar cuenta de lo que se ha denominado coloquialmente como: el estado del arte. Esto implica llevar a cabo una revisin bibliogrfica exhaustiva, tanto de la literatura nacional como internacional, siendo clave el uso de buscadores especializados que permiten acceder a publicaciones indexadas (EBSCO, JSTOR, PROQUEST, entre otros). Durante el proceso se constatarn al menos cuatro situaciones tpicas con grados de dificultad diferenciada:

    Temas bastante investigados y de fcil sistematizacin. Temas investigados, pero difciles de sistematizar. Temas poco estudiados. Temas no investigados.

  • 6

    1.2. Formulacin del Problema La estructura que es parte del estndar en la formulacin de un problema de investigacin, se articula a partir de cuatro componentes: i) antecedentes, ii) pregunta(s) de investigacin, iii) justificacin, iv) viabilidad. Para avanzar en cada uno de ellos es importante tener en consideracin varios aspectos, segn se ver a continuacin. Antecedentes Contextualizar el problema (temporal, espacial, social, polticamente, etc.). Precisar la unidad de estudio (individual o agregado). Examinar las tendencias, pero particularmente las rupturas, es importante (datos). Dar cuenta de investigaciones anteriores (resultados). Identificar lo potencialmente novedoso. Estructurar la idea. Precisar la perspectiva a utilizar (nfasis disciplinar). Pregunta(s) de investigacin Lo usual es que el problema se plantee bajo la modalidad de una o ms preguntas. Evitar las preguntas demasiado generales, ya que no dejan claro qu es lo que se va

    a investigar en concreto. Si es correlacional (o explicativa), incluir las variables independientes principales (y

    omitir las de control). Debe ser susceptible de ser respondida empricamente. Y en el caso de las hiptesis, la posibilidad de su testeo. Tipo de preguntas

    Exploratorias. Descriptivas. Correlacionales o de diferencias de grupo. Explicativas y/o causales (del tipo de la Regresin Lineal Mltiple).

    Identificacin de las variables Variable dependiente: el fenmeno a ser explicado (Y) Variables independientes: las variables que explicaran o se encontraran

    asociadas al fenmeno (X1, X2, X3, Xn)

    Ejemplos de preguntas

    Exploratoria: Cul es la percepcin acerca de los atributos personales del candidato X?

    Descriptiva: Qu porcentaje del electorado apoyar al candidato X en las prximas elecciones presidenciales?

    Correlacional: Incide el NSE de los electores en la evaluacin del candidato X?

    Diferencias de grupo: Existen diferencias entre hombres y mujeres en la adhesin al candidato X?

    Explicativas: Cunto explican las variables socio-demogrficas (sexo, edad, NSE, educacin, religin y zona) y la percepcin de la situacin econmica (tanto del pas como personal) la evaluacin del candidato X?

  • 7

    Justificacin Novedad: contribucin a lo que ya se conoce / originalidad. Es importante realizar

    una revisin exhaustiva de la literatura de modo de: i) identificar algunas deficiencias o vacos de los otros estudios en trminos de la metodologa empleada; ii) la no inclusin de algunas variables relevantes o de control; iii) la omisin de tpicos relevantes; iv) el tipo de datos utilizados; etc.

    Relevancia: sta puede ser terica, prctica o metodolgica, no siendo excluyentes entre s. Terica: generar, reformular o ratificar una teora; nuevas preguntas o hiptesis

    de investigacin. Prctica: contribuir a resolver un problema social especfico; insumos para el

    diseo o reformulacin de polticas pblicas. Metodolgica: nuevos instrumentos (tipologas o ndices); modalidad de anlisis

    de los datos (multivariado); mtodos (triangulacin, mtodo comparado); diseo (cuasi-experimentales, experimentales).

    Viabilidad Son variados los aspectos a tener en consideracin al momento de evaluar la

    viabilidad de una investigacin, siendo frecuente que se tiendan a subestimar y comprometan en ltima instancia la realizacin del estudio, entre ellos: Recursos financieros (trabajo de campo, transcripciones, adquisicin de base de

    datos, etc.). Infraestructura bsica, lo cual incluye un lugar apropiado de trabajo y acceso a

    buscadores especializados. Tiempo real dedicado a la investigacin (muchos conviven con trabajo, familia y

    estudios). Conocimientos o capacidades especficas referidas a la produccin y anlisis de

    la informacin (por ejemplo, en SPSS). Aspectos que no dependen del investigador, pero que pueden comprometer el

    estudio.

    2. Objetivos del Estudio Los objetivos del estudio guardan una relacin estrecha con el carcter de la investigacin (ver punto 5.1) y el tipo de estudio (ver punto 5.2), pero particularmente del modo en cmo ha sido planteado el problema de investigacin. Lo usual es distinguir entre objetivo general y objetivos especficos. General Se ha de tener especial cuidado de asegurar la consistencia con la(s) pregunta(s) de

    investigacin. Es frecuente incluir el objetivo general en la seccin del problema de investigacin,

    pero no as en el caso de los objetivos especficos.

  • 8

    Especficos Desarrollarlos en funcin del objetivo general (opera como una suerte de

    fragmentacin de ste). Incluir objetivos que contemplen las relevancias del estudio, segn corresponda

    (terica, metodolgica y/o prctica).

    Ejemplos parciales de enunciados de objetivos

    Explorar / Conocer / Comprender... (por, ej. en preguntas exploratorias). Describir/Caracterizar /Analizar (por ej. en preguntas descriptivas). Determinar si (por ej. en preguntas correlacionales o de diferencias de grupo). Evaluar / Identificar / Explicar (por ej. en preguntas explicativas o causales). Elaborar (por ej. cuando se considera la construccin de tipologas o ndices). Contribuir a (por ej. en relacin a la relevancia prctica). Generar (por ej. nuevas hiptesis de trabajo, vinculado a la relevancia terica).

    3. Elaboracin del Marco o Perspectiva Terica En qu consiste Es una elaboracin terica o analtica que nos permite una comprensin /

    explicacin / prediccin del fenmeno bajo estudio [X Y]. Es particularmente relevante cuando trabajamos con una lgica deductiva, a

    diferencia de la inductiva (ej. grounded theory o teora fundamentada).

    Entre sus funciones se encuentra Orientar el estudio (conceptualizacin e identificacin de variables relevantes). Formulacin de hiptesis. Interpretacin de los resultados. Etapas del marco terico Revisin de la literatura tanto terica como emprica. Realizar un mapeo, de modo de identificar las teoras pertinentes al problema

    (disciplinar/interdisciplinar); y sistematizar los principales hallazgos empricos. Distinguir el nivel donde se ubica la teora: micro, macro o multinivel (vase autores

    tales como Giddens, Bourdier, Habermas, Archer, Ritzer, Alexander y Johnson). Evaluar la pertinencia segn el nivel de anlisis escogido del problema. Identificar y seleccionar la(s) teora(s) de inters.*

    Sobre la identificacin y seleccin de teoras Identificar las teoras que son pertinentes al problema. Determinar la estrategia seguir: se trabajar con una teora o se integrarn varias

    teoras o fragmentos de teoras.* Seleccionar la(s) teora(s) o fragmentos con los que se va a trabajar. Establecer con claridad el criterio por el cual se decide trabajar con ella(s) y se

    descartan las otras. Elaborar el ndice tentativo del captulo del marco o perspectiva terica. Identificar y desarrollar los aspectos a incluir de la(s) teora(s).

  • 9

    Sobre la integracin de teoras o fragmentos de teoras Opcin 1: se trabaja con varias perspectivas en paralelo de modo de determinar cul

    es mejor en funcin de los resultados empricos. La integracin se produce al final. Opcin 2: se integran desde el comienzo las distintas teoras, para diferentes

    aspectos del problema. Opcin 3: se integran solamente ciertos fragmentos de las teoras con el objeto de

    desarrollar una perspectiva propia.

    Ejemplos de integracin de teoras

    Opcin 1: se intenta explicar la intencin de voto, para ello se puede trabajar al menos con dos enfoques: Escuela de Columbia: enfatiza variables como Clase Social (o NSE), a partir de la

    educacin, ingresos y ocupacin. Escuela de Michigan: enfatiza variables como la identificacin partidaria,

    evaluacin de la situacin econmica y la imagen de los candidatos.

    A partir de la elaboracin de un modelo predictivo, que incorpora todas las variables identificadas por ambos enfoques, se procede a testearlo empricamente. En funcin de los resultados obtenidos, se decide reformular el modelo de modo de trabajar nicamente con las variables estadsticamente significativas o bien las ms relevantes.

    Opcin 2: se intenta describir los niveles de ciudadana en Chile. Para ello se integran distintas teoras: Liberalismo (derechos) Comunitarismo (responsabilidades) Republicanismo (participacin poltica) Nacionalismo y multiculturalismo (identidad)

    El resultado es la configuracin y articulacin un concepto de ciudadana a partir de tres dimensiones: i) derechos y responsabilidades; ii) participacin poltca; y iii) sentido de pertenencia. Vase paper Ciudadana y Democracia en Amrica Latina (Anexo 3).

    Opcin 3: el procedimiento es anlogo al indicado en la opcin 2.

    Algunas consideraciones Sin una adecuada teora es difcil filtrar y ordenas las casi ilimitadas observaciones

    que se pueden realizar en cualquier mbito de la realidad. La teora debe dar origen a un modelo parsimonioso en la explicacin del fenmeno. Y ha de poner algo de orden respecto de todas las explicaciones posibles. Se

    seleccionan algunas de ellas. Las teoras tienen que ser susceptibles de verificarse a travs de hiptesis; y admitir

    la posibilidad de ser incorrecta o falsa (Popper). La teora requiere de conceptos claros y precisos. Dichos conceptos han de ser operacionalizados (referente emprico), identificando

    las dimensiones (o variables) e indicadores, de modo de permitir la construccin de ndices (ej. IDH; Freedom House).

  • 10

    Finalmente, una buena teora debe tener una capacidad descriptiva (definir el fenmeno y sus caractersticas), explicativa (causa) y predictiva (anticipar).

    4. Formulacin de Hiptesis Qu es una hiptesis Una hiptesis es una respuesta tentativa a una pregunta o problema de investigacin,

    la que ha de ser susceptible de testear empricamente. Identificacin de las variables Variable dependiente: el fenmeno a ser explicado (Y). Variable(s) independiente(s): las variables que explicaran o se encontraran

    asociadas al fenmeno (X1, X2, X3, Xn). Luego de identificadas las variables, se procede a establecer la(s) hiptesis,

    reguardando la coherencia con la pregunta de investigacin. Tipos de hiptesis Hiptesis descriptivas. Hiptesis correlacionales o de diferencias de grupo. Hiptesis explicativas (y/o causales).

    Ejemplos de hiptesis

    Descriptiva: El candidato X obtendr entre un 20 a 25% de los votos en la primera vuelta presidencial.

    Correlacional: A medida que aumenta el NSE de los electores, se incrementa el apoyo al candidato X.

    De diferencia de grupos: Las mujeres tienden a adherir ms al candidato X que los hombres.

    Explicativa: Las variables socio-demogrficas (sexo, edad, NSE, educacin, religin y zona) y la percepcin de la situacin econmica (tanto del pas como personal) explican sobre el 20% la evaluacin del candidato X.

    Algunas consideraciones A medida que avanza el estudio, el investigador puede verse tentado a adecuar sus

    hiptesis a la evidencia emprica. Sin embargo, hay que resguardar la honestidad intelectual y ser cuidadosos en mantener coherencia con la teora.

    Por otra parte, es muy relevante conocer tambin aquellas investigaciones que refutan hallazgos realizadas por otros.

  • 11

    Modelo de relaciones entre variables Identificar las variables independientes (posibles causas) asociadas al fenmeno

    Las variables independientes son aquellas variables que se encontraran asociadas y/o explicaran el fenmeno (variable dependiente). Muchas son las variables independientes que pueden estar asociadas a un problema determinado, pero solamente un grupo reducido de ellas lo est de un modo causal. No toda asociacin o correlacin entre las variables independientes y el problema constituye una relacin causa-efecto.

    A su vez, siempre es posible identificar la accin de terceras variables que pudieran estar condicionando o interviniendo en la relacin entre las variables independientes y la variable dependiente, por lo que se habr de descartar relaciones espurias al momento de testear las hiptesis.

    Elaboracin del modelo Una vez identificadas las posibles causas que explicaran el fenmeno, es

    necesario establecer un modelo que exprese dicha relacin. Un modelo es una representacin simplificada de la realidad, el cual usualmente se expresa a travs de un esquema grfico/conceptual que ilustra las relaciones que se estableceran entre la variable dependiente (fenmeno) y las variables independientes (las que causaran el problema).1 Por ejemplo, una relacin muy simple sera: X Y, en donde X es la variable independiente (causal) e Y la variable dependiente (fenmeno).

    Entre ms sean las variables independientes, mayor ser la complejidad que se introduce al modelo. Cada variable independiente estar relacionada con el problema. Y, a su vez, entre las variables independientes tambin se darn relaciones que habr que explicitar.

    La elaboracin del modelo debe permitir tanto representar de un modo sencillo las relaciones causales entre las variables independientes y el problema a abordar.

    Testeando el modelo Si las variables identificadas como causales no son las adecuadas, o las

    relaciones establecidas en el modelo no son las pertinentes, las hiptesis muy probablemente fallarn. Se debe evitar asumir, por lo tanto, un modelo de relaciones entre las variables independientes (causales) y el fenmeno sin la debida articulacin terica y la evidencia emprica mnima que permita determinar e interpretar tales relaciones.

    Es altamente recomendable y necesario realizar un anlisis estadstico multivariado, toda vez que se disponga de la informacin necesaria para testear el modelo, y determinar el impacto probable de cada variable independiente sobre el fenmeno (o dimensin del fenmeno) en cuestin (a travs, por ejemplo, de la tcnica de regresin lineal mltiple).2

    1 Tambin se pueden establecer modelos matemticos ms complejos, a partir de funciones y/o ecuaciones. 2 Un modelo de regresin lineal mltiple permite responder al menos tres tipos de preguntas: i) Cunto explican el conjunto de variables independientes a la variable dependiente (problema); ii) Cules son las variables independientes que mayor impacto tienen sobre la variable dependiente? y; iii) Cunto explica una variable independiente la variable dependiente, controlando por el efecto del resto de las variables independientes?

  • 12

    Ejemplo simplificado de un modelo de relaciones entre variables

    5. Metodologa Se abordarn sumariamente los siguientes aspectos: 5.1. Carcter de la Investigacin; 5.2. Tipos de Estudios; 5.3. Tipos de Diseos de Investigacin; 5.4. Diseo de la Muestra; 5.5. Definicin Conceptual y Operacional; 5.6. Tcnicas de Produccin de la Informacin; 5.7. Construccin de ndices; y, 5.8. Tcnicas de Anlisis de la Informacin.

    5.1. Carcter de la Investigacin Si bien en el presente captulo se hace un nfasis en la metodologa cuantitativa, es conveniente tener en consideracin el enfoque cualitativo, principalmente porque el desarrollo actual de las investigaciones en ciencias sociales tiende a potenciar cada vez ms los diseos de investigacin mixta. El enfoque cuantitativo Trabaja con informacin expresada numricamente. El problema de investigacin est bastante acotado y estructurado. Se establecen hiptesis previamente al anlisis de los datos. Los datos se analizan estadsticamente: univariado, bivariado y multivariado. Permite la elaboracin y demostracin de teoras a partir del testeo de hiptesis. Predomina la lgica deductiva. Permite generalizaciones (inferencia estadstica). El enfoque cualitativo Se trabaja con informacin expresada cualitativamente (texto, imagen, etc). El problema de investigacin es menos acotado y estructurado. Generalmente no se establecen hiptesis previas, sino en la medida en que se

    analizan los datos. Se realiza un anlisis de contenido o de discurso. Permite la generacin de teoras (teora fundamentada). Predomina una lgica inductiva. Los resultados no son generalizables.

    Edad (+)

    NSE (+)

    Escolaridad (-)

    Evaluacin del gobierno

    Percepcin de la situacin econmica del pas (+)

  • 13

    Enfoque mixto Se trabaja con informacin tanto cualitativa como cuantitativa, permitiendo i) el

    control de la calidad (convergencia) y ii) la complementariedad (enriquecimiento). Aspectos a considerar

    Secuencia: 1. Puede ser secuencial, una primera fase cualitativa seguida de una cuantitativa (o bien a la inversa). La secuencia cualitativa cuantitativa es recomendable cuando se desea explorar variables, construir instrumentos cuantitativos y complementar con datos cualitativos. La secuencia cuantitativa cualitativa, en tanto, se recomienda cuando aparecen resultados inesperados en la fase cuantitativa, y cuando se intenta analizar y explicar las relaciones entre las variables (fenmenos). Tiene la dificultad de requerir ms tiempo de trabajo de campo. 2. Puede tambin ser simultnea, es decir, ambas fases al mismo tiempo. Su dificultad estriba en que el trabajo de campo se hace ms exigente.

    Prioridad: igual peso / nfasis ms cualitativo / nfasis ms cuantitativo. Integracin: se complementan sin convergencia (se enfatizan distintos aspectos)

    / se complementan con convergencia (se enfatizan los mismos aspectos). Algunos desafos

    Acumulacin de datos con poco anlisis exhaustivo. Dificultad para organizar el anlisis y qu es lo que tiende a predominar cuando

    hay que resolver diferencias entre los datos de ambos enfoques. Se requiere de una slida formacin en ambas metodologas. Usualmente los

    investigadores se encuentran desigualmente formados (habituados a ciertos modos de investigar).

    Mayor nivel de complejidad. Control de sesgos (debilidades de ambos). Altos costos financieros y de tiempo.

    5.2. Tipos de Estudios Los diferentes tipos de estudios suelen clasificarse en exploratorios, descriptivos, correlacionales y explicativos (y/o causales), pero no son excluyentes, ya que al momento de disear un proyecto de investigacin bien pueden integrarse los distintos niveles atendiendo al tipo de preguntas de investigacin que se hayan formulado.

    Estudios exploratorios Examinan temas poco estudiados (incide tambin el contexto en el que se realizan) Son ms flexibles, amplios y dispersos. Sirven para familiarizarse con el fenmeno. Identificar tendencias. Identificar posibles relaciones entre variables. Estudios descriptivos Describen cmo es y cmo se manifiesta el fenmeno. Miden conceptos o recolectan informacin sobre ellos. De ah que se debe tener claridad respecto de lo que se va a medir. Suelen medir atributos del fenmeno, pero no se los relaciona con otras variables.

  • 14

    Estn abiertos a la posibilidad de recabar informacin sobre nuevos tpicos o situaciones.

    Estudios correlacionales Evalan la relacin entre dos o ms fenmenos o variables. Tales relaciones se expresan en hiptesis que son testeadas. Permiten determinar cmo se comporta una variable, conocido el valor de las otras

    variables (independientes). Aportan cierta informacin explicativa.

    Estudios explicativos (y/o causales) Orientados a determinar las causas de los fenmenos. Buscan explicar por qu ocurre un fenmeno, bajo qu condiciones se da y su

    vinculacin con otras variables. Son investigaciones ms estructuradas (lgica deductiva peso del marco terico y

    de la evidencia previa). La correlacin/asociacin entre dos variables es condicin necesaria pero no

    suficiente de causalidad. Se ha de controlar (descartar) el efecto de otras variables; temporalidad (causa-

    efecto); teora (interpretacin).

    5.3. Tipos de Diseos de Investigacin Qu es un diseo de investigacin Consiste en la estrategia a utilizar para obtener la informacin y, a su vez, precisar el

    grado de manipulacin de las variables. Se encuentra en estrecha relacin con el problema, recursos y tiempo. En particular, hay que tener presente si el estudio es de carcter exploratorio,

    descriptivo, correlacional o explicativo.

    Diseos experimentales Se manipula (en dos o ms grados / modalidades) la variable independiente (VI)

    para observar sus efectos en la variable dependiente en una situacin de control. Los grupos que se conforman son asignados de modo aleatorio. Si en los grupos todo es igual, excepto el grado de manipulacin de la VI, las

    diferencias entre los grupos se deben al efecto de la VI. Ejemplo: i) Frmaco (en dos grados: aplica/no aplica); / ii) Programa violento (en

    varios grados: grado de exposicin a las escenas violentas) / Mtodos de enseanza (modalidad: distintos tipos de formas de trabajo).

    La validez interna (control) se logra mediante la equivalencia inicial (azar), pero hay que asegurar la equivalencia durante todo el tiempo del experimento (excepto en la VI).

    Algunos tipos de diseo comunes son: post prueba y grupo control; y pre y post prueba y grupo de control.

  • 15

    Diseos cuasi-experimentales Su lgica es similar a la de los diseos experimentales, salvo que: Los sujetos no pueden ser asignados al azar. Se trabaja con grupos naturales. No es tan claro el grado de equivalencia inicial de los grupos. Tienen incidencia terceras variables, ya que no es posible controlarlas. Poseen un menor grado de validez interna que los diseos experimentales. Diseos no-experimentales No es posible manipular deliberadamente la(s) variable(s) independiente(s). Los fenmenos se estudian en su ambiente natural (situaciones existentes) y luego

    se analizan. No es posible realizar una manipulacin de las variables, por lo cual se realiza un

    control estadstico. Los fenmenos ya ocurrieron al igual que sus efectos. Suelen tener menor validez interna, pero mayor validez externa en la medida que las

    muestras son estadsticamente representativas. Los diseos experimentales tambin se denominan estudios ex post facto y se suelen

    clasificar en: i) diseos transeccionales y ii) diseos Longitudinales. Mtodo comparado Es frecuente en los estudios de poltica comparada en los que se analizan simultneamente muchos o algunos pases. A su vez, al comparar pocos pases, hay que distinguir entre dos modalidades: comparacin de sistemas similares y comparacin de sistemas diferentes. Comparando muchos pases

    Usualmente en torno a los 50 casos y ms. Aunque hay algunos estudios cualitativos, los que priman son ms bien de

    carcter cuantitativo. Se requiere de un alto nivel de abstraccin al especificar los conceptos para

    poder incluir al mximo de pases. Tiene la ventaja de permitir el control estadstico, hacer fuertes inferencias, y la

    identificacin outliers. Ejemplo: en el estudio de Helliweell (125 pases) existira una correlacin

    positiva entre ingreso per cpita y democracia. Algunas dificultades: i) la disponibilidad de datos; ii) la validez de las medidas

    (instrumentos); y las habilidades matemticas y manejo computacional para analizar los datos.

    Comparando pocos pases Usualmente en torno a los 20 casos. El control se logra escogiendo cuidadosamente los pases. Existe un nivel intermedio de abstraccin; y son ms intensivos que extensivos. Se centra en las similitudes y diferencias entre los pases antes que la relacin

    analtica entre las variables. Se requiere del idioma y trabajo de campo.

  • 16

    Existen dos tipos de diseos: comparacin de sistemas similares y comparacin de sistemas diferentes.

    Comparacin de sistemas similares Compara sistemas polticos que comparten un conjunto de caractersticas

    comunes en un esfuerzo por neutralizar algunas diferencias y destacar otras. Busca identificar los aspectos claves que son diferentes entre pases similares y

    que seran relevantes para explicar un determinado resultado. Es especialmente recomendable para quienes trabajan en estudios de reas (ej.

    Amrica Latina), ya que estn geogrficamente cercas y comparten una serie de caractersticas (lengua, historia, cultura, etc.).

    Comparacin de sistemas diferentes Compara pases que no comparten ninguna caracterstica comn aparte del

    resultado poltico a ser explicado y uno o dos factores explicativos considerados como relevantes.

    Busca identificar aquellas caractersticas que son iguales entre diferentes pases en un esfuerzo por explicar un determinado resultado.

    Algunos autores utilizan ambos diseos en sus investigaciones. Algunas consideraciones: la seleccin sesgada

    Constituye un error seleccionar solamente aquellos pases que confirman la teora.

    No suele afectar a los estudios en los que se consideran muchos casos, pero s a los que se consideran pocos y particularmente cuando se estudia un solo caso.

    Tiene un fuerte efecto sobre las inferencias que se pueden establecer. Usualmente se seleccionan los pases en funcin de la variable dependiente que

    confirma lo que se busca. Algunas soluciones: i) seleccionar una VD que vare; ii) seleccionar casos en los

    que se tenga buen conocimiento; iii) seleccionar casos en funcin de la teora; iv) seleccionar tambin los casos menos probables.

  • 17

    Ejemplo de mtodos de comparacin entre pases

    Comparacin de sistemas similares Pas 1 Pas 2 Pas N

    Caractersticas a a a b b b c c c Factor explicativo clave X X No X Resultado a ser explicado Y Y No Y

    Comparacin de sistemas diferentes Pas 1 Pas 2 Pas N

    Caractersticas a d g b e h c f i Factor explicativo clave X X X Resultado a ser explicado Y Y Y

    5.4. Diseo de la Muestra Los aspectos relativos al diseo de la muestra son abordados en el Captulo 2 del presente apunte, dado la necesidad de profundizar en los siguientes puntos: 1. Diseo de la muestra Universo, marco muestral y muestra Tipos de muestreo Determinacin del tamao de la muestra 2. Intervalos de confianza

    5.5. Definicin Conceptual y Operacional Una vez identificadas y delimitadas las variables, se procede a la definicin conceptual de stas, para luego, particularmente cuando se trabaja con conceptos complejos, realizar un proceso de operacionalizacin a partir de dimensiones e indicadores. La definicin tanto conceptual como operacional de las variables es algo absolutamente necesario. De ese modo nos aseguramos de arribar a una definicin consensuada y que todos entiendan lo mismo cuando nos refiramos al problema. Se ha de evitar aqu las definiciones demasiado vagas o genricas, cuya dificultad consiste en que se den mltiples interpretaciones de lo que se ha de entender por cada una de ellas. Por otra parte, entre ms vaga o general sea la definicin las variables, mayores sern las dificultades para su operacionalizacin. Y sin una adecuada operacionalizacin, el

  • 18

    intento de medirlas tendr serias limitaciones, afectando la validez del instrumento ndice que se disee o considere. El papel de la teora Al momento de definir un concepto debemos tener muy claro que dicha definicin

    no es independiente de la teora con que trabajemos. Suele haber ms de una definicin.

    En los estudios cuantitativos se enfatiza la lgica deductiva, por lo que la teora juega un papel central al momento de definir y explicar un fenmeno.

    Una buena teora trabaja con conceptos claros y precisos, lo que es determinante para su apropiada medicin emprica.

    Definicin conceptual La definicin conceptual hace referencia a cmo se va a definir el concepto en

    cuestin (fenmeno o variable), de acuerdo a una determinada perspectiva terico-conceptual. Esto requiere de una breve revisin de los principales enfoques terico-conceptuales respecto del problema a abordar y optar por una definicin.

    A su vez, se deben evitar las definiciones demasiado generales, como se mencion anteriormente, pero tambin se debe evitar el dar una definicin demasiado especfica que corra el riesgo de omitir alguna dimensin relevante del concepto.

    Dicho ejercicio conceptual y analtico representa un importante nivel de complejidad. La gran mayora de las veces existen profundos desacuerdos acerca de cmo habrn de entenderse y definirse muchos de los conceptos que son centrales para dar cuenta de las distintas problemticas en la sociedad.

    Por otra parte, diferentes definiciones del concepto pueden dar origen a distintos resultados empricos en el marco de una investigacin.

    La operacionalizacin Para su medicin emprica, los conceptos han de ser operacionalizados,

    identificando sus dimensiones e indicadores (si este fuera el caso). Luego, cada uno de los indicadores ha de ser medido, por ejemplo, a partir de una

    pregunta en un cuestionario. Al trabajar con conceptos complejos (multidimensionales) se hace necesario

    construir ndices (ej. IDH). Finalmente, debemos chequear si la operacionalizacin del concepto satisface el

    criterio de validez y el de fiabilidad.

    5.6. Tcnicas de Produccin de la Informacin Investigaciones mediante encuesta Se aplica el mismo instrumento a todos los entrevistados: las mismas preguntas en el

    mismo orden. Esto asegura un mayor grado de control sobre lo que se pregunta, razn por la que

    se le denomina entrevista estructurada estandarizada. La estandarizacin en el levantamiento de la informacin contribuye a la fiabilidad

    del instrumento. Reduce el error entrevistador/entrevistado. Y, a su vez, se utilizan muestras estadsticamente representativas.

  • 19

    Por otra parte, se pueden abordar aspectos tanto subjetivos (opinin, actitudes, valores) como objetivos (conocimiento, hechos).

    Es posible analizar estadsticamente las relaciones entre las variables, introduciendo el control estadstico (una vez construida la base de datos de la encuesta).

    La informacin levantada, permite la posibilidad de generar modelos explicativos multivariados (mediante tcnicas tales como la RLM y la RLB).

    Tipos de encuesta Cara-cara Correo/web/e-mail Telefnica Formulacin de preguntas Referidas a: i) hechos/conductas; ii) conocimientos; iii) actitudes; y, iv.

    percepciones u opiniones. Tipos preguntas: abiertas, cerradas simples (exhaustiva y mutuamente excluyente) y

    cerradas mltiples (ms de una alternativa). Enunciado: i) debe utilizarse un lenguaje claro y compartido (incluir definiciones si

    es necesario); ii) las preguntas deben tener cierta relevancia y los entrevistados han de contar con algunos niveles de informacin (de lo contrario informar); iii) se ha de privilegiar una idea nica; y, iv) evitar tanto la deseabilidad social como la sobrecarga emocional.

    Tipos de escalas Escalas likert

    Afirmaciones a las cuales se debe indicar el grado de acuerdo (por lo general, con 5 opciones de respuesta).

    La opcin central neutral (ni de acuerdo/ni en desacuerdo) a veces se omite con la finalidad de forzar al entrevistado a elegir hacia uno de los dos polos de la pregunta.

    Ej: Indique su grado de acuerdo con el aborto teraputico / la legalizacin de la marihuana, las tareas domsticas compartidas, etc.

    Escalas de distancia social Distancia o cercana que una persona desea mantener respecto de un grupo

    social en distintos niveles (entre 6 a 7 preguntas) Los niveles van desde de menor a mayor proximidad. Ej. Pas / comuna /

    vecinos / trabajo / colegio / familia. Se aplica a grupos sociales especficos: ej. Homosexuales, inmigrantes, minoras

    tnicas, etc. Escalas de diferenciales semnticos

    Miden el significado emocional que evocan ciertos conceptos / Adjetivos polares (5 a 7 pares) / Nivel educacional

    Ej: Poltica chilena Aburrida 1 2 3 4 5 6 7 Entretenida Irrelevante 1 2 3 4 5 6 7 Relevante Sucia 1 2 3 4 5 6 7 Limpia

    Desordenada 1 2 3 4 5 6 7 Ordenada Al servicio de unos pocos 1 2 3 4 5 6 7 Al servicio de todos

  • 20

    Etapas de la encuesta Las etapas a considerar varan segn los autores. Aqu se consideraran las siguientes: Objeto de estudio: problema / pregunta(s). Objetivos de la investigacin. Variabilizar: definicin nominal y operacionalizacin. Instrumento de medida: construccin del cuestionario. Muestra: poblacin, marco muestral, tipo de muestreo, clculo de la muestra (error,

    nivel de confianza). Seleccin de los encuestadores. Adiestramiento encuestadores: instrumento, situaciones problemticas, estrategia de

    seleccin de los casos. Trabajo de campo: fechas, coordinadores, supervisin y control de las entrevistas. Encuesta piloto: fiabilidad y validez, organizacin, tiempo. Codificacin y digitacin. Depuracin de la base de datos. Tratamiento de no respuesta (NS / NC). Ponderacin de la base de datos y evaluacin. Anlisis de la informacin: univariado, bivariado y multivariado. Elaboracin del informe: se debe incluir junto con los principales resultados, las

    conclusiones del estudio.

    5.7. Construccin de ndices Qu es un ndice Un ndice corresponde a una medida obtenida por la agrupacin de varios

    indicadores con el objeto de medir un concepto (o dimensin). Los indicadores son los que aportan los datos que permiten calcular el ndice mediante una frmula.

    Dicha frmula matemtica permite sintetizar los distintos valores de las dimensiones e indicadores en una sola puntuacin.

    Proceso de operacionalizacin de un ndice La definicin conceptual del fenmeno debe permitir identificar con claridad las

    diferentes dimensiones que lo componen. Los conceptos y sus conceptualizaciones son, por regla general, multidimensionales. Es muy difcil reducir un concepto, usualmente complejo, a una sola dimensin. Las dimensiones de un concepto (fenmeno o variable) son los distintos aspectos que lo componen y son derivadas analticamente a partir de su definicin conceptual.

    A su vez, dado que muchos de los fenmenos no son directamente observables, se hace necesario determinar el conjunto de indicadores que nos permitan dar cuenta de l en cada una de sus dimensiones. Un indicador es la medida estadstica de una dimensin o parte de la dimensin del concepto.

    En algunos casos se suele calcular un ndice por dimensin del concepto y luego un ndice general (IG). El ndice general resume todos los indicadores de las dimensiones del concepto, constituyndose como la expresin numrica del concepto medido.

  • 21

    En la determinacin de la frmula se pueden utilizar distintas operaciones entre los indiciadores (sumas, promedios, multiplicaciones, etc.). A su vez, tanto las dimensiones como los indicadores pueden tener la misma o diferente ponderacin.

    El proceso de operacionalizacin a partir de la definicin del concepto (fenmeno o variable), sus dimensiones, indicadores y, finalmente, el ndice, puede ser representado esquemticamente como sigue:

    Ejemplo del proceso de operacionalizacin y construccin de un ndice

    El ndice general (IG) podra ser calculado, por ejemplo, a partir de la siguiente frmula

    :

    IG = (I1 + I2 + I3 + In) / n

    (*) Para un caso prctico, vase paper Ciudadana y Democracia en Amrica Latina en Anexo 3.

    Riesgos a evitar La seleccin equivocada de las dimensiones e indicadores. Una inadecuada ponderacin de las dimensiones e indicadores. Evitar las variables medidas en distintas unidades, de lo contrario se recodifican o se

    estandarizan.

    Criterios de calidad En el proceso de construccin de un ndice se debe garantizar que ste cumpla con

    dos criterios de calidad: validez y fiabilidad. La validez se refiere a que el instrumento mida efectivamente el concepto que intenta medir y no otra cosa. La fiabilidad, por su parte, hace referencia a que las mediciones sean estables (idealmente iguales) en trminos de sus resultados si el instrumento se aplica en dos oportunidades al mismo objeto de estudio. Un ndice debe ser confiable para que pueda ser vlido, pero no necesariamente la confiablidad por s misma garantiza la validez.

    ndices Indicadores Dimensiones Concepto

    I1 i1 D1 i2

    I2 Fenmeno (definicin

    conceptual)

    i3D2 i4 D3

    IG I3 i5

    In Dn i6

    i7

    in

  • 22

    Para chequear la validez de un instrumento Se pueden utilizar distintas tcnicas: anlisis de convergencia, anlisis de

    divergencia, anlisis de discriminacin, anlisis de jueces, anlisis terico (de constructo), anlisis de contenido (validez aparente o anlisis lgico), y anlisis de componentes principales.

    Para chequear la fiabilidad de un instrumento Entre las tcnicas disponibles se encuentran: anlisis de contenido (validez

    aparente o anlisis lgico), repeticin de la prueba (memoria - eventos), diseo de formas paralelas (diferencia entre formas) y consistencia interna (es la ms usada). En general, se espera correlaciones superiores a 0,8.

    5.8. Tcnicas de Anlisis de la Informacin Son varios los criterios utilizados para la clasificacin de las distintas tcnicas de anlisis estadstico, entre ellos, destaca el que toma como referencia al nmero de variables consideradas: univariado, bivariado y multivado. Anlisis univariado Se incluyen aqu las medidas de tendencia central (media, mediana y moda), de

    posicin (percentiles, cuartiles, quintiles) de dispersin (varianza y desviacin estndar) y tablas de frecuencias.

    (*) Para mayores detalles, vase Cap. 3 del presente documento.

    Anlisis bivariado Es comn trabajar con tablas de contingencia y medidas de asociacin entre dos

    variables, tales como Chi-Cuadrado de Pearson, V de Cramer, R de Spearman, R de Pearson, entre otros.

    (*) Para mayores detalles, vase Cap. 3; y el Anexo 1 para un estudio de caso aplicado. Anlisis multivariado Lo ms frecuente es distinguir entre ttcnicas de carcter predictivo, tales como la

    Regresin Lineal Mltiple (RLM) y la Regresin Logstica Binaria (RLB); y Tcnicas de carcter reductivo, tales como el Anlisis de Componentes Principales (ACP) y el Anlisis de Cluster.

    (*) Para mayores detalles de la RLM vase Cap. 4; para la RLB, el Cap. 5; y para el ACP, el Cap. 6. Para examinar estudios de caso aplicados, vase Anexo 2 y Anexo 3.

  • 23

    Cap. 2. Elementos de Muestreo e Intervalos de Confianza

    1. Diseo de la Muestra

    1.1. Estadstica Descriptiva versus Estadstica Inferencial En estadstica se suele hacer referencia a la distincin entre estadstica descriptiva y estadstica inferencial, constituyendo esta ltima la base para el diseo de muestras estadsticamente representativas. La estadstica inferencial se encuentra en estrecha relacin con la Teora de la Decisin (prueba de hiptesis) y la Teora de la Estimacin (generalizacin de los resultados). A diferencia de la estadstica descriptiva, en la estadstica inferencial s es posible generalizar los resultados desde la muestra hacia el universo de referencia, dentro de ciertos mrgenes de error. Para que ello pueda ser llevado a cabo, las muestras deben ser estadsticamente representativas. Es decir, la muestra debe ser determinada mediante un procedimiento probabilstico que garantice a todos los individuos/observaciones del universo (o del marco muestral) la misma probabilidad de ser elegidos (seleccin aleatoria). Una muestra es considerada como estadsticamente representativa en la medida que i) el procedimiento de seleccin de los casos ha sido realizado de modo aleatorio y, a su vez, ii) los parmetros de las variables en la muestra (medias, frecuencias o proporciones) son anlogos a los del universo de referencia. Para garantizar lo primero necesitamos profundizar un poco ms sobre los diferentes tipos de muestreo existentes (ver a continuacin punto 1.3). Lo segundo, en tanto, requiere ms bien de la utilizacin de ciertas variables marcadoras, usualmente socio-demogrficas, provenientes de estadsticas del CENSO (por ejemplo: sexo, edad y educacin de la poblacin). Cuando se constatan diferencias entre los parmetros de la muestra y los del universo de referencia (en trminos de las variables marcadoras), lo que corresponde llevar a cabo es un proceso de ponderacin, de modo de evitar ya sea la sub-representacin o la sobre-representacin de ciertas categoras o grupos sociales. Por otra parte, dentro del anlisis estadstico de datos se hace alusin al anlisis descriptivo en trminos de medidas de tendencia central (media, mediana y moda), de posicin (cuartiles, quintiles, deciles, percentiles), de dispersin (desviacin estndar, varianza) y tablas de frecuencias. No obstante, el anlisis estadstico descriptivo puede llevarse a cabo tanto en muestras que son estadsticamente representativas como en aquellas que no lo son. Simplemente corresponde a una modalidad de analizar los datos, generalmente de modo univariado (y bivariado cuando se realizan tablas de contingencia).

    1.2. Universo, Marco Muestral y Muestra El universo de referencia (poblacin) corresponde al total de elementos a partir del que se levanta la informacin. La muestra, por su parte, constituye una seleccin aleatoria de casos con el fin de caracterizar el conjunto de la poblacin (inferencia estadstica).

  • 24

    Para extraer la muestra es necesario determinar un marco muestral (registro electrnico o en papel), el que no siempre existe o se ajusta adecuadamente al universo de referencia. Cuando las diferencias entre el marco muestral y el universo son importantes, se sugiere redefinir el universo de referencia. Y en el caso de no disponer de un marco muestral, simplemente no es posible extraer una muestra estadsticamente significativa. En dicho proceso es necesario determinar la unidad de muestreo, la cual corresponde al elemento o conjunto de elementos que se seleccionan en cada etapa del muestreo (por ejemplo: comunas, manzanas y viviendas). En el diseo de una etapa coincide la unidad de muestreo con el elemento. Sin embargo, lo usual es que exista ms de una etapa (muestreos polietpicos) y, por ende, estos coincidirn nicamente en la etapa final (la unidad de muestreo con el elemento). Por otra parte, se debe insistir en el hecho de que existen potencialmente tantos universos de referencia como unidades de anlisis sean definidas. En otras palabras, a cada unidad de anlisis se encuentra asociado un universo distinto. A su vez, si bien el universo contiene a la unidad de anlisis (unidad de estudio), la unidad de anlisis no siempre se corresponde con la unidad de observacin (unidad de informacin). Este sera el caso, por ejemplo, cuando un investigador est interesado en conocer acerca de ciertas dinmicas o procesos que se dan al interior de la familia o de los partidos polticos. Tanto la familia como los partidos polticos corresponden ciertamente a la unidad anlisis o de estudio, pero no se aplica una entrevista o una encuesta a una familia o a un partido. Lo hacemos respecto de los individuos, ya sean stos miembros de una familia o miembros del partido. Son ellos los que nos estregarn informacin relevante respecto de la familia y del partido, respectivamente. Es decir, constituyen las unidades de observacin o las unidades de informacin.

    1.3. Tipos de Muestreo

    1.3.1. Muestreos probabilsticos En un muestreo probabilstico se intenta inferir desde la muestra hacia el universo de referencia (o poblacin), basndose en la Teora de Estimacin. Todos los elementos tienen una probabilidad conocida de ser elegidos, la que vara entre 0 y 1. Si los elementos son seleccionados sobre la base de una misma probabilidad de ser elegidos, entonces tenemos una muestra auto-ponderada. En cambio, si el investigador decide a priori, por ejemplo, seleccionar ms individuos con determinadas caractersticas de los que hubiesen sido inicialmente seleccionados, de acuerdo con su distribucin de probabilidad en la poblacin (proporcin), con el objeto de sobre-representar un grupo o una categora social, en tal caso, dicha muestra necesitar ser posteriormente ponderada. Igual situacin ocurrira cuando de un modo no intencional, en las llamadas variables marcadoras, se producen diferencias en la distribucin de las variables respecto del universo de referencia (habra que ponderar la base de datos).

  • 25

    Muestreo aleatorio simple (MAS) MAS sin salto sistemtico: los elementos son seleccionados directamente de modo aleatorio (al azar) a partir de un registro del universo de referencia (marco muestral) que es usualmente electrnico. La unidad de muestreo se corresponde con la unidad de observacin. Cada elemento en el muestreo ha de tener la misma probabilidad de ser seleccionado. Lo que implica tener que realizar un muestreo con reemplazo, para lo que se vuelve a introducir cada elemento que ha sido seleccionado. Puesto que dicho procedimiento resulta algo engorroso, generalmente no se realiza. A su vez, dado que el universo de referencia es generalmente grande en relacin a la muestra, las diferencias entre las probabilidades con y sin reemplazo son usualmente marginales. Entre las ventajas del MAS se encuentran: i) su sencillez tanto en el clculo de la muestra como en la seleccin de los elementos; y, ii) el hecho de que es auto-ponderado. Entre sus desventajas se puede sealar que: i) requiere de un marco muestral debidamente actualizado y sin errores (cosa que pocas veces ocurre); y, ii) en poblaciones grandes genera muestras muy dispersas geogrficamente, incrementando de modo significativo los costos del estudio. MAS con salto sistemtico: a diferencia del anterior, los elementos son seleccionados a partir de una fraccin muestral (que es igual a: N/n) y de un punto de arranque (que corresponde a un nmero sorteado al azar entre 0 y la fraccin muestral). Luego de seleccionado el primer caso, a partir del punto de arranque, se selecciona el segundo caso simplemente sumando al punto de arranque la fraccin muestral, y as sucesivamente (salto sistemtico). Generalmente se utiliza cuando no se posee un registro electrnico del marco muestral (listado) y se debe trabajar, por tanto, sobre algn otro tipo de registro. Previo a la seleccin de los casos, es necesario chequear si la forma en la que est organizada la informacin favorece la sobre-representacin o sub-representacin de determinados segmentos en la muestra (por ej. si estn ordenados alfabticamente o por otro tipo de caractersticas). La mayor ventaja que tiene el MAS con salto sistemtico (respecto del MAS), es que no se requiere de un marco muestral (listado), ya que se puede trabajar directamente con el registro fsico de la informacin en fichas, carpetas, etc. Su mayor desventaja estriba en la lentitud del proceso de seleccin, debido a que se necesita del recuento constante de las unidades de la poblacin. Muestreo estratificado (ME) Un estrato corresponde a un subconjunto de elementos de la muestra (n), cuya caracterstica fundamental es un cierto grado de homogeneidad respecto de la variable de estratificacin. Es decir, la varianza al interior de cada estrato debiera ser menor que la varianza entre los estratos. Es importante tener presente las caractersticas de la variable de estratificacin porque de ella dependen los estratos que se generen. As, por ejemplo, dentro de una Universidad podemos estar interesados en conocer las percepciones de los distintos estamentos en torno a los principales desafos que enfrenta la institucin. En este caso,

  • 26

    cada estrato corresponde a un estamento, es decir, estudiantes, profesores, administrativos y funcionarios. Sin embargo, si deseamos conocer el grado de satisfaccin con la educacin recibida por los estudiantes, los estratos bien podran corresponder a las Facultades. Y, una vez calculada la muestra, habra que distribuir los casos por facultades. Esto se puede realizar mediante tres procedimientos distintos. ME con afijacin igual: se divide la muestra por el total de estratos, correspondiendo a cada estrato el mismo nmero de casos. Luego, para corregir la sub-representacin o sobre-representacin de los estratos, hay que proceder a su ponderacin en funcin del peso de cada estrato. ME con afijacin proporcional: la muestra se asigna proporcionalmente al tamao de cada estrato (peso del estrato). La proporcin de cada estrato se calcula dividiendo el tamao del estrato por el N total (Universo de referencia). Dicha proporcin se multiplica luego por el tamao del n de la muestra. En este caso, la muestra resulta auto-ponderada. ME con afijacin con afijacin ptima: la muestra es asignada a cada estrato en funcin del grado de homogeneidad o heterogeneidad de estos (varianza). Entre ms homogneos los estratos, menos observaciones sern necesarias. En este tipo de muestreo tambin se ha de realizar un proceso posterior de ponderacin (segn el peso de cada estrato). Es decir, los n casos de la muestra son asignados tomando en consideracin el (i) peso y la (ii) varianza de cada estrato respecto de la varianza total. Entre las mayores ventajas de utilizar el SE SE ME pueden sealar: i) se alcanza una mayor precisin de la estimacin debido a la disminucin del error muestral, ii) garantiza la debida representacin de las variables de estratificacin, y iii) facilita la organizacin del trabajo de campo. Su principal desventaja, en tanto, dice relacin con el requerir de un acabado registro del marco muestral por estratos, lo que no siempre est disponible (y puede ser costoso elaborarlo). Muestreo por conglomerados (MC) A diferencia los estratos, los elementos que componen los conglomerados son muy heterogneos al interior de cada conglomerado y muy homogneos entre ellos. Y puesto que los conglomerados son muy parecidos entre s, es que resulta posible seleccionar algunos conglomerados. Cuestin que jams podramos hacer en un ME. Y al igual que en el caso del ME, necesitamos tener mucha claridad respecto de si nuestra variable central del estudio configura conglomerados o no. El muestreo por conglomerados bien pudiera ser auto-ponderado, pero por lo general no lo es. Usualmente tambin, los muestreos por conglomerados son polietpicos, por lo que hay varios pasos previos antes de seleccionar a la unidad de anlisis u observacin, es decir, habra varias unidades de muestreo. Por ejemplo, en materia de estudios opinin pblica, tenemos a las comunas, las manzanas, los hogares y, finalmente, a los individuos (mayores de 18 aos). Hay, por lo tanto, cuatro etapas de seleccin o sub-muestreo.

  • 27

    Por otra parte, su ventaja radica en que no se requiere un registro que incluya a todos los elementos del universo de referencia. Solamente son necesarios aquellos conglomerados que han sido seleccionados. Debido a lo anterior, suele ser el ms econmico de los muestreos, ya que presenta un menor grado de dispersin geogrfica. Sin embargo, los muestreos por conglomerados pueden incrementar el error muestral en la medida que los elementos que conforman el conglomerado no sean lo suficiente heterogneos (como para constituir un conglomerado) o bien por el hecho de no calcular apropiadamente la probabilidad de seleccin de cada conglomerado en sus diferentes etapas atendiendo a sus tamaos respectivos.

    Tips El muestreo aleatorio simple, al generar una muestra muy dispersa geogrficamente

    tiende incrementar los costos del trabajo de campo, por lo que suele utilizarse como parte de un muestreo polietpico por conglomerados.

    No obstante, aunque el muestreo por conglomerados en varias etapas es el que se utiliza con mayor frecuencia (a nivel nacional, regional e incluso municipal), el clculo de los distintos errores muestrales asociados a cada una de las etapas es bastante complejo y ha de realizarse de forma muy cuidadosa. Las probabilidades de seleccin de los conglomerados en cada etapa deben ser asignadas de modo proporcional al tamao de los conglomerados. No se puede asumir una misma probabilidad ya que aumentara el error muestral.

    1.3.2. Muestreos no probabilsticos Los muestreos no probabilsticos se caracterizan por el hecho de que los elementos no son seleccionados de modo aleatorio, introduciendo con ello un sesgo de seleccin importante e inevitable. Por tanto, no es posible conocer el error de estimacin del parmetro poblacional en relacin al resultado obtenido en la muestra. Los muestreos no probabilsticos son muy comunes en los diseos de investigacin cualitativa, pero no es posible generalizar los resultados ms all de los casos estudiados. Este tipo de investigaciones son usualmente caracterizadas como estudios de casos. Ejemplos de este tipo de muestreo son los de sujetos tipo, bola de nieve y por cuotas, entre otros. Siendo este ltimo muy utilizado en el marco de la investigacin cuantitativa. Es una estrategia comn en las investigaciones cuantitativas, con el objeto de abaratar los costos de un estudio, el realizar todas las fases iniciales de modo probabilstico y la fase final (la de seleccin, por ejemplo, de los individuos) mediante un sistema de cuotas. Las cuotas suelen ser fijadas en trminos de edad y sexo en funcin de su distribucin en la poblacin (universo de referencia). Esto significa, por ejemplo, que se ha calculado un tamao muestral, luego se han seleccionados algunas comunas, dentro de esas comunas algunas manzanas, dentro de las manzanas algunos hogares/viviendas, y dentro de cada hogar/vivienda se aplica una cuota segn sexo y edad. En otras palabras, cada encuestador tiene pre-asignado un nmero determinado de encuestas a aplicar, en trminos del sexo y la edad, en un determinado sector (por ejemplo, manzanas). Sin embargo, al seleccionar a la persona a entrevistar mediante una cuota y no de modo aleatorio, el muestreo deja de ser probabilstico en su

  • 28

    ltima etapa, introduciendo con ello un sesgo de seleccin que hace imposible determinar el error muestral real.

    1.4. Determinacin del Tamao de la Muestra Como hemos visto hasta ahora, el clculo del tamao de la muestra depender ciertamente del tipo de muestreo que deseemos realizar, pero tambin depende de si se trata de muestras infinitas o muestras finitas. Hablamos de muestras infinitas toda vez que el universo de referencia es superior a los 100.000 casos y, de muestras finitas, cuando este es inferior a 100.000. La idea bsica que est en juego aqu, es la nocin de que ms all de cierto punto no tiene sentido seguir aumentando el tamao de la muestra en funcin del tamao del universo de referencia. En otras palabras, sobre los 100.000 casos el tamao del universo de referencia no tiene prcticamente ninguna incidencia en el tamao de la muestra. Por otra parte, a medida que disminuye el tamao del universo de referencia por debajo de los 100.000 casos, este tiende a tener progresivamente un mayor impacto sobre el tamao de la muestra. Clculo de muestras para poblaciones infinitas en MAS Para la determinacin del clculo de una muestra infinita necesitamos precisar los siguientes aspectos: i) la varianza; ii) el error mximo admisible; y el iii) nivel de confianza. La varianza da cuenta del grado de homogeneidad o heterogeneidad de un conjunto de observaciones y se simboliza como S2. Donde:

    n

    xxS

    =

    22

    )(

    Y, en el caso de las proporciones, S2 = P * Q. En la eventualidad de no conocer la varianza (mediante alguna aproximacin de estudios similares o de un pre-test), cosa bastante comn por lo dems, se asume que P = Q = 0.5, de lo cual obtenemos que S2 = 0.25. Dicha varianza corresponde al mximo grado de dispersin, es decir, a la mxima heterogeneidad. Entre mayor sea la varianza, mayor ser tambin el tamao de la muestra. El error mximo admisible dice relacin con el porcentaje de error asociado a la estimacin (ver estimacin puntual a continuacin en punto 2). Por lo general se trabaja con errores de +/- 3% (que es el caso, por ejemplo, de las Encuestas Nacionales del CEP). Sin embargo, en ciertos estudios que buscan enfatizar ms bien tendencias generales antes que la precisin en la estimacin, se suele trabajar tambin con un error mximo admisible del +/-5%.3 El error mximo admisible no solamente influye en clculo del tamao de la muestra (a mayor error, menor tamao muestral), sino tambin en el clculo del intervalo de confianza (ver a continuacin punto 2).

    3 Vase, por ejemplo, algunos de los estudios realizados por la Fundacin Futuro en la Regin Metropolitana.

  • 29

    Finalmente, el nivel de confianza, por su parte, se encuentra asociado al nivel de significacin, el que, a su vez, se encuentra asociado a las puntuaciones Z en una tabla de distribucin normal. Es ya una convencin trabajar, en el clculo de muestras (y pruebas de significacin), con niveles de confianza del 95% ( = 0.05) y del 95,5% ( = 0.045) respectivamente. A un valor = 0.05, le corresponde un valor Z = +/- 1.96; mientras que a un = 0.045, le corresponde un Z = +/- 2. Y puesto que la curva de distribucin normal es de carcter simtrico, baste con considerar simplemente uno de sus lados, es decir, Z/2. Por otra parte, no hay que olvidar que cuando trabajamos con un nivel de confianza del 95% esto significa que si extrajsemos diferentes muestras sucesivas, existe un 95% de probabilidad real de que el parmetro poblacional del universo de referencia se encuentre dentro del intervalo de confianza (ver a continuacin punto 2). Dicho de otro modo, existe un 5% de probabilidad de que el parmetro poblacional no se encuentre dentro del intervalo de confianza. No obstante lo anterior, la interpretacin ms correcta sera que: la extraccin de sucesivas muestras da lugar a que el 95% de los parmetros se encuentren en el intervalo definido.4 La idea bsica que subyace a la nocin de intervalos de confianza dice relacin con el hecho de que si trabajsemos con toda la poblacin conoceramos el valor exacto de los parmetros poblaciones. Sin embargo, cuando se trabaja con una muestra, solamente podemos realizar una estimacin de dichos parmetros dentro de ciertos niveles de confianza. La frmula general para el clculo de una muestra infinita es:

    n = S2 __

    e2 / Z2/2

    En donde: n = Tamao de la muestra S2 = Varianza de la poblacin (que es igual a P * Q en el caso de las proporciones) Z/2 = Valor Z asociado al nivel de significacin (en funcin del nivel de confianza) e = Error mximo admisible

    Ejemplo: supongamos que queremos calcular una muestra infinita en la cual la varianza es desconocida,5 el nivel de confianza es del 95% y el error mximo admisible es del +/-3%. En tal caso el clculo del tamao de la muestra sera:

    n = 0.25______ (0.03)2 / (1.96)2

    n= 0.25_____

    0.0009 / 3.8416

    n= 0.25_____ = 1067 0.0002343

    4 Vivanco 2005: 46; Vivanco 2006: 158. 5 En caso de conocer la varianza se asume que P = Q = 0.5 y, por tanto, la varianza es mxima (0.25).

  • 30

    Por lo tanto, la muestra total estara compuesta por 1067 casos. Ejercicios: sobre la base del ejemplo anterior, calcule el n con las siguientes variantes. Preguntas: P1. e = 5%; P2. Z/2 = 2; P3. S

    2 = 0.18 Respuestas: R1. n = 384; R2. n = 1111; R3. n = 768

    Clculo de muestras para poblaciones finitas en MAS Para el clculo de muestras finitas es necesario introducir un factor de correccin que considere el tamao del universo de referencia. La frmula anterior quedara entonces expresada en los siguientes nuevos trminos:

    n = S2 * N / (N-1)_ _

    e2 / Z2/2 + S2 / (N-1)

    Donde: n = Tamao de la muestra S2 = Varianza de la poblacin (que es igual a P * Q en el caso de las proporciones) Z/2 = Valor Z asociado al nivel de significacin (en funcin del nivel de confianza) e = Error mximo admisible N = Tamao del universo de referencia Ejemplo: supongamos que queremos calcular una muestra finita, para un universo de 5000 casos, en donde la varianza es desconocida, el nivel de confianza es del 95% y el error mximo admisible es del +/-3%. Al reemplazar la frmula tenemos que: n = S2 * N / (N-1)_ _

    e2 / Z2/2 + S2 / (N-1)

    n = 0.25 * 5000 / (5000-1)_ _

    (0.03)2 / (1.96)2 + 0.25 / (5000-1)

    n = 1250 / 4999_ _

    0.0009 / 3.8416 + 0.25 / 4999 n = 0.25005____ _

    0.0002343 + 0.0000500 n = 0.25005 = 879.53 880 0.0002843

    La muestra total, en este ejemplo, estara compuesta por 880 casos. Ejercicio: sobre la base del ejemplo anterior, calcule el n con las siguientes variantes. Preguntas: P1. e = 5%; P2. Z/2 = 2; P3. S

    2 = 0.21 Respuestas: R1. n = 357; R2. n = 909; R3. n = 760

  • 31

    Clculo de muestras en ME La lgica de clculo es similar al del MAS, con la diferencia que debemos incluir en la frmula de clculo a los estratos. Y, a su vez, dependiendo del tipo de ME van a variar tambin la modalidad de asignacin de los casos a cada estrato. La frmula general puede ser expresada en los siguientes trminos:

    n = WhS2h ___ ___ e2 / Z2/2 + WhS2h / N Donde: n = Tamao de la muestra Wh = Peso del estrato (n casos estrato/n total de casos) S2h = Varianza del estrato (que es igual a P * Q en el caso de las proporciones) Z/2 = Valor Z asociado al nivel de significacin (en funcin del nivel de confianza) e = Error mximo admisible N = Tamao del universo de referencia Ejemplo: supongamos que queremos calcular una muestra para un universo de 10000 casos en el cual se identifican 3 estratos (E). Cada estrato est compuesto por: E1= 3000 casos, E2= 2000 casos y E3= 5000 casos. Sus respectivas varianzas son (S

    2): S21 = 0.24, S22 = 0.21 y S

    23 = 0.16. El nivel de confianza es de 95,5% y el error mximo admisible

    es del +/-3%. Antes de reemplazar los valores de la frmula habra que hacer algunos clculos previos

    para determinar WhS2h : Estratos Wh WhS

    2h WhS2h

    E1 3000/10000 = 0.3 0.3 * 0.24 = 0.072 0.194 E2 2000/10000 = 0.2 0.2 * 0.21 = 0.042

    E3 5000/10000 = 0.5 0.5 * 0.16 = 0.080

    Conocido WhS2h = 0.194, estamos en condiciones de proseguir con la frmula de clculo de la muestra:

    n = _____ 0.194_ ________

    (0.03)2 / (2)2 + 0.194 / 10000

    n = _____ 0.194_ _____

    0.0009 / 4 + 0.194 / 10000 n = _____ 0.194_ _____

    0.000225 + 0.0000194

    n = 0.194_ _= 793.78 794

    0.0002444

  • 32

    La muestra total estara compuesta entonces por 794 casos. Ejercicio: sobre la base del ejemplo anterior, calcule el n con las siguientes variantes. Preguntas: P1. e = 5%; P2. Z/2 = 1,96; P3. N = 3000 Respuestas: R1. n = 301; R2. n = 765; R3. n = 670 Tipo de afijacin Hasta ahora solamente hemos calculado el tamao total de la muestra para dicho. Lo que nos queda es determinar el tipo de afijacin a utilizar, para de este modo determinar cuntos casos de los 794 corresponde a cada estrato. Afijacin igual: simplemente asignamos igual nmero de casos para cada estrato. Es

    decir, 794/3 = 264.6 265 casos. Afijacin proporcional: asignamos los casos a cada estrato segn el peso de cada

    estrato. Esto es:

    Estrato Wh * n E1 0.3 * 794 238 E2 0.2 * 794 159 E3 0.5 * 794 397

    Afijacin ptima: los casos son asignados tomando en consideracin el peso y la

    varianza de cada estrato respecto de la varianza total. Es decir:

    nh = WhS2

    h * n

    WhS2h Estratos WhS

    2h WhS

    2h / WhS2h nh

    E1 0.3 * 0.24 = 0.072 0.072/ 0.194 = 0.3711 0.3711 * 794 295 E2 0.2 * 0.21 = 0.042 0.042/ 0.194 = 0.2164 0.2164 * 794 172 E3 0.5 * 0.16 = 0.080 0.080/ 0.194 = 0.4124 0.4124 * 794 327

  • 2. Intervalos de Confianza Cada vez que procesamos los datos de una encuesta y obtenemos, por ejemplo, un cierto porcentaje en relacin a las categoras de respuesta de una pregunta, dicho valor se denomina estimacin puntual. Sin embargo, si deseamos hacer una estimacin desde la muestra hacia el universo de referencia, en la estimacin puntual hay que considerar el error mximo admisible. Al incorporar el error, obtenemos un En otras palabras, el intervalo de confianza corresponde a un rango construido en torno a la estimacin puntual, el cual nos entrega informacin acerca del valor mximo y mnimo dentro del cual se mueve dicha estimacin en relacin con el universo de referencia. Veamos un ejemplo sencillo en el marco de las elecciones presidenciales pasadaspartir de los estudios de opinin pblica. De acuerdo a los resultados de la Encuesta CEP de Junio de 2009, frente a la pregunta: Si las elecciones presidencialesprximo domingo, y los candidatos fueran los siguientes por quin votara Ud.?, el 34% lo hara por Sebastin Piera y el 29% por Eduardo Frei (considerando el total de la muestra).6 Los valores aqu mencionados dan cuenta de la estimacin punvlida para la muestra, y nos indicara que Sebastin Piera tiene una clara ventaja sobre Eduardo Frei. Sin embargo, al calcular el intervalo de confianza eso no es tan claro. De hecho, Frei podra tener ventaja sobre Piera. Recordemos que el error muestral (error mximo admisible) del estudio es de aproximadamente +/- 3% (+/-Piera se mueve entre el 37% (34% + 3%) y el 31% (34% caso de Frei sera entre el 32% (29% + 3%) y el 26% (29% podemos observar que Frei podra perfectamente tener el 32% de las preferencias y Piera el 31%, segn sus respectivos intervalos de confianza. En estricto rigor, cualquiera de los dos candidatos podra tinterpretacin inicial de la estimacin puntual debe ser ahora matizada: no hay una clara ventaja de uno sobre el otro. Cualquiera de los dos podra tcnicamente estar aventajando al otro. Lo anterior, basado en la encuesta del CEP, puede ser afirmado con un 95% de confianza. Hoy sabemos que el resultado electoral fue favorable a Piera, pero no es ese el punto que se intenta enfatizar aqu. En suma, para efectos del clculo del intervalo de confianza, en ese sostener con un 95% de confianza que:

    Intervalo de Confianza = Estimacin puntual +/

    O lo que es lo mismo:

    Intervalo de Confianza = Estimacin puntual +/

    6 Al considerar solamente a los inscritos, los valores son: 34% y 30% respectivamente.

    onfianza

    Cada vez que procesamos los datos de una encuesta y obtenemos, por ejemplo, un cierto porcentaje en relacin a las categoras de respuesta de una pregunta, dicho valor se

    . Sin embargo, si deseamos hacer una estimacin desde la uestra hacia el universo de referencia, en la estimacin puntual hay que considerar el

    . Al incorporar el error, obtenemos un intervalo de confianzaEn otras palabras, el intervalo de confianza corresponde a un rango construido en torno a la estimacin puntual, el cual nos entrega informacin acerca del valor mximo y mnimo dentro del cual se mueve dicha estimacin en relacin con el universo de

    Veamos un ejemplo sencillo en el marco de las elecciones presidenciales pasadaspartir de los estudios de opinin pblica. De acuerdo a los resultados de la Encuesta CEP de Junio de 2009, frente a la pregunta: Si las elecciones presidencialesprximo domingo, y los candidatos fueran los siguientes por quin votara Ud.?, el 34% lo hara por Sebastin Piera y el 29% por Eduardo Frei (considerando el total de

    Los valores aqu mencionados dan cuenta de la estimacin puntual, que es vlida para la muestra, y nos indicara que Sebastin Piera tiene una clara ventaja sobre Eduardo Frei. Sin embargo, al calcular el intervalo de confianza eso no es tan claro. De hecho, Frei podra tener ventaja sobre Piera.

    el error muestral (error mximo admisible) del estudio es de - 2.7%). Esto significa que el intervalo de confianza para

    Piera se mueve entre el 37% (34% + 3%) y el 31% (34% - 3%), mientras que en el 2% (29% + 3%) y el 26% (29% - 3%). Pues bien, ahora

    podemos observar que Frei podra perfectamente tener el 32% de las preferencias y Piera el 31%, segn sus respectivos intervalos de confianza. En estricto rigor, cualquiera de los dos candidatos podra tener ventaja sobre el otro y, por ende, la interpretacin inicial de la estimacin puntual debe ser ahora matizada: no hay una clara ventaja de uno sobre el otro. Cualquiera de los dos podra tcnicamente estar

    n la encuesta del CEP, puede ser afirmado con un 95% de confianza. Hoy sabemos que el resultado electoral fue favorable a Piera, pero no es ese el punto que se intenta enfatizar aqu.

    En suma, para efectos del clculo del intervalo de confianza, en ese entonces era posible sostener con un 95% de confianza que:

    Intervalo de Confianza = Estimacin puntual +/- Error mximo admisible

    Intervalo de Confianza = Estimacin puntual +/- Z/2 * S / n

    Al considerar solamente a los inscritos, los valores son: 34% y 30% respectivamente.

    33

    Cada vez que procesamos los datos de una encuesta y obtenemos, por ejemplo, un cierto porcentaje en relacin a las categoras de respuesta de una pregunta, dicho valor se

    . Sin embargo, si deseamos hacer una estimacin desde la uestra hacia el universo de referencia, en la estimacin puntual hay que considerar el

    intervalo de confianza. En otras palabras, el intervalo de confianza corresponde a un rango construido en torno a la estimacin puntual, el cual nos entrega informacin acerca del valor mximo y mnimo dentro del cual se mueve dicha estimacin en relacin con el universo de

    Veamos un ejemplo sencillo en el marco de las elecciones presidenciales pasadas, a partir de los estudios de opinin pblica. De acuerdo a los resultados de la Encuesta CEP de Junio de 2009, frente a la pregunta: Si las elecciones presidenciales fueran el prximo domingo, y los candidatos fueran los siguientes por quin votara Ud.?, el 34% lo hara por Sebastin Piera y el 29% por Eduardo Frei (considerando el total de

    tual, que es vlida para la muestra, y nos indicara que Sebastin Piera tiene una clara ventaja sobre Eduardo Frei. Sin embargo, al calcular el intervalo de confianza eso no es tan claro. De

    el error muestral (error mximo admisible) del estudio es de 2.7%). Esto significa que el intervalo de confianza para

    3%), mientras que en el 3%). Pues bien, ahora

    podemos observar que Frei podra perfectamente tener el 32% de las preferencias y Piera el 31%, segn sus respectivos intervalos de confianza. En estricto rigor,

    ener ventaja sobre el otro y, por ende, la interpretacin inicial de la estimacin puntual debe ser ahora matizada: no hay una clara ventaja de uno sobre el otro. Cualquiera de los dos podra tcnicamente estar

    n la encuesta del CEP, puede ser afirmado con un 95% de confianza. Hoy sabemos que el resultado electoral fue favorable a Piera, pero no es ese

    entonces era posible

    Error mximo admisible

  • 34

    Cap. 3. Anlisis Univariado, Bivariado y Variables de control

    1. Tipos de variables A diferencia de las constantes, las variables pueden tomar distintos valores en trminos de atributos o propiedades. Las variables pueden ser clasificadas segn diferentes criterios, entre ellos, podemos mencionar el nivel de medicin y el lugar que ocupan en la investigacin.

    1.1. Segn el "ivel de Medicin El nivel de medicin de una variable determina tanto el tipo de operaciones matemticas que puede realizarse (suma, resta, multiplicacin, divisin, etc.) como el tipo de tcnicas estadsticas correspondiente para la prueba de hiptesis. De acuerdo a su nivel de medicin7, las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razn. Las variables nominales, tambin llamadas variables cualitativas o categricas, hacen referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos valores (categoras) no pueden ser ordenados a partir de un criterio de jerarqua. Por ejemplo, las variables sexo, zona (urbano/rural), religin, partido poltico, etc. En el caso de la variable sexo, si asignamos 1 = hombre y 2 = mujer, difcilmente resulta razonable sostener que mujer vale dos veces ms que hombre. De igual modo, queda de manifiesto que los valores son asignados de manera arbitraria. Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2). Y si bien no existe una medicin propiamente tal, es decir, de estimacin de la magnitud de las diferencias entre sus valores, las categoras de las variables nominales han de ser mutuamente excluyentes y suficientemente exhaustivas. Cada observacin ha de ser susceptible de ser clasificada en una sola categora de la variable, siendo al mismo tiempo pertinente su ubicacin. Los nmeros nos permiten agrupar a los sujetos u observaciones iguales y distinguirlos apropiadamente del resto en relacin con la caracterstica objeto de estudio. En las variables ordinales, a diferencia de las nominales, los valores de las categoras pueden ser ordenados a partir de algn criterio de jerarquizacin (por ejemplo, ser mayores, ms altos, ms difciles, ms favorecidos, etc.). Se puede establecer, por consiguiente, un orden ascendente o descendente entre los distintos valores (o categoras) de la variable. Este sera el caso del NSE (1= Bajo, 2= Medio y 3= Alto) y la percepcin de progreso del pas (1= En decadencia, 2 = Estancado, 3= Progresando), entre otros. Si consideramos el NSE, podemos apreciar con claridad que es posible establecer un orden ascendente entre las distintas categoras de la variable, pero de igual modo apreciamos que dichas categoras de representacin social no son equidistantes (se desconoce la mtrica de distancia entre cada categora). Es decir, si alguien se

    7 Se entiende por nivel de medicin, en un sentido amplio, al hecho de asignar nmeros a objetos o datos de acuerdo con ciertas reglas.

  • 35

    encuentra en el NSE medio, difcilmente podramos sostener que dicha persona se encuentra a mitad de los de NSE alto y al doble de los de NSE bajo. En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores que asume la variable son equidistantes. Existen intervalos regulares o distancias numricamente iguales entre los distintos valores que asume la variable en su respectiva escala de medicin. Los intervalos se encuentran expresados en una unidad de medicin estndar y, por ende, comn y constante. Sin embargo, el punto de origen (valor 0) en las diferentes escalas de medicin es arbitrario y no real. Por ejemplo, si al considerar la medicin de la temperatura (en grados Celsius) alguien sealara que la temperatura ideal para realizar una clase de estadstica es de 0 grados, ya que no hace ni fro ni calor, seguramente veramos con extraeza el sin sentido de tal afirmacin. El 0 es ms bien el resultado de una convencin que de la ausencia de fro o de calor. En la escala de medicin de la temperatura en grados Celsius, el cero representa el punto de congelacin del agua. En cambio, en la escala Farenheit, el punto de congelacin es a los 32 grados. Por otra parte, a diferencia de las ciencias de la naturaleza, en las ciencias sociales se asume que, de acuerdo a una cierta convencin no ortodoxa, las variables medidas a travs de escalas Likert de cinco categoras (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy en desacuerdo) se comportan como si fueran variables intervalares; no as las de cuatro categoras ya que no cuentan con un punto intermedio de referencia (se ha eliminado la opcin ni de acuerdo/ni en desacuerdo). Es frecuente tambin la construccin de ndices en ciencias sociales, los que suelen estar medidos a nivel intervalar, como es el caso del ndice de Desarrollo Humano (IDH). Finalmente, las variables de razn (o de cociente) se diferencian de las intervalares por el hecho de que el 0 no es un valor fijado de un modo arbitrario (como podra ser el caso de la temperatura), sino que es real y representa la ausencia del atributo en la variable. Tal propiedad, y de ah su nombre, permite realizar la operacin de clculos de proporciones (razones o cocientes). En otras palabras se trata de un 0 que es real, como lo es, por ejemplo, en las variables de edad, escolaridad, ingresos, participacin en organizaciones, etc. En la prctica, sin embargo, no se suele hacer diferencia en las tcnicas utilizadas para el anlisis estadstico entre variables intervalares o de razn.

    Tips Se debe tener presente el hecho de que cualquier variable puede ser recodificada en

    un nivel inferior de medicin, pero no as lo contrario. Es decir, podemos recodificar una variable intervalar en ordinal o nominal, pero en ningn caso podemos pasar de una variable medida a nivel nominal a una de tipo ordinal o intervalar.

    En SPSS las variables intervalares y de razn son tratadas como variables escalares.

  • 36

    1.2. Segn el Lugar que Ocupan en la Investigacin En funcin del lugar que ocupan en el diseo de investigacin, las variables pueden clasificarse en: dependiente, independientes y de control. Es importante tener presente que ninguna variable