View
218
Download
0
Category
Preview:
Citation preview
Ministerio de Planificación Nacional y Política Económica
1
CAPITULO 5: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
2 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Apartado 5.1: Enfoques metodológicos Material 5.1.1: Validez y confiabilidad Basado en: Martínez M., Miguel (2006): Validez y confiabilidad en la investigación cualitativa. PARADIGMA No. 27, pp. 7-‐33. Con contenidos adicionales y modificados por parte de la AES.
Validez y confiabilidad en las investigaciones evaluativas
La dificultad relacionada con la validez y confiabilidad de los resultados en las investigaciones evaluativas que utilizan métodos y técnicas de orientación cuantitativa y/o cualitativa será tratada en este apartado debido a la importancia que tiene en la evaluación. La validez y confiabilidad en la investigación cuantitativa En la investigación cuantitativa que tiene su origen en el positivismo tradicional, se distinguen diferentes tipos de validez: validez de construcción, validez interna, validez externa. Todas tratan de verificar si en realidad medimos lo que nos proponemos medir. Igualmente, se busca determinar un buen nivel de confiabilidad, es decir, la posibilidad de repetir la misma investigación con idénticos resultados. La validez de construcciones hipotéticas (de ‘constructos’), que es la más importante, trata de establecer una medida operacional para los conceptos usados. Por ejemplo, un instrumento para medir la inteligencia debe medir la inteligencia, y no la memoria, lo cual requiere a) un entendimiento consensuado y explícito acerca de lo que se entiende por inteligencia (a diferencia de la memoria) y b) un instrumento que logre medir un conjunto de variables que efectivamente reflejen dicho concepto. Al tratar solamente con variables que representan hechos directamente observables, sería sencillo lograr la validez, sinembargo, la “validez de constructos” llega a ser un desafío cuando hablamos precisamente de conceptos complejos y no directamente medibles, como podría ser el caso de variables como la motivación, calidad de servicio al cliente, y más aún en cuanto a variables que, por ejemplo, estén relacionado con actitudes, sentimientos etc. La validez interna está relacionada específicamente con el establecimiento o búsqueda de una relación causal o explicativa; es decir, si el evento X lleva al evento Y; excluyendo la posibilidad de que sea causado por el evento Z. La validez interna es maximizada mediante diseños experimentales o cuasi-‐experimentales y analiza internamente el estudio cuestionando si las relaciones causales encontradas son válidas en el contexto del estudio, lo cual no necesariamente significaría que deben ser válidas para otras unidades que no son las investigadas. La validez externa, por el otro lado trata de verificar si los resultados de un determinado estudio son generalizables más allá de los linderos del mismo. La validez externa responde a la pregunta: Lo que encontré en el estudio ¿a qué otras personas, grupos, contextos o situaciones se aplica?. Algunos autores se refieren a este tipo de validez con el nombre de validez de contenido, pues la definen como la representatividad o adecuación muestral del contenido que se mide con el contenido del universo del cual es extraída (Kerlinger, 1981a, p. 322).
Ministerio de Planificación Nacional y Política Económica
3
Es importante mencionar que la validez interna y externa suelen enconctarse en cierto conflicto. La validez interna es maximizada cuando se logra eliminar todas las variables confusoras y crear un ambiente en que solamente estén presentes las variables de interés que representan la relación causal. Esto suele ser el caso en los llamados experimentos de laboratorio. La validez externa, por el otro lado, requiere que las variables de interés se midan en su contexto natural para que se pueda inferir el resultado del estudio más allá de los límites del mismo. Para medir, por ejemplo, el efecto de un programa televisivo didáctico sobre una determinada área de aprendizaje, uno podría fácilmente crear una situación de laboratorio donde los jóvenes se expongan al programa en un ambiente perfectamente controlado y con mínimas influencias externas (maximizando la validez interna). Pero aunque se logre medir un efecto de aprendizaje positivo, ¿este mismo efecto se daría en los jóvenes que lo miren en su casa, tomando en cuenta todos los factores que puedan disminuir la atención y el por ende, la asimilación de la información? (problema de la validez externa). Finalmente, la confiabilidad tiene por objeto asegurarse que un investigador, siguiendo los mismos procedimientos descritos por otro investigador anterior y conduciendo el mismo estudio, puede llegar a los mismos resultados y conclusiones. Nótese que se trata de rehacer el mismo estudio, no una réplica del mismo. En la investigación cuantitativa, la validez (interna y externa) se asocia a las respectivas estrategias de investigación (experimentales, cuasi-‐experimentales o no experimentales; de campo o de laboratorio) que son tratadas en el capítulo 5 del Manual Gerencial para el diseño y ejecución de Evaluaciones Estratégicas de Gobierno. La confiabilidad es alcanzada sobre todo a través de un máximo escrutinio en la construcción y validación de los instrumentos para la recolección (capítulo 6 del mismo manual) así como de la uniformidad de la forma de aplicación. La validez y confiabilidad en la investigación cualitativa 1. La Validez En sentido amplio y general, una investigación cualitativa tendrá un alto nivel de “validez” en la medida en que sus resultados “reflejen” una imagen lo más completa posible, clara y representativa de la realidad o situación estudiada. Pero no se tiene un solo tipo de conocimiento. El positivismo tradicional ha mostrado ser eficaz en las ciencias naturales donde produce un conocimiento adecuado para tratar con el mundo físico. Sin embargo, en las ciencias sociales, el estudio de variables aisladas, desligadas de realidad compleja desde la cual se tienen que comprender, ha resultado demasiado reduccionista. La respuesta la dan distintas ramas de las ciencias histórico-‐hermenéuticas (ciencias interpretativas) que llevan a una priorización de una metodología cualitativa y un análisis interpretativo (en lugar de estadístico). Por esta vía, producen el conocimiento interactivo que subyace en las relaciones sociales. En las ciencias hermenéuticas, el desafío de la validez se enfrenta de una manera distinta positivismo tradicional y la investigación cuantitativa. La validez se aprecia de acuerdo al nivel de su habilidad para producir relaciones humanas con alto sentido de empatía y vinculación. Una investigación tiene un alto nivel de validez si al observar o apreciar una realidad, se observa o aprecia esa realidad en sentido pleno, y no sólo un aspecto o parte de la misma. Si la confiabilidad ha representado siempre un requisito difícil para las investigaciones cualitativas, debido a la naturaleza peculiar de éstas (imposibilidad de repetir, stricto sensu, el mismo estudio), no ha ocurrido lo
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
4 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
mismo en relación con la validez. Al contrario, la validez es la fuerza mayor de estas investigaciones. En efecto, la aseveración de los investigadores cualitativos de que sus estudios poseen un alto nivel de validez, deriva de su modo de recoger la información y de las técnicas de análisis que usan. Esos procedimientos los inducen a relacionarse intensamente con los sujetos participantes en el estudio, a recoger los datos durante largos períodos de tiempo, revisarlos, compararlos y analizarlos de manera continua, al adecuar las entrevistas a las categorías empíricas de los participantes y no a conceptos abstractos o extraños traídos de otro medio, a utilizar la observación participativa en los medios y contextos reales donde se dan los hechos y, finalmente, a incorporar en el proceso de análisis una continua actividad de realimentación y re evaluación. Aunque todo esto garantiza un alto nivel de validez, también la validez es perfectible, y será tanto mayor en la medida en que se tengan en cuenta algunos problemas y dificultades que se pueden presentar en la investigación cualitativa. Entre otros, para una buena validez interna, habrá que prestar especial atención a los siguientes: a) Puede haber un cambio notable en el ambiente estudiado entre el principio y el fin de la investigación. En este caso, habrá que recoger y cotejar la información en diferentes momentos del proceso. b) Es necesario calibrar bien hasta qué punto la realidad observada es una función de la posición, el estatus y el rol que el investigador ha asumido dentro del grupo. Las situaciones interactivas siempre crean nuevas realidades o modifican las existentes. c) La credibilidad de la información puede variar mucho: los informantes pueden mentir, omitir datos relevantes o tener una visión distorsionada de las cosas. Será necesario contrastarla con la de otros, recogerla en tiempos diferentes, etc.; conviene, asimismo, que la muestra de informantes represente en la mejor forma posible los grupos, orientaciones o posiciones de la población estudiada, como estrategia para corregir distorsiones perceptivas y prejuicios, aunque siempre seguirá siendo cierto que la verdad no es producida por el ejercicio azarístico y democrático en la recolección de la información general, sino por la información de las personas más capacitadas y fidedignas. En cuanto a la validez externa, es necesario recordar que a menudo las estructuras de significado descubiertas en un grupo no son comparables con las de otro, porque son específicas y propias de ese grupo, en esa situación y en esas circunstancias, o porque el segundo grupo ha sido escogido en diferentes circunstancias o a partir de criterios distintos y no le son aplicables las conclusiones obtenidas en el primero. Por ende, las ciencias hermenéuticas suelen concentrarse en la plena comprensión del caso (o los casos) estudiado(s), y no asegurar una validez externa. 2. La Confiabilidad Una investigación con buena confiabilidad es aquella que es estable, segura, congruente, igual a sí misma en diferentes tiempos y previsible para el futuro. También la confiabilidad tiene dos caras, una interna y otra externa: hay confiabilidad interna cuando varios observadores, al estudiar la misma realidad, concuerdan en sus conclusiones; hay confiabilidad externa cuando investigadores independientes, al estudiar una realidad en tiempos o situaciones diferentes, llegan a los mismos resultados. El concepto tradicional de “confiabilidad” externa implica que un estudio se puede repetir con el mismo método sin alterar los resultados, es decir, es una medida de la replicabilidad de los resultados de la investigación. En las ciencias humanas, dicha confiabilidad de ninguna manera se puede considerar como un simple dicotomía (“un estudio es o no es confiable”) sino como una característica gradual (de menor a
Ministerio de Planificación Nacional y Política Económica
5
mayor) dado que es prácticamente imposible reproducir las condiciones exactas en que “un comportamiento” y su estudio tuvieron lugar. En los estudios realizados por medio de investigaciones cualitativas, que, en general, están guiados por una orientación sistémica, hermenéutica, fenomenológica, etnográfica y humanista, la confiabilidad está orientada hacia el nivel de concordancia interpretativa entre diferentes observadores, evaluadores o jueces del mismo fenómeno, es decir, la confiabilidad será, sobre todo interna, inter-‐jueces. Dada la naturaleza particular de toda investigación cualitativa y la complejidad de las realidades que estudia, no es posible repetir o replicar un estudio en sentido estricto, como se puede hacer en muchas investigaciones experimentales. Debido a ello, la confiabilidad de estos estudios se logra usando otros procedimientos rigurosos y sistemáticos. La confiabilidad interna es muy importante. En efecto, el nivel de consenso entre diferentes observadores de la misma realidad eleva la credibilidad que merecen las estructuras significativas descubiertas en un determinado ambiente, así como la seguridad de que el nivel de congruencia de los fenómenos en estudio es fuerte y sólido. Los investigadores cualitativos suelen utilizar varias estrategias para reducir las amenazas que se le presentan a la confiabilidad interna: a) Usar categorías descriptivas de bajo nivel de inferencia, es decir, lo más concretas y precisas posible. Los datos son algo ya interpretado (Hanson, 1977); por esto, es conveniente que estén cercanos a la realidad observada: quién hizo qué cosa y en qué circunstancias. Los comentarios interpretativos pueden añadirse, eliminarse o modificarse más tarde. Además, la mayoría de los autores coinciden en señalar que los procedimientos cualitativos son ricos en datos primarios y frescos, que ofrecen al lector múltiples ejemplos extraídos de las notas de campo, y son, por esto, generalmente consideradas como más creíbles. b) El mejor aval para la confiabilidad interna de un estudio cualitativo es la presencia de varios investigadores. El trabajo en equipo, aunque es más difícil y costoso, garantiza un mejor equilibrio de las observaciones, los análisis y la interpretación. c) Pedir la colaboración de los sujetos informantes para confirmar la “objetividad” de las notas o apuntes de campo. Asegurarse de que lo visto o registrado por el investigador coincide o es consistente con lo que ven o dicen los sujetos del grupo estudiado. d) Utilizar todos los medios técnicos disponibles en la actualidad para conservar en vivo la realidad presenciada: grabaciones de audio y de vídeo, fotografías, diapositivas, etc. Este material permitirá repetir las observaciones de realidades que son, de por sí, irrepetibles, y que las puedan “presenciar” otros observadores ausentes en el momento en que sucedieron los hechos. Su aporte más valioso radica en que nos permiten volver a los “datos brutos” y poder categorizarlos y conceptualizarlos de nuevo. Para alcanzar un buen nivel de confiabilidad externa, se puede recurrir, entre otras, a las siguientes estrategias: a) Precisar el nivel de participación y la posición asumida por el investigador en el grupo estudiado; cierta información puede ser diferente de acuerdo con el sexo de quien la dé (las mujeres pueden ocultar ciertos datos íntimos si el investigador, por ejemplo, es de sexo masculino); igual sucede si el investigador ha hecho amigos dentro del grupo; éstos le darán informaciones que no les dan otros.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
6 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
b) Identificar claramente a los informantes. Éstos pueden representar grupos definidos y dar información parcial o prejuiciada. Los miembros que simpatizan y colaboran más con los investigadores pueden ser, por esto mismo, miembros atípicos. Esta situación se puede advertir al hacer una buena descripción del tipo de personas que han servido como informantes. c) Un tercer elemento que puede influir en los datos es el contexto en que se recogen. Debido a ello, conviene especificar el contexto físico, social e interpersonal de que se derivan. Esto aumentará la replicabilidad de los estudios. d) Para que sea posible una “cierta réplica” es imprescindible la identificación de los supuestos y metateorías que subyacen en la elección de la terminología y los métodos de análisis. Los conceptos de “cultura”, “ciencia”, “método”, “análisis”, “dato”, “codificación” y muchos otros pueden diferir sustancialmente entre diferentes investigadores.
e) Precisar los métodos de recolección de la información y de su análisis, de tal manera que otros investigadores puedan servirse del reporte original como un manual de operación para repetir el estudio. La replicabilidad se vuelve imposible sin una precisa identificación y cuidadosa descripción de las estrategias de procedimiento. 3. La triangulación para mejorar la validez y la confiabilidad En sentido amplio, en las ciencias humanas, también se pueden realizar varias “triangulaciones” que mejoran notablemente los resultados de la investigación y su validez y la confiabilidad. De una manera particular, se pueden combinar, en diferentes formas, técnicas y procedimientos cualitativos y cuantitativos. La idea central es utilizar todo lo que se considere pertinente, tenga relación y se considere útil. Más concretamente, se pueden identificar varios tipos básicos de triangulación: a) Triangulación de métodos y técnicas: que consiste en el uso de múltiples métodos o técnicas para estudiar un problema determinado (por ejemplo, el hacer un estudio panorámico primero, con una encuesta, y después utilizar la observación participativa o una técnica de entrevista). b) Triangulación de datos: en la cual se utiliza una variedad de datos para realizar el estudio, provenientes de diferentes fuentes de información. c) Triangulación de investigadores: en la cual participan diferentes investigadores o evaluadores, quizá con formación, profesión y experiencia también diferentes. d) Triangulación de teorías: que consiste en emplear varias perspectivas para interpretar y darle estructura a un mismo conjunto de datos (por ejemplo, una teoría basada en las técnicas de correlación, análisis de varianza, análisis de regresión, análisis factorial o cluster analysis y otra que utilice la observación participativa). e) Triangulación interdisciplinaria: con la cual se invocan múltiples disciplinas a intervenir en el estudio o investigación en cuestión (por ejemplo, la biología, la psicología, la sociología, la historia, la antropología, etc.).
Ministerio de Planificación Nacional y Política Económica
7
Apartado 5.2: Diseños metodológicos cuantitativos Material 5.2.1: Diseños experimentales y cuasi-experimentales I. Introducción: Sobre el enfoque cuantitativo Para la evaluación de efectos e impactos, se utiliza el enfoque cuantitativo para estimar la cuantía del resultado de la intervención mediante el estableciendo de relaciones causales. El enfoque cuantitativo es secuencial, deductivo, probatorio y analiza una realidad supuestamente objetiva. Estas características se fundamentan en un proceso de investigación estructurado, donde es necesario concluir una fase para continuar con la siguiente. La ilustración 1 muestra las fases del proceso cuantitativo:
Ilustración 1. Enfoque cuantitativo: su proceso
La evaluación estratégica bajo el enfoque cuantitativo requiere que el problema de evaluación sea lo más concreto posible, con el fin de elaborar las preguntas sobre cuestiones específicas.
Cuando la intervención no tiene teoría de intervención o no está bien definida, el evaluador debe revisar la literatura y usar su experiencia sobre el tema para re-‐elaborar la teoría de la intervención. En este enfoque, el alcance de la evaluación, la(s) hipótesis y preguntas de evaluación son planteadas antes de recolectar los datos.
Idea Planteamiento Del
Problema
Revisión de la Literatura y
Desarrollo del Merco teórico
Visualización del
Alcance Del estudio
Elaboración de hipótesis y
Definición de variables
Desarrollo del Diseño de
Investigación
Definición y Selección de la
muestra
Recolección de datos
Análisis de los datos
Elaboración del reporte de
resultados
Fase 1
Proceso cuantitativo
Fase 2 Fase 3 Fase 4 Fase 5
Fase Fase Fase Fase Fase
Fuente: Hernández, S. y otros, 2010
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
8 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
La recolección de datos, se fundamenta en la medición de variables o conceptos contenidos en las hipótesis; y se lleva a cabo utilizando procedimientos estandarizados. Los datos se presentan mediante variables que serán analizados cuantitativamente (tratándose de variables métricas, ordinales o nominales), a través de métodos estadísticos. Los datos recolectados y analizados bajo el enfoque cuantitativo son utilizados para la prueba de hipótesis previamente definidas, de manera que los resultados se basan solo en las hipótesis o variables que se propusieron para ser analizadas. El proceso de la evaluación se centra en rechazar o aceptar la hipótesis. Este enfoque busca el máximo control para lograr que posibles explicaciones -‐distintas a la propuesta de la intervención-‐ sean rechazadas y aumente la confiabilidad de los resultados; siendo éstos lo más objetivos posibles y permitan ser generalizados sobre la población de interés. Sobre la inferencia causal y el contrafactual Es necesario introducir dos conceptos elementales para llevar a cabo evaluaciones de impacto creíbles y precisas dentro del enfoque cuantitativo: inferencia causal y el contrafactual. Inferencia causal La evaluación de impacto trata de atribuir la causalidad de una intervención sobre un resultado de interés, al estimar en qué medida esa (y solo esa) intervención ha contribuido a cambiar un resultado. ¿El programa de capacitación laboral aumentó los ingresos de los jóvenes de un barrio rural pobre?; ¿las vacunas disminuyeron la mortalidad infantil?, ¿el programa de transferencia monetaria condicionada redujo la tasa de deserción estudiantil?; son preguntas típicas sobre causalidad presente en la evaluación de impacto. Determinar la relación de causalidad entre una intervención y un resultado no es sencillo y para ello se usan métodos1 de evaluación de impacto, que descartan la posibilidad de que cualquier factor diferente de la intervención en estudio explique el impacto observado. La interrogante central en la evaluación de resultados es cuál es el impacto o efecto causal de una intervención D sobre un resultado de interés Y;. La respuesta a la pregunta se obtiene mediante la fórmula básica de la evaluación de impacto:
β = (Y | D = 1) − (Y | D = 0) (1) Según esta fórmula, el impacto causal (β) de una intervención (D) sobre un resultado (Y) es la diferencia entre el resultado (Y) con la intervención (es decir, cuando D = 1) y el mismo resultado (Y) sin la intervención (es decir, cuando D = 0). Sea P un programa de capacitación, Y el ingreso de los jóvenes de un barrio rural pobre, y α es la diferencia entre el ingreso del joven (Y) cuando participa en el programa (D = 1) y el ingreso del joven en ese mismo momento, sino hubiese participado en el programa (D = 0); entonces, es necesario medir el ingreso de la
1 Los métodos de estimación de evaluación de impacto se describen más adelante.
Ministerio de Planificación Nacional y Política Económica
9
misma persona en dos momentos (con o sin programa)2, si esto fuese posible, la única explicación sobre la diferencia en el ingreso de ese individuo es el programa de capacitación laboral, eliminándose cualquier factor externo que pudiera explicar también la diferencia en los ingresos. En este caso se podría confiar en que la relación entre el programa de capacitación laboral y el ingreso es causal. La fórmula básica de la evaluación de impacto es válida a) para cualquier objeto de análisis (individuo, comunidad, institución u otro) que pueda beneficiarse o verse afectada por una intervención; y b) para cualquier resultado (Y) que esté relacionado con la intervención. Una vez que se cuente con los datos de los dos componentes esenciales de la fórmula, el resultado (Y) tanto con la intervención como sin ella, se puede responder a cualquier pregunta acerca del impacto del programa. Contrafactual “El contrafactual es una estimación de cuál habría sido el resultado (Y) en las variables de interés para un participante en el programa, si este no hubiera tomado el programa (D)” (Gertler, Martínez, Premand, Rawlings y Vermeersch, 2011). El impacto (α) de una intervención es la diferencia entre los resultados (Y) del mismo individuo cuando ha participado y cuando no ha participado en la intervención. No obstante, no es posible medir al mismo individuo en situaciones diferentes en el mismo momento, debido a que el individuo participa o no en la intervención. Esta situación, es conocida como el “problema contrafactual”. El problema del contrafactual se puede resumir en la pregunta siguiente ¿cómo se mide los datos del resultado (Y) si el individuo que participó en la intervención (D = 1) no hubiese participado (D = 0) en la intervención? El contrafactual se representa como el segundo término en la fórmula básica de evaluación (Y | D= 0). Por definición, es no observable, por lo que se debe estimar. La estimación del contrafactual requiere métodos para identificar los grupos de control o comparación3 válidos que reproduzcan o imiten exactamente el grupo de tratamiento. Si no se cuenta con una estimación válida o creíble del contrafactual, no se puede conocer el impacto de una intervención. La evaluación de impacto identifica a un grupo de participantes en la intervención (el grupo de tratamiento) y a un grupo de no participantes (el grupo de control o comparación) estadísticamente idénticos en ausencia de la intervención. Si se lograra que los dos grupos fueran absolutamente iguales, a excepción de que uno de ellos participa en el programa y el otro no, cualquier diferencia en los resultados debería ser explicada por la intervención. Aunque en realidad nunca existirán dos grupos idénticos en todas sus características posiblemente relevantes, la investigación cuantitativa propone distintos tipos de diseños con el fin de simular la situación contrafactual y de esta manera, determinar el “resultado neto” de una intervención.
2 Es imposible medir el resultado de un indicador de interés de una misma persona en dos momentos diferentes, ya que, no se sabe cuál sería el resultado del indicador si la persona no participó en la intervención. 3 Se le llama grupo de control cuando el diseño es experimental y grupo de comparación cuando el diseño es no experimental
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
10 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Por basarse en la existencia de grupos de control o grupos de comparación -‐ supuestamente con suficiente parecido al grupo de intervención -‐ los diseños más poderosos para la determinación del “resultado neto” son los llamados diseños experimentales y cuasi-‐experimentales. II. Diseño experimental El diseño experimental también es conocido con los nombres de “Diseño de controles aleatorios4”/ “experimentos aleatorios (sociales)5”, “experimento social controlado6” y “modelo experimental”.7 Una evaluación con diseño experimental es una valoración lo más objetiva posible de los resultados de una intervención que se caracteriza principalmente por el mecanismo de selección al azar de los beneficiarios y no beneficiarios, así como un absoluto control de la intervención y sus respectivas modificaciones. En este tipo de diseños la intervención y sus respectivas modificaciones son planificadas por el planificador o evaluador; los factores externos (crisis económica, alza en el precio internacional del petróleo, desastres naturales, otros) que pueden incidir sobre los resultados de la intervención son controlados o manipulados por el evaluador. Evidentemente, esto no quiere decir que los factores externos son eliminados (lo cual sería imposible en el mundo social) sino que los grupos se conforman de tal manera que los factores externos afecten al grupo de beneficiarios como al grupo de no beneficiarios de la misma manera. La ilustración 2, muestra las dos etapas del mecanismo de selección de las personas que participaran en la intervención y aquellas que no participaran. La primera etapa consiste en obtener una muestra al azar (aleatoria) de los beneficiarios potenciales. Una vez obtenido esa muestra, procede la segunda etapa, que radica en asignar al azar quienes participaran y quienes no participaran de la intervención. Por ejemplo, supóngase la siguiente situación hipotética: Para una población de 1000 mujeres pobres jefas de hogar en cierta provincia, el Gobierno realiza un proyecto de transferencia monetaria; el administrador del proyecto asigna un número del uno al mil a cada mujer, y posteriormente, de un bolsa que contiene papelitos con cifras del uno al mil saca al azar (como especie de lotería) una muestra de 500 papelitos, los cuales corresponden a una muestra de 500 mujeres que son potenciales beneficiarias. A partir de esa muestra, el administrador asigna al azar las mujeres que participaran y que no participaran de la intervención. Nótese, que las mujeres no eligen si participar o no, es el administrador es quien asigna al azar la participación. La importancia de asignar al azar quien participa y quien no en una intervención es hacer grupos comparables entre sí que no se distinguen por otro factor a excepción de la variabilidad estadística. Todas las personas poseen características observables y características no observables8 diferentes. El proceso aleatorio facilita la comparabilidad de los grupos, ya que asigna una probabilidad igual a cada uno de los beneficiarios potenciales, con lo cual se asegura de distribuir equivalentemente (en términos estadísticos) las características observables y no observables entre ambos grupos. Al grupo de individuos no participantes se les llama grupo de control porque son el parámetro de comparación del grupo de participantes, a estos
4 Gertler, et al (2011). 5 Bernal y Peña (2011). 6 Ídem. 7 Stockmann (2009). 8 Las características o variables no observables son aquellas que existen y que se registran, las características o variables no observables son aquellas que no existen o no se cuenta con un registro de las mismas (Bernal y Peña, 2011:18).
Ministerio de Planificación Nacional y Política Económica
11
últimos se les conoce como grupo de tratamiento o intervención, porque son quienes reciben el tratamiento o la intervención, tal y como aparece en la ilustración 2.
Ilustración 2. Diseño experimental La primera etapa del diseño experimental es una condición necesaria para posibilitar la validez externa de la evaluación, es decir que aporta información acerca de la posibilidad de extrapolar el resultado de la muestra a la población de interés. Sin embargo, existen otros desafíos para la validez externa que están relacionados con el carácter “artificial” del experimento (véase el siguiente apartado sobre experimentos de laboratorio vs. experimentos de campo). La segunda etapa garantiza la comparabilidad del grupo de intervención con el grupo de control maximizando de esta manera la validez interna, esto es, el grado de certeza de que cualquier diferencia encontrada entre los dos se debe solo al hecho de participar o no en la intervención que se evalúa, controlando así la incidencia de otras factores externos que estén asociadas con la variable de resultado o interés y la participación en la intervención pública. Si esto se cumple, entonces el impacto de la intervención es el resultado de restar los promedios de las variables de resultados entre ambos grupos (Bernal y Peña, 2011: 40, l). I.1 Tipos de experimentos I.1.1 Plan Experimental Solomon de Cuatro Grupos Una debilidad del diseño sencillo de dos grupos (con medición antes y después de la intervención) es la dificultad de controlar por factores reactivos de la medición. Si bien una medición antes de la medición es importante para registrar diferencias entre ambos grupos debido a errores aleatorios, esta misma medición puede influir en el resultado. Cuando en el caso de un curso de capacitación, por ejemplo, se realiza un examen de entrada y uno ex-‐post, el grupo de control ya queda familiarizado con los requerimientos. Aunque ellos no participen en la intervención, es posible que terminen mejor preparados para el examen ex-‐pos que otras personas que no han sido parte del estudio.
Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población
Control
Intervención o
tratamiento
Resultado
Resultado
Presente Futuro
Selección al azar La evaluación compara ambos resultados
1° Etapa 2° Etapa
Selección al azar
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
12 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Al contar con esta amenaza para la validez del estudio, el diseño descrito se amplía mediante el llamado “Plan Experimental Solomon de Cuatro Grupos” (Ilustración 3) con dos grupos adicionales (un grupo experimental y otro de control), en los cuales solamente se realiza una medición posterior (para una descripción del diseño, véase Bortz y Döring 2002: 539f.). Por este medio se pretende controlar adicionalmente el efecto reactivo de la medición.
Ilustración 3. Plan Experimental Solomon de Cuatro Grupos
I.1.2 Experimentos de laboratorio y experimentos de campo En el contexto de la evaluación se hallan dos tipos de experimentos:
• Experimento de laboratorio. Son aquellos experimentos donde la intervención se lleva a cabo en un entorno “artificial” controlado; donde se controlan o manipulan los factores externos de la intervención; el ambiente y el desarrollo de la misma; así como el comportamiento del grupo intervenido y el grupo de control. Bajo condiciones controladas, la influencia y presencia de factores externos a la intervención es mínima, lo que permite estudiar las relaciones “puras” de causa – efecto. Este tipo de experimentos maximiza la validez interna de los resultados, sin embargo, en el contexto de la evaluación de intervenciones públicas, muy raras veces es aplicable, dado que las intervenciones tienen lugar en un entorno social natural y complejo. Aunque en
Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población Medición ex ante
Medición ex post Selección al azar
Grupo de control I (ex ante)
Grupo de intervención
I (ex ante)
Grupo de intervención
I (ex pos)
Grupo de control I (ex post)
Grupo de intervención
II
Grupo de control
II
Ministerio de Planificación Nacional y Política Económica
13
algunos casos fuera posible aislar la intervención bajo condiciones de “laboratorio”, es muy posible que los efectos observados en condiciones artificiales no se dejaran extrapolar al contexto natural de la intervención (problema de la validez externa).
• Experimento de campo. Son aquellos experimentos donde “la intervención se realiza en un entono
real”, por lo tanto, no se controlan o manipulan los efectos externos que pueden incidir sobre la intervención y el comportamiento del grupo de intervención y control. Bajo estas circunstancias, la relación causa –efecto se estudia en el contexto real de la intervención; lo cual permite maximizar la validez externa. Debido a que este tipo de experimento se estudia en el ámbito real, es que su uso es común en las evaluaciones de intervenciones públicas.
I.1.2 Aleatorización individual y de conglomerado En ocasiones, la participación en una intervención se puede realizar al azar sea a nivel individual o a nivel de conglomerado; esto según las razones éticas o prácticas con las que la intervención permita hacer la asignación aleatoria.
• “Aleatorización a nivel individual.” Se lleva a cabo asignando de manera aleatoria la participación en la intervención a nivel individual (por ejemplo: personas, hogares, empresas). En este caso, de la lista de elegibles, se asignan al azar a aquellas personas, hogares u empresas que participarán en la intervención como también a aquellos que serán parte del grupo de control.
• “Aleatorización a nivel de conglomerados.” La asignación de los participantes en la intervención se
hace a nivel de conglomerados (por ejemplo: comunidades, distritos). Generalmente, esta variante del diseño se aplica cuando la intervención permea a todo un subgrupo de la población. Este tipo de aleatorización se realiza principalmente cuando existen a) razones éticas: no se puede negar el acceso a los beneficios de la intervención a cierto número de personas u hogares de la misma comunidad, por ejemplo, un barrio que presenta la problemática de niños y niñas desnutridas, sise realiza una intervención para mejorar la nutrición de este subgrupo de la población, la intervención no será ética si, entrega alimentos solo a aquel grupo de niños y niñas que fueron asignadas a participar en la intervención y a su vez forman el grupo de intervención, mientras se le priva de alimentos a aquellos niños y niñas que no tuvieron la suerte de que sus nombres saliera dentro del grupo de intervención, sino que les corresponde ser parte del grupo de control; b) razones prácticas: en ocasiones las restricciones logísticas, presupuestarias y de la capacidad operativa de la intervención imposibilitan que los beneficios de la misma afecten al mismo momento a toda la población, debido a que la intervención se realiza primero en algunos subgrupos de la población y luego se lleva a cabo a los restantes subgrupos, esto significa que se pospone la entrada de algunos subgrupos a la intervención, y así se garantiza la existencia de grupos de control; c) existe una interacción entre los beneficiados y los no beneficiados lo cual puede llevar, por ejemplo, a la posibilidad de que los beneficios permeen de un grupo a otro: esto implica que a la hora de evaluar la intervención se puede concluir erróneamente sobre los efectos (o sea: la carencia de efectos) de la intervención.
En resumen, la deseabilidad de un tipo u otro de aleatorización depende del tipo de preguntas de interés en la evaluación, consideraciones políticas y éticas, restricciones logísticas y existencia de externalidades, entre otras (Bernal y Peña, 2011:). I.2 ¿Cuándo se aplica diseño experimental en una evaluación?
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
14 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Para la aplicación o uso de este diseño se debe tener en cuenta las siguientes características:
• La evaluación mediante este diseño es aplicable únicamente cuando se prevé el diseño de la evaluación en el momento de planificación de la intervención.
• El mecanismo de selección de los beneficiarios de la intervención es aleatoria (grupo de intervención aleatorio).
• El mecanismo de selección del grupo de control es aleatoria.
• En cuanto a la disponibilidad de los datos para un buen diseño experimental, se requiere que los datos hayan sido capturados antes y después de la intervención tanto para el grupo de intervención como el grupo de control, así como la cantidad de veces que sea necesario o recomendable entre esos dos momentos.
• El diseño experimental se aplica solamente cuando la cobertura de la intervención es parcial. La
aleatoriedad como mecanismo de acceso, raras veces (o mejor dicho: prácticamente nunca) es el mecanismo más funcional desde el punto de vista de la teoría de cambio subyacente. Por eso, el diseño experimental requiere, en cierta medida, que la intervención se diseñe en función de su evaluabilidad (y no vice-‐versa) lo cual podría ser justificable en algunos casos de proyectos piloto que se evalúan a pequeña escala, antes de que la intervención se introduzca para una población objetivo más amplia.
I.3 Modelos de estimación del diseño experimental Los modelos de estimación son herramientas estadísticas y econométricas utilizadas para estimar los resultados de una intervención a partir de relaciones causales; para ello, los modelos se nutren de muchas variables representadas numéricamente y varios supuestos sobre las mismas. En el caso de las evaluaciones, la variable que representa el resultado de la intervención en el modelo de estimación se le conoce como variable de resultado. I.3.1 Modelo de diferencias sencillo La aleatorización de los grupos asegura que las características entre el grupo de intervención y el grupo de control sean idénticas. Esto implica dos aspectos importantes:
• Que en ausencia de la intervención, el valor de la variable de resultado sea idéntico entre ambos grupos, permitiendo entonces que el grupo de control sea un buen contrafactual;
• Que después de la intervención, el valor de la variable de resultado del grupo de intervención y
grupo de control difiera únicamente por motivos de la exposición a la intervención, y no a otras características o variables observables o no observables que generan el sesgo de selección.
Dado que bajo el diseño experimental se puede contar un buen contrafactual y el sesgo de selección es controlado o resuelto, la estimación del resultado de la intervención es relativamente fácil y no implica uso de técnicas econométricas complejas en comparación con los modelos de otros diseños.
Ministerio de Planificación Nacional y Política Económica
15
El resultado de la intervención bajo el modelo de diferencias –en forma general-‐ se estima como la diferencia9 de medias (promedios) en la variable de resultado entre el grupo de intervención y el grupo de control. La diferencia de medias se puede calcular con un el modelo de estimación lineal de Mínimos Cuadrado Ordinarios (MCO) 10: Yi = β0 + β1Di + ui (1) Donde Yi representa la variable de resultado para el individuo i, Di representa una variable binaria, que toma el valor de 1 si el individuo i participa en la intervención y 0 si el individuo i es elegible pero no participa en la intervención, β1 representa el estimador de diferencias. Es el efecto de la intervención; ui es el término error de la regresión que recoge las variables observadas y no observadas del individuo i, aparte de Di, que afectan el resultado. II.3.2 Variantes del modelo de diferencias 11
1. “El estimador de diferencias con regresores adicionales” o con variables explicativas adicionales
Esta variante del modelo de diferencias, agrega una(s) variable(s) explicativa(s) adicional(es) al modelo de regresión (1). Las variables explicativas son aquellas variables que explican en alguna medida la variable de resultado. Supóngase, que existe un programa sobre capacitación en el idioma inglés para mujeres jefas de hogar y se desea evaluar el impacto de ese programa. Se tiene datos tanto para las mujeres del grupo de intervención y control sobre el salario (variable de resultado), si participó o no en la intervención (variable que indica si la mujer está dentro del grupo de intervención o control) y además el nivel de escolaridad (variable explicativa adicional). La ecuación 2 representa tal situación:
Yi = β0 + β1Di + γ1X1 + ui (2) Donde, Yi representa la variable de resultado para la mujer i (salario), Di indica si la mujer jefa de hogar participó (D i = 1) o no en la capacitación (D i = 0), X1 variable explicativa adicional que representa el nivel de escolaridad de la mujer jefa de hogar i que está presente antes de la intervención. X1 no es afectada por la intervención pero contribuye determinar la variable de resultado, β1 representa el estimador de diferencias con variables explicativas adicionales (el efecto del programa), γ1,K representa el estimador de la contribución del nivel de escolaridad ( variable adicional) al salario (variable de resultado) además del programa.
9 La diferencia es el “resultado de la operación de restar”, según el DRAE. 10 Véase Gujarati (2004) para una información detallada sobre el modelo de estimación de MCO y sus respectivos supuestos. 11 Para un mayor detalle, véase Bernal y Peña (2011).
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
16 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
El estimador de diferencias con regresores adicionales es insesgado, consistente y más eficiente que el estimador de diferencias propuesto en la ecuación (1), ya que al agregar más variables en la ecuación, se mejora la precisión con que se estiman los resultados (Bernal y Peña, 2011:). Para llevar a cabo estimaciones bajo esta variante se requiere que la base de datos contenga datos sobre las variables explicativas adicionales para el grupo de intervención y el grupo de control.
2. “El estimador de diferencias con efectos heterogéneos” Si dentro de los grupos de análisis existen subgrupos, es posible que los efectos de la intervención difieran entre los individuos o subgrupos, por lo tanto, los resultados de la intervención puede variar para cada subgrupo, según el valor de una determinada variable explicativa. Como ejemplo, supóngase que se desea saber si la mejora en el salario como resultado de una intervención es más eficiente en las mujeres y los hombres (ambos grupos recibieron la misma intervención). En este caso, X es la variable sexo, y toma el valor 1 si es mujer o 0 si es hombre. Para captar si existen diferencias en los resultados, la ecuación de regresión incluye la interacción entre la variable que indica la participación del individuo i en la intervención Di, y la variable explicativa Xi: Yi = β0 + β1Di + β2Xi+ β3 DiXi+ ui (3) Donde, Yi es la variable de resultado para el individuo i (salario), Di es la variable que indica si el individuo participó o no en la intervención, Xi es una variable explicativa adicional (sexo), DiXi es la interacción entre la variable que indica la participación en la intervención y la variable explicativa de interés, es decir, la interacción entre la intervención y el sexo de la persona. β1 representa el estimador de diferencias, β3 representa el efecto diferencial de la intervención sobre las mujeres. β3 > 0 mide qué tanto mejor es la intervención sobre las mujeres con respecto a los hombres. Si a la hora de estimar la ecuación, el estimador de la interacción β3 es mayor a 0 indica que los salarios de las mujeres mejoraron más que los de los hombres. I.4 Fortalezas y debilidades de los diseños experimentales I.4.1 Fortalezas
• Es fácil entender la lógica de un diseño experimental (asigna al azar los participantes de una intervención).
• Las técnicas para el cálculo del impacto son sencillas, por lo tanto, los resultados son transparentes
para políticos, diseñadores de intervenciones y población general (Bernal y Peña, 2011:).
• Es el diseño que permite el uso de modelos de estimaciones que arrojan estimaciones más precisas o confiables.
Ministerio de Planificación Nacional y Política Económica
17
• Los resultados de la evaluación no son fácilmente manipulables, es decir, no se requiere del uso de otras técnicas estadísticas –fuera del modelo de diferencias-‐ para estimar los resultados. Con eso se diferencia de otras técnicas estadísticas, que se basan en conceptos más complejos donde las variables pueden modelarse en cierta medida a conveniencia.
• La asignación al azar minimiza los sesgos sistemáticos de selección entre el grupo de tratamiento y
control. Si bien sigue expuesto a un error por variabilidad aleatorio, este puede ser estimado mediante cálculos estadísticos (a diferencia de los sesgos sistemáticos que pueden pasar desapercibidos).
• Los diseños de experimentos de campo maximizan la validez externa de los resultados de una
evaluación, y los experimentos de laboratorio maximizan la validez interna.
• Si la muestra es lo suficientemente grande se asegura la validez interna de la evaluación de impacto (cualquier diferencia entre el grupo de tratamiento y control después de la intervención puede ser atribuida a la intervención). Esto ocurre porque se minimiza o controla la influencia de factores externos.
I.4.2 Limitaciones del diseño experimental Aunque es indiscutible que -‐ en teoría -‐ el diseño experimental es el diseño más poderoso para determinar el “resultado neto” de una intervención, desgraciadamente existen restricciones o limitaciones que suelen dificultar y muchas veces incluso imposibilitar, la aplicación de este diseño en la evaluación:
• Mecanismo de selección de la intervención incongruente con los requerimientos de un diseño experimental: La gran mayoría de las intervenciones se caracterizan por mecanismos de selección distintas a la aleatorización. Mecanismos frecuentes son, por ejemplo, la auto-‐selección (solo participa quién quiere participar, por ejemplo en una oferta de capacitación de participación voluntaria), o reglas definidas de acceso (por ejemplo, acceso por altas calificaciones en un programa de beca, acceso por bajo nivel de ingreso a una prestación monetaria). En estos casos, un diseño experimental “puro” ya no es aplicable.
• Otros problemas en la aleatorización. Si no se puede asegurar una exitosa aleatorización, la inferencia estadística que se realice sobre los resultados de la evaluación no es válida para la población de estudio (Bernal y Peña, 2011, ), debido a que los resultados reflejan tanto el impacto de la intervención como el efecto en la falla en la aleatorización. Entre algunos ejemplos de fallas en la aleatorización están: a) Cambios en el comportamiento de los grupos observados, por ejemplo, si el grupo de intervención sabe que participa de un experimento y está siendo observado por el evaluador, puede cambiar su comportamiento (efecto experimental o Hawthorne), lo mismo puede suceder en el grupo de control (Efecto John Henry); b) Tamaño de la muestra pequeña, una muestra pequeña (puede deberse al alto costo de un diseño experimental social) afecta la precisión de los resultados y no garantiza el supuesto de independencia condicional12; c) El no cumplimiento del protocolo de tratamiento, y la pérdida de muestra, i) introducen correlación entre el tratamiento y el término error , ii) el tratamiento o la intervención no es asignado de manera completamente aleatoria, sino que se basa en características o preferencias de los individuos, lo que puede implicar, que las personas asignadas al grupo de intervención decidan no participar o
12 El supuesto de independencia condicional implica que la variable de resultado en ausencia de la intervención debería ser idéntica para el grupo de intervención como para el grupo de control.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
18 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
bien personas del grupo de control participen en la intervención, lo que genera sesgos de selección, y por lo tanto, las técnicas descritas para este diseño no son aptas para para estimar los resultados de la intervención (Ídem)..
• Discusiones de tipo ético/político. Restringir la participación de personas que cumplen con todas
las condiciones de acceso a una intervención e igualmente vulnerable que el grupo intervenido, genera discusiones de tipo moral, especialmente, si el motivo es para contar con un grupo de control. Es decir, la investigación “abusa” de un grupo vulnerable para generar un insumo al estudio, privándolo a la vez del beneficio que podría ofrecer la intervención. Dependiendo del tipo de bien o servicio que se ofrece, impedir el acceso a los beneficios del programa podría hasta poner en peligro la salud de esas personas o incluso su vida.
• Incumplimiento (non-‐compliance en inglés). Durante el experimento, los individuos en los grupos
de intervención o control podrían cambiar determinadas características que los identifican, por ejemplo, algunos agentes que fueron seleccionados para el grupo de intervención, pueden terminar no recibiéndola o ellos mismos podrían no estar interesados en la intervención; de manera alternativa, los agentes que fueron designados al grupo de control terminan participando en la intervención. Este problema invalidaría o contaminaría la medición del impacto de la evaluación, pues un agente se analiza dentro del grupo de intervención cuando en la realidad no recibió ningún beneficio o bien, un agente del grupo de control si recibió los beneficios de la intervención.
• Dificultad de controlar por efecto placebo. “El efecto placebo es la relación positiva entre la respuesta de la unidad al tratamiento y las expectativas de la unidad acerca de estar expuesta al tratamiento” (Rossi, 2011). Un ejemplo sencillo de cuando se controla por el placebo, es cuando un medicamento se le otorga a un paciente que pertenece al grupo tratado y se le otorga un placebo (medicamento que no tiene efecto sobre la salud) a un paciente del grupo de control. Ambos pacientes tienen expectativas positivas sobre su recuperación, pero no saben a cuál de ellos se le dio el medicamento y a cual el placebo. En ciencias sociales es difícil controlar por efecto placebo, ya que, las personas tienen el conocimiento de que están siendo o no tratadas.
• Desgaste de la muestra (attrition en inglés). Algunas unidades desaparecen de la muestra en algún punto del tiempo entre la encuesta de línea de base y la encuesta final. Esto tiene implicaciones en la estimación del resultado, pues ya no existe el valor de una o las variables de cierto (s) individuo(s). El desgaste de la muestra no tiene mayores implicaciones cuando a) una cantidad suficiente de personas permanece en el estudio para que se puedan generar resultados estadísticamente significativos, y b) el desgaste no es causado por un factor sistemático que interactúa con la variable de impacto. Por ejemplo, en un programa de capacitación se podría observar que solamente los más motivados y ágiles concluyan el programa – es decir aquellos que de todas maneras hubieran alcanzado mejores resultados que el promedio de la población de interés. Desgraciadamente, este sesgo no es la excepción sino la regla.
• Externalidades o efecto derrame (spillovers en inglés) y “efectos de equilibrio general”. Las
externalidades son los efectos externos previstos o no por la intervención, esto implica que algunos individuos que no reciben la intervención pueden beneficiarse del hecho que otros individuos estén siendo intervenidas. Lo que puede verse como un efecto secundario sumamente positivo desde el punto de vista de los gestores de la intervención, le crea dificultades metodológicas al evaluador dado que su supuesto grupo de control queda “contaminado”. (Bernal y Peña, 2011,).
Ministerio de Planificación Nacional y Política Económica
19
I.4.3 Posible abordaje de las limitaciones Para asegurar la aleatorización de la muestra se puede permitir el ingreso de agentes del grupo de control a la intervención en una etapa posterior, una vez que se ha diseñado y se ha iniciado la evaluación. Con esta técnica, la selección aleatoria determina cuándo el beneficiario calificado recibe la intervención y no si lo recibe. Esto permite abordar preguntas con respecto al tiempo necesario para que la intervención sea eficaz para lograr su propósito. El método de Variables Instrumentales puede utilizarse para solucionar el problema de non compliance. En el caso del problema de attrition, se recomienda chequear el balance de las características en el grupo afectado por la desaparición de las unidades muestrales. Para disminuir el problema asociado al efecto derrame, es aconsejable realizar la aleatorización a nivel de grupo y no en forma individual, por ejemplo: un programa de educación donde se otorga libros de enseñanza básica por cantones, así el cantón de control puede estar alejado del cantón de intervención, atenuando el efecto derrame. II. Diseños cuasi-experimentales Una evaluación con diseño cuasi experimental es una valoración de los resultados de una intervención que se diferencia del experimento “puro” en que el mecanismo de selección de los beneficiarios y no beneficiarios no es al azar. Sin embargo, las condiciones de la intervención tienen algún grado de control. Siempre que se logra optimizar dicho control, los diseños cuasi-‐experimentales pueden -‐ según Bernal y Peña (2011), adquirir un alto grado de validez interna “como si fuera” un diseño experimental (aleatorio). Comúnmente, las condiciones de la intervención evaluada mediante el diseño cuasi-‐experimental se desarrollan en un contexto real o natural, es decir, suele aplicarse cuando los planificadores o evaluadores de la intervención no controlan la totalidad de los factores externos que pueden incidir en el mecanismo de selección de los intervenidos. Sin embargo, existe la posibilidad de identificar variables relacionadas con el acceso a la intervención que permiten formar grupos de comparación y ejercer algún grado de control sobre los factores externos. En algunos (pocos) casos el objeto evaluado está relacionado con un evento fortuito que asignó al azar al grupo de tratamiento. En este caso, la evaluación de resultados utilizaría el mismo instrumental metodológico del diseño experimental13 o el modelo de diferencias-‐en-‐diferencias (véase apartado II.3), siempre y cuando se disponga de una base de datos longitudinales: Por ejemplo, Card (1990)14 citado en Bernal y Peña (2011) realizó un estudio que consistió en determinar si el incremento en el flujo inmigratorio (cubano) disminuyó los salarios de las zonas receptoras15 (Miami). El evento fortuito que genera una asignación al tratamiento (inmigración) que “podría parecer aleatoria” para conocer el impacto de la inmigración sobre los salarios es el cambio inesperado en la ley migratoria, la cual eliminó las restricciones inmigratorias de Cuba, con lo cual, 125 000 cubanos llegaran a Estados Unidos entre mayo y septiembre de 1980, de los cuales, aproximadamente el 50% se quedaron en Miami; lo que a su vez provocó que la oferta laboral aumentará alrededor del 7% en este Estado.
13 El diseño experimental utiliza el modelo de diferencias. Para más detalle, véase página ZZZ Cuál página??? 14 Para un mayor conocimiento sobre este estudio se puede referir a Card, D. (1990). The impact of the Mariel Boat Lift on the Miami Labor Market. Industrial and Labor Relations Reviews, 43 (2), 245-‐257. 15 Según la teoría económica, un aumento en la oferta laboral debido al flujo de inmigrantes provocaría un descenso en los salarios de la localidad receptora de inmigrantes.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
20 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Bajo estas circunstancias el grupo de intervención son los trabajadores poco calificados en Miami y el grupo de comparación son los trabajadores poco calificados de Atlanta, Houston, Los Ángeles y Tampa, las cuales presentaban características similares a Miami, en cuanto a proporciones de poblaciones hispanas y negras y tasas de crecimiento económico. Sin embargo, lo más común es que los mecanismos de selección de la intervención evaluada no se acercan a una selección por azar sino presentan sesgos de selección importantes. Por ejemplo, debido a razones éticas, prácticas o inherentes a la propia lógica de la intervención, los planificadores de la intervención no seleccionan al azar el grupo de los beneficiarios y los no beneficiarios. Quién participa en uno u otro grupo se debe a criterios de focalización, eventos fortuitos o la decisión de la persona a participar de la intervención; por lo tanto, es muy probable que aunque todas las personas sean elegibles para la intervención, no todas presentan las mismas características observables y no observables. En otras palabras, se presenta un sesgo de selección. Debido a estas limitaciones, el grupo no beneficiario no puede ser seleccionado al azar sino tiene que ser construido o formado según la similitud que presente con las características observadas del grupo beneficiarios (grupo de intervención). Es por esta razón que las personas que no participan no se les denomina grupo de control (como en el diseño experimental “puro”) sino grupo de comparación. El hecho de los dos grupos distintos (beneficiario y no beneficiarios) se distinguen en determinadas características que no solamente afecten la probabilidad de participar en la intervención sino que también interactúan con los resultados de las variables a evaluar en forma diferente en ambos grupos -‐ aún en ausencia de la intervención-‐ se le conoce como sesgo de selección (Bernal y Peña, 2011:30; Moral, 2009:7). El sesgo de selección puede generar resultados inexactos e incluso erróneos: subestimar o sobrestimar el impacto real de la intervención; impactos negativos cuando realmente son positivos (y viceversa) e impactos estadísticamente insignificante cuando en realidad tienen una dimensión importante (y viceversa). Por este motivo, el impacto de una intervención no podrá ser estimado a través de la simple diferencia de medias entre la variable de resultado del grupo de intervención y el grupo de comparación. II.1 ¿Cuándo se aplican diseños cuasi experimentales? La aplicación o uso de este diseño se realiza cuando están presentes los siguientes aspectos:
• Se utiliza cuando no se puede controlar el acceso a la intervención o cuando no es factible una muestra al azar para el grupo de control (CICAP y CEval, 2011).
• El mecanismo de selección del grupo de control es formado mediante controles construidos o controles estadísticos, debido a que no es factible formar un grupo de control aleatorio.
• Generalmente, los datos están disponibles solo después de la intervención, pero también pueden
estar disponibles antes y durante la intervención.
• Igual que los diseños experimentales, la mayoría de los diseños cuasi-‐experimentales son aplicables únicamente cuando la cobertura de la intervención es parcial, es decir, cuando la intervención no abarca toda la población. Al tratar de una intervención de cobertura total, no sería posible conformar un grupo de comparación.
Fortalezas del uso del diseño cuasi experimental
Ministerio de Planificación Nacional y Política Económica
21
• Es el segundo diseño más rigoroso o confiable después del diseño experimental para realizar
evaluaciones de resultados.
• Mientras el uso de diseños experimentales “puros” es extremadamente limitado en la evaluación de intervenciones públicas, los diseños experimentales tienen mucho más campos de aplicación (CICAP y CEval, 2011).
• Algunas modalidades de los diseños cuasi-‐experimentales se pueden llevar a cabo, aún, cuando su diseño no se realizó durante la planificación de la intervención (y por lo tanto, no se dispone de datos antes de la misma); cuando aplican exclusivamente con base en datos generados después de la intervención. En muchas ocasiones, se puede utilizar los datos administrativos que se tengan a disposición, siempre y cuando se distingan cuáles son del grupo de intervención y cuáles del grupo de comparación.
• Dependiendo de la calidad de los grupos de comparación conformados (véase apartado II.3) la
validez interna de un diseño cuasi-‐experimental puede aproximarse a aquella de un diseño experimental “puro”.
Limitaciones del uso de diseños cuasi experimentales
• Ningún método cuasi-‐experimental puede brindar cien por ciento de seguridad acerca de si se pudieron neutralizar los eventuales efectos de terceras variables (Stockmann, 2009, p. 265).
• Los métodos estadísticos propuestos pueden ser bastante complejos. Esto implica que se necesita
una considerable experiencia en el diseño de la evaluación y en el análisis e interpretación de los resultados.
• Presencia del problema de sesgo de selección. Se relaciona con las características no observables que puedan sesgar los resultados. Este sesgo puede afectar tanto el diseño muestral como el valor de la variable de resultados.
II.2 Modelo de estimación de diferencias en diferencias Todos los mecanismos de selección del grupo de comparación que se presentarán más adelante tienen en común que no son aleatorios (como en el diseño experimental “puro”) y por ende se puede presentar un sesgo de selección que puede generar estimaciones inexactas. Por lo tanto, el impacto de una intervención no podrá ser estimado a través de la simple diferencia de medias entre la variable de resultado del grupo de intervención y el grupo de comparación. Sin embargo, el diseño cuasi experimental cuenta con modelos capaces de aislar las distorsiones causadas por el sesgo de selección. Aunque algunas variantes de los diseños cuasi-‐experimentales se basan en un solo momento de medición (después de la intervención), lo deseable en la mayoría de los casos es contar con datos tanto antes como después de la intervención lo cual permite un análisis llamado de diferencias en diferencias que puede complementar la mayoría de los diseños experimentales independientemente de cómo se hayan conformado los respectivos grupos de comparación (véase apartado II.3).
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
22 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
II.2.1 Modelo de diferencias en diferencias sencillo (También conocido como “doble diferencia” o “DD”) El modelo de diferencias en diferencias es aplicado tanto en el diseño experimental como cuasi experimental, no obstante, su uso es más frecuente en cuasi experimentos, debido a que es posible que se genera una asignación que conlleva diferencias preexistentes entre el grupo de tratamiento y grupo de comparación. Cuando esto es el caso, es muy probable que se hallen diferencias sistemáticas antes y después de la intervención entre el grupo de intervención y el grupo de comparación. Si la intervención se desarrolló según lo planificado, el evaluador hallará diferencias16 entre ambos grupos después de la intervención, no obstante, debe tener presente que esas diferencias pueden deberse tanto a las diferencias pre existentes antes de la intervención como a la intervención en sí. El modelo de diferencias en diferencias es utilizado para eliminar la influencia de los valores iniciales de la variable de resultado que pueden variar sistemáticamente entre el grupo de intervención y el grupo de comparación (Bernal y Peña, 2011:). Por lo tanto, permite tener en cuenta y hacer desaparecer cualquier diferencia constante en el tiempo entre ambos grupos. “El modelo de diferencias en diferencias es simplemente el cambio esperado en la variable de resultado entre el período posterior y el período anterior a la implementación de la intervención en el grupo de intervención, menos la diferencia esperada de la variable de resultados en el grupo de comparación durante el mismo período” (Bernal y Peña, 2011:). Una estimación por medio de este modelo requiere datos tanto del grupo de intervención como para el grupo de comparación en, al menos, dos períodos de tiempo (antes y después de la intervención), es decir, requiere lo que se llama datos de panel. Si la base de datos contiene datos desde mucho antes de la intervención y de seguimiento, incluso se podrán hacer pruebas estadísticas sobre el comportamiento de las tendencias naturales que presentan las variables, y tomar en cuenta dichos comportamientos a la hora de estimar e interpretar los resultados. La tabla 1 refleja la noción de la estimación del impacto de un caso hipotético de un programa de capacitación laboral donde se dispone de datos para el grupo de tratamiento y de comparación antes de su ejecución y después su finalización.
• Primera diferencia: En este paso se estima el cambio (primera diferencia) en el salario promedio tanto del grupo de intervención como del grupo de comparación.
Cambio o primera diferencia para el grupo de intervención: se le resta al salario promedio después de la intervención (50 unidades monetarias) el salario promedio después de la misma (90 unidades monetarias), para obtener el cambio en el salario promedio (40 unidades monetarias).
Cambio o primera diferencia para el grupo de comparación: El procedimiento es el mismo. Se le resta al salario promedio después de la intervención (55 unidades monetarias) el
16 Se espera que al finalizar la intervención el valor de la variable de resultado del grupo de intervención presente diferencias significativas con respecto al valor de la variable de resultado del grupo de comparación, ya que el primero se benefició de los productos de la intervención, mientras el segundo no.
Ministerio de Planificación Nacional y Política Económica
23
salario promedio después de la misma (45 unidades monetarias), para obtener el cambio en el salario promedio (10 unidades monetarias).
Tabla 1. El modelo de diferencias en diferencias
GRUPO ANTES (t1) DESPUÉS(t2) PRIMERA
DIFERENCIA (horizontal)
SEGUNDA DIFERENCIA (horizontal)
De Intervención 50 90 90-‐50 = 40 40-‐10 = 30 De Comparación 45 55 55-‐45 = 10
• Segunda diferencia: La segunda diferencia muestra el impacto del programa de capacitación laboral y se obtiene diferenciando el cambio o resultado de la primera diferencia de los salarios promedios de ambos grupos. Para este ejemplo, se diferenciar la primera diferencia del salario promedio para el grupo de intervención (40 unidades monetarias) con respecto a la primera diferencia del salario promedio del grupo de comparación (10 unidades monetarias), con lo cual se obtiene la segunda diferencia del salario promedio con un valor de 30 unidades monetarias (40-‐10). El impacto del programa de capacitación laboral es un cambio positivo (aumento) de 30 unidades monetarias sobre el salario promedio para el grupo intervenido, ya que el salario promedio del grupo de comparación aumentó 10 unidades monetarias durante el lapso de la intervención, sin haber participado en la misma.
Este modelo también puede calcularse de forma vertical, es decir, la primera diferencia puede obtenerse restando el valor de la variable de interés antes de la intervención (50-‐45 = 5) para ambos grupos y después de la intervención (90-‐55 = 35) para los dos grupos. La segunda diferencia, vendría dado por la diferencia de los datos obtenidos en la primera diferencia (35-‐5 = 30). II.2.2 Modelo de diferencias en diferencias con regresores adicionales El modelo de diferencias en diferencias se puede ampliar al agregar aquellas variables explicativas que capturan el valor de las características observadas que distinguen al grupo de intervención del grupo de comparación antes de la intervención. Este modelo agrega particularmente aquellas variables que varían o cambian el tiempo, con el fin de distinguir cuánto del cambio en la variable de resultado se debe a las características preexistentes antes del tratamiento entre ambos grupos y cuánto al efecto mismo de la intervención en sí. La ecuación que representa este modelo es: Δ Yi = β0 + β1Di + β2X1i+ βk+1Xki+ vi (4) Donde, Δ Yi es el cambio en el valor de la variable de resultado durante el desarrollo de la intervención, Di representa una variable binaria, que toma el valor de 1 si el individuo i participa en la intervención y 0 si el individuo i es elegible pero no participa en la intervención,
Fuente: Elaboración propia
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
24 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Xki es la variable explicativa que representa la característica observada antes de la intervención, y que no es afectada directamente por la intervención, β1 es el estimador del efecto de la intervención. Es la diferencia entre las dos medias de grupo de Δ Yi, vi representa el término error. Las variables explicativas adicionales controlan por las diferencias en el cambio en la variable de resultado durante el desarrollo de la intervención y no los niveles de la variable de resultados (Bernal y Peña, 2011:). Esta variante se utiliza cuando se desea controlar por diferencias sistemáticas preexistentes entre el grupo de intervención y el de comparación, mejorar la eficiencia del estimador, evaluar la validez del supuesto de tendencias paralelas y ajustar el estimador si la asignación a la intervención depende de una variable explicativa observada. Los resultados de una intervención pueden ser disímiles entre los diferentes subgrupos del grupo de intervención, por lo que, al agregar la variable explicativa considerada para asignar la participación del individuo a la intervención, se logra un mejor cálculo del estimador, y por ende, más precisión en la interpretación del mismo. Por ejemplo, cuando la asignación a la participación de un programa de nutrición para niños y niñas depende de la variable estatura por edad, y, los resultados del programa difieren si son niños y niñas altos en comparación con los niños y niñas de más baja estatura por edad; es necesario incluir dentro del cálculo, la variable estatura por edad para ambos grupos, con el fin de ajustar el estimador. II.3 Diseños cuasi experimentales según la técnica para conformar el grupo de comparación Los diseños cuasi-‐experimentales se distinguen sobre todo de acuerdo a la manera en que se forman los grupos de comparación. Las técnicas para la conformación de grupos de comparación consideradas en este apartado son: emparejamiento, variables instrumentales y regresión discontinua. De acuerdo al autor y a las condiciones específicas de la evaluación, no existe una línea inequívoca que permiten denominar como cuasi-‐experimental todo estudio que use una de las mencionadas técnicas. Sin embargo, todos tienen en común cierto grado de rigurosidad al componer el grupo de comparación. En esto, se diferencian significativamente de los diseños no-‐experimentales sin grupo comparación, basados únicamente en los llamados controles reflexivos (es decir, la medición repetida de diferencias únicamente en el grupo de intervención). II.3.1 Emparejamiento También recibe el nombre método de pareo, pareamiento, controles construidos o “matching” (en inglés). El método de emparejamiento es utilizado para construir grupos de comparación “artificiales” cuando los individuos que participan en la intervención no han sido asignados al azar pero si de acuerdo a las variables observables que no están determinadas por la intervención. La intención es que si las variables observables de los individuos participantes y no participantes son similares, es probable que las variables no observables entre ambos grupos también lo sean y se encuentren balanceadas. Este método consiste en establecer variables que guían la selección de las personas que conformarán el grupo de comparación, procurando que el grupo de intervención y el grupo de control se parezcan en la mayor medida posible en relación a dichas variales. Para ello, se empareja o une a cada individuo participante con otro individuo no participante que posea características observables similares17 al primero. Los individuos no participantes emparejados se convierten así en el grupo de comparación.
17 La información sobre las características similares se requieren ex ante de la ejecución de la intervención.
Ministerio de Planificación Nacional y Política Económica
25
Imagínese la existencia de un programa de aprendizaje de lenguas extranjeras que está dirigido a jóvenes entre 18 y 22 años, que viven en distritos con bajo índice de desarrollo social, que han finalizado la secundaria. Ahora bien, este modelo lo que hará es buscar jóvenes que no hayan participado en el programa, pero que sus edades oscilen entre los 18 a 22 años, que tengan su título de secundaria completa, que vivan en distritos con bajo índice de desarrollo social; y los emparejará con aquellos que si han sido seleccionados para participar en la intervención. Nótese, que las características o variables de los participantes y no participantes son observables. Si la selección de los participantes es realizada en base a variables observables, entonces se asumen los siguientes puntos:
• El sesgo de selección se debe principalmente a las diferencias en las variables observables (Bernal y Peña, 2011: 102). Esto implica que la calidad del diseño depende de que se hayan identificado adecuadamente las variables de elegibilidad (lo cual es un desafío conceptual importante en la práctica).
• Habiéndose controlado el sesgo de selección, las diferencias en los resultados entre el grupo de intervención y el grupo de comparación se debe, en primer lugar, a la exposición de la intervención.
• Se cumple el supuesto de “condición de independencia condicional". Esto significa que se asegura
que al condicionar en las variables observables, el valor esperado del contrafactual sea lo más cercano al valor esperado de la variable de resultado del grupo de comparación, y por lo tanto, el sesgo de selección es mínimo. Además, este supuesto implica que la participación en la intervención no está determinada por variables no observables que también determinen las variables de resultados potenciales (Bernal y Peña, 2011:).
Si el sesgo de selección obedece solo a las diferencias en las características observables y su valor es igual a cero, el impacto de la intervención se puede estimar –de forma insesgada-‐ como la diferencia en el promedio de las variables de resultado del grupo de intervención y del grupo de comparación (Bernal y Peña, 2011:). La estimación suele complicarse, cuando la lista de variables observables es muy grande o contiene valores múltiples lo cual puede incidir, de manera significativa, en el tamaño. En el caso de no incluir todas las variables relevantes, se corre el riesgo de dejar por fuera características que hubieran sido relevantes para identificar correctamente el grupo de comparación (y en consecuencia: para determinar el “resultado neto” de la intervención). Al contrario, si el número de características observables aumenta o éstas asumen múltiples valores, es más difícil asegurar que la base de datos contenga una buena unidad de comparación para cada una de las unidades intervenidas debido a que es cada vez más difícil identificar una pareja para cada unidad tratada que comparta todas las características observables. A esta situación se le conoce como el problema de la “maldición de la dimensionalidad” (Gertler, et al 2011: 108; Bernal y Peña, 2011: 103). El problema de la “maldición de la dimensionalidad” se puede resolver emparejando a los individuos, ya no según vector de características observables (cuya dimensión puede ser muy pequeña o muy grande), sino según la probabilidad estimada de participar18 en la intervención dada las variables observables. Esto se
18 Rosenbaum and Rubin (1983) citado en Rossi (2011), demostraron que para la validez del estudio es equivalente realizar matching con todas las características observadas que hacerlo con el propensity score estimado.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
26 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
conoce como el modelo de Emparejamiento de las Propensiones a Participar o Propensity Score Matching (PSM, en inglés). II.3.2 Emparejamiento de las Propensiones a Participar Este método permite encontrar el mejor grupo de comparación con el que se empareja el grupo de intervención, basado ya no en cada una de las variables observables sino en la probabilidad de participación en la intervención dada las características observables. Un individuo que no haya participado es elegible para el grupo de comparación, si su probabilidad de participación está muy cerca o es muy similar a la probabilidad de participación de un individuo del grupo de intervención. La probabilidad de participar es un número real entre 0 y 1 que resume todas las características observadas de las unidades. Para que el emparejamiento por medio de este método produzca estimaciones que tengan validez externa (Gertler, et al 2011: 109), se requiere que cada uno de individuos del grupo de intervención debe emparejarse con un individuo no haya participado de la intervención. Sin embargo, existen casos en que no se haya un individuo no beneficiado con probabilidades de participación similar o cercana a la probabilidad de participación para cada uno de los individuos beneficiarios. Esto implica que el PSM, solo estima el impacto de la intervención para aquellos individuos participantes que cuentan con una pareja adecuada, es decir, solo efectúa estimaciones en una región de soporte común19. La ilustración 4 permite observar la distribución de densidad de la probabilidad estimada de participación de ambos grupos; el área sombreada es la región de soporte común, y es acá donde las probabilidades de los individuos del grupo de comparación son muy cercanas o parecidas a las probabilidades de participación de los individuos del grupo de intervención, fuera de esta región no se logra construir parejas adecuadas en términos estadísticos.
Ilustración 4. Pareo de las propensiones a participar y la Región de Soporte Común
El impacto bajo este método es la diferencia media en las variables de resultados entre el grupo de intervención y el grupo de comparación en el área de soporte común, apropiadamente ponderada por la distribución de la probabilidad de participación en la intervención (Bernal y Peña, 2011: 105).
19 Bernal y Peña (2011: 104), mencionan que “el soporte común de una variable es el conjunto de valores para los cuales tiene densidad positiva, es decir, el conjunto de valores que pueden ocurrir con alguna probabilidad.
Probabilidad de participar
Densidad
1 0
Densidad de las propensiones a participar de los individuos del grupo de intervención
Densidad de las propensiones a participar de los individuos del grupo de comparación
Fuente: elaboración propia con base en Banco Mundial (2011) y Bernal y Peña (2011)
Ministerio de Planificación Nacional y Política Económica
27
Algoritmos para estimar las ponderaciones
Cuanto menor es la diferencia en la probabilidad estimada, mayor es el peso que se le asigna al individuo no participante en la construcción del contrafactual de los participantes. Entre algunos algoritmos para estimar las ponderaciones están:
• Vecino más cercano: Se le asigna ponderación igual a uno al no participante con la menor distancia al participante |pi-‐pj|. Todos los demás no participantes tienen una ponderación igual a cero.
• Calibre: El participante i solo es incluido en el cálculo final del impacto promedio si hay algún no
participante cuya distancia sea menor a algún número prefijado: |pi-‐pj|<H. Reduce la posibilidad de tener malos emparejamientos, sin embargo, algunos participantes pueden no entrar en el cálculo.
• Kernel: Todos los no participantes tienen una ponderación positiva en el cálculo del contrafactual
de todos los participantes. La ponderación es inversamente proporcional a la distancia entre las probabilidades estimadas |pi-‐pj|. Pasos para la estimación de la Propensión a Participar
El procedimiento de estimación comprende los siguientes pasos20:
• Realizar encuestas representativas y comparables en las cuales se puedan identificar el grupo intervenido y el grupo de comparación. O bien, contar con información para ambos grupos.
• Estimar la probabilidad de que cada individuo se inscriba en la intervención a través de las características observables de acuerdo al modelo probabilístico especificado (por ejemplo modelos Logit o Probit21). Es fundamental que la distribución de las variables observables sea la misma (o muy similar) tanto para los individuos intervenidos como para no intervenidos.
• Limitar las muestras a la región del soporte común. Se descartan aquellas observaciones de no participantes con valores estimados de probabilidad demasiados extremos. Restringir las muestras asegura un soporte común lo que va a evitar una de las fuentes más habituales de sesgo de selección.
• Seleccionar un algoritmo de emparejamiento.
• Para cada individuo tratado se busca un individuo de control o grupo de individuo de comparación que tenga una probabilidad de participación similar. Si no se hayan individuos con probabilidades similares, se debe volver a especificar el modelo de estimación de probabilidad.
• Examinar que las variables observables entre los grupos de intervención y comparación sean similares o estén balanceadas por grupos de probabilidad predicha. Para realizar esta comparación es necesario conocer las ponderaciones asignadas a los individuos del grupo de comparación, que están determinadas por el algoritmo de emparejamiento elegido.
• Se estima el resultado o impacto de la intervención, el cual es, el promedio apropiadamente ponderado de la diferencia entre la variable de resultado de los grupo de intervención y grupo de comparación.
20 Los pasos descritas son tomados y ligeramente modificados de Moral (2009), y Jalan y Ravallion (2003) tomado de Gertler, et al (2011) y Bernal y Peña (2011). 21 Para más detalles puede verse el libro Econometría del autor Damonar Gujarati (2004).
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
28 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Fortalezas de las técnicas de emparejamiento
• Se puede emplear aunque los individuos beneficiarios no han sido seleccionados aleatoriamente,
pero si de acuerdo a características observables, y además, que exista un grupo no beneficiario de la intervención (es decir: cuando la intervención no es de cobertura universal).
• Limita (no elimina) el sesgo de selección. El método de emparejamiento es útil cuando el sesgo de selección está determinado principalmente por variables observables, por lo que con buenas fuentes de datos puede ser un método poderoso para estimaciones de impactos bajo estas situaciones.
• Se puede emplear con un único levantamiento de información, siempre que existan datos para el grupo de intervención y comparación (es decir, no siempre es necesario contar con línea base), (Bernal y Peña, 2011: 147). Sin embargo, siempre que exista el riesgo de enfrentar un sesgo de selección debido a variables no observables, es más recomendable combinar el emparejamiento o PSM con el método de doble diferencia (véase más arriba en este apartado).
Limitaciones de las técnicas de emparejamiento
• “Los resultados son confiables siempre y cuando existan razones para pensar que las variables no observables o no disponibles en la base de datos, no son determinante fundamental tanto de la participación en el programa como la variable resultado” (Bernal y Peña, 2011: 147).
• Requiere grandes bases de datos, no obstante, esto puede provocar el problema de la “maldición
de las dimensiones” y la falta de una región de soporte común (véase los conceptos desarrollados más arriba).
• Debido a que este método funciona cuando se condiciona que la selección de los participantes es a
base de variables observadas, se asume que no existen diferencias sistemáticas entre los grupos de intervención y comparación causadas por variables no observables, no obstante, este supuesto no se puede comprobar ni descartar, por lo que, tampoco se puede descartar el sesgo de selección generado a causa de las variables no observadas. Esta amenaza se puede relativizar al combinar las técnicas de emparejamiento con el método de doble diferencia.
• Requiere del conocimiento de técnicas estadísticas complejas.
II.3.3 Variables instrumentales
Es un método empleado para controlar el sesgo de selección debido a características o variables no observables. Para llevar a cabo la estimación de resultados mediante este método se requiere de:
• La existencia de una nueva variable o “instrumento” que esté altamente relacionada con la variable que indica si el individuo participa en la intervención. Si esto sucede, entonces la variable instrumental predice la probabilidad de participar en la intervención. En términos estadísticos esto
Ministerio de Planificación Nacional y Política Económica
29
significa que la variable instrumental está correlacionada con la variable que indica participación. Esta condición se llama “relevancia del instrumento” o “condición de rango”.
• Que la variable instrumental a) no debe estar relacionada con las variables no observables que
determinan la variable de resultado, b) ni tener un efecto directo sobre la variable de resultado. Esto permite asegurar que las variables no observables no dependen de la variable instrumental. En términos estadísticos esto se refiere a que no existe correlación entre la variable instrumental y el término error del modelo. Esta condición es conocida como “exogenidad del instrumento” y “restricción de exclusión”.
En resumen, la variable instrumental influye o explica la probabilidad de participar en la intervención pero no está relacionada con las variables no observables que determinan la variable de resultado ni la afectan directamente. Las variables instrumentales se usan primero para predecir la participación en la intervención y segundo para observar cómo varía el indicador de resultados con los valores proyectados. Este método es utilizado cuando la participación de los individuos en la intervención está asociada principalmente a variables no observables.
Fortalezas del método de Variables Instrumentales
• Controla el sesgo de selección generado por variables no observables.
• Realiza estimaciones confiables con datos no experimentales, siempre y cuando se cumpla que la variable instrumental está correlacionada con la variable que indica si el individuo participa o no en la intervención, pero no está correlacionada con las variables no observables que afectan directamente el resultado o las variables determinantes del resultado. Limitaciones del método de Variables Instrumentales
• No es fácil hallar variables que cumplan las condiciones para ser variables instrumentales. Si la
variable instrumental no cumple las condiciones de “relevancia del instrumento”, “condición de rango”, “exogenidad del instrumentos” y “restricción de exclusión”; los resultados estimados serán sesgados e inconsistentes.
• Estima el efecto local y no el efecto promedio. Es decir, estima el efecto solo para aquellas personas
que cambian su decisión de participar ante cambios en la variable instrumental. Por tanto, se debe tener cuidado a la hora de interpretar el estimador y dar las recomendaciones de la evaluación (Bernal y Peña, 2011:).
II.3.4 Diseño de Regresión Discontinua La selección de los participantes en el diseño de regresión discontinua (DRD) es determinada total o parcialmente por una variable continua22 observada. Específicamente, se determina si el individuo participa o no en la intervención a partir de un valor específico (umbral) de la variable continua observada.
22 Una variable continua es aquella que puede adquirir cualquier valor dentro de un intervalo de valores. Un claro ejemplo, es la nota de algún examen de escuela, cuyo intervalo va de 0 hasta 100, los niños y niñas obtienen notas de 100; 93.6; 80.5; 70; 65.7.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
30 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
En algunos casos, la intervención dirigida a grupos específicos se basa en un instrumento de focalización que es una variable continua y observaba por el planificador o evaluador (Bernal y Peña, 2011: 189). Por ejemplo, el gobierno decide crear un programa de becas estudiantiles pero este programa está dirigido solo a aquellos estudiantes con notas promedios iguales o mayores a 75, en este sentido, el instrumento de focalización es la nota promedio y su umbral es 75 (se asume que la nota puede tomar cualquier valor entre 0 a 100), así los estudiantes beneficiarios serán todos los que tengan una nota igual o superior a 75 y los no beneficiarios serán los que tengan nota inferior a 75. Los estudiantes beneficiarios pueden ser o son distintos a los no beneficiarios, es decir, sin conocimiento del mecanismo de selección no se dispone de datos para asegurar que ambos grupos tengan similitud en términos estadísticos. El primer grupo puede que se encuentra más motivado que el segundo, o bien, los primeros poseen un coeficiente intelectual más alto, o familiares que están atentos al rendimiento académicos de sus hijos y por lo tanto, con o sin beca es posible que logren terminar la universidad y perciban salarios más altos que los segundos. En tales situaciones, estimar el impacto de la intervención tomando en cuenta todos los estudiantes beneficiarios y no beneficiarios del programa de becas puede generar estimaciones muy alejadas de la realidad. El DRD toma en cuenta una sub-‐muestra especial de los estudiantes beneficiarios y no beneficiarios para elaborar el contrafactual y las estimaciones correspondientes. Se asume, que aquellos individuos que están justo alrededor del umbral tienen características observadas y no observadas similares; de esta forma, el grupo de intervención o tratamiento son los estudiantes que están justo por arriba del umbral y el grupo de comparación aquellos que tienen notas justo por abajo del umbral. Rossi (2011) menciona que alrededor del umbral es como tener un “experimento”, en el sentido que el grupo de comparación es similar al grupo de tratamiento. Existen dos variantes de DRD: Nítida y Borrosa. Se diferencian entre sí por el alcance de la selección de los participantes.
II.3.4.1 Regresión Discontinua Nítida El diseño de Regresión Nítida (DRN) se le conoce en inglés como Regression Discontinuity Sharp. La selección de los beneficiarios depende completamente (de forma determinística) del umbral de la variable continua observada. Por tanto, la participación no depende de otras características observadas o no observadas del individuo. Ejemplo, sea el caso de un programa de becas (pago de créditos) para estudiantes de primer ingreso a la universidad. Se les asignará la beca a aquellos estudiantes que hayan tenido una nota promedio igual o superior a 75 sobre 100 en el último año de secundaria; por lo tanto, el valor de umbral es 75, y es en este punto donde se presenta la discontinuidad en la participación de la intervención. La nota promedio de 75 determinará completamente la participación de los estudiantes en el programa de becas, por lo tanto, el grupo de intervención está conformado por los estudiantes con notas iguales o mayores a 75 y el grupo de comparación con notas promedio menor a 75. En este caso, el estudiante es beneficiario de la intervención simplemente por el hecho de presentar esta característica, no se le solicita ningún otro requisito.
Ministerio de Planificación Nacional y Política Económica
31
Ilustración 5. La participación en la intervención como función del instrumento de focalización Z La ilustración 5 muestra la participación en la intervención como función del instrumento de focalización (A). La participación en el tratamiento es discontinua en un punto específico de la distribución de la A, y la probabilidad de participación salta de uno a cero en ese punto específico (Ā). Al lado derecho de Ā se ubican los estudiantes que participan en el programa con probabilidad uno, al lado izquierdo están los estudiantes que no participan en el programa con probabilidad cero. La probabilidad de participación es cero o uno. Dado que la asignación a la intervención es determinada únicamente por la variable observada en cuestión (ejemplo: la nota promedio), se asume que los individuos a) no contribuyen en la decisión de si participar o no, y b) no pueden manipular el valor de la variable observada en respuesta a los criterios de elegibilidad de la intervención. En este caso, el RDN implica que el proceso de decisión exógeno es complemente determinado por la variable observada estudiada (Bernal y Peña, 2011:193).
II.3.4.1 Regresión Discontinua Borrosa El diseño de Regresión Borrosa (DRB) se le conoce en inglés como Regression Discontinuity Fuzzy. La selección de los beneficiarios depende parcialmente (es decir, no de forma determinística) del umbral de la variable continua observada. Además, la selección también depende de incentivos u otras características observadas o no observadas por el evaluador (las cuales no son lo suficientemente fuertes para mover a todas las unidades del grupo de no beneficiarios al grupo de beneficiarios). Esta situación puede suceder si los incentivos para participar en la intervención cambian discontinuamente en el umbral. Retomando el caso del programa de beca para los estudiantes universitarios, donde se les otorgaba la beca a cualquier estudiante que haya obtenido una nota promedio del último año de secundaria igual o superior a 75 (umbral). Ahora bien, para otorgar la beca se requiere que el estudiante cumpla a) el requisito de la nota, b) provenga de un cantón que diste 100 km o más de la universidad y c) llene el formulario de solicitud de beca. En este caso, la nota promedio igual o mayor a 75 (umbral) selecciona parcialmente a los estudiantes que reciben la beca, ya que no todos los estudiantes deciden participar, aún, cuando cumplan
0
A
1
Ā =75 = umbral
Instrumento de focalización = nota promedio
Probabilidad de participación
Fuente: Elaboración propia con base en Bernal y Peña, 2011: 191
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
32 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
los tres requisitos, o bien, el programa puede considerar ampliar la oferta a cierto grupo de personas bajo otros criterios. Suponga, que todos los estudiantes de las zonas alejadas a la universidad se enteran del programa y la universidad decide otorgar al azar algunas becas a estudiantes con nota menores a 75 que llenen el formulario de solicitud de beca (por razones presupuestarias no se implementa universalmente el programa). Por lo tanto, la universidad dará becas a todos los estudiantes que cumplan los tres requisitos y a algunos que solo cumplan con dos (vivir lejos y llenar el formulario).
Gráfico 1. Regresión Discontinua Borrosa: Probabilidad de participación
El hecho de que el programa se haya extendido a estudiantes con notas menores a 75, implica que la probabilidad de participación cambia discontinuamente en el punto Ā, pero no presenta un cambio brusco de cero a uno, sino que va tomando valores entre cero y uno. Esto quiere decir, que pueden existir estudiantes becados a ambos lados del umbral (y no solo a un lado como ocurre en RDN), pero se concentran significativamente al lado derecho de Ā. El hecho de que el programa se haya extendido a estudiantes con notas menores a 75, significa que pueden existir estudiantes becados a ambos lados del umbral (y no solo a un lado como ocurre en RDN), pero se concentraran significativamente al lado derecho de Ā, ya que i) el programa es dirigido principalmente para estudiantes con notas mayores a 75, y ii) los estudiantes con notas menores a 75 se les asigna cierta cantidad de becas y esta restricción hace que estos últimos se abstengan de presentar la solicitud de beca, dado que no tienen garantía de recibir la beca aunque hayan cumplido los requisitos. Por tal razón, hay un salto discontinuo justo en el punto Ā. La probabilidad de participación en el RDB no cambia estrictamente de cero a uno en el umbral. En su lugar, la probabilidad de participación en la intervención cambia discontinuamente justo en el punto Ā, esto es, existen probabilidades de participación que toman valores entre cero y uno. Nótese que no es la participación en el tratamiento lo que cambia determinísticamente de lado a lado del umbral Ā, sino la probabilidad de participación lo que cambia discontinuamente en el punto umbral Ā (Bernal y Peña, 2011: 200).
0
Z
1
Ẕ
Instrumento de focalización (umbral)
Probabilidad de participación
Fuente: Elaboración propia con base en Bernal y Peña, 2009: 201
0.5
Ministerio de Planificación Nacional y Política Económica
33
El DRB, es llamado así porque el valor del umbral no selecciona totalmente a los beneficiarios de la intervención, como se mencionó, existen algunas variables (observables o no observables) o factores que intervienen en la asignación de participación. Dos factores comunes son a) la manipulación del valor del umbral, el cual consiste, en disminuir (aumentar) el valor del umbral para asignar la participación a más o menos individuos (en el ejemplo anterior, ingresaron más estudiantes al programa, ya que se admitieron a algunos con notas menores a 75); b) comportamiento estratégico en base al umbral, los individuos pueden comportase diferente si saben que pueden optar por un beneficio si saben que son seleccionados en base al valor del umbral (por ejemplo, si los estudiantes de secundaria del último nivel conocen de antemano que el primer año universitario serán becados si obtiene notas promedios iguales o superiores a 75 , éstos harán lo posible para llegar a ese umbral). Ambos factores “contaminan” la muestra.
Ventajas de Regresión Discontinua
• “Supuestos plausibles”. Los supuestos necesarios para obtener estimaciones confiables se cumplen en la mayoría de los casos.
• Fácil de implementar. En términos relativos el DRD es fácil de implementar en la práctica. Además
es un diseño atinente para las políticas públicas focalizadas.
• Validez interna fuerte. Es rigoroso en cuanto a establecer relaciones de causalidad.
Limitaciones de Regresión Discontinua
• Estimador local. Las estimaciones de impacto se realizan con base a una sub-‐muestra (datos cercanos al punto de discontinuidad), por lo tanto, las estimaciones solo son válidas alrededor del umbral y no tienen validez externa para la población entera de interés. Esto implica que se debe tener cuidado a la hora interpretar las conclusiones y elaboración de recomendaciones (débil validez externa).
• Muestras grandes. El DRD requiere que la base de datos sea amplia alrededor del umbral.
Manipulación del valor del umbral o comportamiento estratégico. Para que este diseño RDN funcione, los individuos no deben tener el poder para manipular el umbral ni presentar un comportamiento estratégico en base al umbral (problema de incumplimiento).
• La aplicabilidad del DRD depende de un mecanismo de selección focalizado para el acceso a la
intervención. En toda intervención que no cuenta con un mecanismo de este tipo, el DRD no es aplicable.
BIBLIOGRAFÍA Bernal, R. y Peña, X. (2011). Guía Práctica para la evaluación de impacto. 1º Edición, Colombia. Ediciones Uniandes. Centro de Investigación y Capacitación en Administración Pública (CICAP) y Centro de Evaluación (CEval). (2011). Seminario de postgrado en evaluación de impacto de programas y proyectos. San José, Costa Rica. CEPAL. (2005). Manual de evaluación de impacto. Series Manuales No 47. Cristián Aedo.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
34 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Gertler, Martínez, Premand, Rawlings y Vermeersch (2011). La evaluación de impacto en la práctica. Banco Mundial. Gujarati, D. (2004). Econometría. Editorial McGraw-‐Hill Hernández Sampieri, R. y otros. (2010). Metodología de la investigación. 4 ed. México. MacGraw-‐Hill. Moral, I. (2009). Técnicas cuantitativas de evaluación de políticas públicas. I curso de evaluación de políticas públicas y programas presupuestarios. Madrid, España. Rosero, L. (2004). Evaluación del impacto de la reforma del sector de la salud en Costa Rica mediante un estudio cuasi experimental. Rev Panam Salud Pública. 2004:15 (2) 94-‐103 Rossi, M. (2011). Evaluación de impacto. Curso Uso de datos de panel y técnicas econométricas para la evaluación de impactos en proyectos. San José, Costa Rica.
Ministerio de Planificación Nacional y Política Económica
35
Impacto bruto
Todos los efectos
y/o Impactos que se han
Producido.
Impacto neto
Efectos y/o impactos de la intervención.
Efectos y/o impactos de factores externos
Producidos
adicionalmente e independientemente de la intervención
realizada.
Efectos de diseño y/o sesgos de selección
Generados de forma artificial debido a
errores de medición surgidos en el proceso
de investigación.
Material 5.2.2: Variables confusoras
Variables confusoras o Factores confusores externos
En una evaluación la etapa de interpretación de los resultados y de valoración de los hallazgos, es una parte crucial, ya que se analiza críticamente la posibilidad de que eventuales factores pudieran estar invalidando metodológicamente los resultados. El investigador (evaluador) debe ser consciente de que los resultados obtenidos pueden deberse a otros factores que no corresponden a la intervención en estudio (PPPP) y que de no ser considerados estos factores, pudieran llevar a conclusiones equivocadas. El objetivo de las evaluaciones de impacto consiste en determinar, de la forma más confiable posible, si una intervención (PPPP) es la que causa el impacto intencionado, por lo tanto se debe excluir o controlar la influencia de otros factores que también podrían ser responsables de los cambios observados. Cuando el evaluador determina todos los cambios que se han producido (impacto bruto), debe diferenciar los efectos e impactos que son ocasionados solamente por la intervención (impacto neto), de los efectos e impactos ocasionados por otros factores externos, los cuales se han producido adicionalmente e independientemente de la intervención realizada. A estos también se le suman los efectos o impactos que se pudieron generar de forma artificial debido a errores de medición surgidos en el proceso de investigación (Efectos de diseño y/o sesgos de selección). Esta situación puede representarse en la ilustración 1.
Ilustración 1: Ecuación de impacto
= + +
1. Variables confusoras El efecto de confusión se produce cuando en el análisis de una relación causal, existe distorsión en el efecto estimado, el que es producido por la presencia de una variable extraña (externa) en el estudio de la asociación causal. El efecto que puede tener la presencia de esta variable extraña en el resultado puede ser diverso: en ocasiones determina la existencia de asociaciones positivas, las que en la práctica no son reales (error de tipo I o ) o bien, pueden esconder asociaciones reales, las que en presencia de esta variable extraña, quedan enmascaradas (error de tipo II o ß).
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
36 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
El concepto de confusión es crítico en las investigaciones evaluativas, siendo más importante en el terreno de la investigación no experimental que en el campo experimental y cuasi-‐experimental. Esto se debe a que los estudios experimentales y cuasi-‐experimentales permiten un mejor control de este efecto por características inherentes a su tipo de diseño (randomización, control a priori de eventuales variables confusoras o el uso de matching o pareamiento de variables). Conceptualmente deben cumplirse algunos requisitos para considerar a una variable como potencialmente confusora, como se explica en el siguiente ejemplo en el campo de la medicina:
• La variable incriminada debe estar simultáneamente asociada con la enfermedad (variable dependiente) en estudio y con la exposición.
• Por tanto, debe ser un factor de riesgo para la enfermedad estudiada. • El factor extraño si bien es cierto debe estar asociado con la exposición (o variable
independiente), no debe ser consecuencia de ésta última. Gráficamente lo anterior corresponde a la siguiente representación:
Figura 1: Variables confusoras.
Por ejemplo, en el análisis del efecto protector del Beta Caroteno en relación con el cáncer del sistema digestivo, se encuentra evidencia favorable acerca del consumo de vegetales en la reducción del riesgo del cáncer, concluyéndose que el consumo de Beta Caroteno en la dieta rica en vegetales es una medida específica de protección contra el cáncer. Sin embargo, en este ejemplo pueden existir al menos dos posibles variables confusoras a considerar. La primera, es la edad, variable que se asocia con la incidencia de cáncer, y que podría asociarse con el nivel de consumo de verduras y hortalizas, lo que podría verificarse si en el estudio se contara con información acerca de la constitución por edad de los sujetos estudiados. Otra variable confusora podría ser el consumo de fibra en la dieta. En este caso, el nivel de consumo y tipo de fibra está relacionada simultáneamente con la variable “consumo de vegetales” y con la variable cáncer. Para ambos ejemplos de posibles variables confundentes, se cumplen las condiciones previamente
Exposición Variable dependiente
Variable independiente “extraña”
Ministerio de Planificación Nacional y Política Económica
37
señaladas para poder considerarlas como tales. De no considerarse en el análisis la presencia de ellas pudiera concluirse una recomendación errónea basándose en una relación ficticia. Para mayor claridad respecto a las características de las variables confusoras se plantearán tres situaciones hipotéticas (Figura 2):
1. Para este caso, el tabaquismo se relaciona simultáneamente con la exposición y con el desenlace u outcome. Corresponde realmente a una variable confusora.
Figura 2: Ejemplo de una variable confusora
2. En esta situación, el nivel de colesterol sérico corresponde a una variable “intermedia”, vale decir, en la cadena causal precede al daño y es consecuencia de la exposición principal en estudio. En este caso, la variable no corresponde a una variable confusora.
Figura 3: Ejemplo de una variable “intermedia”
3. Finalmente se da acá el caso en que la variable de exposición (tabaquismo) está asociada con una tercera variable (consumo de alcohol). Sin embargo, esta última, no corresponde a una variable confusora, puesto que sólo se asocia con la exposición y no con el desenlace.
Figura 4: Ejemplo de una tercera variable asociada con la exposición
Exposición ocupacional
Cáncer pulmonar
Variable independiente “Tabaquismo”
Dieta Infarto miocardio
Colesterol
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
38 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
No siempre es fácil saber si se cumplen los requisitos para que una variable sea considerada confusora. Por ejemplo, ¿cómo saber si una variable es factor de riesgo para el desenlace estudiado, si se desconocen antecedentes al respecto? Para tales efectos, es posible que en el análisis se pueda obtener información desagregando la información recogida. En un hipotético ejemplo de estudio de casos (enfermos) y controles (sanos) destinados a establecer la existencia de asociación entre la exposición al consumo de café y el riesgo de cáncer del páncreas, se estudian 100 casos y 100 de comparación, con el siguiente resultado:
Tabla 1. Ejemplo: Consumo de café y cáncer de páncreas
Consumo de café Pacientes con cáncer (enfermos)
Sujetos control (sanos)
Exposición + 30 18 Exposición -‐ 70 82
Total 100 100 Fuente de las tablas. El valor de Odds ratio23 correspondiente es: OR = 30 x 82 = 1.95 ________ 18 x 70 Con lo cual se concluye que el consumo de café está asociado con un mayor riesgo de padecer de cáncer del páncreas.
23 En la estadística, la Odds ratio es una medida de tamaño de efecto. Es el cociente de dos razones: el numerador es la razón de la probabilidad de que un evento suceda o no suceda bajo ciertas condiciones (aquí: personas expuestos a un riesgo de salud). El denominador es la razón de la probabilidad de que dicho evento suceda o no suceda bajo las condiciones complementarias (aquí: personas sin exposición al respectivo riesgo para la salud).
Tabaquismo Cáncer pulmonar
Consumo de alcohol
Ministerio de Planificación Nacional y Política Económica
39
Una posible variable de confusión en este estudio pudiera estar dada por la edad de los sujetos participantes en el estudio. Si así fuera, primeramente se debería estudiar si se cumplen los requisitos para considerar a esta variable como una variable de confusión:
Figura 5: Ejemplo de una variable confusora
En primer lugar se analizará la relación existente entre la variable edad y la variable dependiente en estudio (cáncer de páncreas), utilizando para ello información desagregada de la edad, considerada ésta dicotómicamente en menores o mayores de 40 años de edad:
Tabla 2.Ej. Consumo de café y cáncer del páncreas: casos y controles según grupo de edad
Edad (años) Pacientes con cáncer
(enfermos) Sujetos control
(sanos) Menos de 40 50 80 Más de 40 50 20
Total 100 100 Luego, el porcentaje de sujetos mayores de 40 años con cáncer es claramente superior (50%) al de sujetos sanos (20%). En una segunda etapa, se estudiará la asociación entre esta variable (edad) con la variable “exposición”.
Consumo de café
Cáncer del páncreas
Edad de los participantes
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
40 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Tabla 3.Ej. Antecedente de exposición de acuerdo a categoría de edad, casos y controles
Consumo de Café
Edad (años) Expuestos No expuestos Total % Expuesto Menores de 40 13 117 130 10 Mayores de 40 35 35 70 50
Se aprecia que la frecuencia de exposición no es uniforme en los estratos de edad, teniendo los mayores de 40 años un mayor porcentaje de exposición. Finalmente, está claro que la edad de los sujetos, así categorizada, no es consecuencia del consumo de café, con lo cual se establece el cumplimiento de los requisitos para que la variable edad pueda considerarse como eventualmente confusora.
2. Fuentes de variables confusoras en la evaluación de intervenciones públicas
Las maneras en que pueden surgir variables confusoras que inciden sobre las variables de resultado de una intervención pública, son muy diversas. Por eso es prácticamente imposible preverlas en su totalidad. Sin embargo, para diseñar la evaluación adecuadamente es importante anticipar al menos las variables confusoras más importantes lo cual es más fácil cuando se tiene conocimiento de las principales fuentes de factores externos. En términos generales, se pueden categorizar de la siguiente manera (véase Rossi, Lipsey, Freeman 2004):
Cambios exógenos
Procesos en el entorno de una intervención que pueden incidir en la variable de impacto e incrementar o disminuir su aparente resultado. Por ejemplo, si en el caso de un programa para la capacitación de jóvenes desempleados se observa un aumento del empleo, el programa se juzgará exitoso – aunque es posible, que el aumento se deba enteramente a factores externos (por ej., el crecimiento económico en la región que resulta en una mayor demanda por mano de obra calificada). Si, por el contrario, la tasa de empleo no varía, se supondrá que el programa quedó sin efecto – aunque en realidad, puede haber contrarrestado en forma significativa posibles efectos negativos de un deterioro general del mercado laboral.
Eventos “históricos”
De igual manera es posible, que eventos puntuales tengan una incidencia en la variable impacto. A diferencia de paulatinos cambios exógenos es más fácil percatarse de la ocurrencia de eventos históricos relevantes – sin embargo, puede ser igualmente difícil determinar la magnitud de su influencia y, de esta manera, establecer el impacto neto de una intervención. A modo de ejemplo, se puede referir a un programa para la introducción de nuevos métodos de producción en el sector agropecuario cuyo resultado neto queda encubierto por un desastre natural (por ej. inundaciones) que tuvieron un fuerte impacto sobre la producción agrícola en la zona afectada.
Cambios endógenos
Proyectos, programas, planes y políticas públicas que se dirigen a poblaciones objetivo en las cuales se pueden observar procesos “naturales”, sea con o sin la presencia de la intervención, ni de otros
Ministerio de Planificación Nacional y Política Económica
41
factores externos. En la medicina, una mayoría de las personas puede curarse de una enfermedad aguda aunque no haya recibido tratamiento alguno. Este efecto también se observa en casos de proyectos y programas sociales en que la intervención quiere beneficiar a una población objetivo, en la cual algunos miembros tienen la capacidad de mejorar su situación por cuenta propia.
Procesos de maduración
Intervenciones que se dirigen, por ejemplo, a niños y jóvenes que tienen que tomar en cuenta que las poblaciones de interés se encuentran en una fase en que sus características (incluyendo las variables de impacto) cambian en forma continua. Por ejemplo, una evaluación de un programa para el fomento de las habilidades lingüísticas de niños en escuela primaria tiene que lidiar con el hecho, de los niños y niñas mejorarán sus habilidades con o sin la presencia de un proyecto.
Selección no controlada de los beneficiarios
Uno de los obstáculos más importantes para la evaluación de resultados es la llamada auto-‐selección de los beneficiarios de una intervención. Es común que precisamente el segmento más accesible de la población objetivo se caracteriza por una mayor disposición al cambio. Intervenciones que se basan en la participación voluntaria de individuos, hogares u otras unidades, son casi siempre influenciadas por factores de auto-‐selección. En este caso, los impactos observados en la población beneficiaria no pueden ser generalizados para otros segmentos de la población objetivo. El problema de la auto-‐selección se parece a la deserción, es decir al fenómeno de que algunos beneficiarios dejan de participar en algún momento de la intervención (lo cual casi siempre implica que tampoco siguen siendo accesibles para la evaluación).
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
42 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
INVESTIGACIÓN CUALITATIVA: DISEÑOS, EVALUACIÓN DEL RIGOR METODOLÓGICO Y RETOS
Ana Cecilia Salgado Lévano*
Universidad de San Martín de Porres
RESUMENEl presente artículo tiene tres objetivos generales, en primer lugar brindar una visión actualizada de los principales diseños de investigación cualitativos, en segundo lugar revisar el análisis de los datos y los criterios para evaluar el rigor metodológico, y en tercer lugar, plantear algunos retos, desde dos ángulos, por un lado, la vinculación con las nuevas tecnologías de la información y comunicación y por otro, la posibilidad del trabajo conjunto entre la investigación cuantitativa y la cualitativa en lo que se ha dado por llamar los enfoques mixtos.Palabras Clave: Investigación cualitativa, diseños, análisis de datos, rigor metodológico, enfoques mixtos.
ABSTRACT
to check the analysis of the datums and the criteria to evaluate the methodological rigor, and thirdly, to outline some challenges, from two angles, on the one hand, the entail with the new technologies of the information and communication and for other one, the possibility of the joint work between the quantitative research and the qualitative one in what it has been given for calling the mixed approaches.Key Words: Qualitative research, designs, analysis of datums, methodological rigor, mixed approaches.
Generalidades
Hace varias décadas, la investigación, las metodologías y las técnicas cualitativas eran ignoradas, rechazadas o minimizadas
adscripción teórica, temática o disciplinaria, sin embargo, en la actualidad este panorama ha cambiado radicalmente y cada vez gana mayor prestigio en el mundo académico.
Según Jiménez-Domínguez (2000) los métodos cualitativos parten del supuesto básico de que el mundo social está construido
sea una pieza clave de la investigación cualitativa y punto de
de manera intersubjetiva. El objetivo y lo objetivo es el sentido
cualitativa puede ser vista como el intento de obtener una
situación tal como nos la presentan las personas, más que la producción de una medida cuantitativa de sus características o conducta.
multidisciplinario que convoca a profesionales de las más diversas disciplinas (sociólogos, antropólogos, médicos, enfermeras, psicólogos, trabajadores sociales, relacionistas públicos, entre otros) lo que lejos de ser un inconveniente aporta una gran riqueza en la producción. Sin embargo, también provoca una serie de efectos perversos, tales como, la gran variabilidad existente en la manera de afrontar el análisis: Imprecisión y confusión de conceptos, multiplicidad de métodos, más descripción que interpretación, riesgo de especulación, escasa visión de conjunto, ateorización, entre otros, hasta tal punto que
hoy día no podríamos hablar del análisis cualitativo, sino más bien de los análisis cualitativos (Amescua & Gálvez, 2002).El problema de acuerdo a algunos autores es que hay diversas visiones que se han considerado como tipos de investigación cualitativa (Tesch, 1990, ubica 26 clases) y las bases epistemológicas son variadas. Sin embargo, de acuerdo a Mertens (2005) el constructivismo es probablemente el
cualitativo, aunque algunos no estén de acuerdo. (Citado por Hernández, Fernández & Baptista, 2006).El constructivismo propone:
! socialmente, por consecuencia, múltiples construcciones mentales pueden ser “aprehendidas” sobre ésta, algunas de
proceso del estudio (Mertens, 2005).! El conocimiento es construido socialmente por las personas
que participan en la investigación.!
complejo de la experiencia vivencial desde el punto de vista de quienes la experimentan, así como, comprender sus
hechos y el conocimiento.!
investigador y no puede ser independiente de ellos.! El investigador y los individuos estudiados se involucran en
un proceso interactivo.! El conocimiento resulta de tal interacción social y de la
Según Hernández, Fernández & Baptista (2006) entre algunos
ISSN: 1729 - 4827*csalgadolevano@peru.com
Recibido: 2 de setiembre de 2007 Revisado: 5 de setiembre de 2007 Aceptado: 21 de setiembre 2007
Apartado 5.3: Diseños metodológicos cualitativos Material 5.3.1: Material de apoyo sobre evaluación cualitativa Texto: Salgado Levano, A.C. (2007): Investigación cualitativa: Diseños, Evaluación del Rigor Metodológico y Retos, en: Accesible en línea en: LIBERABIT, No. 13, 2007, pp. 71-‐78. Accesible en línea en: http://www.scielo.org.pe/pdf/liber/v13n13/a09v13n13.pdf
Ministerio de Planificación Nacional y Política Económica
43
ISSN: 1729 - 4827*csalgadolevano@peru.com
sí mismas y su entorno. Creswell (2005) señala que el diseño narrativo en diversas ocasiones es un esquema de investigación, pero también es una forma de intervención, ya que el contar una historia ayuda a procesar cuestiones que no estaban claras. Se usa frecuentemente cuando el objetivo es evaluar una sucesión de acontecimientos.
documentos, artefactos y materiales personales y testimonios (que en ocasiones se encuentran en cartas, diarios, artículos en la prensa, grabaciones radiofónicas y televisivas, entre otros).
El investigador analiza diversas cuestiones: la historia de vida,
interacciones, la secuencia de eventos y los resultados. En este proceso, el investigador reconstruye la historia de la persona o la cadena de sucesos (casi siempre de manera cronológica: de los primeros hechos a los últimos), posteriormente los narra bajo su óptica y describe (sobre la base de la evidencia
datos narrativos (que provienen de las historias contadas por los participantes, los documentos, materiales y la propia narración del investigador).
Mertens (2005) divide a los estudios narrativos en: (1) De
la narración de los participantes “en vivo”, ya sea porque fallecieron o no recuerdan a causa de su edad avanzada o
persona, grupo o comunidad incluyendo testimonios orales “en vivo” de los actores participantes).
Diseños de Investigación-Acción:
cotidianos e inmediatos, y mejorar prácticas concretas. Su propósito fundamental se centra en aportar información que guíe la toma de decisiones para programas, procesos y reformas
diseños de investigación-acción son:
! que están mejor capacitados para abordarlo en un entorno naturalista.
! importante por el entorno natural en que se encuentran.
! entornos naturalistas.
Según Stringer (1999) las tres fases esenciales de los diseños
del problema y recolectar datos), pensar (analizar e interpretar) y actuar (resolver problemas e implementar mejoras), las cuales se dan de una manera cíclica, una y otra vez, hasta que el problema es resuelto, el cambio se logra o la mejora se introduce satisfactoriamente (Citado por Hernández, Fernández & Baptista, 2006).
Creswell (2005) divide a los diseños fundamentales de la
Diseños Fenomenológicos:
Estos diseños se enfocan en las experiencias individuales
por una persona (individual), grupo (grupal) o comunidad (colectiva) respecto de un fenómeno?. El centro de indagación de estos diseños reside en la(s) experiencia(s) del participante o participantes.
Mertens, 2005 (Citado por Hernández, Fernández & Baptista, 2006) la fenomenología se fundamenta en las siguientes premisas:
! Se pretende describir y entender los fenómenos desde el punto de vista de cada participante y desde la perspectiva construida colectivamente.
!
! El investigador confía en la intuición y en la imaginación para lograr aprehender la experiencia de los participantes.
! El investigador contextualiza las experiencias en términos de su temporalidad (tiempo en que sucedieron), espacio (lugar en el cual ocurrieron), corporalidad (las personas físicas que la vivieron), y el contexto relacional (los lazos que se generaron durante las experiencias).
! documentos y materiales e historias de vida se dirigen a encontrar temas sobre experiencias cotidianas y excepcionales.
Análisis de los datos
Según Amescua & Gálvez (2002), la fase de análisis de los datos representa probablemente el lado oscuro de la investigación cualitativa. Tanto los defensores teóricos del método como los productores de investigaciones cualitativas adolecen de proporcionar escasa información sobre los modos en que transforman los datos en interpretaciones que puedan
Estos autores consideran que cualquiera que sea el estilo analítico adoptado, hay un momento en el que el investigador se
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
44 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
74
ISSN: 1729 - 4827*csalgadolevano@peru.com
encierra a solas con los datos y es entonces cuando comienzan
hacer emerger ese torrente de conceptos y proposiciones que sugiere el análisis cualitativo?.
Al respecto, Taylor & Bogdan (1990) proponen un enfoque de análisis en progreso en investigación cualitativa basado en tres
cuales están dirigidos a buscar el desarrollo de una comprensión en profundidad de los escenarios o personas que se estudian: Fase de descubrimiento: Consiste en buscar temas examinando los datos de todos los modos posibles, lo cual involucra las siguientes acciones:
! ! Seguir la pista de temas, intuiciones, interpretaciones e ideas.! Buscar los temas emergentes.! Elaborar las tipologías.! Desarrollar conceptos y proposiciones teóricas.! ! Desarrollar una guía de la historia.
Es la reunión y análisis de todos los datos
proposiciones, cuyas acciones son:! ! ! Separar los datos pertenecientes a las diversas categorías de
! Examinar los datos que no se han considerado.!
Consiste en interpretar los datos en el contexto en el que fueron recogidos, cuyas acciones son:
! Datos solicitados o no solicitados.! !
hace cuando está sola y cuando hay otros en el lugar).! Datos directos e indirectos.! Fuentes (Distinguir entre la perspectiva de una sola persona
y las de un grupo más amplio).!
Algunos autores unen a la crítica teórica una propuesta práctica
que se tiene en cuenta, entre otras cosas por ser compatible con los programas de cómputo, cuyo uso se hace cada vez más necesario. Tampoco existe un claro acuerdo entre los metodólogos, por lo que la diversidad de esquemas propuestos obliga también a buscar consensos. Huberman & Miles (2000)
proponen tres subprocesos vinculados entre sí para realizar el análisis:
, orientada a su selección y condensación, se realiza anticipadamente (al elaborar el
participantes y los instrumentos de recogida de datos), o una vez recolectados mediante la elaboración de resúmenes,
, orientada a facilitar la mirada
concentradas, como pueden ser resúmenes estructurados, sinopsis, croquis, diagramas, entre otros.
, en la que
de los datos, como pueden ser la comparación/contraste, el señalamiento de patrones y temas, la triangulación, la búsqueda de casos negativos, etc.
Evaluación del rigor metodológico
a la investigación cualitativa es la falta aparente de validez y
la investigación cuantitativa, sin embargo, a juicio de diversos autores, extrapolar estos criterios a la investigación cualitativa es contraproducente pues se violan sus propósitos, sus objetivos y su naturaleza.
que el investigador se hace durante toda la investigación es
que se hace es cómo otros investigadores juzgarán el rigor de la investigación realizada. Estos cuestionamientos han generado debates entre los investigadores de los abordajes cualitativo y cuantitativo. Algunos investigadores cualitativos
estudios cuantitativos son inapropiados para evaluar el rigor metodológico de los estudios cualitativos, por lo que proponen
En este sentido, los criterios que comúnmente se utilizan para
ende su rigor metodológico son la dependencia, credibilidad,
Mertens, 2005).
diferentes investigadores que recolecten datos similares en el campo y efectúen los mismos análisis, generen resultados equivalentes. De acuerdo a Franklin & Ballau (2005) existen dos clases de dependencia, la interna (Grado en el cual diversos investigadores, al menos dos, generan temas similares
Ministerio de Planificación Nacional y Política Económica
45
75
ISSN: 1729 - 4827*csalgadolevano@peru.com
con los mismos datos) y la externa (Grado en que diversos investigadores generan temas similares en el mismo ambiente y período, pero cada quien recaba sus propios datos). En ambos
cualitativo (Citado por Hernández, Fernández & Baptista, 2006).
sesgos que pueda introducir el investigador en la sistematización durante la tarea en el campo y el análisis, el que se disponga de una sola fuente de datos y la inexperiencia del investigador para
se logra cuando el investigador, a través de observaciones y conversaciones prolongadas con los participantes en el estudio, recolecta información que produce hallazgos que son reconocidos por los informantes como una verdadera aproximación sobre lo que ellos piensan y sienten. Así entonces, la credibilidad
verdaderos para las personas que fueron estudiadas y para otras personas que han experimentado o estado en contacto con el fenómeno investigado. Algunas preguntas que le sirven a los evaluadores de trabajos de investigación cualitativa para determinar la credibilidad son:
! investigador?. Es decir, si se consideraron los efectos de la presencia del investigador sobre la naturaleza de los datos.
! surgieron de sus acciones y de sus interacciones durante la investigación?.
! y experiencias en relación con la experiencia de los informantes?.
! recolección de datos para determinar la congruencia entre los resultados?.
!
los resultados del estudio?.!
investigadores?.!
aplicables en su propio contexto?.
El tercer elemento del rigor metodológico es la auditabilidad,
habilidad de otro investigador de seguir la pista o la ruta de lo
registro y documentación completa de las decisiones e ideas que el investigador haya tenido en relación con el estudio. Esta estrategia permite que otro investigador examine los datos y pueda llegar a conclusiones iguales o similares a las
del investigador original, siempre y cuando tengan perspectivas
si un trabajo de investigación cualitativa cumple con este criterio:
! otros mecanismos de grabación?.
! proceso de selección?.
! informantes?.
! discutidos en la presentación del informe de investigación?.
extender los resultados del estudio a otras poblaciones. En la investigación cualitativa la audiencia o el lector del informe son los que determinan si pueden transferir los hallazgos a
se describa densamente el lugar y las características de las
de transferibilidad es una función directa de la similitud entre los
grado de transferibilidad de los resultados de una investigación cualitativa son:
! los informantes?.
! datos como un todo?.
no existe un método mágico de indagación que garantice la validez de los hallazgos, la pura “corrección metodológica” no produce datos válidos. Más allá de las distintas orientaciones
ha dado un cambio en la forma de ver las realidades sociales: de modo simple se ha pasado a verlas de manera compleja y
(derivada de la complejidad, diversidad, indeterminación, apertura y causalidad mutua de lo real), en contra de los
(en un marco de referencias intersubjetivas), y explícitamente
cotidiana (Citado por Jiménez-Domínguez, 2000).
Algunos retos
Analizaremos dos de los retos más importantes a los cuales se enfrenta la investigación cualitativa, la primera es su vinculación con las nuevas tecnologías de la información y comunicación, y la segunda, es la posibilidad de dejar atrás las disputas irreconciliables con la investigación cuantitativa, postulando el trabajo conjunto a través de los enfoques mixtos.
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
46 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
76
ISSN: 1729 - 4827*csalgadolevano@peru.com
La Investigación Cualitativa y las nuevas Tecnologías de la Información y Comunicación
la comunicación e interacción tecnológica en la sociedad ha provocado profundas y veloces transformaciones que afectan a
las nuevas tecnologías de la información y comunicación, en el
en la investigación cualitativa supone un potencial temático como metodológico para el estudio de la problemática social. Hoy en día los investigadores en general y particularmente los investigadores en el plano cualitativo, ya no están restringidos a un simple lápiz, a un cuaderno de notas, a un sentido diligente de la vista, a una grabadora de audio, o a un simple ordenador, ya que el desarrollo tecnológico ha proporcionado diferentes herramientas y aplicaciones tecnológicas, y con ellas nuevos entornos y formas de investigar, nuevos tipos de datos, nuevas formas de recolectarlos, almacenarlos, analizarlos y
aún más la labor que han venido realizando los investigadores cualitativos.
Estos mismos autores, postulan que las tecnologías de la información y comunicación han generado muchas oportunidades para que las personas se pongan en contacto, interactúen, opinen y construyan en grupo. De esta forma nos movemos hacia otra cultura de investigación, hacia
telemáticas, en especial Internet, ofrecen la posibilidad de comunicación e interacción con personas de todo el mundo
instancias más recurridas para estos intercambios son el correo electrónico, las listas de distribución, los grupos de noticias, los foros de discusión, los chats, weblogs y wikis, entre otros. De esta manera, las redes telemáticas no son caminos que van a cualquier parte, sino que conforman una comunidad de comunidades, un mundo paralelo, creado y sustentado por las tecnologías de la información y comunicación, por lo cual urge que el investigador tenga cada vez más un dominio informático que le garantice su labor investigadora.
Sin embargo, el panorama de vincular el desarrollo tecnológico con los avances en la investigación cualitativa, no es sencillo, muy por el contrario se presenta difícil y espinoso en algunos casos. Al respecto, Amescua & Gálvez (2002) consideran que una interrogante de nuestros días es sobre el verdadero papel que juega el ordenador en el análisis cualitativo. Como todas las innovaciones, la máquina de la era de la información genera posiciones encontradas entre quienes la han incorporado y pretenden ver un mundo inacabable de posibilidades y los partidarios de continuar haciendo las cosas
un área principal de especialización dentro del análisis. Al menos en teoría, cualquier forma de análisis cualitativo podría
ser asistida por ordenador a través de programas informáticos creados a tal efecto, que facilitan el manejo mecánico de los
Ethnograph, Aquad, Nudist o Atlas-Ti, resultan sumamente útiles en las fases instrumentales del análisis para realizar
siendo especialmente útiles cuando se trabaja simultáneamente con grandes cantidades de información (Citado por Gil, Conti,
Qualpro, Qualog y WinMax que evolucionan con vertiginosidad, prácticamente todos sirven para las etapas del análisis:
interpretación de datos, descubrimiento de patrones y generación de teoría fundamentada, además de que ayudan a establecer hipótesis, así mismo, todos recuperan y editan texto, lo mismo que numeran líneas o unidades de contenido.
al análisis -texto, video, audio, esquemas, diagramas, mapas,
Baptista, 2006).
No obstante, este alentador panorama, algunos autores han alertado sobre las grandes limitaciones que entraña el análisis asistido por ordenador, como por ejemplo, el fraccionamiento de la información, la pérdida de la visión de conjunto y la descontextualización. También existiría el riesgo de quedarse atrapado por la seducción de la herramienta, reduciendo el análisis a simples operaciones mecánicas y perdiendo de vista el verdadero objeto del análisis, que es la interpretación de los datos, una operación que difícilmente puede hacer un programa informático por sí solo. No cabe duda que el ordenador constituye una ayuda importante como servidor con un gran potencial para la realización de las tareas de rutina y como apoyo a la elaboración conceptual y teórica, pero no puede reemplazar la capacidad deductiva del investigador. (Amescua & Gálvez, 2002).
¿Es posible trabajar con ambos enfoques: El cuantitativo y el cualitativo?
Durante el desarrollo de la ciencia, han surgido diversas corrientes de pensamiento, así como diferentes marcos interpretativos, que han originado diferentes rutas en la búsqueda del conocimiento, dando como consecuencia dos polos opuestos y aparentemente antagónicos, el enfoque cuantitativo y el enfoque cualitativo de
irreconciliables?.
Según Jiménez-Domínguez (2000) se suelen contraponer lo cualitativo a lo cuantitativo como uno de los rasgos distintivos de la investigación cualitativa. Sin embargo, el asunto es mucho
Ministerio de Planificación Nacional y Política Económica
47
77
ISSN: 1729 - 4827*csalgadolevano@peru.com
Se supone que esta separación marca el acceso diferente al mundo natural y al social, el contraste entre lo objetivo y lo
medición está marcada por la subjetividad, dado que lo que se mide es lo que decide la persona que hace la medición, y en ese sentido se puede decir también que no hay mediciones físicas, sino sociales del mundo físico. Es claro que una cantidad es
(1985), es una cantidad de una cualidad: lo cuantitativo es una
cuantitativo se alude a un intento de matematización, pero el concepto más general en matemáticas no es el de número,
la cualitativa en ciencias sociales se insertan en procesos de
además, hay órdenes no cuantitativos, como los que abordan las
si bien mayoritariamente se consideran cuantitativas, también producen investigación que es cualitativa.
Mayntz, Holm & Hübner (1985) plantean que la diferencia entre lo cuantitativo y lo cualitativo es provisional y poco
un proceso de construcción de conocimiento un investigador pueda recurrir a una forma sin utilizar la otra. Es falsa la separación entre métodos empíricos e interpretativos como dos formas distintas de construir conocimiento, lo cual se sustenta en la noción de que es imposible observar sin interpretar, así como interpretar sin observar. Estas diferencias entre hacer investigación de corte cuantitativo y de corte cualitativo, según este autor, responden más bien a posturas de tipo ideológicas, son asuntos que se relacionan más con creencias y formaciones, que con estar construyendo conocimiento realmente por mecanismos distintos. En la práctica, no son separables, todos los investigadores deben observar de forma sistematizada
investigadores de las ciencias sociales, sino a los de las ciencias naturales. Así como el método natural-empírico aporta a las áreas sociales, el método hermenéutico-interpretativista aporta
diferencias realmente claras radican en la naturaleza distinta de sus objetos de estudio, en la naturaleza distinta de sus variables y en los objetivos particulares de cada investigación.
Desde 1980 se ha iniciado el debate sobre la legitimidad de la investigación mixta, es decir, la posibilidad de realizar estudios complementando tanto la investigación cuantitativa como la cualitativa. Desde entonces, si bien es cierto han existido opiniones polarizadas de rechazo y aceptación, es innegable que ha seguido analizándose, debatiéndose y planteándose una nueva visión que avala, fundamenta y enriquece la utilización de ambas investigaciones, en lo que ha dado por llamarse el Enfoque Integrado Multimodal, también conocido como
Baptista, 2006).
El siglo XXI ha comenzado con una tercera vía, referida a la tendencia cada vez mayor de unir ambos enfoques, prueba de ello, es que durante esta década el enfoque mixto ya se aplica en diversos campos como la Educación, la Comunicación,
embargo, no podemos dejar de señalar que este enfoque enfrenta escepticismo entre algunos colegas, en especial entre quienes se muestran radicales ante algunas de estas posturas, particularmente los fundamentalistas metodológicos
desdeñan el otro, ya sea que hayan adoptado el cuantitativo y menosprecian al cualitativo, ubicándolo como “pseudociencia”
que han adoptado al cualitativo y desprecian al cuantitativo -considerándolo impersonal, incapaz de capturar el verdadero
de considerar que ambos enfoques utilizados conjuntamente
manera importante, ya que no se excluyen ni se sustituyen, sino que se complementan.
cuantitativo y cualitativo son únicamente “posibles elecciones u opciones” para enfrentar problemas de investigación, más que paradigmas o posiciones epistemológicas (Todd, Nerlich &
(2004), un método o proceso no es válido o inválido por sí
resulta ser una propiedad inherente de un método o proceso en particular, sino que atañe a los datos recolectados, los análisis efectuados, y las explicaciones y conclusiones alcanzadas por
particular (Citado por Hernández, Fernández & Baptista, 2006).
Coincidimos con Henwood (2004) al señalar que insistir en que los enfoques cuantitativo y cualitativo son diferentes no nos lleva a ninguna parte, la polarización de enfoques es hipercrítica, restringe el quehacer del investigador y bloquea nuevos caminos para incluir, extender, revisar y reinventar las
posición que promueve más la innovación en las ciencias.
Hay mucho que decir de la investigación cualitativa, falta aún un largo camino por recorrer en el análisis y evaluación. Coincidimos con Mercado-Martínez (2002) en que la producción
MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
48 SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
78
ISSN: 1729 - 4827*csalgadolevano@peru.com
generada hasta el momento en el campo de la investigación cualitativa ha sido de enorme riqueza en algunas áreas debido al esfuerzo de algunos investigadores y grupos de trabajo. Sin embargo, hace falta una evaluación sistemática de la producción en su conjunto, de las orientaciones teóricas, las temáticas y las experiencias generadas en las diferentes disciplinas.
Hoy más que nunca urge que el investigador se nutra y se alimente de los últimos avances que se dan en la comunidad
pues sólo así estará en condiciones de responder a los retos y desafíos que presenta el actual milenio.
REFERENCIAS
557272002000500005
Española de Investigación Social, Núm. 29, pp. 7-41.
Bernal, C. (2006). Metodología de la Investigación. México:
Investigación Cualitativa. Index Enferm
Glaser, B. & Strauss, A.(1967). . Chicago: Aldine.
.
principles and practices from beyond the quality-quantity
divide. En: Todd, Z., Nerlich, B., Mckeown, S. & Clarke, D. (Eds.).
. México: Mc Graw Hill.
Huberman, A. & Miles, M. (2000). Métodos para el manejo y el análisis de datos. En: Denman, C., Haro, J. (Comp.).
social
, Núm. 29, pp. 85-127.
Ibáñez, J. (1994). . Madrid: Siglo XXI.
Jiménez-Domínguez, B. (2000).Investigación cualitativa y psicología social crítica. Contra la lógica binaria y la ilusión de la pureza. de octubre del 2007 de:
. Madrid: Alianza.
Mercado-Martínez, F. (2002). Investigación cualitativa en International
1 (1)
Mertens, D. (2005).
and mixed methods
nuevos espacios para la investigación cualitativa. Sánchez,
www.usal.es/~teoriaeducacion/rev_numero_08_01/n8_01_orellana_lopez_sanchez_gomez>
cotidiana
interpretado: la falsedad del empirismo y del interpretativismo como métodos distintos. Episteme
episteme/numero5-05/
Recommended