Download pdf - Anexo: Análisis de encuestas - Aula Virtual de Países ... · PDF fileAnexo: Análisis de encuestas Como mencionamos en el módulo 3 del curso, ... Para poder interpretar los datos

Anexo: Análisis de encuestas

Como mencionamos en el módulo 3 del curso, para analizar encuestas es necesario considerar cuál fue la estructura del diseño de muestreo utilizado,

y de esta forma poder realizar un análisis correcto de los datos capturados durante la encuesta. Conocer el plan de muestreo nos permite saber cuáles

fueron las etapas del diseño y cómo fueron seleccionados los individuos encuestados.

Para poder interpretar los datos y realizar inferencias sobre los mismos de forma correcta debemos considerar por un lado la probabilidad de selección

de cada observación de la muestra (individuos encuestados), que nos permitirá saber cuál es el peso de cada uno de ellos en la muestra. (Peso o

Weight = Inversa de la probabilidad de ser seleccionado). Este valor se representa como peso (o weight), y expresa a cuántas

personas de la población total representa la observación. Dado que habitualmente todas las observaciones no tienen la misma probabilidad de

ser seleccionadas, los pesos varían, y deben ser considerados para obtener una estimación puntual (prevalencia, promedios y totales) correcta.

Resumiendo: tenemos una muestra que representa a la población en estudio para la cual tengo que conocer la probabilidad de cada una de las

unidades de muestreo para saber su peso (a cuántos representa en el total) y de esta forma poder realizar análisis correctos.

Al realizar el análisis de la información de la encuesta, además de los pesos, debemos saber si el diseño de muestreo utilizó conglomerados para la

información de las unidades de primera etapa (primary sample units o PSU), así como si se utilizó un muestreo estratificado.

Si no consideráramos en nuestro análisis cualquiera de las etapas del diseño de muestreo, podríamos incurrir en errores en la interpretación de los datos

a analizar. En general en la base de datos de una encuesta a analizar debemos contar,

al menos, con las siguientes variables:

Peso (o weight) Estratos (a veces no se utilizan) Unidades de primera etapa (o PSU)

Variable de interés o dependiente (puede ser categórica o continua) Variables independientes (por ejemplo sexo, grupos de edad, área

geográfica, etc.)

A continuación realizaremos un ejemplo utilizando 3 programas distintos que nos permitirán analizar los datos de una encuesta: Epi info version 7,

SPSS y Stata

El ejemplo que vamos a analizar esta contenido en un archivo Excel

(ejercicio1.xls) el cual contiene las siguientes variables:

w_pers: variable numérica, peso para realizar ponderación (inversa de probabilidades de muestreo, WEIGHT)

prvnc: variable categórica, códigos de provincia rangedad: variable categórica ordinal, rangos de edad

etapanew: variable categórica, primera etapa de muestreo (PSU) edad: variable numérica, edad en años sexo: variable categórica, 1 hombres 0 mujeres

obesidad: variable categórica, 1 obeso, 0 no obeso.

Epi info versión 7

Epi Info es un programa de dominio público gratuito diseñado por el Centro para el Control de Enfermedades de Atlanta (CDC) de especial

utilidad para la Salud Pública. Tiene un sistema fácil para construir bases de datos, analizarlas con las estadísticas de uso básico en epidemiología, y

representar los datos con gráficos y mapas.

Puede descargar la última versión del EPI INFO en el siguiente link: http://wwwn.cdc.gov/epiinfo/7/

Tengan en cuenta que el proceso de instalación del programa puede

demorar unos minutos.

1) Acceso al programa

Al abrir el programa, se va a desplegar la siguiente ventana

http://wwwn.cdc.gov/epiinfo/7/

Clickear dentro de la sección "Analyze data" el botón "Classic"

2) Importar una base de datos.

Seleccionar del menú el comando "Read", que permite buscar una base de datos en distintos formatos. En nuestro caso, importamos un archivo de MS

Excel llamado "ejercicio1.xls" con una muestra de la base de datos de la ENFR 2009 que utilizaremos como ejemplo. (Epi info 7 importa también bases en Ms Access y SQL).

a) Seleccionamos el tipo de archivo. En nuestro caso Microsoft Excel 97-

2003

b) En la sección de “Data Source” buscamos nuestro archivo de Excel

c) Al final del campo “Location” debemos hacer clic en el botón con la línea de puntos para hacer la búsqueda del archivo en nuestra computadora.

Atención! Antes de ejecutar este paso debemos guardar el archivo de Excel “ejercicio1” en nuestra computadora.

El paso siguiente es simplemente seleccionar la pestaña del archivo Excel

que deseamos analizar. En nuestro caso “ejercicio1$” (a) y luego hago click en “ok” (b). Con esta acción el programa ha seleccionado la

información a analizar.

a

b

c

3) Seleccionar el módulo de análisis de encuestas

Una vez que el programa ha leído la base de datos, seleccionar del menú:

Advanced statistics>>>Complex Sample Tables

En este ejercicio vamos a analizar la variable Obesidad, que será nuestra

variable de resultado o Outcome Variable. Podremos elegir diversas variables de exposición (Exposure Variable) como el sexo, la edad, el lugar

de residencia, etc. Veamos como analizar la prevalencia de obesidad por provincia:

a

b

En este menú es necesario seleccionar:

Exposure variable: variable independiente, en este caso

seleccionamos "prvnc" que es la provincia. Outcome variable: variable dependiente “Obesidad”, en este caso

que es obesidad expresada como 1=Sí, 0=No

Weight: peso o inversa de probabilidad de selección, en este caso "w_pers"

Primary Sampling Unit: unidad de primera etapa, en este caso localidades, codificadas en la variable "etapanew"

En este caso no aplica la estratificación

La sintaxis en el Editor de datos se leerá:

TABLES prvnc obesidad WEIGHTVAR=w_pers PSUVAR=etapanew

Este comando producirá una tabla que estimará la prevalencia de obesidad

por provincia, junto con su intervalo de confianza del 95%

4) Resultados

En negrita podemos ver la prevalencia de obesidad (obesidad=1) para la

provincia número 2 (13,5%). El n o total de registros para obesidad=1 es de 146. El intervalo de confianza 95% (LCL low confidence limit) de 11,3% a 15,6% (UCL upper confidence limit).

Podemos realizar una tabla de obesidad por sexo para todas las

provincias, o por provincia. Veamos un ejemplo para la provincia nro 2. Utilizando el comando SELECT del menú de la derecha (dentro de la sección

select/if), seleccionamos la variable prvnc de las variables disponibles (Available variables) y la igualamos a 2 (utilizando el botón “=”).

Luego volvemos a correr la tabla pero esta vez seleccionando la variable

“Sexo” como variable de exposición. El resto de las variables permanecen igual que en el análisis previo.

En la sección de Resultados (Output) veremos una tabla que expresará la

prevalencia de obesidad según el sexo (femenino=0; masculino=1) en la provincia 2.

Otra manera de ejecutar comandos es desde la sección de “Program Editor”, desde donde podemos editar una tabla obtenida previamente para

crear una nueva tabla, en este caso, de obesidad por sexo. SELECT prvnc=2

TABLES sexo obesidad WEIGHTVAR=w_pers PSUVAR=etapanew

Seleccionamos con el mouse ambas líneas y hacemos click en el botón

“Run Commands”

5) ¿Cómo exportar las tablas de resultados?

La manera mas fácil de exportar las tablas que necesitamos, es seleccionándolas directamente de la sección de resultados (Output

Windows), para luego copiarlas y pegarlas en un archivo de Word o Excel. Otra forma de hacerlo desde los comandos es a través del menú principal

en la sección “Output” seleccionar “RouteOut” y luego seleccionar el lugar donde van a ubicar el archivo de salida (formato html)

En este caso, la prevalencia de

obesidad es de 10,1% en

mujeres y 17,4% en hombres

Las tablas se pueden copiar directamente una vez abiertos los archivos en html.

SPSS

Es uno de los programas estadísticos más conocidos teniendo en cuenta su capacidad para trabajar con grandes bases de datos y una sencilla interfase

para la mayoría de los análisis. El software no es de distribución gratuita y su última versión es la número # 20.

A continuación una breve descripción del proceso en SPSS

1) Importar/Abrir la base de datos

SPSS importa bases en texto, Ms Excel y Access.

Desde el menú Archivo >>(Abrir)>> (Datos)

Para poder ver todos los archivos en la sección “Archivos Tipo” seleccionamos la opción: “Todos los archivos”, luego seleccionamos nuestro

ejemplo “ejercicio1.xls” y luego hacemos click en el botón “ABRIR”. Se nos va a desplegar la siguiente ventana.

Luego de hacer click en el botón “Aceptar” el archivo se va a desplegar en SPSS

2) Configurar para el análisis

En forma similar a Epi info, necesitamos introducir las variables de peso (weight), unidad de primera etapa (primary sampling unit), estratos si los hubiera (strata), generando un archivo que será un "plan file" (plan de

análisis), que requerirá ser abierto en cada sesión que se analice la encuesta de interés.

Para crear el plan de análisis es necesario ingresar al menú Analizar>>Muestras Complejas>>Preparar para el análisis

Luego de crear un plan, seleccionar las variables (weight, psu, strata) y seleccionar el método "con reemplazo".

En la sección archivo hacer click en examinar y elegimos el lugar donde vamos a guardar nuestro plan de análisis y el nombre.

Luego hacemos la selección de nuestras variables que nos van a permitir

crear el archivo para el plan de análisis.

Hacemos click en siguiente:

A partir de aquí se puede finalizar y guardar el plan de análisis, y luego

abrirlo para futuros análisis.

Una vez creado el archivo de plan de análisis, desde el menú

"Analizar">>"Muestras Complejas”>>”Tablas de contingencia” y en la pantalla siguiente clic a “Continuar”.

En este caso, seleccionamos cruzar la variable provincia con obesidad.

En el botón “Estadísticos” Seleccionamos “% por fila” para la obesidad por

provincia con su intervalo de confianza 95%.

Nota: De solicitarse en las celdas de la tabla "Tamaño de la Población",

tener en cuenta que es la estimación del total poblacional obtenida a partir de la suma de los pesos, y no del total de encuestados de la muestra (total no ponderado).

3) Realizar el análisis (variables categóricas)

Se obtiene la tabla con las prevalencias por provincia

STATA

Es un software para el manejo de datos y análisis estadístico. La distribución no es gratuita y su última versión es la número 13.

1) Importar/Abrir la base de datos

Las nuevas versiones de STATA permiten importar desde archivos de texto

y planillas de MS Excel

Import excel "C:\Mis documentos\ejercicio1.xls", sheet("ejercicio1") firstrow 2) Configurar para el análisis

Al igual que los softwares anteriores, debe configurarse el diseño de

muestra antes de realizar el análisis, con el comando " svyset". svyset etapanew [pweight=w_pers]

3) Realizar el análisis (variables categóricas)

Para obtener la tabla y las prevalencias en este caso, es similar al código para obtener tablas convencionales, con la especificación que son tablas

para encuestas ("svy").

svy linearized : tabulate prvnc obesidad, row ci

Number of strata = 1 Number of obs = 32448

Number of PSUs = 323 Population size = 23144680

Design df = 322

----------------------------------------------------------------------

| obesidad

prvnc | normal sobrepes obesidad Total

----------+-----------------------------------------------------------

ciudad d | .5425 .3224 .1351 1

| [.5098,.5748] [.2902,.3563] [.1152,.1579]

|

6 | .4574 .3541 .1885 1

| [.4416,.4733] [.3467,.3615] [.1772,.2004]

|

10 | .417 .3511 .2318 1

| [.4045,.4296] [.3209,.3826] [.2105,.2546]

|

14 | .4786 .3616 .1599 1

| [.459,.4982] [.3414,.3822] [.1376,.1849]

|

18 | .4723 .3491 .1787 1

| [.423,.5222] [.3059,.3948] [.1655,.1926]

|

22 | .4582 .3771 .1647 1

| [.4229,.4939] [.3437,.4117] [.1529,.1773]

|

26 | .4352 .3462 .2186 1

| [.4037,.4673] [.3245,.3685] [.2056,.2323]

|

30 | .4812 .3597 .1591 1

| [.4579,.5045] [.3389,.3811] [.1364,.1848]

|

34 | .4696 .3343 .1961 1

| [.432,.5075] [.289,.3829] [.1795,.2139]

|

38 | .4558 .3672 .177 1

| [.4261,.4859] [.3511,.3836] [.1394,.2221]

|

42 | .4466 .3805 .1729 1

| [.4349,.4583] [.3672,.3941] [.1537,.1939]

|

46 | .4205 .3686 .211 1

| [.3887,.4529] [.3525,.3849] [.1943,.2287]

|

50 | .4418 .3513 .2069 1

| [.4131,.4709] [.3403,.3624] [.1815,.2348]

|

54 | .5245 .3366 .1389 1

| [.4809,.5676] [.3112,.3631] [.1086,.1759]

|

58 | .465 .3532 .1818 1

| [.428,.5023] [.3194,.3885] [.1754,.1884]

|

62 | .428 .3891 .1829 1

| [.383,.4741] [.3683,.4103] [.136,.2415]

|

66 | .4636 .3731 .1633 1

| [.4449,.4824] [.346,.401] [.1335,.1982]

|

70 | .437 .3858 .1773 1

| [.4308,.4432] [.3723,.3995] [.1602,.1957]

|

74 | .473 .3561 .1708 1

| [.4293,.5172] [.3108,.4042] [.1538,.1893]

|

78 | .3903 .3744 .2354 1

| [.3815,.3991] [.3637,.3851] [.2211,.2502]

|

82 | .4392 .3586 .2023 1

| [.4234,.455] [.3438,.3736] [.1848,.221]

|

86 | .4713 .3322 .1965 1

| [.46,.4826] [.3235,.341] [.1901,.2031]

|

90 | .4192 .3846 .1962 1

| [.389,.4499] [.3331,.4389] [.1745,.22]

|

94 | .4373 .3536 .2091 1

| [.4373,.4373] [.3536,.3536] [.2091,.2091]

|

Total | .4654 .3545 .1802 1

| [.4534,.4773] [.3486,.3604] [.1696,.1913]

----------------------------------------------------------------------

Key: row proportions

[95% confidence intervals for row proportions]

Pearson:

Uncorrected chi2(46) = 170.6582

Design-based F(17.39, 5598.57)= 4.7307 P = 0.0000

Otros Softwares

El paquete estadístico SAS permite el análisis de muestras complejas con los procedimientos SURVEYFREQ para frecuencias y tablas (a partir de la

versión 9)

El paquete estadístico R cuenta con dos procedimientos, svydesign para determinar el diseño de la muestra y comandos como svymean o svyby para obtener medias y proporciones.

La programación básica para R es la siguiente: deberán cargarse los

packages correspondientes, como "survey", XLconnect, además de los básicos como stats, MASS, etc. Las funciones "survey" no están disponibles en R commander.

> .Workbook <-

loadWorkbook("C:/Users/Owner/Desktop/MinS/Epi_Info_7/ejercicio1.xls")

> ejercicio1 <- readWorksheet(.Workbook, "ejercicio1")

> remove(.Workbook)

> dclus <- svydesign(id=~etapanew, weights=~w_pers, data=ejercicio1)

> a <- svyby(~obesidad, ~prvnc, dclus, svymean,vartype="ci")

> a

Se obtiene una tabla con la prevalencia de obesidad por provincia y su IC

95%

prvnc obesidad ci_l ci_u

2 2 0.1351209 0.1138898 0.1563520

6 6 0.1885113 0.1769812 0.2000414

10 10 0.2318322 0.2098488 0.2538155

14 14 0.1598538 0.1363495 0.1833580

18 18 0.1786560 0.1651509 0.1921611

22 22 0.1647320 0.1525873 0.1768767

26 26 0.2186259 0.2053437 0.2319080

30 30 0.1591201 0.1350039 0.1832364

34 34 0.1961445 0.1789830 0.2133060

38 38 0.1769984 0.1358431 0.2181537

42 42 0.1728717 0.1528158 0.1929276

46 46 0.2109836 0.1938155 0.2281518

50 50 0.2068863 0.1803215 0.2334510

54 54 0.1388921 0.1055021 0.1722820

58 58 0.1818403 0.1753775 0.1883031

62 62 0.1829113 0.1304339 0.2353887

66 66 0.1632583 0.1310830 0.1954335

70 70 0.1772599 0.1595530 0.1949668

74 74 0.1708052 0.1531204 0.1884900

78 78 0.2353680 0.2208828 0.2498531

82 82 0.2022978 0.1842686 0.2203270

86 86 0.1965404 0.1900673 0.2030134

90 90 0.1962246 0.1735448 0.2189044

94 94 0.2090675 0.2090675 0.2090675