Anexo: Análisis de encuestas
Como mencionamos en el módulo 3 del curso, para analizar encuestas es necesario considerar cuál fue la estructura del diseño de muestreo utilizado,
y de esta forma poder realizar un análisis correcto de los datos capturados durante la encuesta. Conocer el plan de muestreo nos permite saber cuáles
fueron las etapas del diseño y cómo fueron seleccionados los individuos encuestados.
Para poder interpretar los datos y realizar inferencias sobre los mismos de forma correcta debemos considerar por un lado la probabilidad de selección
de cada observación de la muestra (individuos encuestados), que nos permitirá saber cuál es el peso de cada uno de ellos en la muestra. (Peso o
Weight = Inversa de la probabilidad de ser seleccionado). Este valor se representa como peso (o weight), y expresa a cuántas
personas de la población total representa la observación. Dado que habitualmente todas las observaciones no tienen la misma probabilidad de
ser seleccionadas, los pesos varían, y deben ser considerados para obtener una estimación puntual (prevalencia, promedios y totales) correcta.
Resumiendo: tenemos una muestra que representa a la población en estudio para la cual tengo que conocer la probabilidad de cada una de las
unidades de muestreo para saber su peso (a cuántos representa en el total) y de esta forma poder realizar análisis correctos.
Al realizar el análisis de la información de la encuesta, además de los pesos, debemos saber si el diseño de muestreo utilizó conglomerados para la
información de las unidades de primera etapa (primary sample units o PSU), así como si se utilizó un muestreo estratificado.
Si no consideráramos en nuestro análisis cualquiera de las etapas del diseño de muestreo, podríamos incurrir en errores en la interpretación de los datos
a analizar. En general en la base de datos de una encuesta a analizar debemos contar,
al menos, con las siguientes variables:
Peso (o weight) Estratos (a veces no se utilizan) Unidades de primera etapa (o PSU)
Variable de interés o dependiente (puede ser categórica o continua) Variables independientes (por ejemplo sexo, grupos de edad, área
geográfica, etc.)
A continuación realizaremos un ejemplo utilizando 3 programas distintos que nos permitirán analizar los datos de una encuesta: Epi info version 7,
SPSS y Stata
El ejemplo que vamos a analizar esta contenido en un archivo Excel
(ejercicio1.xls) el cual contiene las siguientes variables:
w_pers: variable numérica, peso para realizar ponderación (inversa de probabilidades de muestreo, WEIGHT)
prvnc: variable categórica, códigos de provincia rangedad: variable categórica ordinal, rangos de edad
etapanew: variable categórica, primera etapa de muestreo (PSU) edad: variable numérica, edad en años sexo: variable categórica, 1 hombres 0 mujeres
obesidad: variable categórica, 1 obeso, 0 no obeso.
Epi info versión 7
Epi Info es un programa de dominio público gratuito diseñado por el Centro para el Control de Enfermedades de Atlanta (CDC) de especial
utilidad para la Salud Pública. Tiene un sistema fácil para construir bases de datos, analizarlas con las estadísticas de uso básico en epidemiología, y
representar los datos con gráficos y mapas.
Puede descargar la última versión del EPI INFO en el siguiente link: http://wwwn.cdc.gov/epiinfo/7/
Tengan en cuenta que el proceso de instalación del programa puede
demorar unos minutos.
1) Acceso al programa
Al abrir el programa, se va a desplegar la siguiente ventana
Clickear dentro de la sección "Analyze data" el botón "Classic"
2) Importar una base de datos.
Seleccionar del menú el comando "Read", que permite buscar una base de datos en distintos formatos. En nuestro caso, importamos un archivo de MS
Excel llamado "ejercicio1.xls" con una muestra de la base de datos de la ENFR 2009 que utilizaremos como ejemplo. (Epi info 7 importa también bases en Ms Access y SQL).
a) Seleccionamos el tipo de archivo. En nuestro caso Microsoft Excel 97-
2003
b) En la sección de “Data Source” buscamos nuestro archivo de Excel
c) Al final del campo “Location” debemos hacer clic en el botón con la línea de puntos para hacer la búsqueda del archivo en nuestra computadora.
Atención! Antes de ejecutar este paso debemos guardar el archivo de Excel “ejercicio1” en nuestra computadora.
El paso siguiente es simplemente seleccionar la pestaña del archivo Excel
que deseamos analizar. En nuestro caso “ejercicio1$” (a) y luego hago click en “ok” (b). Con esta acción el programa ha seleccionado la
información a analizar.
a
b
c
3) Seleccionar el módulo de análisis de encuestas
Una vez que el programa ha leído la base de datos, seleccionar del menú:
Advanced statistics>>>Complex Sample Tables
En este ejercicio vamos a analizar la variable Obesidad, que será nuestra
variable de resultado o Outcome Variable. Podremos elegir diversas variables de exposición (Exposure Variable) como el sexo, la edad, el lugar
de residencia, etc. Veamos como analizar la prevalencia de obesidad por provincia:
a
b
En este menú es necesario seleccionar:
Exposure variable: variable independiente, en este caso
seleccionamos "prvnc" que es la provincia. Outcome variable: variable dependiente “Obesidad”, en este caso
que es obesidad expresada como 1=Sí, 0=No
Weight: peso o inversa de probabilidad de selección, en este caso "w_pers"
Primary Sampling Unit: unidad de primera etapa, en este caso localidades, codificadas en la variable "etapanew"
En este caso no aplica la estratificación
La sintaxis en el Editor de datos se leerá:
TABLES prvnc obesidad WEIGHTVAR=w_pers PSUVAR=etapanew
Este comando producirá una tabla que estimará la prevalencia de obesidad
por provincia, junto con su intervalo de confianza del 95%
4) Resultados
En negrita podemos ver la prevalencia de obesidad (obesidad=1) para la
provincia número 2 (13,5%). El n o total de registros para obesidad=1 es de 146. El intervalo de confianza 95% (LCL low confidence limit) de 11,3% a 15,6% (UCL upper confidence limit).
Podemos realizar una tabla de obesidad por sexo para todas las
provincias, o por provincia. Veamos un ejemplo para la provincia nro 2. Utilizando el comando SELECT del menú de la derecha (dentro de la sección
select/if), seleccionamos la variable prvnc de las variables disponibles (Available variables) y la igualamos a 2 (utilizando el botón “=”).
Luego volvemos a correr la tabla pero esta vez seleccionando la variable
“Sexo” como variable de exposición. El resto de las variables permanecen igual que en el análisis previo.
En la sección de Resultados (Output) veremos una tabla que expresará la
prevalencia de obesidad según el sexo (femenino=0; masculino=1) en la provincia 2.
Otra manera de ejecutar comandos es desde la sección de “Program Editor”, desde donde podemos editar una tabla obtenida previamente para
crear una nueva tabla, en este caso, de obesidad por sexo. SELECT prvnc=2
TABLES sexo obesidad WEIGHTVAR=w_pers PSUVAR=etapanew
Seleccionamos con el mouse ambas líneas y hacemos click en el botón
“Run Commands”
5) ¿Cómo exportar las tablas de resultados?
La manera mas fácil de exportar las tablas que necesitamos, es seleccionándolas directamente de la sección de resultados (Output
Windows), para luego copiarlas y pegarlas en un archivo de Word o Excel. Otra forma de hacerlo desde los comandos es a través del menú principal
en la sección “Output” seleccionar “RouteOut” y luego seleccionar el lugar donde van a ubicar el archivo de salida (formato html)
En este caso, la prevalencia de
obesidad es de 10,1% en
mujeres y 17,4% en hombres
Las tablas se pueden copiar directamente una vez abiertos los archivos en html.
SPSS
Es uno de los programas estadísticos más conocidos teniendo en cuenta su capacidad para trabajar con grandes bases de datos y una sencilla interfase
para la mayoría de los análisis. El software no es de distribución gratuita y su última versión es la número # 20.
A continuación una breve descripción del proceso en SPSS
1) Importar/Abrir la base de datos
SPSS importa bases en texto, Ms Excel y Access.
Desde el menú Archivo >>(Abrir)>> (Datos)
Para poder ver todos los archivos en la sección “Archivos Tipo” seleccionamos la opción: “Todos los archivos”, luego seleccionamos nuestro
ejemplo “ejercicio1.xls” y luego hacemos click en el botón “ABRIR”. Se nos va a desplegar la siguiente ventana.
Luego de hacer click en el botón “Aceptar” el archivo se va a desplegar en SPSS
2) Configurar para el análisis
En forma similar a Epi info, necesitamos introducir las variables de peso (weight), unidad de primera etapa (primary sampling unit), estratos si los hubiera (strata), generando un archivo que será un "plan file" (plan de
análisis), que requerirá ser abierto en cada sesión que se analice la encuesta de interés.
Para crear el plan de análisis es necesario ingresar al menú Analizar>>Muestras Complejas>>Preparar para el análisis
Luego de crear un plan, seleccionar las variables (weight, psu, strata) y seleccionar el método "con reemplazo".
En la sección archivo hacer click en examinar y elegimos el lugar donde vamos a guardar nuestro plan de análisis y el nombre.
Luego hacemos la selección de nuestras variables que nos van a permitir
crear el archivo para el plan de análisis.
Hacemos click en siguiente:
A partir de aquí se puede finalizar y guardar el plan de análisis, y luego
abrirlo para futuros análisis.
Una vez creado el archivo de plan de análisis, desde el menú
"Analizar">>"Muestras Complejas”>>”Tablas de contingencia” y en la pantalla siguiente clic a “Continuar”.
En este caso, seleccionamos cruzar la variable provincia con obesidad.
En el botón “Estadísticos” Seleccionamos “% por fila” para la obesidad por
provincia con su intervalo de confianza 95%.
Nota: De solicitarse en las celdas de la tabla "Tamaño de la Población",
tener en cuenta que es la estimación del total poblacional obtenida a partir de la suma de los pesos, y no del total de encuestados de la muestra (total no ponderado).
3) Realizar el análisis (variables categóricas)
Se obtiene la tabla con las prevalencias por provincia
STATA
Es un software para el manejo de datos y análisis estadístico. La distribución no es gratuita y su última versión es la número 13.
1) Importar/Abrir la base de datos
Las nuevas versiones de STATA permiten importar desde archivos de texto
y planillas de MS Excel
Import excel "C:\Mis documentos\ejercicio1.xls", sheet("ejercicio1") firstrow 2) Configurar para el análisis
Al igual que los softwares anteriores, debe configurarse el diseño de
muestra antes de realizar el análisis, con el comando " svyset". svyset etapanew [pweight=w_pers]
3) Realizar el análisis (variables categóricas)
Para obtener la tabla y las prevalencias en este caso, es similar al código para obtener tablas convencionales, con la especificación que son tablas
para encuestas ("svy").
svy linearized : tabulate prvnc obesidad, row ci
Number of strata = 1 Number of obs = 32448
Number of PSUs = 323 Population size = 23144680
Design df = 322
----------------------------------------------------------------------
| obesidad
prvnc | normal sobrepes obesidad Total
----------+-----------------------------------------------------------
ciudad d | .5425 .3224 .1351 1
| [.5098,.5748] [.2902,.3563] [.1152,.1579]
|
6 | .4574 .3541 .1885 1
| [.4416,.4733] [.3467,.3615] [.1772,.2004]
|
10 | .417 .3511 .2318 1
| [.4045,.4296] [.3209,.3826] [.2105,.2546]
|
14 | .4786 .3616 .1599 1
| [.459,.4982] [.3414,.3822] [.1376,.1849]
|
18 | .4723 .3491 .1787 1
| [.423,.5222] [.3059,.3948] [.1655,.1926]
|
22 | .4582 .3771 .1647 1
| [.4229,.4939] [.3437,.4117] [.1529,.1773]
|
26 | .4352 .3462 .2186 1
| [.4037,.4673] [.3245,.3685] [.2056,.2323]
|
30 | .4812 .3597 .1591 1
| [.4579,.5045] [.3389,.3811] [.1364,.1848]
|
34 | .4696 .3343 .1961 1
| [.432,.5075] [.289,.3829] [.1795,.2139]
|
38 | .4558 .3672 .177 1
| [.4261,.4859] [.3511,.3836] [.1394,.2221]
|
42 | .4466 .3805 .1729 1
| [.4349,.4583] [.3672,.3941] [.1537,.1939]
|
46 | .4205 .3686 .211 1
| [.3887,.4529] [.3525,.3849] [.1943,.2287]
|
50 | .4418 .3513 .2069 1
| [.4131,.4709] [.3403,.3624] [.1815,.2348]
|
54 | .5245 .3366 .1389 1
| [.4809,.5676] [.3112,.3631] [.1086,.1759]
|
58 | .465 .3532 .1818 1
| [.428,.5023] [.3194,.3885] [.1754,.1884]
|
62 | .428 .3891 .1829 1
| [.383,.4741] [.3683,.4103] [.136,.2415]
|
66 | .4636 .3731 .1633 1
| [.4449,.4824] [.346,.401] [.1335,.1982]
|
70 | .437 .3858 .1773 1
| [.4308,.4432] [.3723,.3995] [.1602,.1957]
|
74 | .473 .3561 .1708 1
| [.4293,.5172] [.3108,.4042] [.1538,.1893]
|
78 | .3903 .3744 .2354 1
| [.3815,.3991] [.3637,.3851] [.2211,.2502]
|
82 | .4392 .3586 .2023 1
| [.4234,.455] [.3438,.3736] [.1848,.221]
|
86 | .4713 .3322 .1965 1
| [.46,.4826] [.3235,.341] [.1901,.2031]
|
90 | .4192 .3846 .1962 1
| [.389,.4499] [.3331,.4389] [.1745,.22]
|
94 | .4373 .3536 .2091 1
| [.4373,.4373] [.3536,.3536] [.2091,.2091]
|
Total | .4654 .3545 .1802 1
| [.4534,.4773] [.3486,.3604] [.1696,.1913]
----------------------------------------------------------------------
Key: row proportions
[95% confidence intervals for row proportions]
Pearson:
Uncorrected chi2(46) = 170.6582
Design-based F(17.39, 5598.57)= 4.7307 P = 0.0000
Otros Softwares
El paquete estadístico SAS permite el análisis de muestras complejas con los procedimientos SURVEYFREQ para frecuencias y tablas (a partir de la
versión 9)
El paquete estadístico R cuenta con dos procedimientos, svydesign para determinar el diseño de la muestra y comandos como svymean o svyby para obtener medias y proporciones.
La programación básica para R es la siguiente: deberán cargarse los
packages correspondientes, como "survey", XLconnect, además de los básicos como stats, MASS, etc. Las funciones "survey" no están disponibles en R commander.
> .Workbook <-
loadWorkbook("C:/Users/Owner/Desktop/MinS/Epi_Info_7/ejercicio1.xls")
> ejercicio1 <- readWorksheet(.Workbook, "ejercicio1")
> remove(.Workbook)
> dclus <- svydesign(id=~etapanew, weights=~w_pers, data=ejercicio1)
> a <- svyby(~obesidad, ~prvnc, dclus, svymean,vartype="ci")
> a
Se obtiene una tabla con la prevalencia de obesidad por provincia y su IC
95%
prvnc obesidad ci_l ci_u
2 2 0.1351209 0.1138898 0.1563520
6 6 0.1885113 0.1769812 0.2000414
10 10 0.2318322 0.2098488 0.2538155
14 14 0.1598538 0.1363495 0.1833580
18 18 0.1786560 0.1651509 0.1921611
22 22 0.1647320 0.1525873 0.1768767
26 26 0.2186259 0.2053437 0.2319080
30 30 0.1591201 0.1350039 0.1832364
34 34 0.1961445 0.1789830 0.2133060
38 38 0.1769984 0.1358431 0.2181537
42 42 0.1728717 0.1528158 0.1929276
46 46 0.2109836 0.1938155 0.2281518
50 50 0.2068863 0.1803215 0.2334510
54 54 0.1388921 0.1055021 0.1722820
58 58 0.1818403 0.1753775 0.1883031
62 62 0.1829113 0.1304339 0.2353887
66 66 0.1632583 0.1310830 0.1954335
70 70 0.1772599 0.1595530 0.1949668
74 74 0.1708052 0.1531204 0.1884900
78 78 0.2353680 0.2208828 0.2498531
82 82 0.2022978 0.1842686 0.2203270
86 86 0.1965404 0.1900673 0.2030134
90 90 0.1962246 0.1735448 0.2189044
94 94 0.2090675 0.2090675 0.2090675
Recommended