La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
Sesión 7
Procesando bases de datos de las
pruebas SABER (ICFES)
Juan D. Barón [email protected]
Métodos Cuantitativos de Economía Regional y Urbana
Universidad Autónoma de Occidente
30 de mayo de 2011
Versión : 1.0
Copyright © 2011: La reproducción total o parcial de este material está prohibida
Material provisional y sujeto a cambios
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
1. Acceso a la base de datos
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
3
• Información administrativa de los estudiantes que toman las pruebas
SABER en los grados 5, 9 y 11 (información para SABER 11 viene con
las respuestas del cuestionario de inscripción)
• Solicitud de acceso a los datos: http://www.icfes.gov.co/investigacion/
• Acceso gratis (descarga de ftp)
• Convocatorias conjuntas con ICFES para financiar trabajos que usen
estas base datos (estudiantes de maestría/doctorado y grupos de
investigación)
• Los archivos están disponibles en formato Access
(use StatTransfer o Access para crear archivos de texto que Stata
pueda leer con el comando insheet)
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
4
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
5
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
6
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
7
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
2. Llevar los datos a Stata
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
9
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
10
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
11
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
12
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
3. Los datos en Stata: SABER 11
(año 2010)
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
14
• Los resultados de las pruebas SABER están en dos archivos, uno por
cada semestre en que se realizó la prueba
• Antes de empezar a trabajar en los datos como tal sería mejor hacer
un append, para tener todos los datos en el mismo lugar
• Luego podemos empezar a trabajar (limpiar) los datos
• En la siguiente sección se presentará un ejemplo de un modelo
sencillo de regresión en el que se indaga sobre la relación entre
resultados académicos y variables socio-demográficas o del colegio
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
4. Un modelo sencillo de
rendimiento
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
16
Ejemplo:
• Supongamos que quiero estimar cual es la relación entre el
rendimiento académico (medido por alguna medida agregada de los
resultados de la prueba SABER 11) y algunas características como
región, jornada y etnia
• En otras palabras quiero estimar el siguiente modelo:
• Ri: Resultado agregado en la prueba para individuo i
• El interés está en estimar los parámetros beta
(dicen la relación entre las variables de explicativas y la dependiente)
i
j
ijjiiii udeptomujerjcompetniaR
32
1
3210)ln(
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
17
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
18
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
19
• El archivo crSABER11_01.do lee la base original de la prueba
SABER-11 del 2010 para ambos semestres, los combina, y crea una
nueva base de datos (crSABER11_01.dta) con las variables relevantes
y algunas variables dummy generadas
(en este archivo se usan partes de los visto en clases anteriores)
• El archivo AnModelos01.do lee la base de datos creada por
crSABER11_01.do y estima algunos modelos. También saca algunas
estadísticas descriptivas y gráficas
• El archivo master.do tiene una lista de los archivos do del proyecto
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
01
23
4
Den
sity
5 5.5 6 6.5LogNat de puntaje total del los siete componentes
La r
ep
rod
ucció
n t
ota
l o
parc
ial d
e e
ste
mate
rial está
pro
hib
ida.
Mate
rial p
rov
isio
nal y s
uje
to a
cam
bio
s
Resumen
En está sesión usted debe saber:
• Saber dónde y cómo acceder a la información de las pruebas SABERdel ICFES
• Saber que hacer con los archivos una vez tiene acceso a ellos(usar StatTransfer o usar Access para exportarlos a archivo de texto)
• Saber dónde encontrar la descripción de las variables en los archivosy material de apoyo (cuestionarios que responden los estudiantes)
• Procesar la información en Stata (clases anteriores) de tal manera que se pueda usar para la estimación de un modelo econométrico (o para análisis simples)
• Estimar un modelo de regresión sencillo que nos muestre la relaciónentre el rendimiento académico y variables socio-económicas
23