Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 1
Clase 2
Tema 2. Medidas de posición Estadística descriptiva univariable
• Herramientas para presentar y resumir el contenido de variables aisladas
• Presentar la distribución de una variable • Resumir las características de una distribución con medidas estadísticas Tabla de frecuencias
• Las frecuencias muestran el número de casos que corresponden a cada valor de la variable
• Ejemplo: frecuencia de la variable sexo en el grupo de estudiantes de estadística descriptiva:
Género Frecuencia (f)
Hombres 55
Mujeres 44
Total (N) 99
Porcentajes
• Los porcentajes indican cuál sería la frecuencia de cada categoría de la variable si el número total de observaciones fuese cien.
• Ejemplo: Frecuencia de la variable sexo en el grupo de estudiantes de Estadística descriptiva (aula 1).
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 2
• Porcentaje = (f / N) × 100 - f: Frecuencia de la categoría
- N: Número total de observaciones.
• Ventaja de los porcentajes: - Es más fácil de identificar su significado
- Permite comparar el tamaño de las categorías. • Porcentaje acumulado: porcentaje de todos los casos igual o inferior a un
cierto valor de la variable - Sólo tienen sentido con variables cualitativas de medida ordinal y variables
cuantitativas (es decir, de intervalo o de razón).
Datos perdidos (missing cases)
• Cuando se analizan datos “reales”, frecuentemente hay observaciones para los que no sabemos el valor de una o más variables.
• Esto es a menudo el caso con datos de encuestas. Siempre hay algunas personas que no responden a una pregunta.
• Ejemplo: Variable estado civil de la encuesta European Social Survey (ESS)
- Categorías de respuesta: o Casado/a
o Separado/a o Divorciado/a o Viudo/a o Soltero/a
- Categorías adicionales:
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 3
o No contesta o No sabe
o No respuesta
• Cuando hay datos perdidos, se hace una distinción entre los porcentajes “normales” y los porcentajes válidos.
• Los porcentajes válidos se calculan sin tener en cuenta las categorías de valores perdidos.
• La distinción entre diferentes tipos de valores perdidos (no sabe, no respuesta, etc.) se ignora a menudo.
• Es posible agrupar estas observaciones en una categoría general de datos
perdidos.
• No hay una definición absoluta de lo que representa datos perdidos. Depende
de la cuestión de investigación.
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 4
- Ejemplo: intenciones de voto en la próxima elección: "No sabe": o Datos perdidos si el objetivo es explicar a qué partido votar.
o Datos válidos si el objetivo es explicar que personas tienen o no una preferencia.
Tablas para variables continuas
• Ejemplos anteriores: variables categóricas, número limitado de valores diferentes.
• Con variables continuas (o variables categóricas con muchas categorías), las tablas de frecuencias no son muy útiles. Es necesario agrupar los valores en categorías. - Ejemplo: variable edad en los datos ESS.
• Por lo tanto agrupamos los datos:
• Es necesario agrupar los valores en categorías.
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 5
• No existe una regla absoluta sobre cómo agrupar los valores de una variable. • Encontrar un equilibrio entre:
- Demasiadas categorías (número muy pequeño de observaciones en cada categoría)
- No suficiente categorías (significa perder una gran cantidad de información
de la variable original). • En general, una dosis de sentido común es suficiente. Construcción de tablas de frecuencias
• Título claro y completo
• Las filas y las columnas deben tener títulos claros y describir su contenido de manera correcta. Es importante comunicar claramente las unidades utilizadas (sobre todo indicar si son porcentajes),
• Incluir el número total de observaciones • Indicar la fuente de los datos.
• Número de decimales: Generalmente, un decimal es suficiente. Siempre utilizar el mismo número de decimales para todas las entradas en una columna.
• Redondeo: por convención, cifras inferiores del 5 se redondean por debajo y cifras iguales o superior del 5 se redondean arriba.
- Ejemplos: 17.34 à 17.3, 17.35 à 17.4. • No escribir el símbolo % después de cada porcentaje (indicarlo en el título de
la columna).
• No utilizar líneas verticales. • Evitar poner demasiado líneas horizontales. Medidas de tendencia central
• Calcular frecuencias y porcentajes es una forma de resumir la información disponible sobre las variables de interés.
• A menudo, queremos resumir la información más a fondo, particularmente con variables cuantitativas.
• Se utilizan dos tipos de estadísticos:
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 6
- Medidas de tendencia central (o “de centro”, o “de posición”): centro de gravedad de una distribución.
- Medidas de dispersión: carácter disperso o concentrado de la distribución.
Moda
• La moda de una distribución se define como el valor más frecuente.
• Es posible que una variable tenga dos o más modas.
• Para una variable con un número relativamente pequeño de categorías, la moda se puede identificar fácilmente en una tabla de frecuencias.
• Si una variable puede tomar muchas variables diferentes, la moda es menos informativa. - Ejemplo: edad en los datos ESS.
o Moda = 35 años (2.11% de las observaciones). Hay varias otras edades con un número de observaciones casi igual.
• Con datos agrupados en clases o categorías, solo es posible determinar la clase modal. - Ejemplo: ingreso en los datos del ESS.
• La clase modal es muy sensible a la definición (arbitraria) de los intervalos de valores.
Media
• Es la medida de tendencia central más utilizada.
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 7
• La media es igual a la suma de todas las observaciones dividida por el número de observaciones.
• Cálculo: - X: una variable (aquí: la edad)
- X1: valor de la variable X en la primera observación,
- X2: valor de X en la segunda observación, etc. - N: número total de observaciones
- X: media de la variable X
( ) NXXXXXXXXXXX 10987654321 +++++++++=
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 8
• Media con datos agrupados: - Cuando se trabaja con datos agrupados en intervalos o clases, no es
posible calcular el valor exacto de la media. - Pero podemos hacer una aproximación de la media.
- Ejemplo: datos sobre el ingreso, datos ESS. Intervalos de ingreso: o Menos de €150 o Entre €150 y menos de €300 o Entre €300 y menos de €500 o Etc.
- Se da un valor asignado: Valor en medio del intervalo o €1000-€1500 à €1250 o €1500-€2000 à €1750
- ¿Valores asignados para las primera y última categorías?
o Menos de €150 à €150 o €10.000 o más à €10.000
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 9
• Problemas con la media: - A veces, la media puede ser un indicador problemático. - La media puede estar fuertemente influenciada por valores extremos
(observación atípica o “outlier”).
• Alternativa: la mediana (Me). - Mediana: Valor de la observación que se encuentra en medio de la
distribución, por lo que hay el mismo número de observaciones en cada lado.
Mediana
• Para encontrar la mediana: ordenar las observaciones en orden ascendente
• Número impar de observaciones: la mediana es el valor de la observación (N +1)/2.
• Ejemplos: - Primer grupo de alumnos: 18 19 20 20 21 21 21 22 22 22 23
- Segundo grupo de alumnos: 18 19 20 20 21 21 21 22 22 23 51
• Si el número de observaciones es par, la mediana es la media de las observaciones (N/2) y (N/2 + 1).
• Ejemplo:
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 10
- Tercer grupo de alumnos: 18 18 19 19 20 20 21 22 22 22 23 23 - Me = 20.5
• La mediana es el valor de la variable para el cual el porcentaje acumulado supera el 50%.
• Ejercicio: Ránking de CCA según PIB per cápita anual (2015)
• Mediana con datos agrupados: - Con datos agrupados, no podemos determinar exactamente la mediana. - Problema similar al cálculo de la media con datos agrupados.
- Utilizando los porcentajes acumulados, es fácil determinar en qué intervalo está la mediana. Este intervalo se llama la clase mediana.
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 11
• ¿Cómo podemos determinar con mayor precisión el valor del ingreso mediano?
- Debemos hacer una suposición sobre la distribución de las observaciones dentro de los intervalos de ingresos.
- Se supone que los individuos se distribuyen de manera uniforme. Es decir, se supone que hay tantas personas que ganan entre 1500 y 1600, como personas que ganan entre 1600 y 1700, entre 1700 y 1800, etc.
- Sabemos que el 46,4% de las personas ganan menos de 1500 euros y que el 58,7% de las personas ganan menos de 2000 euros.
- ¿Cuál es el ingreso que ganan menos del 50% de la gente?
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 12
Forma de una distribución
• Con muchas variables, la mediana y la media dan indicaciones similares. Esto sucede cuando la distribución de los valores de una variable es simétrica.
• “Una distribución es simétrica si los lados derecho e izquierdo del histograma son aproximadamente imágenes especulares el uno del otro” (Moore: 14).
• Ejemplo típico de una distribución simétrica: distribución en forma de campana (distribución normal o Gaussiana).
• Una gran discrepancia entre la mediana y la media es un signo de que la
distribución es asimétrica.
• Distribución asimétrica hacia la derecha o positiva: - La cola de la derecha se extiende mucho más lejos que la cola de la
izquierda.
- Mediana < media. • Distribución asimétrica hacia la izquierda o negativa:
- La cola de la izquierda es más larga que la cola de la derecha.
- Media < mediana.
• Distribución asimétrica: - Hay observaciones atípicas a la izquierda (distribución asimétrica hacia la
izquierda) o a la derecha (distribución asimétrica hacia la derecha). - Estas observaciones “tiran” la media en su dirección.
Metodología Cuantitativa II Sílvia Caufapé Hostench
UPF 13
- Ejemplo: variable ingreso (ESS). Gran diferencia entre la media (2160€) y la mediana (1646€).
- à Distribución asimétrica hacia la derecha.
Fin clase 2