View
213
Download
0
Category
Preview:
DESCRIPTION
Representación gráfica
Citation preview
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
Tema 4. Representación gráfica
Contenido:
Introducción
1. Características, Clases de gráficos y Detalles de su Construcción
1.1 Características
1.2 Clases de gráficos
1.3 Detalles de la construcción de gráficos
2. Gráficos de Barras y Gráfico Circular
2.1 Gráficos de barras
2.2 Gráfico circular o de sectores
3. Gráficos Lineales y Diagramas de Dispersión
4. Diagrama de Caja, Diagrama de Tallo y Hojas
5. Otros tipos de Representación Gráfica
Fuentes Consultadas
Lecturas Recomendadas
Ejercicios de Autoevaluación
Objetivo:
Reconocer las formas de presentación de los resultados (cuadros y gráficos) más
apropiados según la característica analizada.
Introducción.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
2
En el tema anterior mencionamos que hay otra forma de presentar los resultados
de una investigación o estudio, la cual corresponde a la representación gráfica.
Al igual que para la elaboración de cuadros estadísticos, hoy día existen muchos
programas informáticos que podemos utilizar para generar diferentes tipos de
gráficos. Tanto los programas estadísticos como programas de uso común, tales
como el Excel y el Word, y de igual manera en la hoja de cálculo y procesador de
textos del software libre OpenOffice.org, cuentan con herramientas y facilidades
para elaborar gráficos.
Esta relativa facilidad con que pueden generarse gráficos provoca con mayor
frecuencia la inclusión de gráficos no apropiados o mal construidos en los
documentos. Por ello, adquiere mayor importancia conocer cuáles son los
gráficos más adecuados según el tipo de datos a presentar; así como las
recomendaciones que podemos seguir para su elaboración.
1. Características, Clases de Gráficos y Detalles de su Construcción.
1.1 Características.
Para iniciar, vamos a definir qué entendemos por gráfico:
Los gráficos son figuras que sirven para representar mediante elementos
geométricos un conjunto de datos estadísticos.
La representación gráfica presenta las siguientes ventajas y desventajas:
Ventajas:
La principal ventaja de los gráficos respecto de otras formas de presentación es que llama la atención de manera más eficaz
Si se elaboran apropiadamente, permiten comprender la información más fácilmente y realizar comparaciones
Su comprensión clara y rápida facilita el análisis de los resultados
Desventajas:
- No se puede presentar tanto detalle de la información como en un cuadro
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
3
- Solo es posible representar valores aproximados y no cantidades exactas
Con base en lo anterior, debe evaluarse en cada caso si es conveniente presentar
los resultados por medio de un cuadro o un gráfico. También es posible combinar
ambas formas de presentación al elaborar un informe o documento, ya que son
medios complementarios.
1.2 Clases de Gráficos.
Dado que hay distintas clases de gráficos es importante determinar en cuáles
casos es apropiado utilizarlos. La determinación del gráfico adecuado depende, en
la mayoría de los casos, de la clasificación utilizada en los datos a representar. En
otras situaciones, depende del propósito que necesitamos conseguir, por ejemplo,
representar dos series de datos cuyas unidades de medida son diferentes.
Con base en el tipo de característica que utilicemos para clasificar los datos
estadísticos, podemos identificar las series o conjuntos de datos como:
cuantitativas, cualitativas, geográficas y series cronológicas o de tiempo:
- Series cuantitativas: la clasificación se hace basándose en una variable
cuantitativa (discreta o continua). Por ejemplo, la carga académica promedio
de los/as estudiantes por cuatrimestre.
- Series cualitativas: en este caso la variable de interés es una cualidad o
atributo de las personas u otro tipo de unidades elementales estudiadas.
Pueden citarse como ejemplos: la ocupación o puesto de las personas
graduadas, el grado académico obtenido o la carrera que estudiaron.
- Series geográficas: en realidad corresponden a un tipo especial de series
cualitativas que se utilizan con mucha frecuencia. Muestran la distribución de
las unidades elementales según lugares o zonas geográficas. Por ejemplo, el
número de estudiantes según cantón de procedencia.
- Series cronológicas o de tiempo: son muy importantes para estudiar la
evolución o comportamiento de un fenómeno económico, social, demográfico o
de otro tipo. Algunos ejemplos son: el número de estudiantes admitidos/as
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
4
durante el período 2000-2009 en el centro universitario, o el número de tutorías
presenciales brindadas por mes en el centro universitario.
De acuerdo con la clasificación anterior y los propósitos del análisis, en la
siguiente figura se muestran las clases de gráficos más apropiados.
En algunos casos hay posibilidad de elegir entre distintas opciones de gráficos.
Cuando existen diferentes posibilidades, es recomendable seleccionar el gráfico
que resulte más sencillo y fácil de interpretar.
1.3 Detalles de la Construcción de Gráficos.
Las recomendaciones a seguir en la elaboración de gráficos son similares a las
estudiadas en el tema 3 para la construcción de cuadros estadísticos:
- Series cualitativas
- Series cuantitativas (distribución de frecuencias)
- Comparación de datos cuantitativos y cronológicos
- Series geográficas
Gráficos de Barras, Histogramas,
Gráficos Circulares y Pictogramas
Clase de Gráfico Tipo de datos o propósito del gráfico
- Series cuantitativas
- Series cronológicas
- Análisis de variación relativa
- Comparación de series de magnitud diferente
- Comparación de series expresadas en unidades de medida diferentes
- Representación de una serie con datos pequeños y grandes
Curvas o Diagramas Lineales
Diagrama Semilogarítmico
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
5
- Título: debe incluirse un título que indique los datos representados en el
gráfico. Si es necesario puede incluir una nota introductoria.
- Indicación de las escalas y las leyendas: las leyendas indican la característica
representada en cada coordenada o eje, o bien en cada sector del gráfico
circular. En los casos que corresponda, debe indicarse la unidad de medida de
los datos (por ejemplo: peso en kilogramos, estatura en cm., montos en
millones de colones, etc.). Si es pertinente, las escalas deben iniciar en cero.
- Cuando se trazan dos o más series de datos en un mismo gráfico, debe
indicarse a cuál figura geométrica, color de línea o de barra corresponde cada
serie, para poder identificarlas.
- Deben incluirse notas al pie cuando sea necesario.
- Fuente: en caso que los datos no hayan sido producidos en la investigación.
- Tamaño del gráfico: es importante que el gráfico tenga dimensiones
proporcionales, es decir, que el ancho y el alto sean de la misma longitud; sino
puede dar una idea equivocada sobre el comportamiento de los datos.
- Alineación: se recomienda que el gráfico quede centrado en el espacio que le
corresponda dentro del documento.
Sugerencia: En aspectos de forma, al elaborar un informe o documento debe
evitarse la utilización de muchos colores distintos en los gráficos, es preferible
usar solo tonos de un mismo color en todos los gráficos (por ejemplo: hacer
todos los gráficos en tonos de azul, verde, gris u otro color). Asimismo, no es
necesario ni conveniente elaborar varios tipos de gráfico, por lo general, con
dos o tres tipos de gráfico pueden representarse la mayoría de resultados. Al
igual que se señaló para los cuadros estadísticos, es recomendable establecer
un formato estándar o común para los gráficos en relación con el tipo y tamaño
de letra de los títulos y, en este caso, de los colores o tonos a utilizar.
2. Gráficos de Barras y Gráfico Circular.
2.1 Gráficos de Barras.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
6
Los gráficos de barras son utilizados principalmente para realizar comparaciones.
Según el tipo datos a representar, las barras serán horizontales o verticales:
Barras verticales: se utilizan para representar series cronológicas o datos
cuantitativos (distribuciones de frecuencias).
Barras horizontales: para representar datos clasificados con base en una
característica cualitativa o datos organizados por lugares o zonas geográficas.
Respecto de la construcción de estos gráficos, se recomienda:
- Las barras no deben ser muy cortas ni anchas, tampoco conviene que sean
demasiado largas o angostas.
- Entre barra debe dejarse un espacio, excepto cuando se trata de un
histograma (que estudiaremos en otro tema del curso). Dicho espacio puede
oscilar entre el ancho equivalente a media barra y el ancho de una barra
completa.
- Las escalas, leyendas, título y otros aspectos no deben omitirse.
Como sugerencia, es preferible utilizar solamente el formato tradicional para
representar cada barra, ya que algunos programas dan la opción de usar formas
de pirámides, cilindros, tubos y otras para dibujar las barras. Reiterándose la
recomendación anterior de establecer un formato estándar para todos los gráficos.
Entre los gráficos de barras encontramos diferentes tipos: de barras simples,
barras comparativas, barra 100% y barras compuestas. A continuación se brindan
ejemplos de los distintos gráficos de barras, incluyéndose la mención de algunos
aspectos relevantes a considerar en su elaboración.
2.1.1 Gráfico de barras horizontales simples.
Con el objetivo de facilitar su interpretación, para este tipo de gráfico se
recomienda ordenar las barras de mayor a menor, de acuerdo con su longitud. Por
lo tanto, la barra más larga se coloca en la parte superior del gráfico y así
sucesivamente, hasta la barra más corta que queda en la parte inferior. En caso
que las categorías de respuesta incluyan la opción “Otros”, la barra
correspondiente se coloca de última, en la parte inferior del gráfico, a pesar que su
longitud pueda ser mayor a la de otras respuestas.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
7
Ejemplo 1: Gráfico de barras horizontales para una serie cualitativa.
Costa Rica: Nº de Diplomas Otorgados en las Univ. Públicas
según Grado Académico, 2008
Grado académico Nº Diplomas
Bachillerato 4.920
Licenciatura 2.940
Maestría 1.064
Diplomado 1.027
Especialidad Prof. 186
Profesorado 157
Doctorado 35
Total 10.329
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
8
.
Ejemplo 2: Gráfico de barras horizontales para una serie geográfica.
Costa Rica: Porcentaje de Hogares Pobres
según Región, 2008
Región % Hog. Pobres
Chorotega 25,9
Pacífico Central 25,8
Huetar Atlántica 24,7
Brunca 24,6
Huetar Norte 16,4
Central 14,0 Fuente: INEC. Encuesta de Hogares 2008.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
9
2.1.2 Gráfico de barras verticales simples.
Como se mencionó antes, los gráficos de barras verticales se utilizan para
representar series cronológicas o la distribución de una variable cuantitativa. En el
caso de una serie cronológica (días, meses, años u otra) las barras se ordenan de
izquierda a derecha siguiendo ese orden cronológico. Si se trata de una serie
cuantitativa, de igual manera, las barras se ubican de izquierda a derecha según
las cantidades o valores que asume la variable correspondiente.
Ejemplo 3: Gráfico de barras verticales simples para una serie cronológica. El
siguiente gráfico muestra el número de ejemplares de libros producidos por la
Editorial de la UNED durante el período 1996-2007, según datos tomados del
Anuario Estadístico 2007.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
10
2.1.3 Gráficos de Barras Comparativas, Barras Compuestas y Barra 100%.
En muchas situaciones se necesita comparar el comportamiento de una serie en
dos o más momentos diferentes o bien para dos o más categorías distintas (por
ejemplo, según zona geográfica, sexo u otra variable de interés). Para este
propósito podemos utilizar un gráfico de barras comparativas o un gráfico de
barras compuestas; ya sean horizontales o verticales, según el tipo de serie a
representar.
Otra situación corresponde a la necesidad de representar por medio de una sola
barra la distribución porcentual de la variable de interés, para ello se cuenta con la
posibilidad de construir un gráfico de barras 100%.
En estos gráficos se utilizan colores diferentes, o distintos tonos de un mismo
color, para identificar cada período o categoría que se compara.
A continuación se brindan ejemplos para estos otros tipos de gráficos de barras.
Cantidad d
e E
jem
pla
res
Año
UNED: EJEMPLARES DE LIBROS PRODUCIDOS EN LA EDITORIAL ,1996-2007
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
11
Ejemplo 4: Gráfico de barras comparativas horizontales. Este ejemplo fue tomado
de los resultados de la Encuesta de Hogares del 2009, realizada por el INEC.
Aquí se compara la tasa de desempleo en cada región para los últimos dos años.
Ejemplo 5: Gráfico de barras comparativas verticales. En este gráfico se
comparan los ingresos y egresos de la UNED, de acuerdo con los datos obtenidos
del Anuario Estadístico 2007.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
12
Ejemplo 6: Gráfico de barras compuestas verticales. Por medio de este gráfico de
barras compuestas, para cada año se muestra la cantidad de mujeres y hombres
que se graduaron.
Ejemplo 7: Gráfico de barras 100%. Para cada año del período 2001-2007 se
construyo una barra 100% que muestra el porcentaje de los gastos
Mile
s d
e C
olo
nes
Año
UNED: INGRESOS Y EGRESOS REALES 1998-2007
Ingresos Egresos
GR
AD
UA
DO
S
AÑO
UNED: TOTAL DE GRADUADOS POR GÉNERO 1999-2007
Masculino
Femenino
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
13
correspondientes a cada programa presupuestario, de acuerdo con los datos
brindados en el Anuario Estadístico 2007.
2.2 Gráfico Circular o de Sectores.
El gráfico circular se utiliza más frecuentemente para representar series
cualitativas. Para simbolizar las diferentes categorías o partes, los 360 grados de
la circunferencia se distribuyen de acuerdo con el porcentaje correspondiente a
cada una.
No es recomendable utilizar este tipo de gráfico cuando el número de categorías o
partes a representar es muy grande o cuando hay partes muy pequeñas, ya que el
gráfico puede resultar confuso. En esas situaciones es preferible elaborar un
gráfico de barras simples.
Para facilitar las comparaciones, se sugiere ordenar los sectores o partes del
gráfico de acuerdo con su magnitud (tamaño). El uso de la barra 100% y el gráfico
circular es equivalente, es decir, puede utilizarse indistintamente uno u otro.
Ejemplo 8: Gráfico circular.
PO
RC
EN
TA
JE
Año
UNED: GASTO PORCENTUAL POR PROGRAMA 2001-2007
Docencia Administración General Produc. y Dist. de Materiales
Dirección Superior y Planif. Extensión Vida Estudiantil
Inversiones Investigación
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
14
3. Gráficos Lineales y Diagramas de Dispersión.
El diagrama lineal nos muestra principalmente la tendencia de una o varias series,
ya que permite visualizar el comportamiento de las variables a través del tiempo.
Consiste en una curva (línea) que se traza al unir los puntos correspondientes a la
intersección entre los dos ejes. En el caso de series cronológicas, en el eje
horizontal se representa el tiempo (años, meses, días) y en el vertical los datos
(cantidades). Se utiliza el gráfico lineal cuando el número de períodos es grande,
sino es preferible elaborar un gráfico de barras verticales.
Para su construcción, se dan las siguientes recomendaciones:
- Es necesario indicar el cero al inicio de la escala vertical, para facilitar la
correcta interpretación de la curva. Puede omitirse en el caso de
Alto49%
Bajo5%
Medio18%
Ninguno23%
No responde5%
UNED: Grado de Relación entre el Trabajo y la Carrera que Cursan los/as Estudiantes
II cuatrimestre del 2005
Fuente: Censo de Estudiantes 2005, realizado por el CIEI.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
15
representación de números índices, ya que por lo general no van a tomar el
valor de cero. Y, cuando por la magnitud de las cifras se difícil iniciar en cero,
puede indicarse por medio de un quiebre o apertura en la línea de la escala.
- La escala debe construirse de manera que facilite la interpretación del gráfico
por parte de los usuarios.
Con relación al formato del gráfico:
- Las curvas deben destacar al fondo del gráfico, por ello deben tener un trazo
más grueso que el de los ejes.
- Si se representan varias series en el mismo gráfico deben utilizarse diferentes
colores y hay que incluir una leyenda para identificar cada serie.
- El tamaño del gráfico debe ser proporcionado, para que no afecte la
interpretación de los datos.
Ejemplo 9: Gráfico lineal. En el siguiente gráfico se muestra la tasa de desempleo
para mujeres, hombres y total del país, durante el período 1996-2006, de acuerdo
con los resultados de la Encuesta de Hogares de Propósitos Múltiples de dichos
años:
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
16
Por otra parte, el diagrama de dispersión es un gráfico en el cual se dibujan
solamente los puntos de intersección entre los valores de dos variables que
desean compararse, con el propósito de explorar si existe algún tipo de relación
entre el comportamiento de ambas. Dado que en un tema posterior de este curso
estudiaremos las medidas de asociación entre variables, vamos a postergar el
estudio de este tipo de gráfico para incluirlo en dicho tema.
4. Diagrama de Caja, Diagrama de Tallo y Hojas.
Hay dos tipos de representación gráfica que se recomiendan especialmente
cuando la muestra o cantidad de datos a analizar es relativamente pequeña. En
estos casos puede suceder que los gráficos anteriores no nos permitan visualizar
algunos detalles de interés en la distribución de las observaciones, lo cual si
puede realizarse por medio del gráfico de cajas y el diagrama de tallo y hojas.
4.1 Diagrama de Caja.
Se trata de una representación semigráfica del conjunto de observaciones,
construida sobre la base del resumen de cinco valores vinculados a las
características de posición de la distribución que son mediana, primer y tercer
cuartil, y sus extremos: los valores mínimo y máximo de los datos (estas medidas
de posición las estudiaremos en un próximo tema). El diagrama de caja es una
representación simple de estos cinco números que sintetizan suficiente
información acerca de la distribución de la variable, de modo que permite detectar
características de forma y observaciones atípicas.
No requiere agrupar o promediar datos, como ocurre en el histograma y, sin
reemplazarlo, constituye un buen sustituto del mismo, ya que permite al analista
visualizar la distribución “de un golpe”. Se construye de la siguiente forma:
- Hay que ordenar los datos según su magnitud y se determinan: el valor máximo,
el mínimo, la mediana y cuartiles primero y tercero
- Dibujar un rectángulo de base igual a la diferencia intercuartil y altura
convencional; se indica la posición de la mediana (valor central de la distribución)
mediante una línea divisoria dentro del rectángulo.
- Se calculan los umbrales superior e inferior
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
17
- Se trazan líneas desde cada extremo del rectángulo central hasta los valores
adyacentes inferior y superior (estas líneas son los “bigotes” de la caja)
- Se marcan los datos que están fuera de los umbrales inferior y superior, como
valores atípicos.
La mayoría de programas estadísticos incluyen el diagrama de caja como una
opción dentro de los resultados que pueden obtenerse cuando se procesan las
estadísticas descriptivas o exploratorias de una variable.
Ejemplo 10: El siguiente gráfico refleja los resultados obtenidos por un grupo de
126 estudiantes de primaria en una prueba de matemática.
4.2 Diagrama de Tallo y Hojas.
Es otro tipo de semigráfico útil para presentar información de variables
cuantitativas, en especial cuando la cantidad total de datos es pequeña (menor
que 50). Para construir el gráfico se procede de la siguiente manera:
- Se redondean los datos a dos ó tres cifras significativas, expresándolos en unidades convenientes.
No
ta
14
12
10
8
6
4
2
0
20
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
18
- Se los presenta en una tabla de dos columnas, de manera que:
Los datos son de dos dígitos, se escribe en la primera columna los dígitos de las decenas, que forman el tallo, y en la segunda columna los dígitos de las unidades. Por ejemplo, el dato 76 se escribiría: 7│6 .
Los datos son de tres dígitos, los correspondientes a las centenas y decenas se
escriben en la columna izquierda (que constituye el tallo) y los dígitos de las
unidades en la columna derecha.
- Cada tallo define una clase y se escribe una sola vez. El número de hojas es
representativo de la frecuencia de cada clase.
El diagrama de tallo y hojas permite siempre reconstruir la información de origen;
con el histograma, en cambio, se pierde información en la medida en que se
incrementa la amplitud del intervalo de clase. Al igual que el diagrama de caja, los
programas estadísticos incluyen esta opción como parte de los resultados
descriptivos.
Ejemplo 11: Suponga que los siguientes datos corresponden al ingreso anual de
16 familias, expresado en miles de dólares:
113.57 125.42 113.84 124.31 142.12 152.13 133.00 113.00
172.06 127.10 134.55 161.43 121.62 127.21 134.20 146.98
Redondeando la información para evitar decimales resultan los datos:
114 125 114 124 142 152 133 113
172 127 135 161 122 127 134 147
El gráfico de tallo y hojas mostraría la información de la manera siguiente:
Decenas Unidades
11 443
12 54727
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
19
13 354
14 27
15 1
16 1
17 1
5. Otros tipos de Representación Gráfica.
Respecto de la representación gráfica existen muchas otras formas en las cuales
pueden presentarse los datos. La creatividad del investigador y el impacto que
desea provocar en los usuarios de la información son aspectos que influyen en la
selección de posibilidades.
Entre estas otras maneras de representación se encuentran los pictogramas y los
mapas estadísticos. En los pictogramas se utilizan figuras (imágenes)
relacionadas con el tema, y de acuerdo con el tamaño de dichas figuras o la
cantidad de las mismas, son representadas las magnitudes correspondientes.
Por otra parte, es frecuente el uso de mapas para presentar datos desglosados
por unidades geográficas, ya sea que correspondan a regiones, provincias,
cantones, distritos u otra división territorial. En algunos casos solamente se coloca
el dato correspondiente a cada lugar geográfico y, cuando se cuenta con los
medios tecnológicos necesarios, se utilizan colores diferentes para indicar la
intensidad de una característica en cada zona y así obtener lo que se conoce
como cartogramas.
Ejemplo 12: Para presentar el porcentaje de hogares pobres por región en el 2009
fue elaborado el siguiente mapa.
Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez
20
Fuentes Consultadas.
- Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición.
EUNED. Costa Rica, 2010.
- Instituto Nacional de Estadística y Censos. Resultados de la Encuesta de
Hogares de Propósitos Múltiples 2009. Costa Rica, 2009.
- Programa Estado de la Nación. 15° Informe Estado de la Nación en Desarrollo
Humano Sostenible. El Programa. Costa Rica, 2009.
- Quintana R., Carlos. Estadística Elemental. 1 edición (sétima reimpresión).
Editorial Universidad de Costa Rica. Costa Rica, 2007.
- UNED. Centro de Investigación y Evaluación Institucional (CIEI). Anuario
Estadístico 2008. Archivo electrónico.
Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.
Recommended