Tema 4

Preview:

DESCRIPTION

Representación gráfica

Citation preview

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

Tema 4. Representación gráfica

Contenido:

Introducción

1. Características, Clases de gráficos y Detalles de su Construcción

1.1 Características

1.2 Clases de gráficos

1.3 Detalles de la construcción de gráficos

2. Gráficos de Barras y Gráfico Circular

2.1 Gráficos de barras

2.2 Gráfico circular o de sectores

3. Gráficos Lineales y Diagramas de Dispersión

4. Diagrama de Caja, Diagrama de Tallo y Hojas

5. Otros tipos de Representación Gráfica

Fuentes Consultadas

Lecturas Recomendadas

Ejercicios de Autoevaluación

Objetivo:

Reconocer las formas de presentación de los resultados (cuadros y gráficos) más

apropiados según la característica analizada.

Introducción.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

2

En el tema anterior mencionamos que hay otra forma de presentar los resultados

de una investigación o estudio, la cual corresponde a la representación gráfica.

Al igual que para la elaboración de cuadros estadísticos, hoy día existen muchos

programas informáticos que podemos utilizar para generar diferentes tipos de

gráficos. Tanto los programas estadísticos como programas de uso común, tales

como el Excel y el Word, y de igual manera en la hoja de cálculo y procesador de

textos del software libre OpenOffice.org, cuentan con herramientas y facilidades

para elaborar gráficos.

Esta relativa facilidad con que pueden generarse gráficos provoca con mayor

frecuencia la inclusión de gráficos no apropiados o mal construidos en los

documentos. Por ello, adquiere mayor importancia conocer cuáles son los

gráficos más adecuados según el tipo de datos a presentar; así como las

recomendaciones que podemos seguir para su elaboración.

1. Características, Clases de Gráficos y Detalles de su Construcción.

1.1 Características.

Para iniciar, vamos a definir qué entendemos por gráfico:

Los gráficos son figuras que sirven para representar mediante elementos

geométricos un conjunto de datos estadísticos.

La representación gráfica presenta las siguientes ventajas y desventajas:

Ventajas:

La principal ventaja de los gráficos respecto de otras formas de presentación es que llama la atención de manera más eficaz

Si se elaboran apropiadamente, permiten comprender la información más fácilmente y realizar comparaciones

Su comprensión clara y rápida facilita el análisis de los resultados

Desventajas:

- No se puede presentar tanto detalle de la información como en un cuadro

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

3

- Solo es posible representar valores aproximados y no cantidades exactas

Con base en lo anterior, debe evaluarse en cada caso si es conveniente presentar

los resultados por medio de un cuadro o un gráfico. También es posible combinar

ambas formas de presentación al elaborar un informe o documento, ya que son

medios complementarios.

1.2 Clases de Gráficos.

Dado que hay distintas clases de gráficos es importante determinar en cuáles

casos es apropiado utilizarlos. La determinación del gráfico adecuado depende, en

la mayoría de los casos, de la clasificación utilizada en los datos a representar. En

otras situaciones, depende del propósito que necesitamos conseguir, por ejemplo,

representar dos series de datos cuyas unidades de medida son diferentes.

Con base en el tipo de característica que utilicemos para clasificar los datos

estadísticos, podemos identificar las series o conjuntos de datos como:

cuantitativas, cualitativas, geográficas y series cronológicas o de tiempo:

- Series cuantitativas: la clasificación se hace basándose en una variable

cuantitativa (discreta o continua). Por ejemplo, la carga académica promedio

de los/as estudiantes por cuatrimestre.

- Series cualitativas: en este caso la variable de interés es una cualidad o

atributo de las personas u otro tipo de unidades elementales estudiadas.

Pueden citarse como ejemplos: la ocupación o puesto de las personas

graduadas, el grado académico obtenido o la carrera que estudiaron.

- Series geográficas: en realidad corresponden a un tipo especial de series

cualitativas que se utilizan con mucha frecuencia. Muestran la distribución de

las unidades elementales según lugares o zonas geográficas. Por ejemplo, el

número de estudiantes según cantón de procedencia.

- Series cronológicas o de tiempo: son muy importantes para estudiar la

evolución o comportamiento de un fenómeno económico, social, demográfico o

de otro tipo. Algunos ejemplos son: el número de estudiantes admitidos/as

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

4

durante el período 2000-2009 en el centro universitario, o el número de tutorías

presenciales brindadas por mes en el centro universitario.

De acuerdo con la clasificación anterior y los propósitos del análisis, en la

siguiente figura se muestran las clases de gráficos más apropiados.

En algunos casos hay posibilidad de elegir entre distintas opciones de gráficos.

Cuando existen diferentes posibilidades, es recomendable seleccionar el gráfico

que resulte más sencillo y fácil de interpretar.

1.3 Detalles de la Construcción de Gráficos.

Las recomendaciones a seguir en la elaboración de gráficos son similares a las

estudiadas en el tema 3 para la construcción de cuadros estadísticos:

- Series cualitativas

- Series cuantitativas (distribución de frecuencias)

- Comparación de datos cuantitativos y cronológicos

- Series geográficas

Gráficos de Barras, Histogramas,

Gráficos Circulares y Pictogramas

Clase de Gráfico Tipo de datos o propósito del gráfico

- Series cuantitativas

- Series cronológicas

- Análisis de variación relativa

- Comparación de series de magnitud diferente

- Comparación de series expresadas en unidades de medida diferentes

- Representación de una serie con datos pequeños y grandes

Curvas o Diagramas Lineales

Diagrama Semilogarítmico

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

5

- Título: debe incluirse un título que indique los datos representados en el

gráfico. Si es necesario puede incluir una nota introductoria.

- Indicación de las escalas y las leyendas: las leyendas indican la característica

representada en cada coordenada o eje, o bien en cada sector del gráfico

circular. En los casos que corresponda, debe indicarse la unidad de medida de

los datos (por ejemplo: peso en kilogramos, estatura en cm., montos en

millones de colones, etc.). Si es pertinente, las escalas deben iniciar en cero.

- Cuando se trazan dos o más series de datos en un mismo gráfico, debe

indicarse a cuál figura geométrica, color de línea o de barra corresponde cada

serie, para poder identificarlas.

- Deben incluirse notas al pie cuando sea necesario.

- Fuente: en caso que los datos no hayan sido producidos en la investigación.

- Tamaño del gráfico: es importante que el gráfico tenga dimensiones

proporcionales, es decir, que el ancho y el alto sean de la misma longitud; sino

puede dar una idea equivocada sobre el comportamiento de los datos.

- Alineación: se recomienda que el gráfico quede centrado en el espacio que le

corresponda dentro del documento.

Sugerencia: En aspectos de forma, al elaborar un informe o documento debe

evitarse la utilización de muchos colores distintos en los gráficos, es preferible

usar solo tonos de un mismo color en todos los gráficos (por ejemplo: hacer

todos los gráficos en tonos de azul, verde, gris u otro color). Asimismo, no es

necesario ni conveniente elaborar varios tipos de gráfico, por lo general, con

dos o tres tipos de gráfico pueden representarse la mayoría de resultados. Al

igual que se señaló para los cuadros estadísticos, es recomendable establecer

un formato estándar o común para los gráficos en relación con el tipo y tamaño

de letra de los títulos y, en este caso, de los colores o tonos a utilizar.

2. Gráficos de Barras y Gráfico Circular.

2.1 Gráficos de Barras.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

6

Los gráficos de barras son utilizados principalmente para realizar comparaciones.

Según el tipo datos a representar, las barras serán horizontales o verticales:

Barras verticales: se utilizan para representar series cronológicas o datos

cuantitativos (distribuciones de frecuencias).

Barras horizontales: para representar datos clasificados con base en una

característica cualitativa o datos organizados por lugares o zonas geográficas.

Respecto de la construcción de estos gráficos, se recomienda:

- Las barras no deben ser muy cortas ni anchas, tampoco conviene que sean

demasiado largas o angostas.

- Entre barra debe dejarse un espacio, excepto cuando se trata de un

histograma (que estudiaremos en otro tema del curso). Dicho espacio puede

oscilar entre el ancho equivalente a media barra y el ancho de una barra

completa.

- Las escalas, leyendas, título y otros aspectos no deben omitirse.

Como sugerencia, es preferible utilizar solamente el formato tradicional para

representar cada barra, ya que algunos programas dan la opción de usar formas

de pirámides, cilindros, tubos y otras para dibujar las barras. Reiterándose la

recomendación anterior de establecer un formato estándar para todos los gráficos.

Entre los gráficos de barras encontramos diferentes tipos: de barras simples,

barras comparativas, barra 100% y barras compuestas. A continuación se brindan

ejemplos de los distintos gráficos de barras, incluyéndose la mención de algunos

aspectos relevantes a considerar en su elaboración.

2.1.1 Gráfico de barras horizontales simples.

Con el objetivo de facilitar su interpretación, para este tipo de gráfico se

recomienda ordenar las barras de mayor a menor, de acuerdo con su longitud. Por

lo tanto, la barra más larga se coloca en la parte superior del gráfico y así

sucesivamente, hasta la barra más corta que queda en la parte inferior. En caso

que las categorías de respuesta incluyan la opción “Otros”, la barra

correspondiente se coloca de última, en la parte inferior del gráfico, a pesar que su

longitud pueda ser mayor a la de otras respuestas.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

7

Ejemplo 1: Gráfico de barras horizontales para una serie cualitativa.

Costa Rica: Nº de Diplomas Otorgados en las Univ. Públicas

según Grado Académico, 2008

Grado académico Nº Diplomas

Bachillerato 4.920

Licenciatura 2.940

Maestría 1.064

Diplomado 1.027

Especialidad Prof. 186

Profesorado 157

Doctorado 35

Total 10.329

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

8

.

Ejemplo 2: Gráfico de barras horizontales para una serie geográfica.

Costa Rica: Porcentaje de Hogares Pobres

según Región, 2008

Región % Hog. Pobres

Chorotega 25,9

Pacífico Central 25,8

Huetar Atlántica 24,7

Brunca 24,6

Huetar Norte 16,4

Central 14,0 Fuente: INEC. Encuesta de Hogares 2008.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

9

2.1.2 Gráfico de barras verticales simples.

Como se mencionó antes, los gráficos de barras verticales se utilizan para

representar series cronológicas o la distribución de una variable cuantitativa. En el

caso de una serie cronológica (días, meses, años u otra) las barras se ordenan de

izquierda a derecha siguiendo ese orden cronológico. Si se trata de una serie

cuantitativa, de igual manera, las barras se ubican de izquierda a derecha según

las cantidades o valores que asume la variable correspondiente.

Ejemplo 3: Gráfico de barras verticales simples para una serie cronológica. El

siguiente gráfico muestra el número de ejemplares de libros producidos por la

Editorial de la UNED durante el período 1996-2007, según datos tomados del

Anuario Estadístico 2007.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

10

2.1.3 Gráficos de Barras Comparativas, Barras Compuestas y Barra 100%.

En muchas situaciones se necesita comparar el comportamiento de una serie en

dos o más momentos diferentes o bien para dos o más categorías distintas (por

ejemplo, según zona geográfica, sexo u otra variable de interés). Para este

propósito podemos utilizar un gráfico de barras comparativas o un gráfico de

barras compuestas; ya sean horizontales o verticales, según el tipo de serie a

representar.

Otra situación corresponde a la necesidad de representar por medio de una sola

barra la distribución porcentual de la variable de interés, para ello se cuenta con la

posibilidad de construir un gráfico de barras 100%.

En estos gráficos se utilizan colores diferentes, o distintos tonos de un mismo

color, para identificar cada período o categoría que se compara.

A continuación se brindan ejemplos para estos otros tipos de gráficos de barras.

Cantidad d

e E

jem

pla

res

Año

UNED: EJEMPLARES DE LIBROS PRODUCIDOS EN LA EDITORIAL ,1996-2007

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

11

Ejemplo 4: Gráfico de barras comparativas horizontales. Este ejemplo fue tomado

de los resultados de la Encuesta de Hogares del 2009, realizada por el INEC.

Aquí se compara la tasa de desempleo en cada región para los últimos dos años.

Ejemplo 5: Gráfico de barras comparativas verticales. En este gráfico se

comparan los ingresos y egresos de la UNED, de acuerdo con los datos obtenidos

del Anuario Estadístico 2007.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

12

Ejemplo 6: Gráfico de barras compuestas verticales. Por medio de este gráfico de

barras compuestas, para cada año se muestra la cantidad de mujeres y hombres

que se graduaron.

Ejemplo 7: Gráfico de barras 100%. Para cada año del período 2001-2007 se

construyo una barra 100% que muestra el porcentaje de los gastos

Mile

s d

e C

olo

nes

Año

UNED: INGRESOS Y EGRESOS REALES 1998-2007

Ingresos Egresos

GR

AD

UA

DO

S

AÑO

UNED: TOTAL DE GRADUADOS POR GÉNERO 1999-2007

Masculino

Femenino

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

13

correspondientes a cada programa presupuestario, de acuerdo con los datos

brindados en el Anuario Estadístico 2007.

2.2 Gráfico Circular o de Sectores.

El gráfico circular se utiliza más frecuentemente para representar series

cualitativas. Para simbolizar las diferentes categorías o partes, los 360 grados de

la circunferencia se distribuyen de acuerdo con el porcentaje correspondiente a

cada una.

No es recomendable utilizar este tipo de gráfico cuando el número de categorías o

partes a representar es muy grande o cuando hay partes muy pequeñas, ya que el

gráfico puede resultar confuso. En esas situaciones es preferible elaborar un

gráfico de barras simples.

Para facilitar las comparaciones, se sugiere ordenar los sectores o partes del

gráfico de acuerdo con su magnitud (tamaño). El uso de la barra 100% y el gráfico

circular es equivalente, es decir, puede utilizarse indistintamente uno u otro.

Ejemplo 8: Gráfico circular.

PO

RC

EN

TA

JE

Año

UNED: GASTO PORCENTUAL POR PROGRAMA 2001-2007

Docencia Administración General Produc. y Dist. de Materiales

Dirección Superior y Planif. Extensión Vida Estudiantil

Inversiones Investigación

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

14

3. Gráficos Lineales y Diagramas de Dispersión.

El diagrama lineal nos muestra principalmente la tendencia de una o varias series,

ya que permite visualizar el comportamiento de las variables a través del tiempo.

Consiste en una curva (línea) que se traza al unir los puntos correspondientes a la

intersección entre los dos ejes. En el caso de series cronológicas, en el eje

horizontal se representa el tiempo (años, meses, días) y en el vertical los datos

(cantidades). Se utiliza el gráfico lineal cuando el número de períodos es grande,

sino es preferible elaborar un gráfico de barras verticales.

Para su construcción, se dan las siguientes recomendaciones:

- Es necesario indicar el cero al inicio de la escala vertical, para facilitar la

correcta interpretación de la curva. Puede omitirse en el caso de

Alto49%

Bajo5%

Medio18%

Ninguno23%

No responde5%

UNED: Grado de Relación entre el Trabajo y la Carrera que Cursan los/as Estudiantes

II cuatrimestre del 2005

Fuente: Censo de Estudiantes 2005, realizado por el CIEI.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

15

representación de números índices, ya que por lo general no van a tomar el

valor de cero. Y, cuando por la magnitud de las cifras se difícil iniciar en cero,

puede indicarse por medio de un quiebre o apertura en la línea de la escala.

- La escala debe construirse de manera que facilite la interpretación del gráfico

por parte de los usuarios.

Con relación al formato del gráfico:

- Las curvas deben destacar al fondo del gráfico, por ello deben tener un trazo

más grueso que el de los ejes.

- Si se representan varias series en el mismo gráfico deben utilizarse diferentes

colores y hay que incluir una leyenda para identificar cada serie.

- El tamaño del gráfico debe ser proporcionado, para que no afecte la

interpretación de los datos.

Ejemplo 9: Gráfico lineal. En el siguiente gráfico se muestra la tasa de desempleo

para mujeres, hombres y total del país, durante el período 1996-2006, de acuerdo

con los resultados de la Encuesta de Hogares de Propósitos Múltiples de dichos

años:

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

16

Por otra parte, el diagrama de dispersión es un gráfico en el cual se dibujan

solamente los puntos de intersección entre los valores de dos variables que

desean compararse, con el propósito de explorar si existe algún tipo de relación

entre el comportamiento de ambas. Dado que en un tema posterior de este curso

estudiaremos las medidas de asociación entre variables, vamos a postergar el

estudio de este tipo de gráfico para incluirlo en dicho tema.

4. Diagrama de Caja, Diagrama de Tallo y Hojas.

Hay dos tipos de representación gráfica que se recomiendan especialmente

cuando la muestra o cantidad de datos a analizar es relativamente pequeña. En

estos casos puede suceder que los gráficos anteriores no nos permitan visualizar

algunos detalles de interés en la distribución de las observaciones, lo cual si

puede realizarse por medio del gráfico de cajas y el diagrama de tallo y hojas.

4.1 Diagrama de Caja.

Se trata de una representación semigráfica del conjunto de observaciones,

construida sobre la base del resumen de cinco valores vinculados a las

características de posición de la distribución que son mediana, primer y tercer

cuartil, y sus extremos: los valores mínimo y máximo de los datos (estas medidas

de posición las estudiaremos en un próximo tema). El diagrama de caja es una

representación simple de estos cinco números que sintetizan suficiente

información acerca de la distribución de la variable, de modo que permite detectar

características de forma y observaciones atípicas.

No requiere agrupar o promediar datos, como ocurre en el histograma y, sin

reemplazarlo, constituye un buen sustituto del mismo, ya que permite al analista

visualizar la distribución “de un golpe”. Se construye de la siguiente forma:

- Hay que ordenar los datos según su magnitud y se determinan: el valor máximo,

el mínimo, la mediana y cuartiles primero y tercero

- Dibujar un rectángulo de base igual a la diferencia intercuartil y altura

convencional; se indica la posición de la mediana (valor central de la distribución)

mediante una línea divisoria dentro del rectángulo.

- Se calculan los umbrales superior e inferior

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

17

- Se trazan líneas desde cada extremo del rectángulo central hasta los valores

adyacentes inferior y superior (estas líneas son los “bigotes” de la caja)

- Se marcan los datos que están fuera de los umbrales inferior y superior, como

valores atípicos.

La mayoría de programas estadísticos incluyen el diagrama de caja como una

opción dentro de los resultados que pueden obtenerse cuando se procesan las

estadísticas descriptivas o exploratorias de una variable.

Ejemplo 10: El siguiente gráfico refleja los resultados obtenidos por un grupo de

126 estudiantes de primaria en una prueba de matemática.

4.2 Diagrama de Tallo y Hojas.

Es otro tipo de semigráfico útil para presentar información de variables

cuantitativas, en especial cuando la cantidad total de datos es pequeña (menor

que 50). Para construir el gráfico se procede de la siguiente manera:

- Se redondean los datos a dos ó tres cifras significativas, expresándolos en unidades convenientes.

No

ta

14

12

10

8

6

4

2

0

20

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

18

- Se los presenta en una tabla de dos columnas, de manera que:

Los datos son de dos dígitos, se escribe en la primera columna los dígitos de las decenas, que forman el tallo, y en la segunda columna los dígitos de las unidades. Por ejemplo, el dato 76 se escribiría: 7│6 .

Los datos son de tres dígitos, los correspondientes a las centenas y decenas se

escriben en la columna izquierda (que constituye el tallo) y los dígitos de las

unidades en la columna derecha.

- Cada tallo define una clase y se escribe una sola vez. El número de hojas es

representativo de la frecuencia de cada clase.

El diagrama de tallo y hojas permite siempre reconstruir la información de origen;

con el histograma, en cambio, se pierde información en la medida en que se

incrementa la amplitud del intervalo de clase. Al igual que el diagrama de caja, los

programas estadísticos incluyen esta opción como parte de los resultados

descriptivos.

Ejemplo 11: Suponga que los siguientes datos corresponden al ingreso anual de

16 familias, expresado en miles de dólares:

113.57 125.42 113.84 124.31 142.12 152.13 133.00 113.00

172.06 127.10 134.55 161.43 121.62 127.21 134.20 146.98

Redondeando la información para evitar decimales resultan los datos:

114 125 114 124 142 152 133 113

172 127 135 161 122 127 134 147

El gráfico de tallo y hojas mostraría la información de la manera siguiente:

Decenas Unidades

11 443

12 54727

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

19

13 354

14 27

15 1

16 1

17 1

5. Otros tipos de Representación Gráfica.

Respecto de la representación gráfica existen muchas otras formas en las cuales

pueden presentarse los datos. La creatividad del investigador y el impacto que

desea provocar en los usuarios de la información son aspectos que influyen en la

selección de posibilidades.

Entre estas otras maneras de representación se encuentran los pictogramas y los

mapas estadísticos. En los pictogramas se utilizan figuras (imágenes)

relacionadas con el tema, y de acuerdo con el tamaño de dichas figuras o la

cantidad de las mismas, son representadas las magnitudes correspondientes.

Por otra parte, es frecuente el uso de mapas para presentar datos desglosados

por unidades geográficas, ya sea que correspondan a regiones, provincias,

cantones, distritos u otra división territorial. En algunos casos solamente se coloca

el dato correspondiente a cada lugar geográfico y, cuando se cuenta con los

medios tecnológicos necesarios, se utilizan colores diferentes para indicar la

intensidad de una característica en cada zona y así obtener lo que se conoce

como cartogramas.

Ejemplo 12: Para presentar el porcentaje de hogares pobres por región en el 2009

fue elaborado el siguiente mapa.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

20

Fuentes Consultadas.

- Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición.

EUNED. Costa Rica, 2010.

- Instituto Nacional de Estadística y Censos. Resultados de la Encuesta de

Hogares de Propósitos Múltiples 2009. Costa Rica, 2009.

- Programa Estado de la Nación. 15° Informe Estado de la Nación en Desarrollo

Humano Sostenible. El Programa. Costa Rica, 2009.

- Quintana R., Carlos. Estadística Elemental. 1 edición (sétima reimpresión).

Editorial Universidad de Costa Rica. Costa Rica, 2007.

- UNED. Centro de Investigación y Evaluación Institucional (CIEI). Anuario

Estadístico 2008. Archivo electrónico.

Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.

Curso Análisis Exploratorio de Datos Elaborado por: Licda. Ligia Bermúdez

21

- Tema VI. Construcción y Análisis de Gráficos Estadísticos: Secciones 6.1 a

6.6 (págs. 179 a 213).

Recomendación adicional: Secciones 6.7 y 6.8 (págs. 214 a 216)