Organizacion Graficos estadistica

Embed Size (px)

Citation preview

  • 7/23/2019 Organizacion Graficos estadistica

    1/13

    NOTAS DE ESTADSTICA NOTAS DE ESTADSTICA

    Cuadernillo IICuadernillo II

    Organizacin de los datosOrganizacin de los datosGrficos Grficos

    Mario Enrique BorgnaMario Enrique Borgna

  • 7/23/2019 Organizacion Graficos estadistica

    2/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    1

    ORGANIZACIN DE LOS DATOS GRFICOS

    El procesamiento de los datos para la obtencin de informacin til sobre las caractersticas del

    grupo relevado (la muestra de viviendas del barrio, por ejemplo), requiere de una organizacin de

    ellos antes de su ptima explotacin. Organizacin que en realidad ya se inici con la matriz de

    datos, donde las preguntas contenidas en la encuesta son reducidas a lo que llamamos atributos y

    donde cada uno de estos ocupan una columna de la matriz.

    Del atributo elegido se desprende la variable estadstica, que puede ser una reduccin de l o

    coincidir totalmente. Por ejemplo, si las unidades observadas fueran personas, no viviendas, el

    atributo fecha de nacimiento puede devenir en la variable edad.

    Vamos a preparar el material de base para que en lo sucesivo podamos efectuar mediciones sobre el

    grupo de datos. Esta preparacin tiene elementos en comn para todas las variables y algunos

    aspectos diferenciados, segn de que variable se trate.

    VARIABLES CUANTITATIVAS

    Los valores que toma la variable CANTIDAD DE AMBIENTES POR VIVIENDAson por naturalezanmeros enteros (Z) y por ello se la califica como cuantitati va discreta, como a cualquier otra que

    tratemos y que se exprese mediante nmeros enteros.

    1) Ordenando los datos en sentido creciente, tendremos las 32 viviendas encuestadas ordenadas de

    segn la cantidad de ambientes (de menor a mayor) que tienen:

    1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6

    Esta disposicin matriz fila de los datos se llama: arreglo de datos ordenados.

    2) Agrupando los datos por valoresque se repiten y anotando lafrecuenciacon que lo hacen,

    obtendremos una forma de organizacin que llamamos tabla de fr ecuencias:Cantidad deambientes porvivienda

    frecuencia

    1 amb. 3

    2 amb. 5

    3 amb. 8

    4 amb. 11

    5 amb. 4

    1 6 amb.

    n = 32 viv.

    Y a partir de ella, confeccionamos una tabla completa de frecuencias o distri bucin de fr ecuencias:

    Este cuadernillo estar dedicado a ver varias formas de organizar los datos y preparar material

    de base para que desde el cuadernillo III en adelante podamos elaborar medidas estadsticas

    tambin denominadas indicadores estadsticos.

    Cada forma de organizacin, implica la caracterizacin de distintos espacios abstractos donde

    a posteriori se disearan las distintas medidas estadsticas.

    Tambin sobre esos espacios, en este cuadernillo, haremos distintos grficos estadsticos.

  • 7/23/2019 Organizacion Graficos estadistica

    3/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    2

    Cantidad de

    ambientes por

    vivienda f f% fr F F% Fr

    1 amb. 3 9,38 0,0938 3 9,38 0,0938

    2 amb. 5 15,62 0,1562 8 25,00 0,2500 3 amb. 8 25,00 0,2500 16 50,00 0,5000

    4 amb. 11 34,38 0,3438 27 84,38 0,8438

    5 amb. 4 12,50 0,1250 31 96,88 0,9688

    6 amb. 1 3,12 0,0312 32 100 1

    totales n = 32 100 1

    donde fes la frecuencia absolutaresultante de nuestro conteo anterior y f%y fr la frecuenciasporcentualy relativarespectivamente. Estas dos ltimas expresan bsicamente lo mismo, pero unaen forma de porcentaje y la otra en forma de coeficiente. Adems se incluyen las correspondientes

    frecuencias.acumuladaabsoluta F, acumulada porcentual F%y acumulada relativa Fr.

    A partir de tal distribucin, podemos leer, por ejemplo: que el 25%de las viviendas encuestadastienen 3 ambientes o que el 50%de ellas tienen hasta 3 ambientes. Tambin, que el 15,62%de las

    viviendas relevadas tienen 2 ambientes o que el 25%de ellas tienen hasta 2 ambientes.

    La distribucin de frecuencias ltima se construy mediante los siguientes clculos:

    Cant. deamb.porvivienda

    f f% fr F F% Fr

    1 amb. 3 3/32x100 3/32 3 3/32x100 3/32

    2 amb. 5 5/32x100 5/32 3+5 (3+5)/32x100 (3+5)/32

    3 amb. 8 8/32x100 8/32 3+5+8 (3+5+8)/32x100 (3+5+8)/32

    4 amb. 11 11/32x100 11/32 3+5+8+11 (3+5+8+11)/32x100 (3+5+8+11)/32 5 amb. 4 4/32x100 4/32 3+5+8+11+4 (3+5+8+11+4)/32x100 (3+5+8+11+4)/32

    6 amb. 1 1/32x100 1/32 3+5+8+11+4+1 100 1

    Para mejorar la nocin de conjunto del grupo de datos y tener un visin general de l, es

    conveniente expresar la distribucin de frecuencias en forma grfica. Con cualquiera de lasfrecuencias simples f, f%o frpodemos hacer un grfico de bastones:

    f

    11 ---10 --- 9 --- 8 --- 7 --- 6 --- 5 --- 4 --- 3 --- 2 --- 1 ---

    1 2 3 4 5 6 cant. de ambientes

  • 7/23/2019 Organizacion Graficos estadistica

    4/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    3

    Usando f%o fr, los rasgos de la distribucin mostrados por el grfico resultan iguales:

    Lo nico que cambia es la escala vertical de las frecuencias.

    Con cualquiera de las frecuencias acumuladas F, F%o Frpodemos hacer un grfico de escalones:

    f %

    35 ---

    25 ---

    15 ---

    5 __

    1 2 3 4 5 6 cant. de ambientes

    Las construcciones que acabamos de realizar distribucin de frecuencias, arreglo de

    datos ordenados y grficos sobre el eje numrico involucran cuatro espacios abstractosbien diferenciados: el espacio de los valores(primer columna de la tabla de frecuencias),el espacio de las frecuencias(las columnas de frecuencias de la distribucin), el espaciode los datos ordenados(el arreglo) y el espacio de los nmeros reales(el eje horizontalde los grficos hechos). Ellos son losespacios de defini cin de lasmedidas estadsticas,tambin denominadas indicadores estadsticos, y a las cuales nos dedicaremos a partir del

    rximo cuadernillo.

    F%

    100--90---80---70---60---50---40---30---20---10--- | | | | | |

    1 2 3 4 5 6 cant. de ambientes

  • 7/23/2019 Organizacion Graficos estadistica

    5/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    4

    VARIABLES CUALITATIVAS

    De la matriz de datos elaborada para 32 viviendas, tomaremos el atributo ESTADO DEMANTENIMIENTO, y sin retocarlo, lo trataremos como una variable cualitativa ordenable.

    La distri bucin de fr ecuenciases:Estado de

    Mantenimiento f f% fr F F% Fr

    M. 5 15,62 0,1562 5 15,62 0,1562

    R. 11 34,38 0,3438 16 50,00 0,5000

    B 13 40,62 0,4062 29 90,62 0,9062

    E. 3 9,38 0,0938 32 100 1

    n=32viv. 100 1

    Si ordenamos los datos de menor a mayor a la variable es ordenable tendremos lo que yahabamos llamado arreglo de los datos ordenados:

    M M M M M R R R R R R R R R R R B B B B B B B B B B B B B E E E___________________________________________

    Paraunavariable CUALITATIVANO ORDENABLE(por ejemplo Tipo de posesin) no tiene

    sentido armar las Frecuencias acumuladas ni el arreglo de datos ordenados, precisamente porque

    las categoras de los datos no son ordenables.

    ___________________________________________________

    Los grficos aplicables a las variables cualitativas (cualquiera de ellas), son:

    Grfico de barras separadas:

    0123456789101112131415

    M R B E

    Grfico de torta o circular:

    B41%

    R34%

    M 16%

    E9%

    La separacin entre las barras es aproximadamente la

    mitad de la base de cada una de ellas. Debajo de cada

    barra se coloca la categora correspondiente y el eje

    vertical se destina a las frecuencias f (como en estecaso), f%o fr.

    Al igual que el grfico de bastones hecho anteriormente

    para una variable cuantitativa discreta, el de barras

    separadas es ungrfico lineal.

    Para contruir el grfico de torta, debe calcularse el ngulo

    correspondiente a cada porcin: = fr x 360

    En cada porcin se escribe la categorade la variable y su

    correspondientef %. Esto ltimo se debe, comparando con

    cualquier grfico lineal, a que el poder separador del ojo

    humano es ms eficiente para reconocer pequeas

    diferencias lineales que diferencias angulares o diferencias

    de reas.

    Estado de mant.

  • 7/23/2019 Organizacion Graficos estadistica

    6/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    5

    Son treslos espaciosinvolucrados en el tratamiento de una variable cualitativa ordenable, a saber:

    Espacio de los valores: es la primer columna de la distribucin de frecuencias, es el eje sobre elcual se dibujaron las barras y es la torta misma.

    Espacio de las frecuencias: comprende tanto las columnas de las frecuencias simples como las

    columnas de las frecuencias acumuladas. Espacio de los datos ordenados: es el arreglo de datos ordenados.

    Son doslos espaciosinvolucrados en el tratamiento de una variable cualitativa no ordenable: el de

    los valores y el de las frecuencias simples

    ________________________________________________

    VARIABLES CUANTITATIVAS - AGRUPAMIENTO EN INTERVALOS

    Consideremos los coeficientes de inteligencia de 60 estudiantes tomados al azar entre todos los que

    asisten a una institucin educativa:

    Empecemos, confeccionando el arreglo de datos ordenados:

    ___________________________________________________________

    Actividad 1: hacer la distribucin de frecuencias y luego construir el grfico de bastones para la

    variable CI de los 60 estudiantes de la muestra. Tomar como gua lo hecho anteriormente para la

    variable cantidad de habitaciones de la muestra de 32 viviendas del barrio.

    ___________________________________________________________

    Observando la distribucin de frecuencias y el grfico de bastones de la actividad 1, se aprecia que

    hay una gran diversidad de valores (33 valores) para los 60 datos. Bajo esta circunstancia podraconvenir, adems de hacer el tratamiento anterior, agrupar los datos en intervalos de clase:

    C.I. f f% fr F F% Fr [84.9 - 91.5) 9 15,00 0,1500 9 15,00 0,15

    [91.5 - 98.1) 17 28,34 0,2834 26 43,34 0,4334

    [98.1 - 104.7) 14 23,33 0,2333 40 66,67 0,6667

    [104.7 - 111.3) 11 18,33 0,1833 51 85,00 0,8500

    [111.3 - 117.9) 3 5,00 0,0500 54 90,00 0,9000

    [117.9 - 124.5) 4 6,67 0,0667 58 96,67 0,9667

    [124.5 - 131.1) 2 3,33 0,0333 60 1 100n=60 100 1

    120 101 118 116 108 96 110 102 115 103 91 88 107 94 104 97 95 101 103 105100 94 120 90 106 107 106 98 96 100 87 112 95 106 103 89 119 96 90 104

    105 128 110 98 102 108 98 131 85 104 93 93 94 87 97 100 92 89 100 96

    85 87 87 88 89 89 90 90 91 92 93 93 94 94 94 95 95 96 96 96 96 97 97

    98 98 98 100 100 100 100 101 101 102 102 103 103 103 104 104 104 105

    105 106 106 106 107 107 108 108 110 110 112 115 116 118 119 120 120 128

    131

  • 7/23/2019 Organizacion Graficos estadistica

    7/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    6

    Se agruparon los coeficientes de inteligencia en siete intervalos de clase, con una amplitud de 6,6

    cada uno de ellos. Para el conteo de la frecuencia, los intervalos se hicieron cerrados[ a izquierda yabiertos)a derecha (tambin se podra hacerlos abiertos(a izquierda y cerrados]a derecha).

    El grfico resultante para cualquiera de las frecuencias simples (f, f% o fr) es un grfico de barras

    adyacentes llamado histogramay se debe al bimetra ingls Karl Pearson1. Para f, por ejemplo, es:

    Si se lo hace con cualquiera de las otras dos frecuencias simples(f%o fr) los rasgos del histogramasern los mismosy la nica diferencia ser la escala porcentual o relativa del eje de frecuencias.

    Concualquiera de lasfrecuencias acumuladas, puede hacerse la ojiva2:

    1Desde la Biometra las contribuciones de Karl Pearson a la teora estadstica son importantes y numerosas. Adems

    fue cofundador en 1901 de la revistaBiometrikaque se convirti en el receptculo de todos los aportes a la estadsticaprovenientes de distintas ciencias y que se sigue publicando hasta hoy.2Se debe a Francis Galton, tambin bimetra y maestro de K.Pearson; cofundador con l de Biometrika.

    f

    17

    16

    15

    14

    13

    12

    11

    10

    9

    8

    7

    6

    5

    4

    3

    2

    1

    | | | | | | | | | | | | | |

    75 80 85 90 95 100 105 110 115 120 125 130 135 140 C.I.

  • 7/23/2019 Organizacion Graficos estadistica

    8/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    7

    __________________________________________________________

    La variable que acabamos de tratar puede considerarse como discreta. Veamos ahora lavariable

    continuaGASTO MEDIO MENSUAL de la matriz de 32 viviendas:

    Arreglo de datos ordenados:750 760 770 778 781,8 789,5 790 820 880 890 895 900 920 950 986 986,5 1100 11501155 1200 1280 1298 1312,8 1452 1500 1501,5 1510,6 1810 2005 2113 2500 3449

    Distribucin de frecuencias. La gran variedad de valores en relacin con la cantidad de datos

    (caracterstica de las continuas), hace que convenga agrupar en intervalos:

    Gasto mediomensual del f f% fr F F% Fr

    grupo

    [750 1050) 16 50 0,50 16 50 0,50

    [1050 1350) 7 21,88 0,2188 23 71,88 0,7188

    [1350 1650) 4 12,50 0,1250 27 84,38 0,8438

    [1650 1950) 1 3,12 0,0312 28 87,50 0,8750

    [1950 2250) 2 6,25 0,0625 30 93,75 0,9375

    [2250 2550) 1 3,12 0,0312 31 96,88 0,9688

    [2550 2850) 0 0 0 31 96,88 0,9688

    [2850 3150) 0 0 0 31 96,88 0,9688[3150 3450) 1 3,12 0,0312 32 100 1

    F% 100

    90

    80

    70

    60

    50

    40

    30

    20

    10

    | | | | | | | | | | | | | |

    75 80 85 90 95 100 105 110 115 120 125 130 135 C.I.

    Actividad 2:

    realizar un

    histograma.

  • 7/23/2019 Organizacion Graficos estadistica

    9/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    8

    DISTRIBUCIONES BIVARIADAS

    En este enfoque intervienen dos variablesa la vez, conjuntamente, simultneamente.

    Problema: Por decreto del 20 de Octubre de 1992 se disolvi la Junta Nacional de Granos y a par-tir de all son los grupostransnacionales como Cargill, Dreyfus, etc. los que regulanese tramo delmercado nacional3. La siguiente tabla consigna una muestra de 40 tipos distintos de aceites comes-

    tibles, segn el aumento de sus precios y segn si estn regulados o no por las transnacionales.

    modo de regulacin

    aument

    Regulado por las

    transnacionales

    Escapa a la regulacin

    de las transnacionales

    mucho 27 2

    poco 3 8

    Esta es una tabla de fr ecuencias conjuntas. Operativamente el conteode las frecuencias debe serconjunto: por ejemplo, se contaron 27 tipos de aceite que estaban regulados por las multinacionalesyaumentaron mucho su precio.

    Por el momento, lo nico que haremos a partir de ella es un grfico que contenga conjuntamente alas dos variables, y se lo llama grfico de barr as combinadas:

    La funcin del grfico es mostrar en un solo plano ambas variablesy las frecuencias de sus valores.

    Si no hay un criterio mejor, primero se organiza el eje de las variables segn las causas (regulacin)

    y luego segn los efectos (aumento).

    No siempre hay un orden de causalidad entre dos variables cualesquiera que se observen

    conjuntamente, as que en tal caso la eleccin de cul es primera y cul segunda, ser arbitraria.

    3Y no slo el mercado de granos. Con la falacia de la desregulacin lo que se hizo en realidad fue entregar laregulacin del mercado interno a las compaas transnacionales.

    0

    10

    20

    30

    regulado no regulado

    mucho

    poco

  • 7/23/2019 Organizacion Graficos estadistica

    10/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    9

    PIRM IDES DE POBLACIN

    Este grfico tambin corresponde a distribuciones bivariadasdonde las variablesson: sexo y edad.

    Esta ltima organizada, generalmente, en intervalos.

    Sea la siguiente distribucin de frecuencias conjuntas de un grupo de 1000 personas:

    Sexo

    Edades F M

    [ 0 10) 120 90

    [10 20) 100 90

    [20 30) 90 70

    [30 40) 80 50

    [40 50) 70 30

    [50 60) 50 30

    [60 70) 40 20

    [70 80) 20 10

    [80 90) 20 7

    [90 100) 10 3

    La correspondiente pirmide de poblacin es:

    En este grupo hay predominio de poblacin joven, y eso queda reflejado en la pirmide.

    En las poblaciones donde predominan las edades mayores la pirmide queda invertida.

    EDAD

    _100 _ _90

    _ _80 _

    _70 _ _60 _ _50 _

    _40 _ _30 _ _20 _

    _10 _| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

    120 110 100 90 80 70 60 50 40 30 2 0 10 0 10 20 30 40 50 60 70 80 90f mujeres hombres

  • 7/23/2019 Organizacion Graficos estadistica

    11/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    10

    _________________________________________________________________________

    De nuestra matriz de 32 viviendas, seleccionamos dos variables:Tipo de posesin y Estado de

    mantenimiento. La tabla de frecuencias conjuntas es:

    Tipo de posesin

    Mantenimiento

    D C U O I

    M 3 1 0 2 0

    R 4 0 0 2 1

    B 5 0 3 1 7

    E 0 0 0 0 3

    Actividad 3: construir el grfico de barras combinadas para las variables Tipo de Posesin y

    Mantenimiento de la matriz de 32 viviendas. Aqu conviene organizar primero por Tipo de posesin(5 categoras) y luego dentro de cada categora organizar segn Mantenimiento. En los casos que la

    frecuencia sea cero, igual se le debe reservar el espacio.

    __________________________________

    Estadstica y soci edad.

    La primera fase de la implantacin por la fuerza de las polticas neoliberales en Latinoamrica, y no

    slo en ella, consisti en una escalada de dictadura militares que mediante el terrorismo de estado y

    el genocidio de la oposicin poltica (figuras afianzadas jurdicamente y que ya son parte de la

    verdad histrica) allanaron el camino a la implantacin del modelo neoliberal. El artculo Las

    cifras del terror tomado de la revista universitaria El Tnel y adjunto a este cuadernillo, presenta

    las tablas de frecuencias de las variables Edad y Profesin/Ocupacin del universo o poblacin de

    las 30.000 personas detenidas/desaparecidas en Argentina por la ltima dictadura militar.

    Actividad 4: realizar un histograma para graficar la distribucin de las edades de los 30.000

    detenidos/desaparecidospor la ltima dictadura militar y un grfico de barras separadas y otro de

    torta para la variable profesin/ocupacin.

    La segunda fase estuvo a cargo de gobiernos constitucionales con altsima corrupcin en los tres

    poderes del estado el ejemplo ms paradigmtico es el perodo denominado menemato y en ella

    se consolid crudamente el modelo neoliberal en casi todos los rdenes de nuestra sociedad. En la

    pgina 8 de este cuadernillo se recre un problema en base a un hecho real como lo fue la

    disolucin de las juntas nacionales de granos y carnes durante el menemato, con consecuencias quellegan hasta nuestros das.

  • 7/23/2019 Organizacion Graficos estadistica

    12/13

    NOTAS DE ESTADSTICA II - ORGANIZACIN DE LOS DATOS Y GRFICOS

    ____________________ Mario Enrique Borgna

    11

    Glosario:

    Datos crudos:datos colectados en un relevamiento y no organizados de forma alguna.

    Ar reglo de datos ordenados:son los datos colectados ordenados en forma ascendente o

    descendente segn sus valores numricos o tambin segn sus categoras ordenables.

    Frecuenciasimple:cantidad o porcentaje de veces que un valor aparece.

    Frecuencia acumulada: cantidad o porcentaje de datos que se acumulan hasta un cierto valor de

    la variable.

    Distri bucin de frecuencias:tabla donde se listan todos los valores de la variable junto con sus

    correspondiente frecuencias simples y acumuladas.

    Comentarios:

    La cantidad de informacin que pueda extraerse de una variable, tiene relacin directa con la

    cantidad de espacios abstractos que ella permita. Comparativamente, las variables cuantitativas

    pueden dar mayor cantidad de informacin que las cualitativas ordenables y stas ms que las no

    ordenables. Las cuantitativas disponen de cuatro espacios para disear indicadores, las

    cualitativas ordenables de tres espacios y las no ordenables de slo dos.

    Los grficos elaborados permiten una idea de conjunto y apoyan la lectura de la informacin que

    se extraer del grupo de datos relevados. Su objetivo principal es maximizar la extraccin de la

    informacin contenida en los datos empricos.

    El agrupamiento de los datos en forma de intervalos de clase, y consecuentemente el histograma,

    permite tener una nocin de conjunto del grupo de datos cuando las formas ms directas no

    consiguen hacerlo (vbgr. el grfico de bastones). Pero virtualmente los datos se matan al

    ubicarlos en los intervalos y eso en estadstica es deteriorar la informacin, as que debeusrselos slo en los casos necesarios.

  • 7/23/2019 Organizacion Graficos estadistica

    13/13