22
Parte I Estadística Descriptiva 1

Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Parte I

Estadística Descriptiva

1

Page 2: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Capítulo 1

Estadística DescriptivaUnidimensional

El objetivo básico de la Estadística es extraer la información contenida enun conjunto de observaciones. Resumir los datos es un procedimiento útil paraconseguirlo y puede hacerse mediante tablas, gráficos o valores numéricos. Alo largo de este tema veremos las principales técnicas numéricas y gráficas quenos permiten describir una característica de interés observada en una población,poniendo en relieve sus rasgos más importantes.

1.1. Conceptos básicos. Población y variable.El universo de objetos al cual se refiere el estudio que se pretende realizar

recibe el nombre de población. Por ejemplo, todos los individuos que padecenuna determinada enfermedad, las personas que pertenecen a una determinadazona de trabajo social, los alumnos de una determinada titulación, los nacidosen un día determinado, etc. Las poblaciones pueden ser finitas e infinitas. Engeneral, estudiar todos los individuos de una población (aún siendo finita) esdifícil, fundamentalmente por cuestiones de tiempo y costo. Se suele entoncesanalizar únicamente una parte representativa de ella a la que llamamos muestra.A las características objeto de estudio en la población se les llama variables,

ya que pueden variar de un individuo a otro. Por ejemplo, el peso de un bebéal nacer, la altura, el grupo sanguíneo, el nivel de gravedad de una enfermedad,la intensidad del dolor, etc. A los distintos valores que toma la variable se lesllama modalidades. Por ejemplo, las modalidades de la variable sexo son hombrey mujer. Según los valores que puedan tomar las variables, se clasifican en:

Cualitativas (categóricas): No toman valores numéricos. Estas a su vezpueden ser Nominales, si sus valores no se pueden ordenar, u Ordinalessi sus valores se pueden ordenar. Por ejemplo, el sexo es una variableNominal, y la intensidad del dolor es una variable Ordinal.

2

Page 3: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Cuantitativas (numéricas): Toman valores numéricos. Por ejemplo, altura,peso, número de ingresos diarios en un hospital, etc. Estas a su vez seclasifican en:

• Discretas: Toman un número finito o infinito numerable de valores(toman valores enteros). Por ejemplo, número de miembros un hogar,número de mujeres maltratadas en una localidad anualmente, etc.

• Continuas: Pueden tomar cualquier valor dentro de uno o varios in-tervalos de la recta real (toman valores con decimales). Por ejemplo,altura, peso, temperatura, etc.

1.2. Organización de los datos. Tablas de fre-cuencias.

Un primer resumen de la informaciónn contenida en un conjunto de datosobservado se obtiene al organizarlos en lo que se llama una tabla de frecuencias.En esta se recogen los distintos valores (números o categorías) que toma lavariable junto con sus correspondientes frecuencias de aparición.Supongamos que hemos medido una variableX (numérica) sobre un conjunto

de N individuos. Llamamos xi al valor que presenta el individuo i en la variableX, con i = 1, ...,N. Si observamos entre ellos k valores distintos, diremos que Xtoma valores x1, x2, ..., xk y determinaremos la frecuencia asociada a cada unode ellos.Para un valor xi, i = 1, ..., k, definimos las siguientes frecuencias:

Frecuencia absoluta, ni : Número de individuos que presentan el valor xi.

kXi=1

ni = n1 + ...+ nk = N

Frecuencia relativa, fi : Proporción de individuos que presentan el valorxi.

fi =niN,

kXi=1

fi = 1

Frecuencia absoluta acumulada, Ni : Número de individuos que presentanun valor inferior o igual a xi.

Ni =iX

j=1

nj = n1 + ...+ ni,

Nk = N

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 4: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Frecuencia relativa acumulada, Fi : Proporción de individuos que presen-tan un valor inferior o igual a xi.

Fi =iX

j=1

fj = f1 + ...+ fi =Ni

N,

Fk = 1

Observad que el cálculo de las frecuencias acumuladas sólo tienen sentido envariables numéricas.Sobre tres ejemplos vemos cómo construir la tabla de frecuencias.Ejemplo 1.1: 20 jóvenes ingresados en un Centro de desentoxicación han

entrado a las siguientes edades:

Tabla 1.1: Edades

18 18 21 19 2018 19 18 18 2219 21 20 19 1919 18 19 19 20

Lo primero que observamos es que la variable X = Edad toma valores18,19,20,21,22. Se trata de una variable cuantitativa discreta, y la tabla defrecuencias resulta:

Tabla 1.2: Tabla de frecuencias de Edad

xi ni fi Ni Fi18 6 0.3 6 0.319 8 0.4 14 0.720 3 0.15 17 0.8521 2 0.1 19 0.9522 1 0.05 20 1

N = 20 1

En la tabla se observa, por ejemplo, que la mayoría de los jóvenes ingresana los 18 o 19 años, concretamente éstos representan un 70% de la población.Ejemplo 1.2: Consideremos ahora las alturas de dichos jóvenes:

Tabla 1.3: Alturas

1.6 1.83 1.8 1.82 1.761.71 1.67 1.8 1.7 1.751.6 1.72 1.72 1.63 1.691.8 1.9 1.62 1.7 1.74

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 5: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

En este caso, la variable X =Altura es cuantitativa continua. Las variablescontinuas, al contener decimales, suelen presentar muchos valores distintos (raravez tendremos valores con frecuencia mayor que uno o dos) , por lo que se sue-len agrupar por intervalos. Lo mismo podría ocurrir en determinadas variablesdiscretas. ¿Cúantos intervalos hacemos y de qué amplitudes?. El número de in-tervalos o clases depende del número de datos y de la dispersión de los mismos(si son parecidos o no entre sí), pero en realidad no hay ninguna regla estable-cida. En la práctica se suelen tomar un número de intervalos aproximadamenteigual a la raíz cuadrada del número de observaciones.

No de intervalos '√N

En cuanto a la amplitud, se suele tomar la misma en todos los intervalos.Una forma de obtenerla es:

Amplitud=valor máximo de la variable-valor mínimo de la variable

número de intervalos

Entonces, el valor máximo sería el extremo superior del último intervalo,y el valor mínimo el extremo inferior del primer intervalo. Como normalmentelos extremos inferiores se abren y los superiores se cierran, en lugar de tomarexactamente el mínimo de la variable, se toma un valor próximo inferior, ya queen otro caso el valor mínimo no podría incluirse en el primer intervalo.Nota: Hacer intervalos con la misma amplitud puede no ser una elección

sensata si el conjunto de datos contiene puntos extremos (raros en relación alresto). En tal caso se podrían tomar intervalos más estrechos en la zona de másconcentración y más amplios en la de menos concentración.En este caso tenemos 20 observaciones, por lo que podemos tomar 4 inter-

valos. Si quiero que el primer intervalo empiece en 1.55 y que el último termineen 1.95, tendrán una amplitud de 0.1.

Tabla 1.4. Tabla de frecuencias de Altura

X : Altura ni fi Ni Fi(1.55-1.65] 4 0.2 4 0.2(1.65-1.75] 9 0.45 13 0.65(1.75-1.85] 6 0.3 19 0.95(1.85-1.95] 1 0.05 20 1

N=20

Al punto central de un intervalo se le llama marca de clase. La del primer

intervalo es 1.60=1,55 + 1,65

2.

Ejemplo 1.3: Se pregunta a los jóvenes ingresados si la iniciativa fue prin-cipalmente propia o no. Los resultados son:

Tabla 1.5. Iniciativa propia

sí sí no sí no no no sí no nono sí sí sí sí sí no sí no sí

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 6: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Claramente en este caso la variable en estudio es cualitativa, con modalidadeso categorías sí y no.

Tabla 1.6. Tabla de frecuencias correspondiente

ni fisí 11 0.55no 9 0.45

Un 55% ingresan principalmente por iniciativa propia frente a un 45% queno lo hacen.

1.3. Representaciones gráficasVeremos las representaciones gráficas más comunes para cada tipo de vari-

able.

Cualitativas

• Diagrama de barras o rectángulos• Diagrama de Pareto• Diagrama de sectores

Cuantitativas

• Histograma:• Polígono de frecuencias• Diagrama de puntos

1.3.1. Diagrama de barras o rectángulos

Se construye dibujando sobre la categoría correspondiente un rectángulocon altura igual a la frecuencia (absoluta o relativa). También es válido paravariables cuantitativas discretas, considerando en el eje de abcisas los valores dela variable en orden creciente en lugar de las categorías.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 7: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Diagrama de barras

frec

uenc

ia0

2

4

6

8

10

12

n s

Iniciativa propia

1.3.2. Diagrama de Pareto

Se ordenan las categorías de mayor a menor frecuencia y se dibujan losrectángulos correspondientes. Es muy utilizado en controles de la calidad, dondecada clase representa un tipo de disconformidad o problema de producción.

1.3.3. Diagrama de sectores

Se dibujan en un círculo sectores con áreas proporcionales a las frecuenciasde cada una de las categorías.

Diagrama de sectoresHábito botellón

ns

45,00%

55,00%

Iniciativa propia

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 8: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

1.3.4. Histograma

Es igual que el diagrama de rectángulos, considerando ahora en el eje de ab-cisas los intervalos y en el ordenadas las frecuencias (absolutas o relativas). Silos intervalos tienen la misma amplitud, las frecuencias son proporcionales a lasalturas de los rectángulos del histograma, ya que el área se obtiene multiplicandola base por la altura. Por lo tanto, cada altura da idea de la densidad o concen-tración de datos en esa zona: donde hay más altura, aparecen frecuentementevalores de la variable, donde hay menos, los datos son escasos. Sin embargo, estono ocurre si las amplitudes no son iguales, por lo que, en tal caso, se representala frecuencia dividida por la amplitud.La forma del histograma -como el diagrama de barras- refleja propiedades

importantes de la variable en cuestión. Cuando el histograma presenta un únicomáximo, la distribución se dice unimodal, bimodal si presenta dos, y plurimodalsi presenta más de dos. Si el histograma es simétrico respecto de un valor central,la distribución se dice simétrica, en cuyo caso todos los puntos equidistantesa tal valor central presentan la misma frecuencia. Si la cola de la derecha seextiende más que la de la izquierda se dice asimétrica a la derecha o positiva,lo cual indica que la variable toma más valores bajos que altos. Si la cola dela izquierda se extiende más que la de la derecha, asimétrica a la izquierda onegativa, predominando los valores altos.

Asimétrico a la derecha-1 1 3 5 7 9 11

0

4

8

12

16

20

Asimétrico a la izquierda1,5 2,5 3,5 4,5 5,5

0

2

4

6

8

Simétrico0,82 1,02 1,22 1,42 1,62 1,82

0

1

2

3

4

El histograma de la variable Altura es:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 9: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Histograma para ALTURA

ALTURAfr

ecue

ncia

1,5 1,6 1,7 1,8 1,9 20

2

4

6

8

10

1.3.5. Polígono de frecuencias

El polígono de frecuencias resulta esencialmente equivalente al histograma oal diagrama de barras, y se obtiene uniendo mediante segmentos los centros delas bases superiores de sus rectángulos.

Polígono de frecuencias para ALTURA

ALTURA

frec

uenc

ia

1,5 1,6 1,7 1,8 1,9 20

2

4

6

8

10

1.3.6. Diagrama de puntos

El diagrama de puntos resulta de utilidad cuando el conjunto de datos esrazonablemente pequeño o hay relativamente pocos datos distintos. Cada datose representa con un punto encima de la correspondiente localización en unaescala horizontal de medida. Cuando un valor se repite, hay un punto por cadaocurrencia y se colocan verticalmente. Permite por ejemplo analizar la dispersióny detectar datos atípicos.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 10: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Diagrama de puntos para EDAD

EDAD18 19 20 21 22

1.4. Descripción numérica de una variableLas técnicas estudiadas anteriormente permiten una descripción visual de

la distribución de una variable mediante tablas y gráficos. En muchos casos, elresumen puede hacerse eficazmente de una forma más sencilla y precisa: uti-lizando valores numéricos que den idea de la ubicación o del centro de los datos-medidas de posición- usando cantidades que informende la concentración delas observaciones alrededor de dicho centro -medidas de dispersión- y mediantenúmeros que reflejen la forma (asimetría y apuntamiento) de la distribución-medidas de forma.La conjunción de técnicas numéricas y gráficas permite una buena descrip-

ción de la variable.

1.4.1. Medidas de posición

Entre ellas estudiamos:

La media

La mediana

La moda

Cuantiles: deciles, cuartiles y percentiles

La media

Supongamos que hemos medido la variable X sobre N individuos y tenemoslos valores x1, x2, ...., xN . La media aritmética, o simplemente media, se calculacomo:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 11: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

- Si se dispone de los datos sin tabular :

−x =

PNi=1 xiN

=x1 + ...+ xN

N

- Si los datos están tabulados:

−x =

Pki=1 nixiN

=kXi=1

fixi

La media se mide en las mismas unidades que la variable, y tiene el inconve-niente de verse muy afectada por la presencia de datos que sean extremadamentegrandes o pequeños (datos atípicos).

Ejemplo 1.4: Cálculo de la media de los datos del ejemplo 1.1 (Edades).

−x =

18 + 18 + ...+ 19 + 20

20= 19,2

A partir de la tabla de frecuencias,

xi ni nixi18 6 10819 8 15220 3 6021 2 4222 1 22

N = 20 384

−x =

Pki=1 nixiN

=384

20= 19,2

Ejemplo 1.5: Cálculo de la media de los datos del ejemplo 1.2Si trabajamos con los datos sin tabular,

−x =

1,6 + 1,83 + ...+ 1,7 + 1,74

20= 1,728

Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase.

X : Altura xi ni nixi(1.55-1.65] 1.60 4 6.4(1.65-1.75] 1.70 9 15.3(1.75-1.85] 1.80 6 10.8(1.85-1.95] 1.90 1 1.9

N = 20 34.4

−x =

34,4

20= 1,720

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 12: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Nótese que 1,720 no es la media real, es un valor aproximado, ya que altrabajar con las marcas de clase se está suponiendo que los datos son:

1,60, 1,60, 1,60, 1,60, 1,70, 1,70, 1,70, 1,70, 1,70, 1,70, 1,70

1,70, 1,70, 1,80, 1,80, 1,80, 1,80, 1,80, 1,80, 1,90

En adelante, si es posible, siempre calcularemos las medidas a partir de losdatos sin agrupar en intervalos, para no perder precisión innecesariamente.

La mediana

Es el valor que divide al conjunto de observaciones ordenado de menor amayor en dos partes iguales, ocupa el lugar central. Deja por tanto al 50% delas observaciones por debajo y al 50% por encima.

Mín 50% Mediana 50% Máx

Se calcula de las siguientes formas:

- Si los datos están sin tabular : una vez ordenados de menor a mayor setoma el valor central si el número de observaciones N es par; si es imparse toma la media de los dos valores centrales.

- Si los datos están tabulados : si existe un valor con frecuencia relativaacumulada igual a 0.5, se toma como mediana la media de tal valor y elsiguiente. En caso contrario, se toma aquel valor que supere por primeravez en frecuencia relativa acumulada 0.5.

A diferencia de la media, la mediana no se ve afectada por la presencia dedatos extremos. Por lo tanto, en un conjunto de datos con valores extremos, lamediana será una medida de centralización más representativa que la media.Ejemplo 1.6: Cálculo de la mediana de los datos del ejemplo 1.1 (Edades).Los datos ordenados de menor a mayor son:

18, 18, 18, 18, 18, 18, 19, 19, 19, 19, 19, 19, 19, 19, 20, 20, 20, 21, 21, 22

Mediana =19 + 19

2= 19

Interpretación: el 50% de los jóvenes ingresados lo hacen a una edad inferioro igual a 19 años.Por otro lado, nótese en la tabla de frecuencias de la variable Edad que en

el valor 19 se obtiene una frecuencia relativa acumulada de 0.7, que supera porprimera vez 0.5.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 13: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

X : Edad Fi18 0.319 0.720 0.8521 0.9522 1

La moda

Es el valor más frecuente de la variable (mayor ni o fi). Es el valor quepresenta mayor altura en el diagrama de barras (caso discreto) o el intervalocon mayor altura en el histograma (caso continuo). La moda puede no ser únicao no existir.Ejemplo 1.7: Cálculo de la moda de los datos del ejemplo 1.1El valor con máxima frecuencia (8) es el 19.

Moda = 19

Interpretación: la edad más frecuente de ingreso entre los jóvenes es de 19años.Ejemplo 1.8: Cálculo de la moda de los datos del ejemplo 1.2En este caso señalamos el intervalo modal: (1.65-1.75]Interpretación: La altura más frecuente está entre 1.65 y 1.75 m.

Cuantiles: deciles, cuartiles y percentiles

Son medidas basadas en la ordenación de los datos. Dividen al conjunto dedatos ordenado en partes iguales. Según el número de partes, hablamos de:

Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de lascuales engloba un 10% de datos. Hay por tanto 9 deciles, D1, ...,D9.

Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una delas cuales engloba un 25% de datos. Hay por tanto 3 cuartiles, Q1, Q2, Q3.

Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una delas cuales engloba un 1% de datos. Hay por tanto 99 percentiles, P1, ..., P99.

La mediana, al dejar por debajo a un 50% de los datos, coincide con el D5,Q2 y P50. La forma de cálculo es similar a la de la mediana.Una franja de interés es [P25- P75] , que contiene al 50% de los datos cen-

trales. Por debajo del P25 quedan el 25% de los datos más pequeños, y porencima del P75 quedan el 25% de los datos más grandes.Ejemplo 1.9: Cálculo de los percentiles 25 y 75 de los datos del ejemplo 1.1

(Edades).

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 14: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

P25 = 18 (Fi = 0,3 > 0,25)

P75 = 20 (Fi = 0,85 > 0,75)

Otra forma de calcularlos: el P25 es aquel valor que deja por debajo al 25%de los datos, que en este caso son 5 (25% de 20). Análogamente, el P75 es elvalor que deja 15 datos (75%) por debajo y 5 datos (25%) por arriba.

18, 18, 18, 18, 18 ↓ 18, 19, 19, 19, 19, 19, 19, 19, 19, 20 ↓ 20, 20, 21, 21, 22

P25 =18 + 18

2= 18,

P75 =20 + 20

2= 20

Interpretación: El 25% de los jóvenes que ingresan a más temprana edad lohacen como mucho a los 18 años, y el 25% de los que ingresan a mayor edad lohacen a partir de los 20 años. El 50% de las edades centrales están entre 18 y20 años.

1.4.2. Medidas de dispersión

Las medidas de posición o centralización no siempre proporcionan informa-ción suficiente para describir un conjunto de datos de manera adecuada. Porejemplo, veamos los tres conjuntos de datos siguientes:Ejemplo 1.10:

Conjunto 1: 10,20,30,40,50Conjunto 2: 10,30,30,30,50Conjunto 3: 30,30,30,30,30

Las medidas de centralización de cada uno de los conjuntos son:

Media Mediana ModaConjunto 1 30 30 No existeConjunto 2 30 30 30Conjunto 3 30 30 30

A la vista de estas medidas podríamos llegar a la conclusión equivocadade que los tres conjuntos de datos son muy similares. Sin embargo, hay unaclara diferencia entre los tres conjuntos: en el primero, hay gran dispersión enlos datos (datos poco parecidos), en el tercero la concentración de los datos estotal, y en el segundo se da una situación intermedia. Es por esto por lo que es

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 15: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

necesario recurrir a otras medidas, las medidas de dispersión, que sean capacesde diferenciar estas situaciones. Claramente, el tercer conjunto de datos es elmejor; en él las medidas de centralización serán plenamente representativas.Entre las medidas de dispersión estudiamos:

Rango. Rango Intercuartílico

Varianza. Desviación típica

Coeficiente de variación

Rango. Rango Intercuartílico

Una medida de variabilidad basada en la ordenación de las observaciones esel rango, R, definido como la difencia entre el valor máximo y el mínimo,

R =Max−Min

El rango de un conjunto de datos es muy fácil de calcular, pero ignora todala información contenida entre las observaciones más grande y más pequeña.Por ejemplo, las muestras 1,3,5,8,9 y 1,5,5,5,9 tienen el mismo rango igual a8. Sin embargo, en la segunda muestra sólo existe variabilidad en los valoresextremos, mientras que en la primera los tres valores intermedios cambian demanera considerable. Algunas veces, cuando el tamaño de la muestra es pequeño,la pérdida de información no es muy seria. En general, lo que se desea es teneruna medida de variabilidad que dependa de todas las observaciones, más que deunas cuantas.Una medida menos sensible a los valores extremos es el rango intercuartílico,

RI, definido como la diferencia entre el tercer y primer cuartil,

RI = Q3 −Q1

Esta medida informa acerca de la representatividad de la mediana (Q2) : siel RI es pequeño, el 50% de las observaciones centrales están muy concentradasentorno a la mediana.

Varianza. Desviación típica

La varianza y desviación típica miden la dispersión de los datos entorno ala media, y hacen uso de todas las observaciones. Una forma intuitiva de medirla concentración de los datos entorno a la media es calcular lo que distan losmismos de la media,

x1 − −x, ..., xN − −xSi todas estas diferencias son pequeñas entonces las observaciones xi es-

tarán próximas a−x y diremos que hay poca variabilidad. Una forma sencilla de

combinar todas las desviaciones en una única medida es promediarlas, pero al

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 16: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

sumarlas, desviaciones positivas y grandes en magnitud pueden ser compensadascon desviaciones negativas grandes en magnitud.

NXi=1

(xi − −x)

N=

NXi=1

xi −N−x

N= 0

Una alternativa es promediar tales diferencias en valor absoluto o al cuadrado.Al promedio de las desviaciones al cuadrado se le conoce como varianza, σ2,

σ2 =

NXi=1

(xi − −x)2

N=

NXi=1

x2i

N− −x

2

Si los datos están tabulados,

σ2 =kXi=1

fi(xi − −x)2 =

kXi=1

ni(xi − −x)2

N=

kXi=1

nix2i

N− −x

2

Se expresa en el cuadrado de las unidades de la variable.Observad que σ2 ≥ 0 y que σ2 = 0 sí y sólo sí todas las observaciones son

idénticas y por lo tanto coinciden con la media (mejor de los casos).A la raíz cuadrada de la varianza se le conoce como desviación típica,

σ =√σ2

En general podríamos pensar que a mayor valor en la varianza o desviacióntípica, mayor dispersión y menor concentración de los datos entorno a la media.En relación a esta idea, se presenta el problema de que ambas medidas dependende las unidades de medida (o dimensión) de los datos. Por ejemplo, una mismamuestra de alturas en centímetros y en metros da lugar a varianzas distintas,mayor en el primer caso. Por lo tanto la varianza y desviación típica no nos per-miten cuantificar la variabilidad ni comparar la dispersión de variables medidasen unidades distintas.Nota: si en lugar de dividir en tales medidas por N dividimos por N − 1,

se obtienen la cuasivarianza y cuasidesviación típica, que denotamos respecti-vamente por S2 y S,

S2 =

NXi=1

(xi − −x)2

N − 1 =

NXi=1

x2i −N−x2

N − 1 ,

S =√S2

Ejemplo 1.11: Cálculo de la varianza y desviación típica en datos de ejem-plo 1.1 (Edades).

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 17: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

A partir de los datos sin tabular:

σ2 =

NXi=1

x2i

N− −x

2

=182 + 182 + ...+ 192 + 202

20− 19,22 = 1,26

A partir de los datos tabulados:

xi ni nixi nix2i

18 6 108 194419 8 152 288820 3 60 120021 2 42 88222 1 22 484

N = 20 384 7398

−x =

Pki=1 nixiN

=384

20= 19,2,

σ2 =

NXi=1

x2i

N− −x

2

=7398

20− 19,22 = 1,26

σ =√1,26 = 1,122

Coeficiente de variación

Como solución al problema de dependencia de las unidades de medida delas variables que presentan la varianza y desviación típica, se crea una nuevamedida adimensional (no depende de las unidades de medida) conocida comocoeficiente de variación, definido como el cociente entre la desviación típica y lamedia (en valor absoluto),

CV =σ¯̄̄−x¯̄̄

Mide la concentración relativa de los datos entorno a la media. Cuanto máspróximo a cero esté (vale 0 cuando σ = 0), menor dispersión habrá, y por lotanto más representativa será la media.Ejemplo 1.12: Comparamos la variabilidad existente en los tres conjuntos

de datos anteriormente dados:

Conjunto 1: 10,20,30,40,50Conjunto 2: 10,30,30,30,50Conjunto 3: 30,30,30,30,30

Calculamos para ello los coeficientes de variación:

Media Desv. típica C.V.Conjunto 1 30 14.142 0.471Conjunto 2 30 12.649 0.422Conjunto 3 30 0 0

Según ya comentábamos, el tercer conjunto no presenta ninguna variabilidad,y el segundo conjunto presenta menor variabilidad que el primero.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 18: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

Ejemplo 1.13: En la siguiente tabla se presentan datos referentes al gastoen ocio mensual (GOCIO) y gasto total mensual (GTOTA) en euros de 10alumnos.

GTOTA: 40 30 25 20 96 200 25 500 25 150250 40 300 300 300 300 20 250 80 240

GOCIO: 30 20 15 20 30 40 15 35 18 8050 20 20 48 50 80 20 36 60 80

Comparamos la dispersión entorno a la media de ambas variables:

Media Desv. típica C.V.GTOTA 159.550 135.714 0.851GOCIO 38.350 21.662 0.565

Como ambas variables presentan las mismas unidades de medida, euros, paracomparar la variabilidad entorno a la media de las mismas podemos compararsus varianzas, desviaciones típicas o coeficientes de variación. Observamos que lavariable GOCIO presenta menor variabilidad que la variable GTOTA, es decir,el gasto en ocio de los alumnos es más homogéneo que el gasto total. La mediade GOCIO es por tanto más representativa que la de GTOTA.

1.4.3. Medidas de forma

Ya vimos cómo a partir de una representación gráfica se pueden estudiaralgunos rasgos importantes de la variable; comentamos cómo hacernos una ideade la simetría o asimetría de una variable según la forma del histograma. Lasimetría o asimetría también puede estudiarse con una medida numérica, elcoeficiente de asimetría. Exiten varios coeficientes, el que a continuación vemosse debe a Fisher y presenta la siguiente expresión:

γ1 =

PNi=1(xi −

−x)3

Nσ3,

y

γ1 =

Pki=1 fi(xi −

−x)3

σ3=

Pki=1 ni(xi −

−x)3

Nσ3

si los datos están tabulados.Si un coeficiente de asimetría vale 0, la distribución es simétrica, si es mayor

que 0, asimétrica a la derecha o positiva, y si es menor que cero, asimétrica a laizquierda o negativa.También podemos hacernos una idea acerca de la simetría o asimetría de una

variable comparando su media y mediana. Claramente, en variables simétricasla media, la mediana y la moda (si es única) coinciden. Si la distribución esmarcadamente asimétrica a la derecha, su media será bastante mayor que lamediana, ya que aún sean pocos los valores altos que tome (cola de la derecha) ,

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 19: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

tirarán de la media hacia arriba, mientras que a la mediana según comentamosno le afectan los valores extremos. Si la distribución es marcadamente asimétricaa la izquierda, la media será bastante menor que la mediana.Ejemplo 1.14: Estudiamos la simetría de la variable GOCIO. Lo hacemos

en base al histograma y a la comparación de media y mediana:

Histograma para GOCIO

GOCIO

frec

uenc

ia

0 20 40 60 800

2

4

6

8

La media de GOCIO es 38.350 y la mediana 32.5.La variable GOCIO es asimétrica a la derecha o positiva, ya que en el his-

tograma observamos una mayor concentración en los valores bajos de la variabley la media es mayor que la mediana.En relación a la forma aparece también el término curtosis, que hace refer-

encia al apuntamiento de la distribución. Por ejemplo, si una variable presentaun histograma muy apuntado (alta frecuencia ) y estrecho, sus datos estaránmuy concentrados.

1.4.4. Observaciones sobre las medidas numéricas descrip-tivas

1. Cambios de variable lineales: Supongamos que a, b, son dos números reales.Hacemos una transformación en los datos de la forma yi = axi + b, i =1, ..,N, es decir, Y = aX + b. Entonces,

−y = a

−x + b,

σ2y = a2σ2x,

σy = |a|σx,

2. Variable tipificada: Tipificar una variable consiste en hacer una transfor-mación lineal tal que la nueva variable tenga media 0 y varianza 1. Latransformación es

Z =X − −xσx

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 20: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

3. Variable clasificada en grupos o estratos: Supongamos que tenemos Nobservaciones clasificadas en L grupos. El grupo i presenta un tamaño ni,

una media−xi, una varianza σ2i , y su peso en el total de la población es wi =

niN. Entonces, la media total y la varianza total (de las N observaciones)

vienen dadas por:

−x =

LXi=1

wi−xi,

σ2x =LXi=1

wiσ2i +

LXi=1

wi(−xi − −x)2

1.5. Ejercicios1. En el siguiente conjunto de datos, se proporcionan pesos (en kg) de bebés

nacidos durante un intervalo de tiempo en un hospital:

2.65 3.25 3.80 4.10 2.9 3.55 5.0 4.123.46 3.90 3.70 2.85 3.6 3.20 4.0 3.6

a) Construir una tabla de frecuencias para estos pesos.

b) Obtener una representación gráfica.

c) Calcular la media, mediana y moda.

d) Cuánto han pesado como mínimo el 25% de los bebés que más hanpesado al nacer?.

e) Calcular la varianza y la desviación típica.

f) Estudia la asimetría de la distribución.

2. Describe las características de los cuatro histogramas siguientes, y razonacuál es la medida de centralización y dispersión más adecuada para ladistribución correspondiente.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 21: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

0 1 2 3 4 5 60

2

4

6

8

-1 1 3 5 7 9 110

10

20

30

40

-2,5 -1,5 -0,5 0,5 1,5 2,5 3,50

10

20

30

40

3. La tabla siguiente muestra la composición por edad, sexo y trabajo de ungrupo de personas con tuberculosis pulmonar:

Edad Trabajadores No trabajadoresVarón Mujer Total Varón Mujer Total

14-19 2 1 3 25 40 6519-24 10 4 14 20 36 5624-29 32 10 42 15 50 6529-34 47 12 59 13 34 4734-39 38 8 46 10 25 3539-44 22 4 26 7 18 25

a) Represetar gráficamente la distribución de frecuencias de aquellaspersonas trabajadoras que padecen tuberculosis.

b) Represetar gráficamente la distribución de frecuencias de los varonesno trabajadores con tuberculosis.

c) Represetar gráficamente la distribución de frecuencias del númerototal de mujeres que padecen tuberculosis.

d) ¿Cuál es la edad en la que se observa con mayor frecuencia que notrabajan los varones?. ¿Y las mujeres?. Determinar asímismo la edadmás frecuente (sin distinción de sexos ni ocupación).

e) ¿Por debajo de qué edad se encuentra el 50% de los varones?. ¿Y el50% de las mujeres?.

f) Obtener la media, mediana, moda y desviación típica de las edadesde la muestra total.

g) Estudiar la asimetría de las dos distribuciones, trabajadores y notrabajadores.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.

Page 22: Estadística Descriptivadmontoro/CSalud/material/apuntes pdf/Tema...tervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.2. Organización

4. En una empresa se clasifican los accidentes laborales según causen o no labaja en el trabajador. Los datos medidos mensualmente durante un añoson:

No AccidentesNo causan baja 498Causan baja 152

650

a) Calcula los porcentajes correspondientes a cada tipo de accidente.

b) Obtén una representación gráfica.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.