18
MEDIDAS DE CENTRALIZACION Comúnmente se trata de resumir la información de un conjunto de observaciones en un solo valor, así se habla de la altura promedio del hombre peruano, de los ingresos promedios mensuales, del promedio de notas, edad promedio de los estudiantes, etc. Al condensar toda la información en un solo valor podemos pensar que todas las observaciones poseen ese valor. Medidas de centralización: Definición:Una medida de centralidad es un valor (o categoría) que, calculado a partir de una serie de datos (muestrales o poblacionales) o de una distribución de frecuencias, se caracteriza por representar el valor (o categoría) alrededor del cual se agrupan las observaciones. Intuitivamente se la puede considerar como el “centro” de la distribución de los datos. Las medidas de centralidad más frecuentes son: la media, la mediana, y la moda. Estudiaremos primero la media: a) La media ( x ) Para Datos no clasificados o no agrupados. Se define como la media aritmética de una muestra de datos: x 1 , x 2 , …, x n ; esto es: (x 1 + x 2 + … + x n ) / n = x= 1 n i=1 n ¨ x i Si hubieran en la muestra k valores diferentes, que los denotásemos por x i , tendríamos: X 1 con frecuencia f 1 X 2 f 2 X 3 f 3 X k f k Entonces la media muestral estaría dada por: x= i=1 k x i f i / n . Por Ejemplo:

MEDIDAS DE CENTRALIZACION Y VARIACION DISPERSIÓN.docx

Embed Size (px)

Citation preview

Page 1: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

MEDIDAS DE CENTRALIZACION

Comúnmente se trata de resumir la información de un conjunto de observaciones en un solo valor, así se habla de la altura promedio del hombre peruano, de los ingresos promedios mensuales, del promedio de notas, edad promedio de los estudiantes, etc.

Al condensar toda la información en un solo valor podemos pensar que todas las observaciones poseen ese valor.

Medidas de centralización:

Definición:Una medida de centralidad es un valor (o categoría) que, calculado a partir de una serie de datos (muestrales o poblacionales) o de una distribución de frecuencias, se caracteriza por representar el valor (o categoría) alrededor del cual se agrupan las observaciones.Intuitivamente se la puede considerar como el “centro” de la distribución de los datos.

Las medidas de centralidad más frecuentes son: la media, la mediana, y la moda.Estudiaremos primero la media:

a) La media ( x ) Para Datos no clasificados o no agrupados.

Se define como la media aritmética de una muestra de datos: x1, x2, …, xn ; esto es:

(x1 + x2 + … + xn ) / n =x=1n∑i=1

n

x i

Si hubieran en la muestra k valores diferentes, que los denotásemos por xi, tendríamos:

X1 con frecuencia f1

X2 “ “ “ f2

X3 “ “ “ f3

Xk “ “ “ fk

Entonces la media muestral estaría dada por: x=∑i=1

k

x i f i /n . Por Ejemplo:

I xi fi xi . fi

1 151 4 6042 152 63 153 44 154 55 155 26 156 07 157 38 158 49 159 310 160 111 161 012 162 113 163 2

De donde obtenemos el valor de la media muestral:

Page 2: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

x=155,31428

Para datos clasificados o agrupados:En el caso de tener los datos agrupados en una tabla de distribución de frecuencias, calcularemos el valor para la media de datos agrupados de manera aproximada:

x p≈∑i=1

k

x i . f i /n, donde k = números de intervalos de clase.

En el caso del Ejemplo 1 realizado antes, tendremos:

x p≈∑i=1

5

x i . f i /35 = 156,0142857

Media aritmética ponderada:Algunas veces se asocia a los números x1, x2, … , xk ciertos factores o pesos w1,w2,… wk que dependen de la importancia de cada uno de los números. Obteniéndose, de esta manera ,

x p=∑i=1

k

w i . x i

∑i=1

k

wi

que recibe el nombre de media ponderada.

Ejemplo:Si María en su curso de matemáticas ha obtenido en su primer examen 14, en el examen final 12, y su promedio de prácticas es 16, y se sabe además que el examen final se valora como cuatro veces el promedio de las practicas, entonces su promedio final en el curso será:

x p=4 (12 )+2 (14 )+16

7=13,14

Ventajas y desventajas:i. Ventajas

Fácil de calcular e interpretar. Es equitativa porque usa todos los datos. Si existe simetría en los datos es la mas recomendable. Es estable al muestreo.

ii. DesventajasSi existen valores “extremos” se desplaza en la dirección del valor extremo y no representa apropiadamente a la muestra.

b) La mediana (Me)

Page 3: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Es el valor central de las observaciones cuando éstas se ordenan de menor a mayor. Divide a la serie en dos grupos de igual número de elementos.

Ordenados los datos en forma creciente:

i. Si el número de datos es par, se acostumbra tomar como la mediana al promedio de los datos centrales.

ii. Si el número de datos es impar, la mediana es valor central.

Ejemplo:

1. Para los datos del Ejemplo 1, se tiene:Como n = 35 es impar, se calcula la mediana como aquel valor que se ubica en el centro de la serie de los datos ordenados de menor a mayor; en este caso sería el que ocupa la decimoctava posición, entonces:Me = x18 = 154

2. Dada una muestra de tamaño n = 6:-2, 0, 3, 7, 11, 15en este caso en que n es un numero par, se calcula el valor de la mediana como el promedio los dos datos centrales, esto es:Me = ( x3 + x4 ) /2 = 10 /2 = 5

En el caso de tener los datos agrupados, se calcula el valor de la mediana de manera aproximada, a través de la siguiente fórmula:

Me≈l1+( n/2−F i−1f i ). Ai(Mediana paradatos agrupados)En donde:

n = número de datos i = el menor intervalo i, tal que se cumple: Fi > n/2Fi-1= Frecuencia acumulada del intervalo (i – 1)fi = frecuencia absoluta del intervalo iAi = Amplitud del intervalo ili =límite inferior del i-ésimo intervalo de clase que contiene a la mediana.

Para el Ejemplo 1:La mediana: en el caso de estar los datos agrupados, por medio de la tabla de distribución de frecuencias, tendremos:El intervalo i de la clase de la mediana será el segundo intervalo ( i = 2), ya que

F2 > 17,5 por lo que: l2 = 154, f2 = 7

Entonces, haciendo uso de la fórmula Me≈154+( 17,5−147 ).3=155,5

Page 4: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Para el ejemplo 2: El intervalo para la mediana es el cuarto intervalo (i = 4), por lo tanto: l4 = 143,6, F3=15, y f4 = 12 Entonces, haciendo uso de la fórmula para la mediana, tenemos:

Me≈143,6+( 20−15712 ) .8,2=147,016Ventajas y desventajas

i. Ventajas No es afectada por valores extremos y se puede usar cuando hay asimetría. No varía con el cambio de amplitudes.ii. Desventajas: No tiene definición algebraica Es inestable al muestreo Su interpretación no es fácil.

c) Moda (Mo).Se define como la observación que se presenta con más frecuencia dentro del conjunto de datos.Ejemplos:

1. Considera la siguiente muestra de datos simples: 1, 1, 2, 3, 4, 5, 5, 7, 1, 5, 7, 1.Advierte que la observación que se presenta con mayor frecuencia es el dato: x 1=1, ya que se presenta cuatro veces dentro del conjunto; por lo tanto, la moda de la muestra es: Mo = 1

2. Sea la siguiente muestra de datos simples: 1, 2, 4, 0, 6, 7.En este caso, se puede apreciar que todos los datos se presentan con la misma frecuencia, por lo tanto, no existe la moda de la muestra.

3. Sea la muestra de datos simples: 1, 1, 3, 5, 7, 3, 1, 6, 3.En este conjunto de datos se observa que hay dos datos: x1 = 1, y x3 = 3, que se presentan con la misma frecuencia: por lo tanto, concluimos que la muestra posee dos modas: Mo1 =1 Mo2=3Tenemos asi una muestra bimodal.La moda para datos agrupados se obtiene por medio de la formula:

Mo≈ li+( d1d1+d2 ) . A i

En donde:

i = es la clase modal (la que tiene mayor frecuencia absoluta).d1 = fi – fi-1 , d2 = fi – fi-1

fi = frecuencia modalfi-1 = frecuencia de la clase inmediatamente anterior a la clase modalfi+1 = frecuencia de la clase inmediatamente posterior a la clase modalA1 = amplitud del intervalo de la clase modalli = límite inferior de la clase modal

Para el Ejemplo 1:

Page 5: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

i. La moda para los datos simples es aquella observación que tiene mayor frecuencia, en este caso el dato 152 muestra la mayor frecuencia (6 veces), luego Mo=152

ii. La moda para datos agrupados:El intervalo de la clase modal es el primer intervalo, ya que es el que tiene la mayor frecuencia, por lo tanto:l1 = 151d1 = 14 – 0 = 14 d2 = 14 – 7 = 7A1 = 3

Entonces Mo≈ li+( d1d1+d2 ) . A i=151+ 1421 ×3=153

Para el Ejemplo 2:

La moda para datos agrupados:El intervalo modal es el cuarto intervalo, por lo tanto:

i = 4 l4 = 143,6d1 = 12 – 7 = 5d2 = 12 – 6 = 6

A4 = 8,2 Entonces:Mo≈14+( d1d1+d2 ) . A i=143,6+ 511 ×8,2=147,3272

Ventajas y desventajas

1. Ventajas Se utiliza para variables cualitativas o cuantitativas, pero especialmente para las primeras.

2. Desventajas No es equitativa No tiene definición algebraica Es inestable al cambio de amplitudes y al muestreo Puede existir más de una o no existir.

Ejercicios1. Analiza la verdad o falsedad de las siguientes afirmaciones:a) El valor que más se repite en un conjunto de datos recibe el nombre de media aritmética.b) Después de agrupar un conjunto de datos en varias clases, podemos identificar la mediana de

clase como aquella que posee el mayor número de observaciones.c) Los valores extremos en un conjunto de datos influyen profundamente en la mediana

2. La siguiente tabla muestra la distribución de la carga máxima en toneladas que soportan ciertos cables producidos por una compañía.

Máximo de carga Número de cables[9,3 , 9,8[ 2[9,8 , 10,3[ 5

Page 6: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

[10,3 , 10,8[ 12[10,8 , 11,3[ 17[11,3 , 11,8[ 14[11,8 , 12,3[ 6[12,3 , 12,8[ 3[12,8 , 13,3[ 1

Determinara) La media de la carga máxima.b) La medianac) La modad) ¿Cuál elegiría?

3. Halle la media, la mediana y la moda de los ejercicios realizados en clase.

MEDIDAS DE LOCALIZACIÓN

CUANTILESSon medidas descriptivas que pueden dividir al total de datos en cierto número de partes igualmente numerosos y nace como consecuencia del estudio de la mediana; las principales son:

a) Cuartiles ( Q i)Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 4 partes igualmente numerosas.

1. PARA DATOS NO TABULADOSEjemplo:

a) Cuando da entero el punto de Posición. Se tiene los pesos de 11 niños expresados en kg3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36Se pide determinar: Q1 ; Q2 ; Q3 Resolución: 1º Numerar los datos ordenadas3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11

Punto de posición correspondiente:i (n+1 )4

i=Númeroque indicael cuartil deseado

n=Número totalde datos

Para i = 2 : Reemplazando: 2 (11+1 )4

=6 ; Q2 = 11

Posición x9

b) Cuando no da entero el punto de posición. Sean los sueltos diarios de 12 trabajadores9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20Se pide determinar: Q1 ; Q2 y Q3

Resolución 9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12

Page 7: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Punto de posición correspondiente:i (n+1 )4

i=Númeroque indicael cuartil deseado

n=Número totalde datos

Para i = 1 : Reemplazando: 1 (12+1 )4

=3,25 ; Q2 = 13 + 25100

(15−13)

Tomamos la parte entera; Posición x3 x3 Diferencia entre x3 y x4

Para i = 2 : Reemplazando: 2 (12+1 )4

=6,3 ; Q2 = 16 + 50100

(16−16)

Tomamos la parte entera; Posición x6 x6 Diferencia entre x6 y x7

ObservaciónCuando el punto de posición no arroja valores enteros para el caso de Q 1 tomamos la posición de la parte entera mas el 25 % de la diferencia entre esta y la siguiente; algo parecido sucede con Q2 sólo que se tomará el 50% y para Q3 el 75%.

2. PARA DATOS TABULADOS

Qi=LQ+[ ¿4−FQ−1

f Q ] . AQLQ : Límite inferior de la clase donde se encuentra el cuartil.AQ : Amplitud de la clase donde se encuentra el cuartil.i : Número que indica el cuartil deseado.n : Número total de datosFQ−1 : Frecuencia absoluta acumulada anterior a la clase donde se encuentra el cuartil.f Q : Frecuencia absoluta de la clase donde se encuentra el cuartil.

Ejemplo:En el siguiente cuadro estadístico:

Ii fi

[10 – 20 > 3[20 – 30 > 17[30 – 40 > 8[40 – 50 > 22

Se pide determinar: Q1 y Q2

Resolución: Ii fi Fi

[10 – 20 > 3 3[20 – 30 > 17 20[30 – 40 > 8 28[40 – 50 > 22 50

Calculando Q1:

Page 8: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Punto de posición correspondiente: ¿4 se ubica el cuartil donde Fi >

¿4

Para i = 1 ; 1×504

=12,5 ; Como F2 > 12,5 → Clase: [20 – 30 >

Q1 = 20 + 10 [ 12,5−317 ]=25,58Calculando Q2:

Punto de posición correspondiente: ¿4

Para i = 2 ; 2×504

=25 ; Como F3 > 25 → Clase: [30 – 40 >

Q2 = 30 + 10 [ 25−208 ]=36,25b) Deciles ( D i)

Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 10 partes igualmente numerosas.

1. PARA DATOS NO TABULADOSSe calcula en forma similar a los cuartiles ordenando los datos de menor a mayor y hallando el punto de posición correspondiente:

Punto de posición: i(n+1)10

2. PARA DATOS TABULADOS

Di=LD+[ ¿10

−F D−1

f D ] . ADLD : Límite inferior de la clase donde se encuentra el decil.AD : Ancho o amplitud de la clase donde se encuentra el decil.i : Número que indica el decil deseado.n : Número total de datosFD−1 : Frecuencia absoluta acumulada anterior a la clase donde se encuentra el decil.f D : Frecuencia absoluta de la clase donde se encuentra el decil.

Ejemplo:En el siguiente cuadro estadístico:

Ii fi

[10 – 20 > 8[20 – 30 > 16[30 – 40 > 10[40 – 50 > 4[50 – 60 > 12

Se pide determinar: D3

Page 9: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Resolución: Ii fi Fi

[10 – 20 > 8 8[20 – 30 > 16 24[30 – 40 > 10 34[40 – 50 > 4 38[50 – 60 > 12 50

Calculando D1:

Punto de posición correspondiente: ¿10 se ubica el decil donde Fi >

¿10

Para i = 3 ; 3×5010

=15 ; Como F2 > 15 → Clase: [20 – 30 >

D3 = 20 + 10 [ 15−816 ]=24,32c) Percentiles ( P i)

Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 100 partes igualmente numerosas.

1. PARA DATOS NO TABULADOSSe calcula en forma similar que los cuartiles y deciles ordenando los datos de menor a mayor y hallando el punto de posición correspondiente:

Punto de posición: i(n+1)100

2. PARA DATOS TABULADOS

Di=LP+[ ¿100

−FP−1

f P ] . APLP : Límite inferior de la clase donde se encuentra el percentil.AP : Ancho o amplitud de la clase donde se encuentra el percentil.i : Número que indica el percentil deseado.n : Número total de datosFP−1 :Frecuencia absoluta acumulada anterior a la clase donde se encuentra el

percentil.f P : Frecuencia absoluta de la clase donde se encuentra el percentil.

Ejemplo:En el siguiente cuadro estadístico:

Ii fi

[5 – 10 > 16[10 – 15> 7[15 – 20 > 3[20 – 25 > 14[25 – 30 > 10

Page 10: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Se pide determinar: P40

Resolución: Ii fi Fi

[5 – 10 > 16 16[10 – 15> 7 23[15 – 20 > 3 26[20 – 25 > 14 40[25 – 30 > 10 50

Calculando P40:

Punto de posición correspondiente: ¿100 se ubica el percentil donde Fi >

¿100

Para i = 40 ; 40×50100

=20 ; Como F2 > 20 → Clase: [10 – 15 >

P40 = 10 + 5 [ 20−167 ]=12,85

MEDIDAS DE DISPERSIÓNSon aquellos que miden la dispersión que existe entre los datos de una muestra. La descripción más clara de la dispersión son aquellos que tienen que ver con la desviación promedio a partir de alguna medida de tendencia central las más importantes son:

I. DESVIACIÓN MEDIA ABSOLUTA (DM)Es el promedio aritmético que existe entre los valores absolutos de las desviaciones de los datos observados respecto a la media aritmética.1. PARA DATOS NO TABULADOS

DM=∑i=1

n

|x i−x|n

xi : Son los respectivos datos.x : Media o promedion = Número total de datos.

Ejemplos:Sean las longitudes de 6 huesos expresado en centímetros.

12 ; 24 ; 6 ; 18 ; 60 ; 36Se pide determinar la desviación media

Page 11: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Resolución

x=12+24+6+18+60+366

=1566

=26

xi xi - x |x i−x|6 -20 20

12 -14 1418 -8 824 -2 236 10 1060 34 34

88

DM=∑i=1

6

|x i−x|n

=886

=17,6

2. PARA DATOS TABULADOS

DM=∑i=1

K

f i|y i−x|n

K : Número de intervalos.y i : Son las respectivas marcas de clase.n : Número total de datosf i : Son las respectivas frecuencias x : Media o promedio.

Ejemplo:En el siguiente cuadro estadístico:

Ii fi

[2 – 4 > 2[4 – 6 > 4[6 – 8 > 10

[8 – 10 > 1[10 – 12 > 12[12 – 14 > 11[14 – 16 > 3[16 – 18 > 7

Se pide determinar la desviación media:Ii fi yi yi fi yi - x |y i− x| f i|yi−x|

[2 – 4 > 2 3 6 -7,8 7,8 15,6

Page 12: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

[4 – 6 > 4 5 20 -5,8 5,8 23,2[6 – 8 > 10 7 70 -3,8 3,8 38

[8 – 10 > 1 9 9 -1,8 1,8 1,8[10 – 12 > 12 11 132 0,2 0,2 2,4[12 – 14 > 11 13 143 2,2 2,2 24,2[14 – 16 > 3 15 45 4,2 4,2 12,6[16 – 18 > 7 17 119 6,2 6,2 43,4

544 161,2

x=∑i=1

8

y i f i

n=54450

=10,8 ; DM=

∑i=1

8

|y i−x|n

=161,250

=3,22

II. LA VARIANZA (V(x) ; S2 )

Es la media de los cuadrados de las desviaciones, y la denotaremos por o también

por .

Aunque también es posible calcularlo como:

Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2.

III. DESVIACIÓN ESTÁNDAR (S)

Es la raíz cuadrada de la varianza, se denota por Sx o s x.

Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.

Page 13: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente.

IV. COEFICIENTE DE VARIACIÓN (C.V)

Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.

Ejemplo

Veamos por último un ejemplo de cómo se calculan todas estas medidas.

45 55 6 6 50 300 -19,4

116,4 2258,16 15000

55 65 10 16 60 600 -9,4 94 883,6 3600065 75 19 35 70 1330 0,6 11,4 6,84 9310075 85 11 46 80 880 10,6 116,6 1235,96 7040085 95 4 50 90 360 20,6 82,4 1697,44 32400

N= 50 3470 420,8 6082 246900

=

Dm=

=

Page 14: MEDIDAS DE CENTRALIZACION Y VARIACION   DISPERSIÓN.docx

c.v. =