28
ANÁLISIS E INTERPRETACIÓN DE DATOS

ANÁLISIS E INTERPRETACIÓN DE DATOS - unapctm.cl · ÁNALISIS E INTERPRETACIÓN DE DATOS 4 Capítulo II: Tabulación de datos 2.1. Datos agrupados/ no agrupados 2.1.1. Datos agrupados

Embed Size (px)

Citation preview

ANÁLISIS E INTERPRETACIÓN DE DATOS

ÁNALISIS E INTERPRETACIÓN DE DATOS

Índice

Capítulo I: Conceptos básicos .......................................................................................... 1

1.1. Estadística descriptiva e inferencial .......................................................................... 1 1.2. Universo, población (lote) .......................................................................................... 1 1.3. Muestra (representativa) ............................................................................................. 2 1.4. Variables y tipos de variables. ................................................................................... 3 1.5. Rango ........................................................................................................................... 3

Capítulo II: Tabulación de datos ....................................................................................... 4 2.1. Datos agrupados/ no agrupados ............................................................................. 4

2.2. Intervalo / Tablas de Frecuencias .............................................................................. 6

2.3. Gráficas variable discreta/ continuas ........................................................................ 9 Capítulo III: Medidas de Síntesis de Variables Cuantitativas ....................................... 13 3.1. Medidas de tendencia central .................................................................................. 13 3.2. Medidas de dispersión o concentración ................................................................. 17

3.2.1. Rango o recorrido .................................................................................................. 17 3.2.2. Varianza / Desviación estándar ............................................................................. 17

3.3. Coeficiente de variación ........................................................................................... 24

ÁNALISIS E INTERPRETACIÓN DE DATOS

1

Capítulo I: Conceptos básicos 1.1. Estadística descriptiva e inferencial Existen muchas definiciones de Estadística, pero en síntesis la podemos definir como la ciencia rama de la Matemática que se ocupa de recolectar, organizar, presentar, analizar e interpretar información cuantitativa para obtener conclusiones válidas, solucionar problemas, predecir fenómenos y ayudar a una toma de decisiones más efectivas. Estadística Descriptiva o Deductiva Es un proceso mediante el cual se recopila, organiza, presenta, analiza e interpreta datos de manera tal que describa fácil y rápidamente las características esenciales de dichos datos mediante el empleo de métodos gráficos, tabulares o numéricos, así por ejemplo: Supóngase que un docente de Matemática calcula la calificación promedio de uno de sus cursos a su cargo. Como solo se está describiendo el desempeño del curso pero no hace ninguna generalización acerca de los diferentes cursos, en este caso el maestro está haciendo uso de la Estadística Descriptiva. Estadística Inferencial o Inductiva Llamada también inferencia estadística, la cual consiste en llegar a obtener conclusiones o generalizaciones que sobrepasan los límites de los conocimientos aportados por un conjunto de datos. Busca obtener información sobre la población basándose en el estudio de los datos de una muestra tomada a partir de ella, así por ejemplo: Supóngase ahora que el docente de Matemática utiliza el promedio de calificaciones obtenidas por uno de sus cursos para estimar la calificación promedio de los 5 cursos a su cargo. Como se está realizando una generalización acerca los diferentes cursos, en este caso el maestro usa la Estadística Inferencial. 1.2. Universo, población (lote) Llamado también universo o colectivo es el conjunto de todos los elementos que tienen una característica común. Una población puede ser finita o infinita. Es población finita cuando está delimitada y conocemos el número que la integran, así por ejemplo: CANTIDAD DE ALUMNOS EN UNA ESCUELA. Es población infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número de elementos que la integran, así por ejemplo: LAS ESTRELLAS EN LA VIA LACTEA

ÁNALISIS E INTERPRETACIÓN DE DATOS

2

1.3. Muestra (representativa) Es un subconjunto de la población. Ejemplo: Estudiantes de 2do Semestre de la Universidad de Iquique . Sus principales características son: Representativa.- Se refiere a que todos y cada uno de los elementos de la población tengan la misma oportunidad de ser tomados en cuenta para formar dicha muestra. Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita establecer un mínimo de error posible respecto de la población. Para que una muestra sea fiable, es necesario que su tamaño sea obtenido mediante procesos matemáticos que eliminen la incidencia del error. Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:

Donde: n = el tamaño de la muestra. N = tamaño de la población. Desviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador. Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 1000 elementos. Solución: Se tiene N=1000, y como no se tiene los demás valores se tomará o=0,5 , Z = 1,96 y e = 0,05. Reemplazando valores en la fórmula se obtiene:

ÁNALISIS E INTERPRETACIÓN DE DATOS

3

1.4. Variables y tipos de variables.

Una variable es una característica que se asocia a los elementos(cosas o personas) de

una muestra o población. Tiene la propiedad de ser medida u observada. Su expresión

numérica es el dato.

Las variables se pueden clasificar en dos tipos :

Variables cuantitativas: se expresan por medio de números; por ejemplo , la edad, el

peso, la altura ,etc.

Las variables cuantitativas se dividen en:

Variable discreta: Es una característica cuantitativa representada por números enteros

o exactos, que generalmente resultan del proceso de conteo, como por ejemplo:

número de estudiantes de la promoción del año anterior, numero de hermanos, páginas

de un manual.

Variable continua: Es una característica cuantitativa que puede tomar cualquier valor

representado por un número racional, que generalmente resultan del proceso

de medición, como por ejemplo, tiempo destinado a estudiar Estadística, la altura de

una persona.

1.5. Rango Dado un ejemplo de datos definimos el rango como la diferencia entre el mayor de los datos y el menor de todos los datos ejemplo: 6, 8, 7, 6,5 Rango= 8-5= 3

ÁNALISIS E INTERPRETACIÓN DE DATOS

4

Capítulo II: Tabulación de datos 2.1. Datos agrupados/ no agrupados 2.1.1. Datos agrupados

1. Su fin es resumir la información.

2. Generalmente, los elementos son de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias.

3. Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos

con más de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos esta pidiendo).

Una vez que ya hemos ordenado y clasificado, presentaremos la información obtenida mediante una ”tabla de frecuencias ”

4. La agrupación de los datos puede ser simple o mediante intervalos de clase.

Datos no agrupados

1. Los datos son brutos( es decir, no se presentan clasificados)

2. No es necesario clasificar ni generar una tabla de frecuentas, ya que no tiene “mucho sentido”.

3. Elementos que menor tamaño (generalmente menor a 20 elementos).Esto no

sucede así siempre. Aunque contemos con menos de 20 elementos, debe de verificarse que los datos no sean significativos, Esto es: que la información no sea “repetitiva”, de esta forma, sabremos que no se podrá clasificar y por lo tanto ser resumida en una “tabla de frecuencias”. En caso de que una vez que hayamos ordenado los elementos, se cuente con datos significativos. Procedemos a clasificarlos (si es posible, ya que también debemos de buscar la lógica al clasificar los elementos) para convertirlos en “datos agrupados”. 4.- los datos no agrupados, también pueden ser ordenamos y de la misma forma, también se pueden obtener gráficas, determinar media, desviación estándar, etc.

ÁNALISIS E INTERPRETACIÓN DE DATOS

5

El hecho de que los datos “no agrupados” pueden ordenarse, no significa que se conviertan en “datos agrupados”.

Ejemplos: Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y asi como te dan la edad asi la anotas 2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños) Estos son datos no agrupados por qué no los has clasificado y contado 1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños) Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni clasificados solamente están ordenados Para que sean datos agrupados tienes que contarlos y clasificarlos, por ejemplo cuántos niños había de cada año. (y siguen siendo 20 niños) Edad..........Frecuencia 1..................2 2..................4 3..................7 4..................4 5..................2 6..................1 Total............20 o también los puedes agrupar (Serie agrupada) en clases, rangos, grupos o intervalos por ejemplo de 2 años para este caso (y siguen siendo 20) Edad..........Frecuencia 1-2...............6 3-4...............11 5-6...............3 Total.............20

ÁNALISIS E INTERPRETACIÓN DE DATOS

6

2.2. Intervalo / Tablas de Frecuencias Es una ordenación en filas y columnas que usualmente contiene la siguiente información de una variable Frecuencias: se llama frecuencia absoluta (f) de un valor al número de veces que se repite éste. Se denomina frecuencia absoluta acumulada(F) de un valor a la suma de todas las frecuencias absolutas de los valores menores o iguales al considerado. Acumular frecuencias carece de sentido cuando las variables son cualitativas. Se designa con el término de frecuencia relativa (fr) de un valor a la suma de todas las frecuencias relativas de los valores menores o iguales al considerado. Se llama frecuencia relativa acumulada(Fr) de un valor a la suma de todas las frecuencias relativas de los valores menores o iguales al considerado. Si cada frecuencia relativa se multiplica por 100 se obtiene el tanto por ciento correspondiente a cada valor. Para construir tablas de frecuencias con DATOS AGRUPADOS EN INTERVALOS se debe calcular: Cuando hay muchos datos distintos en una distribución de frecuencias, conviene agruparlos en intervalos de clase; para realizar esto debes calcular:

a) Rango: diferencia entre el mayor y el menor valor de la variable.

b) Intervalos de clase: Se llama intervalo de clase a cada uno de los intervalos en que pueden agruparse los datos de una variable estadística.

Se definen para obtener una idea más concreta de la realidad. Si los valores de una variable se clasifican por intervalos, tal variable pasa a ser considerada continua.

c) Marca de clase es el punto medio entre los extremos de cada intervalo. Si es

posible se elegirán los intervalos de forma que las marcas de clase sean números enteros o con el menor números de cifras decimales posible. Siempre que se agrupe una variable por intervalos se produce una pérdida de información, pues lo que se tiene en cuanta es la pertenencia o no de cada dato al intervalo y no su valor exacto.

d) Longitud del intervalo. Es conveniente que tengan la misma longitud.

ÁNALISIS E INTERPRETACIÓN DE DATOS

7

e) Número total de intervalos. Dependerá de las características de la variable.

f) Elección de los extremos. Lo ideal es que no coincidan con ningún valor de la

variable.

Ejemplo1:

Tabla de frecuencia para datos agrupados.

En base al peso de las 30 personas, completar la siguiente tabla:

36 36 38 38 43 43 43 45 45 48

48 48 54 54 54 60 60 60 62 62

64 64 64 70 70 70 72 72 72 72

Variable

Peso Kg.

f. absoluta

f

f. acumulada

F

f. relativa

fr

F. relativa por-

centual Fr%

36 2 2 0,067 6,7 %

38 2 4 0,067 6,7%

43 3 7 0,1 10%

45 2 9 0,067 6,7%

48 3 12 0,1 10%

54 3 15 0,1 10%

60 3 18 0,1 10%

62 2 20 0,067 6,7%

64 3 23 0,1 10%

70 3 26 0,1 10%

72 4 30 0,133 13,3%

n = 30

La suma de las frecuencias relativas es: 1,001

La suma de las frecuencias porcentuales es: 100,1%

ÁNALISIS E INTERPRETACIÓN DE DATOS

8

Ejemplo2: Para datos agrupados en intervalos

Después de medir las alturas de 40 alumnos de un curso, se obtienen los siguientes

resultados de la variable:

150 150 152 154 155 155 155 156 157 158

158 159 160 160 160 161 161 162 162 162

162 163 163 163 164 164 165 165 166 166

167 167 168 170 172 175 175 176 178 182

Para hacer la agrupación de datos en intervalos se debe considerar:

a) El recorrido o campo de variación de la variable (Rango), que es la diferencia

entre el mayor y menor valor que ella toma, denotándose por R.

En nuestro ejemplo R = 182-150 = 32

b) Decidir el número de intervalos y tamaño de estos, lo que depende de la cantidad

de datos de la muestra y de su recorrido.

Para este ejemplo se eligieron intervalos de amplitud 4 cm. de estatura, al dividir

el rango o recorrido por la amplitud resultan: 32 : 4 = 8 intervalos.

c) Determinar los límites de cada intervalo, el límite inferior y el superior; así el

primer intervalo será 150 – 154 el límite inferior es 150 y el superior 154;

donde:

150 – 154 = { x / 150 x 154 }

Notar que el límite superior no pertenece al intervalo, el que se incluye en el siguiente

intervalo, excepto el límite superior del último intervalo.

Marca de clase de un intervalo xi:

Es el valor central del intervalo y corresponde a la semisuma de ambos límites.

Marca de clase xi = 2

eriorsuplimiteeriorinflimite

ÁNALISIS E INTERPRETACIÓN DE DATOS

9

Intervalo

Estatura (cm)

f. absoluta

f

f. acumulada

F

f. relativa

fr

f. porcentual

Fr%

Marca de

clase xi

150 – 154 3 3 0,075 7,5% 152

154 – 158 6 9 0,15 15% 156

158 – 162 8 17 0,20 20% 160

162 – 166 11 28 0,275 27,5% 164

166 – 170 5 33 0,125 12,5% 168

170 – 174 2 35 0,05 5% 172

174 – 178 3 38 0,075 7,5% 176

178 - 182 2 40 0,05 5% 180

N= 40

2.3. Gráficas variable discreta/ continuas

Variables discretas

a) Gráfico de barras: representación gráfica en forma de barras, verticales u

horizontales.

b) Gráfico de barras múltiples o agrupadas: es una representación que permite

comparar distintas categorías de variables discretas.

Ejemplo: en la tabla se muestra el número de artículos, de un mismo tipo, vendidos en

el primer semestre por dos empresas.

enero febrero marzo abril mayo junio

empresa1 455 499 567 600 620 625

empresa 2 785 700 653 634 648 631

ÁNALISIS E INTERPRETACIÓN DE DATOS

10

En el grafico se pueden comparar mensualmente las ventas de ambas empresas.

También se observa que la empresa 1 incrementa el número de artículos vendidos,

mientras que la empresa 2 ocurre lo contrario.

Variables continuas

a) Histograma: Gráfico de barras verticales, quedando su ancho determinado por

la amplitud de cada intervalo y su altura por la frecuencia absoluta del intervalo.

b)

ÁNALISIS E INTERPRETACIÓN DE DATOS

11

c) Polígono de frecuencias: gráfico de líneas determinadas por puntos de

coordenadas marcas de clase y frecuencias absolutas.

ÁNALISIS E INTERPRETACIÓN DE DATOS

12

Observación

Grafico circular, se puede utilizar para variables discretas y continuas y se representa

en proporciones o porcentajes.

Ejemplo:

Al representar por medio de un gráfico circular el número de artículos vendidos por 4

vendedores de una industria, se tiene que:

ÁNALISIS E INTERPRETACIÓN DE DATOS

13

Capítulo III: Medidas de Síntesis de Variables Cuantitativas

3.1. Medidas de tendencia central Al describir grupos de diferentes observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas. Entre las medidas de tendencia central tenemos:

Media aritmética Media geométrica Mediana

Moda 3.1.1. Media Aritmética / Geométrica 3.1.1.1. Media aritmética La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumadores. Por ejemplo, las notas de 5 alumnos en una prueba:

niño nota

1 6,0

2 5,4

3 3,1

4 7,0

5 6,1

Primero, se suman las notas: 6,0+5,4+3,1+7,0+6,1 = 27,6 Luego el total se divide entre la cantidad de alumnos: 27,6/5=5,52

ÁNALISIS E INTERPRETACIÓN DE DATOS

14

La media aritmética en este ejemplo es 5,52 La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media. Definición formal Dado un conjunto numérico de datos, x1, x2, ..., xn, se define su media aritmética como

Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos. 3.1.1.2. Media geométrica En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices.

Por ejemplo, la media geométrica de 2 y 18 es

Otro ejemplo, la media de 1, 3 y 9 sería

3.1.2. Mediana / Moda 3.1.2.1. Mediana La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

ÁNALISIS E INTERPRETACIÓN DE DATOS

15

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

Se toma como mediana Existen métodos de cálculo más rápidos para datos más numerosos. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación. Cálculo de la mediana para datos agrupados Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho). Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas: Ni-1< n/2 < i = N19 < 19.5 < N20 Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos) La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más. Ejemplo (N par) Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9

Número de alumnos 2 2 4 5 6 9 4 4 2

ÁNALISIS E INTERPRETACIÓN DE DATOS

16

Cálculo de la Mediana: Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho). Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19 Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo) con lo que Me = (5+6)/2 = 5,5 puntos. 3.1.2.2. Moda La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta. En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva. Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación. Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5. Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda. Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta. La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

xi fi Fi

1 2 2

2 2 4

3 4 8

4 5 13

5 6 19 = 19

6 9 28

7 4 32

8 4 36

9 2 38

ÁNALISIS E INTERPRETACIÓN DE DATOS

17

Siendo la frecuencia absoluta del intervalo modal y y las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal. Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones 1 2 3 4 5 6 7 8 9

Número de alumnos 2 2 4 5 8 9 3 4 2

3.2. Medidas de dispersión o concentración Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son:

Rango o recorrido

Varianza

Desviación estándar 3.2.1. Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística. 3.2.2. Varianza / Desviación estándar 3.2.2.1. Varianza

La varianza es la media aritmética del cuadrado de las

desviaciones respecto a la media de una distribución estadística.

La varianza se representa por .

ÁNALISIS E INTERPRETACIÓN DE DATOS

18

Varianza para datos agrupados

Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Varianza para datos agrupados

Ejercicios de varianza

Calcular la varianza de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

ÁNALISIS E INTERPRETACIÓN DE DATOS

19

Calcular la varianza de la distribución de la tabla:

x i f i xi · fi xi2 · fi

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5.000

[30,40) 35 10 350 12.250

[40, 50) 45 9 405 18.225

[50, 60) 55 8 440 24.200

[60,70) 65 4 260 16.900

[70, 80) 75 2 150 11.250

42 1820 88050

1. La varianza será siempre un valor positivo o cero , en el caso de

que las puntuaciones sean iguales.

2. Si a todos los valores de la variable se

les suma un número la varianza no varía .

3. Si todos los valores de la variable se multiplican por

un número la varianza queda multiplicada por el cuadrado de

dicho número .

4. Si tenemos varias distribuciones con la misma media y conocemos sus

respectivas varianzas se puede calcular la varianza total.

Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

ÁNALISIS E INTERPRETACIÓN DE DATOS

20

Observaciones sobre la varianza

1. La varianza , al igual que la media, es un índice muy sensible a las

puntuaciones extremas.

2. En los casos que no se pueda hallar la media tampoco será posible

hallar la varianza .

3. La varianza no viene expresada en las mismas unidades que los datos, ya

que las desviaciones están elevadas al cuadrado.

3.2.2.2. Desviación típica

La desviación típica es la raíz cuadrada de la varianza . Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. La desviación típica se representa por σ.

Desviación típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Desviación típica para datos agrupados

ÁNALISIS E INTERPRETACIÓN DE DATOS

21

Ejercicios de desviación típica

Calcular la desviación típica de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Calcular la desviación típica de la distribución de la tabla:

x i f i xi · fi xi2 · fi

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5.000

[30,40) 35 10 350 12.250

[40, 50) 45 9 405 18.225

[50, 60) 55 8 440 24.200

[60,70) 65 4 260 16.900

[70, 80) 75 2 150 11.250

42 1.820 88.050

Propiedades de la desviación típica

1. La desviación típica será siempre un valor positivo o cero, en el caso de que

las puntuaciones sean iguales.

2. Si a todos los valores de la variable se les suma un número la desviación

típica no varía.

3. Si todos los valores de la variable se multiplican por un número la desviación

típica queda multiplicada por dicho número.

4. Si tenemos varias distribuciones con la misma media y conocemos sus

respectivas desviaciones típicas se puede calcular la desviación típica total.

ÁNALISIS E INTERPRETACIÓN DE DATOS

22

Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

Observaciones sobre la desviación típica

1. La desviación típica , al igual que la media y la varianza, es un índice muy

sensible a las puntuaciones extremas.

2. En los casos que no se pueda hallar la media tampoco será posible hallar

la desviación típica .

3. Cuanta más pequeña sea la desviación típica mayor será

la concentración de datos alrededor de la media .

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la variable

estadística y la media aritmética.

D i = x – x

La desviación media es la media aritmética de los valores absolutos de las desviaciones

respecto a la media.

La desviación media se representa por

ÁNALISIS E INTERPRETACIÓN DE DATOS

23

Ejemplo Calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de

la desviación media es:

Ejemplo

Calcular la desviación media de la distribución:

x i f i xi · fi xi2 · fi

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5.000

[30,40) 35 10 350 12.250

[40, 50) 45 9 405 18.225

[50, 60) 55 8 440 24.200

[60,70) 65 4 260 16.900

[70, 80) 75 2 150 11.250

42 1.820 88.050

ÁNALISIS E INTERPRETACIÓN DE DATOS

24

3.3. Coeficiente de variación Relación entre el tamaño de la media y la variabilidad de la variable, Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V. Se calcula:

Donde es la desviación típica, y es la Media. Se puede dar en porcentaje calculando:

Características del coeficiente de variación

El coeficiente de variación no posee unidades.

El coeficiente de variación es típicamente menor que uno. Sin embargo, en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1.

Para su mejor interpretación se expresa como porcentaje.

Depende de la desviación típica, también llamada "desviación estándar", y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor el C.V. pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos.

El coeficiente de variación es común en varios campos de la probabilidad aplicada, como teoría de renovación y teoría de colas. En estos campos la distribución exponenciales a menudo más importante que la distribución normal. La desviación típica de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es 1. Las distribuciones con un C.V. menor que uno, como la distribución de Erlang se consideran de "baja varianza", mientras que aquellas con un C.V. mayor que uno, como la distribución hiperexponencial se consideran de "alta varianza". Algunas fórmulas en estos campos se expresan usando el cuadrado del coeficiente de variación, abreviado como S.C.V. (por su siglas en inglés)