separata estadística UNE

5/10/2018 separata estad stica UNE - slidepdf.com

http://slidepdf.com/reader/full/separata-estadistica-une 1/34

CAPÍTULO I. NOCIONES DE ESTADÍSTICA DESCRIPTIVA.

1.1. ESTADISTICA COMO CIENCIA Y COMO UNA METODOLOGIA.

Se han planteado muchas definiciones de la Estadística, algunas caracterizándola como ciencia y otras como una

metodología. Para nosotros la Estadística es Ciencia ( Teoría Estadística ) porque su fundamentación teórica la

encontramos en una de las ramas de la matemática: La Teoría de las Probabilidades .

1.2. POBLACION Y MUESTRA.

POBLACION .- Es el conjunto mayor de “objetos” ( universo ) que poseen al menos una característica común,

cuyo estudio nos interesa o acerca de los cuales se desea información. Los elementos de este conjunto se

denomina Unidades Estadísticas.

La Población puede ser finita o infinita. Si la población es infinita será imposible tener una información

completa sobre ella o si la población es finita pero numerosa y no sea posible estudiar todos y cada uno de los

elementos.

Se acude a la información proporcionada por una parte representativa y finita de dicha población llamada

Muestra.

Llamaremos Datos u observaciones a las unidades estadísticas obtenidas o recopilaciones en forma total ( datos

poblacionales ) o en forma parcial ( datos muestrales ).

1.3.. OBSERVACIONES CUANTITATIVAS Y CUALITATIVAS

Las observaciones contables o medibles se denominan observaciones Cuantitativas; por ejemplo, la estatura de

los estudiantes, la edad de las personas, duración de una bombilla de luz, número de hijos de una familia, e.t.c.

En cambio; el sexo, estado civil, la marca de cigarrillo, no son medibles, sólo pueden describirse como sexo

masculino o sexo femenino, estado civil: soltero, casado, viudo o divorciado, Estas observaciones se denomina

Observaciones Cualitativas o Nominales.

1.4. PARAMETRO Y ESTADIGRAFO.

Parámetro.- Es un número que describe alguna característica de la población y para determinar su valor es ne-

cesario utilizar la información poblacional completa, y por lo tanto, las decisiones se toman con certidumbre

total.

Estadígrafo.- Es un número que se obtiene a partir de los datos muestrales y describe alguna característica de la

muestra y la toma de decisiones contiene un grado de incertidumbre.

1.5. UNA DEFINICION DE ESTADISTICA.. DEFINICION : “ Estadística es una disciplina que nos proporciona un conjunto de métodos y procedimientos

la incertidumbre o predecir o afirmar algo acerca de la población o sus parámetros a partir de los datos extraídos

de la misma”.

CAPÍTULO II -ESTADISTICA DESCRIPTIVA:

Se ocupa de la recopilación, clasificación, presentación y descripción de los datos.

Los datos pueden recopilarse de dos maneras fundamentales:

Si se consideran todos los elementos de la población y se registran sus características se denomina

Censo y

la información obtenida por este procedimiento se llama Censal.

Si se selecciona algunos elementos de la población pero no todos, se denomina Muestra y la

información obtenida por este procedimiento se llama por Muestreo.

Debe decidirse si se va a observar todos y cada una de las unidades estadísticas o se ha de seleccionar una

muestra.

En contraste a los censos esta la gran mayoría de las recopilaciones que dependen de la obtención de Muestras

Representativas de la población. Existen muchas razones por las que se han generalizado el uso de muestras,

entre ellas, el ahorro de tiempo, posibilidades económicas, facilidad y precisión en la obtención de datos, y

sobre todo.

El impresionante desarrollo de la Estadística que proporciona algoritmos o técnicas eficientes por lo que no se

requiere una información completa para llegar a conocer alguna característica de la población o tomar

decisiones generales.Son recopilaciones muestrales, por ejemplo, las encuestas de opinión o intención de voto de unos cientos o

miles de electores ( para proyectarlas y determinar el candidato ganador en una población de millones de

habitantes ); o la recopilación de precios de unos cuantos artículos y servicios obtenidos de un número

relativamente pequeño de vendedores o dependencias estatales ( para determinar el Indice de Costo de Vida de

una Nación ); o la selección de 10 artículos de una línea de producción ( para efecto de Control de Calidad de un

artículo producido por una empresa ). Son recopilaciones censales, por ejemplo, el Censo Poblacional de Perú

de 1981; o el acopio de los promedios ponderados de todos los estudiantes de ingeniería del presente ciclo; o el

récord académico del alumno Ivan Alex.

Si la recopilación de los datos muestrales se efectúa al azar se dice que el muestreo es aleatorio y la muestra

obtenida de este modo se denomina Muestra Aleatoria (m.a).

Existen otros tipos de muestreo que permiten encontrar muestras representativas y confiables como el

sistemático, Estatificado, Secuencial, etc. Que se estudian en detalle en cualquier tratado de Técnicas de

Muestreo.

La información total o parcial puede recopilarse mediante encuestas, registros, información bibliográfica, etc.

Las encuestas Escritas ( o verbales ) son las más usuales y prácticas; pero es preciso diseñar adecuadamente el

cuestionario correspondiente, redactando las preguntas en forma clara , evitando preguntas innecesarias; la

brevedad del cuestionario es importante, se debe tener presente que necesitamos la cooperación del encuestado,

generalmente a cambio de nada. Diseñado el cuestionario es recomendable someterlo a prueba, con pocas

personas ( Estudio Piloto) para identificar las fallas y corregirlas a tiempo

La recopilación por Registro se obtienen en las oficinas de Estadística, Dependencias Institucionales o Centros

de Computo.

2.1. CLASIFICACION.

Los datos obtenidos obtenidos en la primera etapa suelen suelen ser registradas en el orden en que se recopilan,

para facilitar su interpretación y el análisis correspondiente debemos organizarlos o clasificarlos de manera

sistemática, y una manera sencilla de hacerlo es ordenar los datos según su magnitud y/o agruparlos según sus

características en grupos más condensados; este último equivale a sub-dividir los datos en sub-grupos o clases;

a este proceso se le conoce como Clasificación.

Ordenando los datos en forma creciente o decreciente de sus magnitudes se distinguirán claramente los

datos de mayor valor (máximo) y de menor valor (mínimo); pero clasificándolos convenientemente

podremos distinguir otras características que nos permitirán una mayor comprensión y descripción de los

datos bajo estudio.

Haremos algunas definiciones en base al siguiente ejemplo:

Clasificar los siguientes datos recopilados del número de cabezas de ganado vacuno que poseen cada una

de las 40 familias de las comunidades campesinas de la Sierra Central del Perú, elegidas al azar:

1 2 0 3 5 1 0 8 1 2

4 3 3 5 12 0 4 3 0 10

0 0 4 9 0 1 3 2 1 3

5 4 5 8 2 0 1 3 2 0

Observamos que los datos tal como fueron registrados en el proceso de recopilación están en completo

desorden y no sugieren ninguna interpretación. Procedamos a organizarlos en orden creciente de sus

magnitudes:

0 0 0 0 0 0 0 0 0 1

1 1 1 1 1 2 2 2 2 23 3 3 3 3 3 3 4 4 4

4 5 5 5 6 8 8 9 10 12

Observamos que el mínimo 0 y el máximo es 12; y además, el dato que más se repite es el 0. Pero,

clasificándolos podremos distinguir otras características, a la par de conseguir una mayor simplificación o

condensación de los datos bajo estudio.

Comencemos con algunas definiciones:

ALCANCE (A):

RANGO (R):

Llamado también Amplitud, es la longitud del Alcance.

R = l(A) = | 12 - 0 | = 12.

INTERVALOS DE CLASE (Ii).

Clasificar los datos en k sub-grupos equivale a particionar el Alcance en k partes, llamados Intervalos de

Clase o simplemente Clases que se denotan por Ii : i = 1,2,...,k.

Por tratarse de una partición del Alcance, se debe cumplir:

i) Ii ∩ I j = Φ ; ∀ i ≠ j

Ii = A

Ii I 2 IK

Lo que se interpreta diciendo: “que las clases deben ser mutuamente excluyentes (sin traslapos) y

colectivamente exhaustivas (sin vacíos, tal que la unión de las clases sea igual al Alcance).

LIMITES DE CLASE ( Li)

Los extremos de los intervalos de Clase se denominan Límites de Clase y se denotan por Li : i = 1,2,...k +

Cuando algunos de los datos coincide con un límite se presenta la dificultad de asignarle su pertenencia;

para despejar esta duda los Intervalos de Clase los consideramos semi-abiertos por la derecha (o por la

izquierda ); esto es:Ii = [ Li , Li+1 ⟩ ; I = 1,2,...,k

Eventualmente, Ii puede ser abierto y/o Ik puede ser cerrado.

Así los Límites de Clase en términos más matemáticos los definimos como el Supremo y el Infimo de

cada Intervalo de clase.

El criterio a seguir para determinar el número de clases es el mismo sea suficientemente pequeño para

lograr la simplificación deseada, pero lo suficientemente grande para minimizar los posibles errores de

clasificación; se recomienda:

5 ≤ k ≤ 15

REGLA DE STURGES.

Se recomienda usar la Regla de Sturges para determinar un primer valor aproximado de k, el que puede

sufrir modificaciones de acuerdo al criterio del estadístico y problemas de redondeo.

Regla de Sturges: k = 1+ 3.3 log n ; donde n es el número total de datos disponibles y el

logaritmo se toma en base 10.

En el ejemplo, k = 1+ 3.3 log 40 = 6.2868. Luego k podrá tomar valores enteros: 5,6 ó 7.

El valor entero de k finalmente dependerá del estadístico, de la naturaleza del trabajo de investigación,

problemas de redondeo y Técnicas de Clasificación adoptadas.

Téngase en cuenta que al clasificar los datos se logre posiblemente la simplificación deseada a costa de

una pérdida de información. Cuando un dato se asigna a determinada clase pierde su propia característica

de toda la clase); esta pérdida de información conlleva una reducción en la precisión que se conoce como

error de clasificación. Si se desean medidas más precisas es preferible usar los datos sin clasificar o

minimizar en lo posible los errores de clasificación.

ANCHO DE CLASE(Wi).

Llamado también Amplitud de Clase, es la longitud de un Intervalo de Clase.

Wi = l (Ii) = | Li+1 - Li |

Para conseguir anchos de clase iguales a w, como es deseable, se usa la siguiente relación:

W = R/K

En el ejemplo anterior, tomando k = 6 se tiene w = 2

FRECUENCIAS ABSOLUTAS ( ni ó f i)

Una vez decidido el valor de k y calculado el ancho de clase (anchos de clase iguales o no)., mediante la

“Tabulación” o “ Chequeo” se determina el número de datos contenidos en cada clase y este número dedatos contenidos en cada clase y este número entero se denomina Frecuencia Absoluta, que se denota

por: ni ó f i

y tiene las siguientes propiedades:

i) 0 ≤ ni≤ n

ii) nii

ni se lee: frecuencia absoluta de la i-ésima clase.

2 2 PRESENTACION DE DATOS

En esta etapa se elaboran cuadros numéricos llamados Tablas o Cuadros Estadísticos o Distribución de

Frecuencias y se representa mediante Gráficas.

Tomando el ejemplo construiremos una Distribución de Frecuencias de la siguiente manera:

A partir del dato de menor valor 0 = l1 agregando sucesivamente el ancho de clase (común) obtendremoslos límites de los seis intervalos de clase.

L1 = 0

L2 = L1 + w = 0 + 2 = 2

L3 L 2 + w = 2 + 2 =4 . . .

En general:

Li+1 = Li + w ⇒ w = Li+1 - Li ;∀ i

Los intervalos de clase resultantes son:

I1 = [ 0,2 > , I2 = [2,4 > ,. . . , I 5 = [8,10>, I6= [10, 12]

Después de disponer los intervalos de clase en columna (ver la tabla 1) se procede a asignar cada

observación a la clase que le corresponde, registrando cada asignación (para efectos de control) mediante

una “traza” (raya oblicua pequeña) en la casilla correspondiente de la columna Tabulación.

Así, (considerando los datos ya ordenados ) el primer número 0 estará en el intervalo de clase [0,2⟩ ,

entonces anotaremos una traza en la casilla correspondiente a I1; el segundo número o también pertenece

a I1, entonces marcamos otra traza en el mismo casillero; se observa que los primeros 9 números son

“ceros” y los siguientes 6 son “unos”, todos ellos pertenecen al intervalo [0,2> luego aparecerán 15 trazas

en el primer intervalo; continuando el procedimiento se registraran 12 trazas en la segunda casilla, 7 en latercera, etc.

El número de trazas en cada intervalo de clase (casilla) representa el número de datos pertenecientes a

cada clase y el número entero resultante constituye la ya referida Frecuencia Absoluta.

TABLA 1:

DISTRIBUCION DE FRECUENCIAS ABSOLUTAS

Cabezas de ganado TABULACION No. de Fam./ clase

Intervalo de clase Frecuencia. Absol

I i n i

[ 0,2 > / / / / / / / / / / / / / / / 15

[ 2,4> / / / / / / / / / / / / 12

[4,6> / / / / / / / 7

[6,8> / 1

[8,10> / / / 3

[10,12> / / 2

TOTAL 40

Se verifica que:

i) 0 ≤ ni ≤ 40 ; ∀ι .

ii) nii=

= n1 , n2, n3 , n4 , n5 , n6

= 15 + 12 + 7 + 1 + 3 + 2 = 40

n3 = 7 se lee: La Frecuencia Absoluta de la tercera Clase es 7.

MARCA DE CLASE ( Xi)

Son los puntos medios de los intervalos de clase.

Xi = ( Li + Li+1) / 2 i = 1,2,. . . , k

X1 = 1 , X2 = 3 , X3 = 5 , . . . ( ver tabla 4 ).

X1 = 1 , Se lee: La Marca de Clase del primer intervalo es 1

Todos los datos agrupados en una clase, si bien pierden su individualidad, están representados por un

mismo valor que a su vez caracteriza la clase, ese valor típico es la Marca de Clase.

TABLA 2.CUADRO ESTADISTICO

Ii ni xi hi Hi Ni 100hi% 100Hi%

[ 0, 2 > 15 1 0,375 0,375 15 37,5 37,5[ 2, 4 > 12 3 0,300 0,675 27 30,0 67,5[ 4, 6 > 7 5 0,175 0,850 34 17,5 85,0[ 6, 8 > 1 7 0,025 0,875 35 2,5 87,5[ 8 , 10> 3 9 0,075 0,950 38 7,5 95,0

[ 10, 12 ] 2 11 0,050 1,000 40 5,0 100

TOTALES 40 1,000 100%

FRECUENCIAS RELATIVAS. ( hi )

Se define:

hi = ni / n ; i = 1,2 , . . . , k.

Tienen las siguientes propiedades:

i) 0 ≤ hi ≤ 1 ; i = 1 , 2 , . . . , k

∑ h = 1

ii) ∑ hi = 1

FRECUENCIAS RELATIVA PORCENTUAL ( 100 hi % ).

Representa la proporción o el porcentaje de datos en cada clase. Nos permite contestar preguntas delsiguiente tipo: Qué porcentaje de familias, de las 40 bajo estudio, tienen 2 ó 3 cabezas de ganado.

FRECUENCIA ABSOLUTA ACUMULADA ( Ni ó Fi)

Representa el número de observaciones menores que el límite superior de determinada clase. Se obtiene

sumándole a la frecuencia acumulada de la clase anterior la frecuencia absoluta de la clase interesada; es

decir:

Ni = Ni-1 + ni , i = 2 , 3 , . . . , k y Ni = ni

• también:

• Ni = j

n j i = 1 , 2 , . . . ,k

Tienen las siguientes propiedades:

i) n i ≤ Ni ≤ n ii) Nk = nj j

ii) n1 = N1 iv) ni = Ni = Ni-1 ; i > 1

Observando la columna de las frecuencias absolutas acumuladas de la TABLA 4 podemos interpretar:

15 familias poseen menos de 2 cabezas de ganado

27 familias poseen menos de 4 cabezas de ganado

FRECUENCIA RELATIVA ACUMULADA ( Hi ).

Representa la frecuencia relativa acumulada con valores menores que el límite superior de una clase y se

obtiene sumándole a la frecuencia relativa acumulada de la clase anterior la frecuencia relativa de la clase

interesada:

Hi = Hi-1 + hi , i = 2 , 3 , . . . , k y Hi = hi

también:

Hi = hj j

ó Hi = Ni / n ; i = 1 , 2 , . . . , k.

Tiene las siguientes propiedades:

i) hi ≤ Hi ≤ 1 ; ∀i ii) Hk = hj j

En el ejemplo:

H1 = h1 = 0,375

H2 = H1 + h2=0,375 + 0,300 = 0,675

ó H3 = hj j=

= h1 + h2 + h3 = 0,375 + 0,300 + 0,175 = 0, 850

ó H4 = N4/n = 35/40 = 0,875

Además:

h2 = H2 - H1 = 0,675 - 0,375 = 0,300

h3 = H3 - H2 = 0,850 - 0,675 = 0,175

FRECUENCIA RELATIVA ACUMULADA PORCENTUAL ( 100 Hi % ).

Representa la proporción o el porcentaje de observaciones menores que el límite superior de determinada

clase. Nos permite contestar preguntas del siguiente tipo: Qué porcentaje de familias de las 40 bajo

estudio, tienen menores de 2 cabezas de ganado?

Observando 100Hi% , diremos que el 37,55 de las familias poseen menos de 2 cabezas de ganado.

2.2.1. Distribuci ó n de frecuencias.

De la tabla 2 ( Cuadro Estadístico ) podemos extraer las llamadas Distribuciones de Frecuencias ( o tablas

de Frecuencias ). Veamos algunas.

TABLA 3. TABLA 4.

Distribución de Frecuencias Distribución de Frecuencias

Absolutas Relativas

Ii ni Ii hi

[ 0 , 2 > 15 [ 0 , 2 > 0,375

[ 2 , 4 > 12 [ 2 , 4 > 0,300

[ 4 , 6 > 7 [ 4 , 6 > 0,175

[ 6 , 8 > 1 [ 6 , 8 > 0,025

[ 8 , 10> 3 [ 8 , 10 > 0,075

[ 10 , 12> 2 [ 10, 12] 0,050

40 1.000Ii vs. n1 Ii vs h1

TABLA 5: TABLA 6:

Distribución de Frecuencias Distribución de Frecuencias

Absolutas Acumuladas Relativas Acumuladas

Ii Ni I i H i

[ 0 , 2 > 15 [ 0 , 2 > 0,375

[ 2 , 4 > 27 [ 2 , 4 > 0,675

[ 4 , 6 > 34 [ 4 , 6 > 0,850

[ 6 , 8 > 35 [ 6 , 8 > 0,875

[ 6 , 8 35 [ 6 , 8 0,875

Ii vs Ni I i vs Hi

2.2.2. Gráficas.

Las gráficas se levantan o diseñan sobre un plano cartesiano.Previa elección de una escala adecuada: el Alcance, los Intervalos de Clase y los Límites de Clase se

disponen en el eje horizontal ( eje x ) y en el eje vertical ( eje y ) las frecuencias correspondientes.

Las Distribuciones de Frecuencias pueden representarse gráficamente mediante: Histogramas, Polígonos

de Frecuencias, Diagramas Escalonados, Ojivas, etc.

2.2.2.1. Histogramas.

Son gráfica de rectángulos cuyas bases representan los Intervalos de Clase y las alturas de

Frecuencias Absolutas o Relativas. Nos permiten comparar frecuencias. Los rectángulos deben tocarse

unos a otros, sin brechas, excepto para clases vacías.

Ii vs ni o Ii vs Hi ver fig. 2

2.2.2.2. Polígonos de frecuencias.

Es una poligonal construida uniendo los puntos ( xi , ni ) o ( xi , hi ) mediante segmentos de recta: o

también se define como una poligonal construida uniendo, mediante segmentos de recta, los puntos

medios de los techos de los rectángulos del Histograma.

En algunos casos puede ser recomendable extender la poligonal en los puntos: ( xi - w , 0 ) y ( xk + w , 0 ).

Los polígonos de frecuencias pueden permitirnos comparar varias distribuciones superpuestas cuando

todas ellas están expresadas en la misma escala y en lo posible tienen los mismos límites de clase.

Además, un polígono de Frecuencias nos sugiere el uso de una curva suave como su representación

idealizada, lo que puede lograr mediante las Técnicas de Ajuste. La curva suavizada adquiere

importancia por que se considera que representa la población ( o modelo matemático ) de la que se

obtiene la muestra. Ver fig. 2

FUNCION ESCALONADA.

Son gráficas correspondientes a: ( Ii vs Ni ) o ( Ii vs Hi ) Ver fig. 3

2.2.2.3. Ojiva:

Es una poligonal construida uniendo los puntos cuyas abscisas son los límites superiores de las clases

y las ordenadas son las frecuencias absolutas acumuladas, o relativas acumuladas o las porcentuales. Se

añade una clase con frecuencia cero antes de la primera clase.

La ojiva nos permitirá hacer interpolaciones y puede ser suavizada ( igual que el polígono de

frecuencias ) hasta conseguir una curva que representa la población llamada Función de Distribución. Ver

HISTOGRAMA

12 POLIGONO DE FRECUENCIAS

10 CURVA SUAVE

0 2 4 6 8 10

FUNCION ESCALONADA Y OJIVA. 40

15 fig. 3

2 4 6 8 10 12

2.2.2.4. Gráfica de sectores angulares o diagramas circulares.

Las cantidades porcentuales se transforman a grados sexagesimales mediante la relación: donde r

es la cantidad porcentual ; x esta expresado en grados sexagesimales. Así en nuestro ejemplo:

r = 37,5 % ; x = (3,6)(37,5) = 135° s

r = 30.0 % ; x = (3,6)(30,0) = 108°s

17,5 % ; 63°s

2,5 % 9°s

Se dibuja un círculo. Los sectores angulares ( medidos en grados sexagesimales ) representan los

porcentajes correspondientes.

Se recomienda colorear o distinguir de alguna manera cada sector y asociarle una Leyenda que expliqueclaramente su significado o la característica que representan.

1 LEYENDA

1 [ 0 , 2 }

37,5 %

6 2 [ 2 , 4 }

30,0 %

3 [ 4 ,

6 } 17,5 %

2 5 4 [

6 , 8 } 2,5 %

5 [ 8 , 10 }

4 6 [ 10, 12 ]

PICTOGRAMAS.

En el interior de los rectángulos del Histograma se dibuja el “objeto” de estudio,

variando el tamaño proporcional a las alturas de los rectángulos. En el ejemplo, un pictograma presentaría cabezas de ganado dibujados en el interior de los rectángulos,

proporcional a la magnitud de sus alturas

CAPÍTULO III.- MEDIDAS DE TENDENCIA CENTRAL.

3.1. MEDIA ARITMÉTICA.

Llamada simplemente Media o promedio.

Es una medida de tendencia central que localiza el centro físico ( semejante al

centro de gravedad ) de la distribución de datos.

Se denota por:

También:

M(x) que se lee : “Media de la variable X”

3.1.1.Media de datos no clasificados.

Sea { x1,x2, ... , xn } una muestra de tamaño n; entonces.

X = x ii

/ n = ( x1 +x2+x3+. . . + xn)/ n

3.1.2.Media de datos Clasificados.

Sean x1 , x2 , . . . , xk las marcas de clase y f1, f2, ... ,f4 las frecuencias absolutas correspondientes, k

=No de clases y n tamaños de muestra; la Media muestral se define:

x = x i hi

3.1.3. Características más relevantes de la media aritmética.

a. La Media Aritmética es la Medida Descriptiva más conocida y usada en Estadística

b. Es una medida única: es decir, un conjunto de datos tienen solamente una Media

c. Es calculada tomando en cuenta la magnitud de todos y cada uno de los datos bajo

consideración.

d. Como la Media localiza el "centro" físico (centro de gravedad) de una distribución de

datos, es una Medida de Tendencia Central muy sensible a los valores extremos y estos

valores con magnitudes desproporcionadas desplazan el valor de la media hacia esos

extremos.

3.2. MEDIANA.

Es una medida de tendencia central en donde se define como el centro de una distribución. Es decir el

50% para cada lado.

X (n+1)/2 ; si n es impar

Me = Xm =

1 [x n/2 + (n+2)/2 ] ; si n es par

Una vez ordenados los datos en orden creciente (o decreciente)

Si n es impar, la Mediana es el valor central que equidista de los extremos.

Si n es par, la Mediana es el promedio aritmético de los dos valores centrales que

equidistan de los extremos.

En ambos casos, la Mediana es aquel valor para el cual el número de observaciones

mayores que él es igual al número de observaciones menores que él.

Ejemplos:

Hallar la Mediana de los siguientes conjuntos de datos:

1) {3,6,8,2,1} 2) {2,1,5,4,9,8}

Solo 1) 1 , 2, 3, 6, 8, ----> Datos ordenados

¦ ¦ ¦ ¦ ¦

↓ ↓ ↓ ↓ ↓

X1 X2 X3 X4 X5

Como n es impar (n = 6)

Xm = X (5+1)/2 = X3 = 3

El número de observaciones mayores que la Mediana es igual al número de

observaciones menores que la Mediana

Sol 2)

1 , 2, 4, 5, 8, 9 ----> Datos ordenados

¦ ¦ ¦ ¦ ¦ ¦

↓ ↓ ↓ ↓ ↓ ↓

X1 X2 X3 X4 X5 X6

Me = 1 x 6/2 + x(6+2)/2 = 1 x3 + x6

x3 y x4 equidistan de los extremos y el promedio aritmético de estos números es la Mediana. Lo

que podemos interpretar de las siguientes maneras:

Hay 3 observaciones mayores que 4.5 y 3 observaciones menores que 4.5 (el número de

observaciones mayores que 4.5. es igual al número de observaciones menores que 4.5.).

O bien, la Mediana 4.5 clasifica los datos colocando al lado izquierdo el 50% de los

datos y el lado derecho los otros 50%

3.2.2.Mediana de datos clasificados

x = Li + ( N/2 - F i-1 ) c/Fi

donde: Li es el valor inferior del intervalo de clase.

Fi-1 es la frecuencia acumulada anterior.

N es el número total de datos.

Fi es la frecuencia absoluta de la clase mediana.

C es el ancho de la clase mediana.

3.3. MODA.

Es el dato que más tiene repeticiones o de más frecuencias.

Existen:

a) Una moda unimodal.

b) Dos modas bimodal

c) Varias modas Multimodal

b) x1 x2

x1 x2 x3

3.3.1.Moda de Datos no clasificados

Moda es el valor de dato que se presenta con mayor frecuencia o se repite el mayor

número de veces.

Ejemplos:

Determinar la Moda en los siguientes conjuntos de datos no agrupados:

1) 4,7,6,6,9,8,10,15,6,7

2) 8,4,7,8,4,6,9,8,6,10,15,4,8,6,4,8,9,3

3) 4,7,6,4,6,7,7,6,4

SOLUCIÓN

Sol 1. Ordenando los datos o "tabulándolos" se tiene

4,6,6,6,7,7,8,9,10,15

Medidas Descriptivas

Xi TABULACIÓN Ni

Se observa que el dato que se repite con mayor frecuencia es el 6, entonces Mo = 6

Sol 2. Ordenándolos o tabulándolos:

3,4,4,4,4,6,6,6,7,8,8,8,8,8,9,10,15

TABULACIÓN ni

El dato que se repite el mayor número de veces es el 6 Luego Mo=8

Sol 3. Como no existe un dato que se repita con mayor frecuencia no existe Moda.

3.3.2. Moda de datos clasificados.

Cuando se tiene datos agrupados en una tabla de distribución de Frecuencias la moda será:

X = Li + (∆ 1 /∆ 1+ ∆ 2) w

Donde:

Li es el Límite inferior de cada intervalo de clase.

∆ 1 y ∆ 2 son las diferenciales del valor más alto de la frecuencia.

W es el recorrido.

Determinar la Moda o Modas de las siguientes Distribuciones de Frecuencia

Ii f i Ii f i

[24.5 , 29.5>

[29.5 , 34.5>

[34.5 , 39.5>

[39.5 , 44.5>

[44.5 , 49.5>

[49.5 , 54.5>

[54.5 , 59.5>

[59.5 , 64.5>

30 - 39

40 - 49

50 - 59

60 - 69

70 - 79

80 - 89

90 - 99

Observando la Tabla notamos un máximo absoluto sobre el cuarto Intervalo de clase, entonces,

Clase Modal: [39.5 , 44.5>

_ 1 = f 4 - f 3 = 26 - 22 = 4

L4 = 39.5 ; w4 = [44.5 - 39.5] = 5

Mo = L4 + W4 ------- = 39.5 + 5 ----- = 41.5

_ 1 + _ 2

O podíamos haber obtenido, un valor aproximado de la Moda, tomando la Marca de Clase de laClase Modal.

L4+L5 = 39.5 + 44.5 = 42 ==> Mo _ 42

X4 = ------ ----------

3.3.3. Características mas relevantes de la moda

1. Le sigue en importancia a la Media y a la Mediana; su uso se hace imperativo cuando los datos

son de tipo cualitativo. Su fácil interpretación y su cálculo sencillo hacen de la Moda una medida

de Localización más usual y práctico. Así, un gerente de una fábrica de calzados puede estar

interesado en las medidas (número de calzadura) que se venden mas, esta medida está mejor

representada por la Moda que por otras medidas descriptivas.

2. No es una medida única como la Media y la Median. Un conjunto de datos puede tener más de

una Moda. Mediante una clasificación adecuada una multimodal se puede transformar en una

unimodal. La moda es única en datos cualitativos.

3. El cálculo de la Moda es independiente de la magnitud de las observaciones, como tal, puede

permanecer igual variando los valores o incrementando el número de ellas.

3.4.1. Los Cuartiles: ( Q )

Los cuartiles o cuartilas son medidas de tendencia central que a su distribución de frecuenciasdivide en 4 partes. Es decir:

Q1 Q2 = X Q3

0% 25% 50% 75% 100%

Sus fórmulas son:

Q1 = Li + ( N/4 - F i-1 )/W/fi

Q2 = X

Q3 = Li + (3N/4 - Fi-1)W/fi

• dQ = (Q3 - Q1)/2 Desviación Cuartílica.

3.4.2. Los Deciles ( D ).

Son medidas de tendencia central que a su distribución de frecuencias divide en 10 partes.

Se enuncia:

Dr = Li + (rN/10 - Fi-1)/ W/fi

dD = (D9 - D1)/2 Desviación Decílica

3.4.3. Los Percentiles ( P )

Son medidas de tendencia central que a la distribución de frecuencias divide en 100 partes

iguales.

P1 P50 P51 P99

Se enuncia:

CAPÍTULO IV.- MEDIDAS DE DISPERSIÓN.

Para describir y analizar más ampliamente el comportamiento de una distribución de

frecuencias, no es suficiente obtener los valores centrales, sino además, algunos otros valores

que nos permitan tener idea sobre la dispersión o diseminación de los datos.

Se llama dispersión al grado en que los datos numéricos tienen a extenderse alrededor

de un valor medio.

4.1. VARIANZA

Una manera de suprimir los signos que corresponden a cada una de las diferencias, sin

establecer discriminación, consiste en elevarlos al cuadrado. El cociente que resulta de dividir la

suma de los cuadrados de las diferencias entre los valores individuales y la Media Aritmética por

el número de observaciones se denomina VARIANZA y se le designa por la letra "S2" cuando se

trata de la población y con "S2" cuando se trata de una muestra. La varianza minimiza la suma de

las desviaciones al cuadrado, esta medida no se utiliza para describir una distribución, sino más

bien, tiene una gran aplicación en el campo del muestreo en el diseño de muestras y también

sirve para comparar 2 ó más distribuciones, por tal razón el concepto de Varianza posee un

mayor valor teórico que la Desviación Standard que viene a ser la raíz cuadrada de la Varianza.

En el cálculos de la Varianza se presentan dos situaciones:

Varianza a partir de datos no agrupado y

Varianza de datos agrupado

4.1.1. Varianza de datos no clasificados.

1) Método Directo

(X1 - X2)2 + (X2 - X)2 + ....... (Xn - X)2

S2 = ------------------------------------------

Σ (X1 - X)2

= ---------------- ó

S2 = -- Σ (X1 - X)2

Pasos:

1º Se determina la desviación de cada término (X1) con respecto a la Media (X)

2º Se elevan al cuadrado las desviaciones y luego se suman

3º Se divide la suma de cuadrados resultante entre el número de observaciones

Las fórmulas 26 y 27 que se dan a continuación, reciben el nombre de fórmulas modificadas y

son transformaciones algebraicas de la fórmula 25 llamada fórmula de la definición.

Σ X2 -------

S2 = ---------------------

1 n n 2

S2 = -- N Σ X2 - Σ X1

N2 1=1 i=1

2) Método Abreviado, con cambio de origen en la serie simple de datos

1 n n 2

N2 1=1 i=1

donde: C1 = X1 - X0

Para usar estas dos fórmulas 26 y 27 el único paso previo que se da, es el de elevar al cuadrado

cada uno de los valores (X2) y luego sumarlos y para la fórmula 28 se selecciona un valor

arbitrario (X0)

Ejemplo: Utilizaremos los mismos datos de los ejemplos anteriores, donde el peso

promedio de los 5 recién nacidos fue 3.4 y seleccionando 3.5. como X0

tenemos los siguientes resultados.

X1 X1- X (X1-X)2 X2 C1=X1-X0 C2=(X1-XO)2

17.0 - 1.04 58.84 -0.5 1.09

Efectuando operaciones con cada una de las cuatro fórmulas tenemos:

(1) S2 = ----- = 0.21 ó

S2 = --- (1.04) = 0.2 (1.4) = 0.21

58.84 - 5 58.84 - 57-80 1.04

(2) S2 = -------------- = -------------- = ----- =

= 0.21

1 5(58.84) - (17)2

(3) S2 = ---

= 1 294.20 - 289.00

= 1 5.20 = 5.20 = 0.21

(4) S2 = 1 5(1.09) - (-0.5)2

= 1 5.45 - 0.2525

= 1 5.20 = 5.20 = 0.21

4.1.2. Varianza de datos clasificados.

En este caso se cuentan con los siguientes métodos:

1. Método Directo

Σ fh (Xh - X)2

S2 =--------------------

Donde:

S2 = Varianza

f h = Frecuencia de clase

Xh = Punto medio de clase

X = Media

N = Número total de observaciones

(Xh-X)2 = Cuadrado de las diferencias de cada punto medio y ma media

Esta fórmula se usa tanto para intervalos regulares como irregulares y recibe el

nombre de Método Directo. También se le puede expresar de la siguiente manera:

1 k k 2

S2 = -- N Σ f hX2 - Σ f h Xh

N2 h=1 h=1

PASOS:

1º Se determinan los puntos medios (X)

2º Se obtiene las diferencias de cada punto medio y la media respetando los signos

3º Se elevan las diferencias al cuadrado

4º El cuadrado de las diferencias se multiplica por la frecuencia respectiva, luego se suman

los valores resultantes.

5º La suma resultante en el punto 4º se divide entre el número de observaciones

Ejemplo de Aplicación: Con X = 5.19

Xh1 – Xh2 nh Xh Xh-X (Xh-X)

nh(Xh-X)2 nh Xh nh X2

3.5-3.9

4.0-4.4

4.5-4.9

5.0-5.4

5.5-5.9

6.0-6.4

6.5-6.9

194.25

14.063

126.438

315.882

1,019,831

396.756

78.126

91.125

TOTAL 75 ---- ---- ---- 22.010 389.25 2,042.202

reemplazando en las fórmulas 29 y 30 tenemos:

(1) S2 = 22.0 = 0.29

(2) S2 = 1 [75 (2042.22) - (389.25)2

S2 = 1 [1,650.94]

S2 = 1,650.94 = 0.29

2. Métodos Abreviados

Se usa sólo para distribuciones de frecuencias con intervalos

regulares, cambio de origen de los intervalos.

S2 = 1 N Σ nhC2 - Σ nh Ch

donde: Ch = Xh - Xo

S2 = 12 N Σ nhC2 - Σ nh Ch

N2 h=1 h=1

donde: dh = Xh - X0

4.2. DESVIACIÓN STANDARD O DESVIACIÓN TÍPICA

Es la medida de dispersión más utilizada en el campo de la estadística y se

define como la raíz cuadrada de la media aritmética de las desviaciones

cuadradas con respecto a la Media. Se le designa por la letra "S"

(mayúscula) cuando se trata de la población y por "s" (minúscula) cuando se

trata de una muestra.

Características

- Cuánto mayor es la dispersión alrededor de la media tanto mayor es

el valor de la desviación standard.

- Las desviaciones extremas con respecto a la media pesan mucho

más en cuanto a determinar el valor de la desviación standard.

Propiedades

- La Desviación Standard puede definirse por:

S = √ _ Σ (X1-a)2

donde "a" es un valor que puede ser distinto de la media aritmética. De

todas las desviaciones típicas, la mínima es aquella para la que a = x

- Para distribuciones normales resulta que:

1. El 68.27% de los casos están comprendido entre la: X - S y X + S

2. El 95.45% de los casos están comprendidos entre la X - 2S y X + 2S

INTRODUCCÍON

Desde los más remotos tiempos encontramos vestigios sobre la recopilación de datos, a veces aspectos analíticos

de ellos. Los esfuerzos del hombre por evaluar en forma cuantitativa las características que le rodean los como

resultado la Estadística.

La Estadística como método científico para el estudio de fenómenos colectivos y por su utilidad en la toma de

decisiones como de previsión, se ha convertido en una de las características de nuestro tiempo y su desarrollo

trasciende, como ciencia y como metodología de investigación científica, a casi todas las ramas del saber

humano.

Se ha estructurado la presente monografía en cuatro capítulos, en los que se exponen aspectos básicos sin

descuidar su rigurosidad conceptual.

En el primer capítulo se exponen nociones de Estadística. En el segundo, se trata sobre la Estadística

Descriptiva propiamente dicha. En el tercero se trata referente a las medidas de tendencia central y en el cuarto

capítulo se consideran las medidas de dispersión las que nos indican el grado de variación de los valores de la

variable en estudio.

Dado su gravitante utilidad, se valora de por sí la estadística. Actualmente se impone el auge del conocimiento

en pos de arrancar los secretos a la naturaleza a fin de ponerlos al servicios del bienestar humano.

Seguramente que en el desarrollo de los temas se apreciarán algunas limitaciones; son los primeros intentos

por sumergirse en estas áreas . Esperamos su comprensión y hacemos presente que va en las siguientes páginas

nuestro mejor propósito.

El Autor.

UNIVERSIDAD NACIONAL DE EDUCACIÓN

ENRIQUE GUZMÁN Y VALLE

LA CANTUTA

FACULTAD DE CIENCIAS

ESCUELA ACADÉMICA PROFESIONAL DE MATEMÁTICA E INFORMÁTICA

ASIGNATURA

SEMINARIO DE MATEMÁTICA

ESTADÍSTICA DESCRIPTIVA

(MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN)

PROFESOR DEL CURSOAurelio GÁMEZ TORRES

REALIZADO POR Ciro Miguel, ANAYA COTRINA

CÓDIGO: 862164ESPECIALIDAD: MATEMÁTICA

CICLO 99-B

CONTENIDO

INTRODUCCIÓN

CAPÍTULO I NOCIONES DE ESTADÍSTICA DESCRIPTIVA1. 1. Estadística como ciencia y como una metodología.1. 2. Población y muestra.1. 3. Observaciones cuantitativas y cualitativas.1. 4. Parámetro y estadígrafo.1. 5. Una definición de Estadística.

CAPÍTULO I IESTADÍSTICA DESCRIPTIVA2.1. Clasificación.2.2.Presentación de datos.

2.2.1. Distribución de frecuencias.2.2.2.Gráficas.

2.2.2.1. Histogramas2.2.2.2. Polígonos de frecuencia2.2.2.3. Ojiva2.2.2.4. Gráfica de sectores angulares o diagramas circulares.

CAPÍTULO I I IMEDIDAS DE TENDENCIA CENTRAL3.1. Media aritmética3.1.1. Media de datos no clasificados3.1.2. Media de datos clasificados3.1.3. Características más relevantes de la media aritmética3.2.Mediana3.2.1. Mediana de datos no clasificados

3.2.2. Mediana de datos clasificados3.3. Moda3.3.1. Moda de datos no clasificados3.3.2. Moda de datos clasificadoa3.3.3. Características más relevantes de la moda3.4. Cuartilas o fractilas3.4.1. Los cuartiles3.4.2. Los deciles3.4.3. Los percentiles

CAPÍTULO I VMEDIDAS DE DISPERSIÓN4.1. Varianza

4.1.1. Varianza de datos no clasificados4.1.2. Varianza de datos clasificados

BIBLIOGRAFÍA

1. BARBANCHO, Alonso Estadística Descriptiva

2. GARCÍA ORÉ, Celestino Estadística y ProbabilidadesEdita Ursula 1990

3. MOYA CALDERÓN, Rufino Estadística Descriptiva

4. MURRAY R., Spiegel EstadísticaEdita Mac Graw Hill, México 1970.

separata estadística UNE

Documents

separata comprensión

Separata Cpl

Separata desahucios

Separata ANN

ESTADÍSTICAESTADÍSTICA APLICADA A LOS NEGOCIOS …chamilo.unife.edu.pe/chamilo18/courses/04/document/SEPARATA/01... · UNIFÉ Administración de Negocios Internacionales Estadística

2015 Separata

Separata Java

Separata final

Separata innpulsa

SEPARATA 1

separata legislacion

Separata 2

Separata msproject

Separata 3

Separata Quechua

Separata HTML

Separata Adviento

SEPARATA OBLIGACIONES

Separata de Normas Legales - gacetajuridica.com.pe · Marco de Colaboración Interinstitucional con el Instituto Nacional de Estadística e Informática 328433 DEFENSA ... Aprueban

TRUCHA SEPARATA