Upload
oscargiova
View
24
Download
4
Embed Size (px)
Citation preview
- 1 -
NOTAS DE
ESTADISTICA Y PROBABILIDAD
Temas:
Introducción a la Estadística
Frecuencias y distribuciones
Docente: Oscar F. Giovannini
(Estas notas están ajustadas al desarrollo del temario de la materia del año 2.016)
- 2 -
INDICE
Visión de la materia Estadística y Probabilidad ................................................................. 3
ESTADISTICA ................................................................................................................... 4
Conceptos básicos de Estadística .................................................................................... 4
Definición de Estadística ............................................................................................ 4
Grandes divisiones de la Estadística ........................................................................... 4
Datos estadísticos ........................................................................................................ 5
Categorías de los datos estadísticos ............................................................................ 5
Población – Universo - Muestra ................................................................................. 6
Calidad de los resultados de poblaciones y muestras ................................................. 8
Clasificación, tabulación y descripción de los resultados ............................................... 8
Frecuencias y distribuciones ..................................................................................... 10
Frecuencia absoluta (ni) ............................................................................................ 12
Frecuencia relativa (hi) .............................................................................................. 12
Ejemplo de aplicación de frecuencias absolutas y relativas ..................................... 12
Concepto de frecuencias acumuladas (Ni, Hi) .......................................................... 13
Gráficos de distribución de frecuencias ........................................................................ 15
- 3 -
Visión de la materia Estadística y Probabilidad
Esta materia contiene conceptos básicos de estadística, probabilidad e índices.
Al abordar la estadística veremos métodos que nos permitirán analizar y
relacionar datos a fin de interpretar hechos de la realidad, en múltiples campos: social,
económico, político, biológico, psicológico, físico, etc.
La probabilidad servirá para ubicarnos en el campo de la aproximación de
resultados, ya que a partir del análisis de una fracción de la realidad intentaremos
proyectar esos resultados al todo.
Mediante el estudio de índices podremos ver la evolución de variables en el
tiempo (principalmente las económicas).
- 4 -
ESTADISTICA
Conceptos básicos de Estadística
La denominación Estadística proviene de la palabra estado por cuanto desde la
antigüedad los soberanos, gobernantes y políticos se interesaron en tener información
sobre el número de habitantes, edades, sexos, oficios, bienes, etc. que contaban en sus
dominios.
Los datos estadísticos obtenidos de muestras, observaciones, experimentos o de
cualquier conjunto de mediciones suelen ser tan numerosos que no tienen ninguna
utilidad salvo que sean condensados o resumidos a expresiones simples y organizadas. La
Estadística se ocupa de ordenarlos, organizarlos, clasificarlos, sistematizarlos a fin que se
pueda obtener una visión resumida de los hechos en estudio.
Por eso en Estadística veremos un conjunto de teorías y métodos que han sido
desarrollados para tratar acerca de la recolección, el análisis y la descripción de datos que
nos permitan extraer conclusiones útiles.
Definición de Estadística
Estadística es la rama de la matemática que se ocupa de reunir, organizar y
analizar datos numéricos con la finalidad de proporcionar información útil para tomar
decisiones. La Estadística tiene aplicación en todas las disciplinas científicas: biológicas,
sociales, políticas, físicas, ingeniería, etc.
Grandes divisiones de la Estadística
La Estadística se divide en dos grandes ramas:
Estadística descriptiva – Describe solamente las características principales de los
datos reunidos. Estudia los datos coleccionados sin hacer generalizaciones. Muestra los
hechos tal cuales son.
Inferencia estadística – Es el proceso de utilizar los datos resumidos de las
muestras y observaciones para obtener conclusiones extendidas a toda la población de la
cual se extrajeron dichos datos. (Nota: la inferencia estadística también es denominada
estadística inferencial). Utiliza como importante herramienta el cálculo de probabilidades.
- 5 -
Datos estadísticos
No cualquier información numérica puede ser considerada un dato estadístico.
Para cumplir con este requisito debe ser un conjunto (o conjuntos) que presente
relaciones significativas. .Los datos estadísticos deben ser números que puedan ser
comparados, analizados e interpretados. Por lo tanto, un dato estadístico es cada uno de
los valores que se ha obtenido al realizar un estudio estadístico.
Ejemplo: El peso de una sola persona no serviría; no permite comparación. En
cambio, el peso de 100 personas de un cierto grupo puede ser, porque permite
comparación.
Categorías de los datos estadísticos
Los datos estadísticos pueden ser agrupados en dos categorías:
a) Cuantitativos o también variables cuantitativas (simplificadamente: variables).
Son aquellos datos que arrojan respuestas numéricas; pueden ser obtenidos ya sea
mediante conteo de unidades o por medición de una magnitud. Ejemplos; pesos,
longitudes, volúmenes, unidades. A su vez una variable cuantitativa puede ser discreta o
continua.
Discreta – son respuestas numéricas que surgen de un proceso de conteo unidad
por unidad. Ejemplo: el número bultos contenidos en un despacho. Continua – son
respuestas numéricas que surgen de un proceso de medición. La variable puede asumir
cualquier valor numérico. Ejemplos de variables continuas son; temperatura, humedad,
peso, tiempo; etc.
b) Cualitativos, también llamados variables cualitativas o atributos. Son aquellos
que arrojan respuestas categóricas y se describen por palabras. Ejemplos: nacionalidad,
estado civil, sexo, cumplir con una especificación, nivel de agrado de un alimento, etc. A
menudo cada respuesta se la puede asociar a un valor numérico: posee el atributo, 1; no lo
posee, 0.
- 6 -
Población – Universo - Muestra
La fuente de la cual se obtienen los datos estadísticos se denomina población o
universo. (Nótese que se arrastra el término población haciendo referencia al concepto de
habitantes de un estado). Si vamos a intentar obtener información estadística de los
alumnos de nuestro profesorado, entonces la población o universo del problema serán
todos los alumnos de dicho profesorado.
Una muestra es la parte de la población que se ha seleccionado para el análisis. Es
una colección de información parcial (o incompleta) de esa población. Por lo general se
trabaja con muestras debido a que suele ser menos costosa y más expeditiva la
recolección de datos de solo una parte del total. Generalmente, no justifica
económicamente el trabajar con poblaciones. Hay ocasiones en que es materialmente
imposible recolectar datos de toda una población y por lo tanto solo queda la posibilidad
de hacer el análisis con porciones o muestras. Toda vez que se trabaja con muestras, los
resultados del examen de éstas se extienden (o proyectan) a toda la población mediante
procesos de inferencia estadística.
- 7 -
Es necesario tener presente que en la operación de la toma de muestras se deben
seguir fielmente procedimientos adecuados que garanticen la representatividad de las
muestras respecto a la población o universo. En otras palabras, las muestras
representativas son aquellas de las cuales se espera que guarden similitud con la
población de la cual han sido extraídas. Más adelante en otros capítulos de nuestro
estudio veremos las técnicas de muestreo para obtener muestras representativas
El ejemplo que sigue nos pone en evidencia que los valores obtenidos de una
población pueden diferir de los que se obtienen de una muestra. Sea una población de 120
alumnos que han rendido un examen, cuyos resultados se encuentran resumidos en esta
tabla.
6 4 7 6 5 9 7 8 6 8 6 8
8 6 7 8 8 6 5 9 10 4 6 9
4 8 5 5 9 8 8 4 5 6 8 4
6 7 4 8 4 5 8 6 7 8 4 6
8 9 6 9 5 8 4 7 9 8 8 4
7 6 8 4 6 9 6 8 4 5 9 4
9 8 7 6 7 4 7 4 6 8 4 5
5 5 9 7 4 5 8 6 7 9 6 5
10 9 4 8 4 5 4 8 8 4 7 5
10 6 6 7 8 8 4 7 5 6 8 4
- 8 -
El promedio de las notas de la población es 6,500. Ahora bien, si quisiéramos tener una
idea de conjunto examinando una muestra aleatoria de nada más que 12 elementos
(hemos elegido al azar los números 5, 6, 8, 7, 4, 10, 9, 10, 4, 6, 5 y 8), habríamos
obtenido un promedio igual a 6,833. Si hubiéramos tomado otra muestra, probablemente
habríamos obtenido un resultado diferente. Al trabajar con muestras tendremos una
aproximación a la realidad; puesto que es evidente que siempre estará presente algún
margen de error. No obstante esto, la economía de esfuerzos que significa trabajar sobre
una muestra para obtener conclusiones acerca de una población compensa el margen de
error, el cual por otra parte podrá acotarse a un nivel previamente establecido.
Calidad de los resultados de poblaciones y muestras
Las conclusiones que se obtienen de una población son exactas; en cambio las que
se obtienen de una muestra para generalizar a una población son aproximadas. En
Estadística y Probabilidad existen procedimientos que permiten valorar y acotar el grado
de aproximación ajustándolo a cualquier necesidad operativa. Es obvio que cuanto mayor
sea la muestra en proporción a la población, más ajustado será el resultado que se
obtenga. Los estadísticos calculan ese nivel de aproximación y por eso es que cuando se
dan a conocer encuestas políticas, dicen que el candidato A tiene una preferencia del 42%
con un error estadístico (o sea el nivel de aproximación) de ± 3%.
Clasificación, tabulación y descripción de los resultados
La clasificación, tabulación y descripción de los resultados es la parte central de la
estadística descriptiva. Se refiere a la organización y descripción de los datos recopilados
a los fines de facilitar su interpretación y análisis.
- 9 -
Cuando los datos son pocos, bastará presentar la información mediante una
exposición escrita (presentación literal).Siendo numerosos los datos, se los deberá
presentar, ordenar y resumir sistemáticamente, utilizándose al efecto tablas, gráficos y
diagramas.
El ordenamiento, clasificación y resumen de la información es lo que nos permite
extraer conclusiones útiles. Frente a un conjunto numeroso de datos, y para evitar que tal
numerosidad impida la visión de conjunto es que se han ideado medidas de resumen
descriptivas, es decir valores resumidos representativos del total de datos. Ejemplos de
tales medidas representativas son los promedios y las desviaciones de un conjunto de
datos. Si se nos permitiera utilizar una analogía casera, podríamos decir que estos valores
representativos son un “concentrado” de información obtenido a partir del conjunto
inicial de datos.
Las medidas o descripciones resumidas de conjunto que se usan son los
estadígrafos (para describir las muestras) y los parámetros (para describir las
poblaciones).
Se tiene entonces:
- 10 -
En el ejemplo de los 120 alumnos que rindieron examen: el promedio 6,500 es un
parámetro (proviene de una población). El promedio 6,833 es un estadígrafo porque
proviene de una muestra.
Frecuencias y distribuciones
Cuando son numerosos los datos estadísticos es necesario agrupar valores
ordenándolos y clasificándolos para facilitar el análisis. Este ordenamiento puede ser
ascendente o descendente. Cuando en el agrupamiento se especifica el número de veces
que está repetido un valor se está aplicando el concepto de frecuencia absoluta (ni). Dicho
agrupamiento pasa a ser una distribución de frecuencias. También se dice que es una
serie de valores agrupados.
Mediante la utilización de una distribución de frecuencias la información de todo
el conjunto puede ser presentada en forma breve y compacta.
Al construir las distribuciones de frecuencias
los datos se condensan y simplifican. Esto
facilita la interpretación de los datos
La base de cualquier estudio estadístico es la distribución de frecuencias.
Veamos cómo se construye una distribución de frecuencias. Inicialmente los datos
están todos desordenados, como lo comprobamos en la figura siguiente.
- 11 -
Si ahora simplemente ordenamos los valores en escala ascendente y apilamos los
repetidos obtenemos una distribución de frecuencias.
Ordenados y clasificados los datos de esta manera alcanzamos a ver las
características del conjunto.
Tomamos de nuevo el ejemplo de los 120 alumnos y ordenando obtenemos la
siguiente información:
- 12 -
Variable
(Nota)
Veces que se repite La frecuencia ni es:
4 23 23
5 16 16
6 22 22
7 15 15
8 28 28
9 13 13
10 3 3
Frecuencia absoluta (ni)
La frecuencia absoluta nos indica la cantidad de veces que se repite el valor de la
variable dentro del total de datos recolectado. Adoptamos la notación ni. Observamos
que la suma de todas las frecuencias absolutas es igual al número de datos recolectados.
La frecuencia absoluta no brinda por sí sola ninguna idea de magnitud relativa o
de prevalencia de datos dentro del conjunto de observaciones. Para tener valores que nos
expresen magnitudes relativas es necesario desarrollar el concepto de frecuencia relativa.
Frecuencia relativa (hi)
Frecuencia relativa (hi) es el cociente entre la frecuencia absoluta de un dato y el
número total de observaciones n. Su símbolo es hi, luego: hi = ni/n En una serie de datos,
la suma de todas las frecuencias relativas es 1.
El concepto de frecuencia relativa nos informa cuantitativamente que proporción
del total le corresponde a cada valor de la variable. Opcionalmente se las puede expresar
con valores porcentuales, multiplicando cada frecuencia relativa por el valor 100.
Ejemplo de aplicación de frecuencias absolutas y relativas
Sea un grupo de n = 25 alumnos cuyas notas de un parcial fueron:
10 8 8 9 10
5 5 6 6 4
7 7 10 7 5
9 10 8 7 6
6 7 7 4 5
- 13 -
En primer lugar ordenamos en forma ascendente los valores:
4 4 5 5 5
5 6 6 6 6
7 7 7 7 7
7 8 8 8 9
9 10 10 10 10
Luego podremos construir la tabla de distribución de frecuencias absolutas y
relativas.
Nota ni hi hi en %
4 2 2/25= 0,080 08,00
5 4 4/25= 0,160 16,00
6 4 4/25= 0,160 16,00
7 6 6/25= 0,240 24,00
8 3 3/25= 0,120 12,00
9 2 2/25= 0,080 08,00
10 4 4/25= 0,160 16,00
Del análisis de la tabla así construida podemos extraer algunas conclusiones, tales
como:
El rango de las notas obtenidas es 4 – 10
La nota 6 es la que más veces se repitió, por lo tanto tiene la mayor
frecuencia
La nota 6 fue obtenida por el 24 por ciento de los alumnos.
Concepto de frecuencias acumuladas (Ni, Hi)
En el concepto de frecuencias acumuladas se distinguen:
Frecuencia acumulada absoluta (Ni)
Frecuencia acumulada relativa (Hi)
Una frecuencia acumulada absoluta se define como la suma de la frecuencia
absoluta de ese dato más las frecuencias absolutas de todos los datos inferiores al que se
considera. Ejemplo (ver tabla de frecuencias en esta misma página), la frecuencia
acumulada absoluta para la nota 6 es la suma de las frecuencias absolutas de 6,5 y 4; el
resultado es 10.
- 14 -
El concepto de frecuencia acumulada absoluta nos permite responder a esta
pregunta: ¿cuántos alumnos han obtenido nota 6 o inferior? La respuesta es la frecuencia
acumulada absoluta de la nota 6, o sea 10 alumnos.
La frecuencia acumulada relativa es un concepto análogo al de la acumulada
absoluta; la lógica de su formación es la misma que para aquella.
Si nos preguntamos qué fracción de alumnos obtuvo nota 6 o inferior, la respuesta
la tenemos leyendo la frecuencia acumulada relativa del dato 6: o sea 0,400.
A tener en cuenta: el concepto de frecuencias acumuladas no puede aplicarse a
variables cualitativas, ya que estas no tienen un orden numérico predeterminado.
Nota ni Ni hi Hi hi en %
4 2 2 2/25= 0,080 0,080 08,00
5 4 6 4/25= 0,160 0,240 16,00
6 4 10 4/25= 0,160 0,400 16,00
7 6 16 6/25= 0,240 0,640 24,00
8 3 19 3/25= 0,120 0.760 12,00
9 2 21 2/25= 0,080 0,084 08,00
10 4 25 4/25= 0,160 1,000 16,00
Frec. Acumulada Absoluta (hi)
Frec. Acumulada Relativa (Hi)
Tabla de distribución de frecuencias; muestra como se reparten o distribuyen las frecuencias según la serie de datos.
- 15 -
Gráficos de distribución de frecuencias
La representación gráfica tiene la ventaja de transmitir la información contenida
en una tabla de frecuencias de un modo casi instantáneo, expresando mucho con poco.
Confeccionamos una representación gráfica de distribución de frecuencias
llevando sobre el eje horizontal la variable considerada (notas de un examen, estatura de
personas, rinde de un cultivo, tipo de infracciones de tránsito, etc.). De hecho que la
variable a considerar puede ser cuantitativa o cualitativa. Sobre el eje vertical ponemos la
cantidad de veces (frecuencia) que se repite cada dato.
Los gráficos de distribución de frecuencias se podrán confeccionar con barras o
columnas, con líneas quebradas, con sectores o tortas; dependiendo del tipo de
información que se quiera transmitir. A continuación veremos algunos de estos gráficos;
más adelante en nuestro curso desarrollaremos un capitulo completo del tema gráficos
estadísticos.
- 16 -
Estos gráficos son versiones de una misma tabla de frecuencias. La elección del
tipo de gráfico responderá al criterio del analista, que buscará que la información sea bien
entendida e impactante. Los gráficos siempre se acompañan de títulos breves y
representativos de los hechos
Los gráficos de frecuencia se pueden construir con todo tipo de variables:
cuantitativas discretas, cuantitativas continuas y cualitativas. El ejemplo de los candidatos
corresponde a variables cualitativas, .con las cuales solo se pueden determinar
frecuencias absolutas y relativas (ni, hi).