• La estadística tiene que ver con la recopilación,
presentación, análisis y uso de datos para tomar
decisiones y resolver problemas.
¿Qué es la estadística?
• Un agente recibe información en forma de datos a través
de fuentes de información, como los periódicos, la
televisión u otros medios; puede obtener alguna
conclusión a partir de la información contenida en los
datos.
¿Qué es la estadística?
• Los métodos empleados para resumir y organizar datos
se denominan estadística descriptiva; mientras que los
métodos para tomar decisiones se denominan
inferencia estadística.
¿Qué es la estadística?
• El término población se refiere a los elementos del universo
respecto al cual se quieren obtener conclusiones o tomar
decisiones. A cada elemento se le puede asociar una medición que
bien puede ser numérica o cualitativa dependiendo de la
característica que se quiera estudiar. El término muestra se refiere
al subconjunto de observaciones seleccionadas de la población de
interés.
Población y muestra
• A cada característica de los elementos de una población
se le llama variables. Nos encontraremos con varios tipos de variables: cualitativas y cuantitativas.
• Las variables cualitativas son aquellas que se refieren a categorías o atributos de los elementos (individuos) estudiados. Las variables cuantitativas son aquellas cuyos datos son de tipo numérico.
Variables
• Dicotómicas: Sólo hay dos categorías, que son
excluyentes una de la otra
• Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre
• Nominal: tiene mas de dos categorías y no hay orden
entre ellas.
• Ejemplo: color de los ojos, grupo sanguíneo
• Ordinal: tiene varias categorías y hay orden entre ellas.
• Ejemplo: grado tumoral, calificación del riesgo en
anestesia.
Variables cualitativas
• Continuas: números infinito no numerables de
elementos. Tiene asociado el concepto de medida
Ejemplo: presión arterial, edad, peso.
• Discretas: números finitos o infinitos numerables de
elementos. Se asocia con el concepto de conteo.
• Ejemplo: N° de hijos, N° de casos de tuberculosis por
estado.
Variables cuantitativas
• Hay ocasiones en las que las medidas cuantitativas
continuas son transformadas en ordinales mediante la
utilización de uno o varios puntos de corte.
• Ejemplo: la variable peso es codificada en varias
categorías y se utiliza en términos como: bajo-peso,
peso-normal, sobrepeso, obesidad
• Las descripciones numéricas de datos suelen
ser importantes. Dado un conjunto de n
observaciones
• La estadística descriptiva nos puede ayudar
mediante resúmenes numéricos, que son
medidas de tendencia central, o también
llamadas de posición y medidas de dispersión
nxxx ,.....,, 21
• Las medidas descriptivas más comunes
de tendencia central o localización son:
la media aritmética y la mediana.
• La media aritmética o simplemente promedio (también
llamada media muestral ya que generalmente se calcula
con relación a una muestra) se calcula de la siguiente
forma: si las observaciones de una muestra de tamaño n
son x1, x2,…,xn entonces
n
x
n
xxxX
n
i
i
n 121 ...
Media
• Es intuitiva y fácil de calcular.
• Su valor puede que no coincida con ninguno de los valores de la muestra
• La suma de las diferencias de cada valor de la muestra con la media su resultado es cero, es decir,
n
i
i xx1
0)(
• La mediana se suele definir como el valor “más
intermedio” una vez que los datos han sido ordenados
en forma creciente. Se suele denotar por Me. La forma
más general de calcular la mediana es la siguiente:
1 2
2 ( 2) 1
2
n
n n
x si n es impar
Me x xsi n es par
Mediana
• La mediana es aquel valor que deja el cincuenta por
ciento de los datos por debajo y otro cincuenta por
encima.
• Cabe destacar que es preferible el uso de la mediana
como medida descriptiva del centro cuando se quiere
reducir o eliminar el efecto de valores extremos en un
conjunto de datos (muy grandes o muy pequeños).
• Es una medida de tendencia central que se puede
utilizar sea cual sea el tipo de variable a estudiar. La
moda de un conjunto de observaciones es el valor que
más se repite, aquel cuya frecuencia absoluta es
máxima. Puede ser única, que haya más de una, o que
no exista.
Moda
• Se define como la raíz n-ésima del producto de
todos los valores numéricos, es decir,
ni
n
i
nnG xxxxX )(.....
121
Media geométrica
• Se define como el número de observaciones de la
muestra dividido por la suma del inverso de cada
una de las observaciones, es decir,
n
i
i
A
x
nX
1
)/1(
Media armónica
• La localización o tendencia central de un conjunto de
datos no necesariamente proporciona información
suficiente para describirlos adecuadamente. Debido a
que no todos los valores son semejantes, la variación
entre ellos se considera importante. Se puede decir que
un conjunto de datos tiene una dispersión reducida si los
mismos se aglomeran estrechamente en torno a alguna
medida de localización de interés y se dice que tiene
una dispersión grande si se esparcen ampliamente
alrededor de alguna medida de localización de interés.
• Las medidas descriptivas más comunes
de dispersión son: el rango, la varianza,
la desviación estándar y el rango
intercuartílico.
• El rango de la muestra es la medida de variabilidad
más sencilla entre todas las mencionadas; y se define
como la diferencia entre la observación más grande y
la más pequeña :
minmax xxr
Rango
• Aunque es una medida muy fácil de calcular, ignora toda
la información de la muestra entre las observaciones
más grande y más pequeña. Sin embargo, vale la pena
resaltar que el rango se utiliza mucho en aplicaciones
estadísticas al control de calidad.
• En general, se desea una medida de variabilidad que
dependa de todas las observaciones y no sólo de unas
pocas; así que parece razonable medir la variación en
términos de las desviaciones relativas a alguna medida
de localización (generalmente esta medida es la media).
Para el conjunto de datos x1, x2,….,xn
Las diferencias
Determinan las desviaciones de la media.
Dado que la suma de estas desviaciones es
cero, se utiliza como medida de variabilidad
el promedio de los cuadrados de tales
desviaciones.
)(),.....,(),( 21 xxxxxx n
Sin embargo, como sólo hay n-1
desviaciones independiente se conviene
en dividir entre n-1, es decir,
n
xx
s
n
i
i
1
2
2
)(
1
)(1
2
2
n
xx
S
n
i
i
Varianza
• Esta medida de variabilidad se denomina varianza.
Como S2 no tiene las mismas unidades que los datos,
se define la desviación estándar como la raíz cuadrada
(positiva) de la varianza a fin de tener una medida en las
mismas unidades de los datos. La desviación estándar
es útil para comparar dispersión entre dos poblaciones,
pero también lo es para calcular el porcentaje de la
población que pueden localizarse a menos de una
distancia específica de la media.
Desviación estándar
• Los cuartiles dividen a un conjunto de datos en cuatro
partes iguales.
• Para explicarlo un poco mejor, piense en un conjunto de
datos ordenados de menor a mayor. Al valor de en
medio es la mediana. Esto es, 50 por ciento de los datos
son mayores que la mediana y 50 por ciento son
menores. De manera similar los cuartiles dividen a un
conjunto de datos en cuatro partes iguales.
Cuartiles
• El primer cuartil, al que se le llama Q1, es el valor por
debajo del cual se encuentra el 25% de los datos, y el
tercer cuartil usualmente llamado Q3, es el valor por
debajo de el se encuentra el 75% de los datos. Q2 es la
mediana. Los valores Q1, Q2 y Q3 dividen al conjunto de
datos ordenados en cuatro partes iguales. Q1 se puede
entender como la mediana de la mitad inferior de los
datos ordenados y Q3 como la mediana de la mitad
superior de los datos ordenado.