Download pdf - La estadística tiene que ver con la recopilación

• La estadística tiene que ver con la recopilación,

presentación, análisis y uso de datos para tomar

decisiones y resolver problemas.

¿Qué es la estadística?

• Un agente recibe información en forma de datos a través

de fuentes de información, como los periódicos, la

televisión u otros medios; puede obtener alguna

conclusión a partir de la información contenida en los

datos.


• Los métodos empleados para resumir y organizar datos

se denominan estadística descriptiva; mientras que los

métodos para tomar decisiones se denominan

inferencia estadística.


• El término población se refiere a los elementos del universo

respecto al cual se quieren obtener conclusiones o tomar

decisiones. A cada elemento se le puede asociar una medición que

bien puede ser numérica o cualitativa dependiendo de la

característica que se quiera estudiar. El término muestra se refiere

al subconjunto de observaciones seleccionadas de la población de

interés.

Población y muestra

• A cada característica de los elementos de una población

se le llama variables. Nos encontraremos con varios tipos de variables: cualitativas y cuantitativas.

• Las variables cualitativas son aquellas que se refieren a categorías o atributos de los elementos (individuos) estudiados. Las variables cuantitativas son aquellas cuyos datos son de tipo numérico.

Variables

• Dicotómicas: Sólo hay dos categorías, que son

excluyentes una de la otra

• Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre

• Nominal: tiene mas de dos categorías y no hay orden

entre ellas.

• Ejemplo: color de los ojos, grupo sanguíneo

• Ordinal: tiene varias categorías y hay orden entre ellas.

• Ejemplo: grado tumoral, calificación del riesgo en

anestesia.

Variables cualitativas

• Continuas: números infinito no numerables de

elementos. Tiene asociado el concepto de medida

Ejemplo: presión arterial, edad, peso.

• Discretas: números finitos o infinitos numerables de

elementos. Se asocia con el concepto de conteo.

• Ejemplo: N° de hijos, N° de casos de tuberculosis por

estado.

Variables cuantitativas

• Hay ocasiones en las que las medidas cuantitativas

continuas son transformadas en ordinales mediante la

utilización de uno o varios puntos de corte.

• Ejemplo: la variable peso es codificada en varias

categorías y se utiliza en términos como: bajo-peso,

peso-normal, sobrepeso, obesidad

• Las descripciones numéricas de datos suelen

ser importantes. Dado un conjunto de n

observaciones

• La estadística descriptiva nos puede ayudar

mediante resúmenes numéricos, que son

medidas de tendencia central, o también

llamadas de posición y medidas de dispersión

nxxx ,.....,, 21

• Las medidas descriptivas más comunes

de tendencia central o localización son:

la media aritmética y la mediana.

• La media aritmética o simplemente promedio (también

llamada media muestral ya que generalmente se calcula

con relación a una muestra) se calcula de la siguiente

forma: si las observaciones de una muestra de tamaño n

son x1, x2,…,xn entonces

n

x

n

xxxX

n

i

i

n 121 ...

Media

• Es intuitiva y fácil de calcular.

• Su valor puede que no coincida con ninguno de los valores de la muestra

• La suma de las diferencias de cada valor de la muestra con la media su resultado es cero, es decir,

n

i

i xx1

0)(

• La mediana se suele definir como el valor “más

intermedio” una vez que los datos han sido ordenados

en forma creciente. Se suele denotar por Me. La forma

más general de calcular la mediana es la siguiente:

1 2

2 ( 2) 1

2

n

n n

x si n es impar

Me x xsi n es par

Mediana

• La mediana es aquel valor que deja el cincuenta por

ciento de los datos por debajo y otro cincuenta por

encima.

• Cabe destacar que es preferible el uso de la mediana

como medida descriptiva del centro cuando se quiere

reducir o eliminar el efecto de valores extremos en un

conjunto de datos (muy grandes o muy pequeños).

• Es una medida de tendencia central que se puede

utilizar sea cual sea el tipo de variable a estudiar. La

moda de un conjunto de observaciones es el valor que

más se repite, aquel cuya frecuencia absoluta es

máxima. Puede ser única, que haya más de una, o que

no exista.

Moda

• Se define como la raíz n-ésima del producto de

todos los valores numéricos, es decir,

ni

n

i

nnG xxxxX )(.....

121

Media geométrica

• Se define como el número de observaciones de la

muestra dividido por la suma del inverso de cada

una de las observaciones, es decir,

n

i

i

A

x

nX

1

)/1(

Media armónica

• La localización o tendencia central de un conjunto de

datos no necesariamente proporciona información

suficiente para describirlos adecuadamente. Debido a

que no todos los valores son semejantes, la variación

entre ellos se considera importante. Se puede decir que

un conjunto de datos tiene una dispersión reducida si los

mismos se aglomeran estrechamente en torno a alguna

medida de localización de interés y se dice que tiene

una dispersión grande si se esparcen ampliamente

alrededor de alguna medida de localización de interés.

• Las medidas descriptivas más comunes

de dispersión son: el rango, la varianza,

la desviación estándar y el rango

intercuartílico.

• El rango de la muestra es la medida de variabilidad

más sencilla entre todas las mencionadas; y se define

como la diferencia entre la observación más grande y

la más pequeña :

minmax xxr

Rango

• Aunque es una medida muy fácil de calcular, ignora toda

la información de la muestra entre las observaciones

más grande y más pequeña. Sin embargo, vale la pena

resaltar que el rango se utiliza mucho en aplicaciones

estadísticas al control de calidad.

• En general, se desea una medida de variabilidad que

dependa de todas las observaciones y no sólo de unas

pocas; así que parece razonable medir la variación en

términos de las desviaciones relativas a alguna medida

de localización (generalmente esta medida es la media).

Para el conjunto de datos x1, x2,….,xn

Las diferencias

Determinan las desviaciones de la media.

Dado que la suma de estas desviaciones es

cero, se utiliza como medida de variabilidad

el promedio de los cuadrados de tales

desviaciones.

)(),.....,(),( 21 xxxxxx n

Sin embargo, como sólo hay n-1

desviaciones independiente se conviene

en dividir entre n-1, es decir,

n

xx

s

n

i

i

1

2

2

)(

1

)(1

2

2

n

xx

S

n

i

i

Varianza

• Esta medida de variabilidad se denomina varianza.

Como S2 no tiene las mismas unidades que los datos,

se define la desviación estándar como la raíz cuadrada

(positiva) de la varianza a fin de tener una medida en las

mismas unidades de los datos. La desviación estándar

es útil para comparar dispersión entre dos poblaciones,

pero también lo es para calcular el porcentaje de la

población que pueden localizarse a menos de una

distancia específica de la media.

Desviación estándar

• Los cuartiles dividen a un conjunto de datos en cuatro

partes iguales.

• Para explicarlo un poco mejor, piense en un conjunto de

datos ordenados de menor a mayor. Al valor de en

medio es la mediana. Esto es, 50 por ciento de los datos

son mayores que la mediana y 50 por ciento son

menores. De manera similar los cuartiles dividen a un

conjunto de datos en cuatro partes iguales.

Cuartiles

• El primer cuartil, al que se le llama Q1, es el valor por

debajo del cual se encuentra el 25% de los datos, y el

tercer cuartil usualmente llamado Q3, es el valor por

debajo de el se encuentra el 75% de los datos. Q2 es la

mediana. Los valores Q1, Q2 y Q3 dividen al conjunto de

datos ordenados en cuatro partes iguales. Q1 se puede

entender como la mediana de la mitad inferior de los

datos ordenados y Q3 como la mediana de la mitad

superior de los datos ordenado.