Upload
juan-de-j-sandoval
View
21.619
Download
2
Embed Size (px)
DESCRIPTION
Introducción a la estadistica
Citation preview
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
QUÉ ES LA ESTADÍSTICA
Un antiguo experimento
Entonces dijo Daniel al guardia……“Le ruego que hagas la prueba con
sus siervos por diez días, y nos den legumbres a comer, y agua a
beber. Compara luego nuestros rostros con los rostros de los
muchachos que comen de la ración de la comida del rey, y haz
después con tus siervos según lo que consideres” Biblia: Daniel 1: 11-
14.
Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos
numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto
popular que existe sobre el término estadística descriptiva y que cada vez está más extendido en
nosotros debido a la influencia que hay de ella en nuestro entorno. Hoy día es casi imposible que
cualquier medio de difusión: periódico, radio, televisión entre otros, nos aborde diariamente con
cualquier tipo de información estadística sobre: tráfico, índices de crecimiento de población,
turismo, tendencias políticas, entre otras.
Sólo cuando nos adentramos en un mundo más específico como la investigación, se empieza a
percibir que la Estadística no sólo son cuadros y diagramas de barras, sino que se convierte en una
excelente disciplina que hoy por hoy, permite dar luz y obtener resultados de información con
variabilidad intrínseca, que no pueda ser abordada desde otra perspectiva. Ya lo decía Álvaro
Muñoz1, Profesor de Estadística de John Hopkins University (USA), la estadística como ciencia
fundamental es la “Ciencia de todas las ciencias”.
1 Conferencia Sobre VIH y su historia, estudios de Cohorte en Epidemiología, Auditorio de la Facultad de Medicina Universidad de Antioquia, Medellín, 2004
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
El término Estadística, fue acuñado por el economista Alemán Gottfried Achenvall (1719-1772),
profesor de la Universidad de Göttingen, definiéndola en un principio como “matemáticas
aplicadas a los asuntos del estado”; sin embargo, dicho termino, conocido hoy día confluye en lo
que se denomina la estadística moderna, que reúne la estadística matemática y el análisis de
datos, con el único fin de resolver de obtener conclusiones validas y objetivas con base en los
resultados de una muestra.
DEFINICIONES FORMALES DE LA ESTADISTICA
La Estadística es la ciencia que se ocupa de los métodos y procedimientos para coleccionar,
clasificar, resumir, hallar irregularidades y analizar los datos, cuya variabilidad o incertidumbre sea
una causa intrínseca de los mismos, además de realizar inferencias a partir de ellos, con la
finalidad de tomar de decisiones y formular predicciones, con base en los resultados de una
muestra.
Se podría por tanto, clasificar entonces a la Estadística en descriptiva, cuando los resultados del
análisis no pretenden ir más allá del conjunto de datos, e Inferencial cuando el objetivo del
estudio es generalizar a toda una población desde los resultados obtenidos de una muestra de
datos.
Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos
numéricos y gráficos que resumen y presentan la información contenida en ellos.
Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos obtenidos
mediante muestras aleatorias, efectúa estimaciones, hipótesis, predicciones u otras
generalizaciones a una población de referencia.
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
LLLAAA EEESSSTTTAAADDDÍÍÍSSSTTTIIICCCAAA DDDEEESSSCCCRRRIIIPPPTTTIIIVVVAAA
Se pretende inducir en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y
clasificar las características en estudio, instruir de cómo organizar y tabular las medidas obtenidas
mediante, la construcción de tablas de frecuencia y gráficos que sean capaces de mostrar unos
resultados.
La afirmación: ``una imagen vale más que mil palabras'' se puede aplicar al ámbito de la estadística
descriptiva diciendo que ``un gráfico bien elaborado vale más que mil tablas de frecuencias''.
Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida.
No obstante, debemos ser prudentes al realizar e interpretar gráficos, puesto que una misma
información se puede representar de formas muy diversas, y no todas ellas pertinentes, correctas
o válidas (D. Huff, 1.965, como mentir con estadísticas). Nuestro objetivo adicional, en este
capítulo, consiste en establecer los criterios que deben verificarse para construir gráficos y
presentar adecuadamente los datos desde la perspectiva de la estadística descriptiva.
Sin embargo, la adecuación de un gráfico depende de las condiciones en las cuales es presentando
y la información a ser comunicada. A continuación se presentan recomendaciones para el diseño
de un buen grafico estadístico según L. Wilkinson2.
2 Wilkinson Leland (1999).Cognitive Science and Graphics Design,
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
Establecemos a continuación algunas definiciones de conceptos básicos en estadística.
Experimento. Es un proceso que genera resultados
Unidad Elemental (Experimental). Es la persona, sujeto u objeto que contiene características
de interés para un investigador
Población. Conjunto de unidades elementales con una o varias características comunes. Con
relación al tamaño de la población, ésta puede ser:
• Finita, como es el caso del número de personas que llegan al servicio de urgencia por día
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
• Infinita, Si por ejemplo se desea estudiar una opinión en la población colombiana,
representativa por departamentos. Se considera una población grande a más de 30.000
unidades elementales.
Muestra: subconjunto de elementos de una población. Dentro de las muestras, se puede hablar
de muestra representativa de una población mediante criterios de aleatoriedad (azar) o tamaño
de la muestra, criterios que se verán después.
Parámetro: Son características relevantes (notables) que sobresalen dentro de una o varias
poblaciones
Estadístico: Es una expresión matemática o formula (función) definida sobre los valores numéricos
de una muestra.
Estimador: Es un valor particular calculado desde los resultados de una muestra a través del
estadístico y que muestra como resultado una aproximación al verdadero parámetro de la
población de donde proviene la muestra.
Ejemplo. Considérese la población formada por todos los estudiantes del Instituto Tecnológico
Metropolitano, al que se le desconoce la edad promedio de cada estudiante, esta será nuestra
característica relevante (parámetro desconocido µ “miú”). El conjunto formado por los alumnos
del curso de Estadística será una muestra de dicha población. La expresión matemática que
permite calcular un promedio desde esta muestra se denomina el estadístico, esta será para
nuestro caso:n
XX
n
ii∑
== 1 ; finalmente, el valor obtenido de la muestra digamos, x =22,3 años, de
por ejemplo de los 40 estudiantes de la clase, será el estimador de la edad media de la población
de estudiantes a través de la muestra. ¿Será este estimador un valor confiable para generalizarlo a
toda la población universitaria? Explique las razones de su afirmación o negación.
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
DEFINICIÓN DE VARIABLES EN ESTADÍSTICA
Cuando se hable de variable se hará referencia a una característica de interés que puede ser
medida u observada a las unidades elementales de una población y que tiene una variabilidad
intrínseca a los mismos. Se simbolizará con letras minúsculas (x, y, a, b,...) que puede tomar
cualquier valor (o atributo) de un conjunto determinado de elementos, que se llamará recorrido
de la variable.
Clasificación según la naturaleza de la variable. Según su naturaleza las variables se clasifican del
siguiente modo:
• Variables cualitativas. Son llamadas también variables categóricas. Miden una cualidad o
atributo de determinada unidad elemental y no toman valores numéricos, o si los toman,
solo representan códigos; ejemplo de ello es la variable sexo que resultará ser masculino o
femenino; También el estado civil que será: casado, soltero, separado, viudo. Una
degustación un producto puede ser: bueno, regular, malo o excelente.
• Variables Cuantitativas. Como su nombre lo indica están asociadas a un número
(numéricas) entero o real, ellas pueden ser:
• Variables discretas: resultan de conteos asociados a los números enteros positivos,
por ejemplo el número de personas infectadas de gripe en una comunidad, el número
de aves migratorias en el verano pasado; El número de personas que opinan a favor de
un candidato.
• Variables continuas: estas variables resultan básicamente de mediciones asociadas a
un instrumento de medición o una razón, por consiguiente están asociadas a los
números reales; en este tipo de variables es muy común encontrar mediciones,
razones o tiempos por tal razón tales valores resultan decimales como por ejemplo: la
calificación numérica de una evaluación, medición del peso de una persona; tiempos
de llegada a una estación, tasa de desempleados por municipio en el país.
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
Clasificación según las escalas de medición. Las escalas de medición son las herramientas
apropiadas para medir y clasificar las variables mediante un orden jerárquico según la cantidad de
información que ofrezcan al investigador. Estas permitirán precisar en su momento las técnicas de
muestreo y metodologías estadísticas adecuadas para los análisis estadísticos. Para empezar, es
conveniente definir mejor el concepto de medida, “se entiende el acto de medir como un proceso
por el cual los números o símbolos se asignan para representar características o propiedades de
acuerdo a determinadas reglas o patrones de comparación establecidos.
Según su escala de medición (nivel), las variables se clasifican en nominales u ordinales (el caso de
las cualitativas) y de intervalo o razón (el caso de las cuantitativas).
• Escala nominal. Considere la variable sexo (biológico), sus categorías son hombre y mujer.
Típicamente se puede usar números para facilidad de notación, por ejemplo se puede
representar hombre con 1 y mujer con 2 (esto es absolutamente necesario) para
representarlos. La asignación de números los entre las categorías no tiene importancia
numérica y sería inapropiado realizar cálculos numéricos (como por ejemplo operaciones
aritméticas u ordenarlos), otro ejemplo de ello es el número de la cedula. Estos números
simplemente son utilizados para clasificar sujetos en diferentes grupos y contar qué
cantidad hay en cada categoría.
Variables cualitativas cuyas categorías no se pueden ordenar según criterios universales,
son llamadas variables en escala nominal. Los estadísticos que son apropiados para las
escalas nominales están solamente basados sobre conteos de frecuencias absolutas o
relativas sobre las categorías o la identificación del atributo más frecuente (la moda).
• Escala Ordinal. Supóngase que se desea medir la preferencia (1: me gusta muchísimo, 2:
me gusta medianamente, 3: me gusta poco, 4: no me gusta), que tiene de un individuo
para cuatro marcas de refresco, digamos A, B, C y D. Podría preguntársele a cada sujeto el
rango de orden de de preferencia de las cuatro marcas, Considere el siguiente rango de
orden para una preferencia particular de un sujeto:
MARCA RANGO
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
A 1
B 2
C 3
D 4
Desde la tabla anterior se puede concluir que el sujeto en mención prefiere más la marca
A que la marca C, prefiere la C más que la D, etc... No obstante, aunque las diferencias
entre los valores numéricos sucesivos asignados a las categorías sean las mismas, no se
puede manifestar que este individuo prefiera tantas veces mas una marca que otra, como
por ejemplo decir que D es 4 veces más preferida que A, no porque los números asignados
son códigos, que bien podían ser cambiados (como por ejemplo por 0, 10, 12, 28), sin
embargo, se sabe el orden de su preferencia. Variables con estas categorías, son
catalogadas en escalas de medición ordinales. Los estadísticos que pueden ser calculados
en la escala ordinal son: son los mismos de la escala nominal, en adición a los estadísticos
de orden (mediana, percentiles), además, distribuciones de frecuencias acumuladas y
estadísticos no paramétricos tales como la correlación de Spearman3.
• Escala de intervalo. Supóngase que en vez de preguntar al individuo en el ejemplo
anterior, por el rango de orden de las 4 marcas, se le pregunta por un orden de
preferencia de 1 a 10 (por ejemplo que tanto le gusta el producto), de cada una de las
marca de acuerdo a la siguiente escala:
Tabla No 1
Si se asume que categorías sucesivas representan iguales grados de preferencia entonces se
podría decir que la diferencia entre la preferencia de un sujeto para la marca que se codificó con 1
y 2, es la misma diferencia para otra marca que se codificó con 4 y 5. Sin embargo, no se puede
3 Estadístico que permite calcular la correlación entre dos variables cuyas categorías o valores se puedan ordenar, creado por Charles Spearman, Estadístico de S. XIX, fundador de la estadística no parametrica
PUNTO DE ESCALA
10 9 8 7 6 5 4 3 2 1
PREFERENCIA Excelente Muy bueno Medio bueno AceptableMedianamente
aceptablePoco aceptable Bajo
Medianamente bajo
Muy bajo malo
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
decir que la preferencia por una marca digamos codificó con 5, es 5 veces más preferida que la
marca codificó con 1. El siguiente ejemplo donde se inicia una codificación desde 4 hasta 22,
clarifica este punto:
Tabla No 2
Desde la tabla 2 es claro que las diferencias entre códigos sucesivos son iguales; sin embargo, el
cociente entre el último valor (22) y el primer (4) no es el mismo que para la escala de la tabla 1,
que es de 10. La razón entre el último valor y el primero es de 10 para la tabla No 1 y de 5,5 para la
tabla 2, no obstante, los valores en preferencias son los mismos.
Al cambiar la escala se ha cambiado el valor de la categoría base (es decir el valor del peor nivel de
preferencia). La escala de intervalo no tiene un valor o punto de base natural. Esto es, el valor base
es arbitrario. Las escalas de medición cuyas categorías sucesivas representan iguales niveles de la
característica que está siendo medida y cuyos valores base son arbitrarios son llamadas: escala de
intervalo. Valores como por ejemplo, los de la temperatura son variables de escala de intervalo
porque no hay ceros absolutos, por ejemplo, 0°C no indica ausencia de medida, por consiguiente
no es un punto de referencia valido para comparar los valores de la temperatura. Tampoco se
podrá decir que para cada individuo hay la misma sensación, al pasar de frio o calor de 20°C a
30°C, que de –10°C a 0°C, razón por la cual aquí no tienen sentido los cocientes entre pares de
valores de la temperatura ya que las mismas distancias entre los valores son arbitrarias. Se podría
decir que las variables en escala de intervalo son puntajes numéricos ampliados de la escala
ordinal en la que no necesariamente se deberá tomar valores enteros.
Las variables en esta escala se pueden calcular todos los estadísticos conocidos excepto
comparaciones con algunos en los haya que realizar un cociente entre valores de la variable tales
como el coeficiente de variación.
Escala de razón
La escala de razón tiene todas las propiedades de las variables en escala de intervalo, pero además
de ello, tiene una base natural que no puede ser cambiada, como por ejemplo, la edad de un
PUNTO DE ES CALA
22 20 18 16 14 12 10 8 6 4
PREFERENCIA Excelente Muy bueno Medio bueno AceptableMedianamente
aceptablePoco aceptable Bajo
Medianamente bajo
Muy bajo malo
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
sujeto que tiene un valor absoluto de base natural (cero) y no depende de las unidades de
medición que se asignen. Las escalas de razón pueden ser transformadas multiplicando por una
constante, sin embargo ellas no pueden ser transformadas adicionando una constante, esto
cambiaría su valor de base.
En las escalas de razón se dan afirmaciones como: la edad de Jorge es 3 veces la edad de su hijo
Samuel. No hay restricción para que todo tipo de estadísticos numéricos puedan ser calculados en
unos datos de escala de razón. Las variables medidas usando escalas de intervalo y de razón son
denominadas variables métricas.
Taller No 2
1. Seleccionar una muestra al azar de 15 estudiantes y clasificarlos según su: sexo (biológico),
color de cabello, edad, talla del pie, estatura(mts), contextura corporal, color de ojos, nivel
educativo del padre, trabaja (si/no), capacidad para ser un líder (puntaje 0-100).
2. Clasificar las siguientes variables según su naturaleza, escala de medición:
1. Preferencia política (izquierda, derecha o centro).
2. Marcas de cerveza en Colombia
3. cualidad académica del estudiante
4. Velocidad en Km/h de un automóvil.
5. El peso en Kg.
6. puntaje cuantitativo obtenido en la pruebas de ICFES
7. Signo del zodiaco
8. semestre académico del ITM
9. Nivel educativo del padre.
10. Tiempo de estudios en su vida (años)
11. Tipo de colegio de donde proviene.
12. color de cabello
13. cantidad de bytes de memoria del computador
14. Número de empleados de una empresa.
15. La temperatura de Medellín grados Celsius
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval
2010
16. Nivel de SISBEN
17. Tipo de creencia religiosa
18. índice de hacinamiento de la vivienda (# de habitaciones / # de personas)
3. Clasifique las variables anteriores siguiente cuadro, según su naturaleza, escala de
medición, categorías (si es cualitativa) o unidad de medida, estadísticos calculables con
una tabla de la siguiente forma:
Operatividad de variables
Variable definición Naturaleza Escala de
medición
Categorización
o unidad de
medida
Estadísticos a
calcular
“código de
recolección”
“como se debe
preguntar”
“Como son las
categorías
(cuales) o
unidad de
medida”
“cuáles son los
posibles
estadísticos a
calcular con
dicha variable”