Upload
alita-uriarte
View
262
Download
9
Embed Size (px)
Citation preview
Inferencia Estadística
Módulo I
2
Estimación :
Estimación puntual
Propiedades de los estimadores
Estimación por intervalos para la media, proporción, diferencia de medias y diferencia de proporciones, usando la distribución normal.
Inferencia Estadística
3
Inferencia Estadística
Contraste de Hipótesis
Fundamentos de la contrastación de hipótesis Formulación de hipótesis. Hipótesis simple y compuesta Tipos de errores en la contrastación. Etapas para la contrastación de hipótesis. Contraste de hipótesis para la media, proporción, diferencia de
medias, y diferencia de proporciones. Relación entre los intervalos de confianza y la contrastación de
hipótesis.
4
Estadística
Inferencia Estadística
Descriptiva Inferencial
Organización de Datos
Medidas de Tendencia, Posición, variación.
Representación gráfica.
Estimación Contraste de Hipótesis
Puntual Por Intervalos
5
Métodos mediante los cuales se selecciona una muestra aleatoria de una población intentando:
Inferencia Estadística
Hallar el verdadero valor del parámetro desconocido
Decidir si alguna función de la muestra es igual a algún valor preconcebido
6
Población: Colección de todas las posibles mediciones que pueden hacerse de una característica en estudio. (datos o valores).
Muestra: Subconjunto de la población.
Parámetro: Caracterización numérica de la distribución de la población de manera que describe, parcial o completamente, la función de densidad de la característica de interés.
Inferencia Estadística: Conceptos.
7
Estadístico: Cualquier función de variables aleatorias que forman una muestra aleatoria.
Inferencia Estadística: Conceptos.
Estimador: función de variables aleatorias observables (muestra) y quizás otras constantes conocidas usados para estimar un valor poblacional (Parámetro).
8
Muestra.Población.
Edades. Hab. Municipio Libertador.
Edad Promedio Valores Poblacionales
(Parámetros).
Valores Muestrales
Inferencia. Estimación.
𝑥
µ
Inferencia Estadística.
9
Inferencia Estadística: Conceptos.
Estimación: Proceso mediante el cual se utiliza los resultados de una muestra representativa para estimar el verdadero valor del parámetro poblacional
Se quiere estimar la edad promedio de los habitantes del Municipio Libertador del Estado Mérida.
10
Variable en Estudio:_____________________
Universo:____________________________
Población:___________________________
Muestra:_____________________________
Parámetro:___________________________
Estimador:____________________________
Ejemplo:
Inferencia Estadística.
Edad
Habitantes del Municipio Libertador
Edad del los habitantes de Ejido
Las edades de los Habitantes del Mun. Lib
𝜇𝑋
Media Poblacional
Media Muestral
11
Propiedades de un Estimador:
Suficiente: Incluye toda la información de la muestra.
Insesgado: E( )=
Consistencia: A medida que se incrementa la muestra el estimador se acerca al verdadero valor del parámetro.
Varianza Mínima.
Inferencia Estadística.
^θ ᶿ
Teorema: Sea un estimador de con base en una muestra de tamaño n si
y entonces es un estimador consistente de
Inferencia Estadística.
^θlθim𝑛❑→
+00E( )=^θ ᶿ
^θlim𝑛❑→
+00V( )=0
ᶿ
Algunos Estimadores Importantes:
Inferencia Estadística.
𝑋 µ
�̂� P
𝑆2 σ 2
𝑆❑ σ❑
Muestral Poblacional
14
Estimación Puntual:
Inferencia Estadística.
Una estimación puntual de algún parámetro de la población consta de un solo valor
ᶿ
^θᶿ Parámetros Poblacionales
Estimadores
^θ
15
Ejemplo:
Inferencia Estadística.
Se quiere estimar el tiempo promedio de reacción ante un estimulante de pacientes con cáncer en el estado Mérida para ello se levanto una muestra y se registraron los tiempos de reacción
2,5 3,6 3,1 4,3 2,9
2,3 2,6 4,1 3,4 3,4
16
Estimación por Intervalos:
Inferencia Estadística.
Es difícil que el estimador insesgado más eficiente estime con exactitud el verdadero valor del parámetro poblacional
Intervalos de Confianza:
< <
Determinar un intervalo en el que, en forma probable Se encuentra el valor del parámetro.
17
Supóngase que una tienda mantiene muy buenos registros respecto al número de unidades de cierto producto que vende mensualmente. Para la compañía es muy importante conocer la demanda promedio ya que con base en esta, se lleva a cabo el mantenimiento del inventario.
Inferencia Estadística.
Estimación por Intervalos:
18
Inferencia Estadística.
Estimación por Intervalos:
Suponga que la demanda no se ve afectada por fluctuaciones En la temporada. La compañía decide que los últimos 36 meses han sido típicos Con respecto a la demanda de ese producto, y con base a estos Datos muestrales el valor calculado de la media muestral es de 200 unidades
¿Implica que la demanda media desconocida no sea mayor de 250 ni menor a 150?
19
Inferencia Estadística.
Estimación por Intervalos:
Suponga que la desviación estándar de la media muestral es de 60 Unidades
Teorema Central del Límite:
Si es la media de una muestra aleatoria de tamaño n que se toma de una de una población que se toma con media y varianza entonces:
20
Inferencia Estadística.
Estimación por Intervalos:
𝑍=( 𝑋−𝜇)
( 𝜎√𝑛 )~❑𝑁 (0,1) 𝑛−→+00
21
Inferencia Estadística.
Intervalos de Confianza para con varianza conocida:
𝑋 +¿−𝑍1−
𝛼2
𝜎√𝑛
¿
22
Inferencia Estadística.
Estimación por Intervalos:
El consumo de gasolina de los vehículos de una empresa en litros/día , durante un periodo de 36 días elegidos al azar durante el año 2012, es el siguiente:
23
Inferencia Estadística.
4105 3954 3980 3970 4035 39783997 3985 4036 3970 4020 40264018 3982 4050 3978 3998 39843984 3985 4042 3990 4017 39803960 3990 3900 3980 4065 39094040 3975 4035 4048 3990 4044
24
Se sabe que el consumo de la empresa sigue una ley normal cuya varianza es de 1600.
a) Determinar un intervalo para estimar el consumo medio diario durante el 2012 con un nivel de confianza del 95% y 99%.
Inferencia Estadística.
25
Inferencia Estadística.
Promedio 4000Desviacion 40,4756443
n 36Alfa 0,01
Alfa/2 0,0051-alfa/2 0,995
Z 2,57Error Máximo 17,3370676
LS 4017,33707LI 3982,66293
𝑃 (3982,66<𝜇<4017,33 )=0.99
Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado
26
Inferencia Estadística.
Calculo del tamaño de muestra:
Teorema: Si se usa como estimación de , se puede tener de confianza de que el error no excederá una cantidad específica cuando el tamaño de la muestra sea:
𝑛=( 𝑍 1− 𝛼2
∗𝜎
𝜀 )2
27
Inferencia Estadística.
¿Cuál ha de ser el tamaño mínimo de la muestra para que el error no supere los 10 litros/día con la misma confianza del 99%?
𝜖=10𝑍1− 𝛼
2=2.57
𝜎=40
n=( 2.57∗4010 )2
=108
28
Inferencia Estadística.
Intervalos de Confianza para con varianza desconocida:
𝑋 +¿−𝑡1−𝛼/2 ,𝑛− 1
𝑠√𝑛
¿
𝑍=( 𝑋−𝜇)
( 𝑠√𝑛 )
~❑𝑡 1−𝛼 /2 ,𝑛−1
29
Inferencia Estadística.
La puntuación de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para una misma prueba presentó los siguientes puntajes:
9,6 9,8 9,7 9,79,8 9,9 9,8 9,89,9 9,7 9,9 9,99,8 9,8 9,9 9,89,9 9,9 9,9 9,7
30
Inferencia Estadística.
Calcular un intervalo de confianza con un 95% y 99% para la puntuación promedio
𝑋 +¿−𝑡1−𝛼/2 ,𝑛− 1
𝑠√𝑛
¿Promedio 9,81n 20Desv 0,09119095alfa 0,01alfa/2 0,0051- alfa/2 0,995t 2,861Error Máximo 0,05833841LS 9,86833841LI 9,75166159
𝑃 (9.75<𝜇<9.87 )=0.99
Con un 99% de confianza se espera que el verdadero tiempo promedio se encuentre en el intervalo calculado
31
Inferencia Estadística.
Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes:
( 𝑋 −𝑌 ) +¿❑
𝑍1−𝛼/2√𝜎❑2
𝑛𝑥
+𝜎❑2
𝑛 𝑦
¿
32
Inferencia Estadística.
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El proceso de llenado puede suponerse normal, con desviaciones estándar de σ1=0,015 y σ2=0,015. Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo volumen neto, sin importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de cada máquina.
máquina 116,0
3 16,04 16,05 16,05 16,02 16,01 15,96 15,98 16,02 15,99
máquina 216,0
2 15,97 15,96 16,01 15,99 16,03 16,04 16,02 16,01 16
33
Inferencia Estadística.
Promedio 16,015 Promedio 16,005n 10 n 10Desv 0,015 Desv 0,015Var 0,000225 Var 0,000225alfa 0,05 alfa 0,05alfa/2 0,025 alfa/2 0,0251- alfa/2 0,975 1- alfa/2 0,975
Error Máximo 0,01314808LS 0,02314808LI -0,01314808
34
Inferencia Estadística.
Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes: (Varianzas Desconocida pero se suponen iguales)
( 𝑋 −𝑌 ) +¿❑ 𝑡𝛼
2;𝑛1+𝑛2− 2 ;
𝑆𝑝 √ 1𝑛𝑥
+ 1𝑛𝑦
¿
𝑆𝑝=√ (𝑛𝑥−1 )𝑆2𝑥❑+(𝑛𝑦−1 )𝑆2𝑦❑
(𝑛𝑥+𝑛𝑦 )−2
35
Inferencia Estadística.
Las presiones criticas de dos grupos independientes de recipientes de distintos vidrios dan los siguientes valores:
Grupo 1 100 102 96 106 110 110 120 112 112 90
Grupo 2 104 88 100 98 102 92 96 100 96 96
Suponiendo que las dos poblaciones son normales y de varianzas iguales y desconocidas, calcular un intervalo de confianza del 95% para la diferencia de presiones medias.
36
Inferencia Estadística.
( 𝑋 −𝑌 ) +¿❑ 𝑡𝛼/2 ;𝑛𝑖+𝑛2−2 ;❑
𝑆𝑝∗√ 1𝑛𝑥
+ 1𝑛𝑦
¿
𝑆𝑝=√ (𝑛𝑥−1 )𝑆2𝑥❑+(𝑛𝑦−1 )𝑆2𝑦❑
(𝑛𝑥+𝑛𝑦 )−2
37
Inferencia Estadística.
Promedio 105,8 Promedio 97,2n 10 n 10
Var78,622222
2 Var 22,4alfa 0,05 alfa 0,05alfa/2 0,025 alfa/2 0,0251- alfa/2 0,975 1- alfa/2 0,975t 2,1 t 2,1
Sp 7,10711693Error Máximo
6,67463857
LS15,274638
6
LI1,9253614
3
38
Inferencia Estadística.
Intervalos de Confianza para la Proporción:
�̂�~❑𝑁 (𝑃 ; 𝑝𝑞𝑛 )~𝑝 +¿
❑ 𝑍1−𝛼 /2√𝑝𝑞𝑛❑¿
39
Inferencia Estadística.
Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se encontró que 54 de ellos hablaban inglés.
Halle, con un nivel de confianza del 90%, un intervalo de confianza para estimar la proporción de estudiantes que hablan el idioma inglés entre los estudiantes de esa Universidad.
40
Inferencia Estadística.
41
Inferencia Estadística.
Intervalos de Confianza para la Diferencia de Proporciones:
(~𝑝1−~𝑝2 ) +¿❑ 𝑍1−𝛼 /2√~𝑝1𝑞1
𝑛1+
~𝑝2𝑞2𝑛2
¿
42
Inferencia Estadística.
La fracción de productos defectuosos producidos por dos líneas de producción se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas.
43
Inferencia Estadística.
Contraste de Hipótesis:
Técnica Estadística la cual se usa para tomar decisiones sobre la población, se Establecen Hipótesis sobres los parámetros y luego se contrastan para aceptar o rechazar dichas Hipótesis
44
Inferencia Estadística.
Hipótesis Estadística:
Es una suposición concerniente a una o más
distribuciones poblacionales, es decir a uno o
más parámetros de la población.
Esta suposición es considerada una hipótesis
ya que está referida a una situación que puede
ser o no ser verdadera.
45
Inferencia Estadística.
Hipótesis Nula:
Nulifica el efecto de la variable en estudio, ausencia de los efectos de la variable que se investiga.
Hipótesis Alternativa:
Variación de los valores que prevalecerían si la variable que se estudia ejerce algún efecto.
(Pregunta que debe responderse, teoría que debe probarse.)
𝐻0 :
𝐻0 :
46
Inferencia Estadística.
Un proceso manufacturero usado en una fábrica durante los últimos años
da una producción media de 100 unidades por hora, con una desviación
estándar de 8 unidades, se acaba de introducir en el mercado una nueva
máquina para realizar este tipo de producto. Aunque es muy cara
comparada con la que esta en uso, si la media de producción de la nueva
maquina es de más d e150 unidades por hora, su adopción daría bastantes
beneficios. Para decidir si se debiera comprar la nueva máquina, la
gerencia de la fábrica compra 35 de esas máquinas como un experimento.
Establezca la hipótesis nula y la alternativa.
47
Inferencia Estadística.
Espacio paramétrico:
Conjunto de todos los posibles valores que puede asumir Es una un cierto parámetro poblacional, no conocido, respecto al cual se hace una cierta hipótesis. Cuando se plantea una hipótesis lo que se hace es particionar el espacio paramétrico en dos sub espacios.
48
Inferencia Estadística.
Tipos de Hipótesis:
Hipótesis Simple:
El Sub espacio paramétrico contiene un solo punto
Hipótesis Compuesta:
El Sub espacio paramétrico contiene más de un punto
𝜇=120
𝜇>120
49
Inferencia Estadística.
Tipos de Errores que se cometen en una formulación de Hipótesis:Error Tipo I:Rechazar H0 cuando esta es cierta
Error Tipo I:Aceptar H0 cuando esta es falsa.
Ho Cierta Ho FalsaNo Rechace Ho Correcta Error Tipo IIRechace Ho Error Tipo I Correcta
50
Inferencia Estadística.
Pasos a Seguir en el contraste de Hipótesis:
1. Formulación de Hipótesis:
𝐻0 :𝜃=𝜃0𝐻1 :𝜃<𝜃0
𝐻0 :𝜃<𝜃0𝐻1 :𝜃≥ 𝜃0
𝐻0 :𝜃<𝜃0𝐻1 :𝜃≠ 𝜃0
51
Inferencia Estadística.
2. Nivel de Significancia:
3. Estadístico de Prueba:
𝑍 𝑐=𝜃− �̂�𝜎 𝜃
𝛼
3. Estadístico de Prueba:
52
Inferencia Estadística.
4. Regla de Decisión:
Rechazar Ho Ssi:
𝐻0 :𝜃=𝜃0𝐻1 :𝜃<𝜃0
<
53
Inferencia Estadística.
𝐻0 :𝜃<𝜃0𝐻1 :𝜃≥ 𝜃0
𝑍 𝑐>𝑍𝛼
54
Inferencia Estadística.
𝐻0 :𝜃<𝜃0𝐻1 :𝜃≠ 𝜃0
𝑍 𝑐>𝑍1−𝛼
𝑍 𝑐<𝑍𝛼
55
Inferencia Estadística.
6. Cálculos.
7. Conclusiones.
56
Inferencia Estadística.
Contraste de Hipótesis para la media 𝜇 :Una muestra aleatoria de 100 muertes registradas en el estado, el año
pasado mostro una vida promedio de 71.8 años. Suponiendo una
desviación estándar poblacional de 8.9 años, ¿Esto parece indicar que la
vida media actual es mayor a 70 años?, Utilice un nivel de significancia de
5%.
57
Inferencia Estadística.
Contraste de Hipótesis para la diferencia de medias:
Un fabricante de equipo deportivo desarrollo un nuevo sedal para pesca
sintético, que afirma que tiene una resistencia a la rotura de 8Kg con una
desviación de 0,5 Kg. Pruebe la hipótesis de que la resistencia media a la
rotura difiere a la que dice el fabricante, sabiendo que en una muestra
aleatoria de tamaño 50, arrojo una resistencia promedio a la rotura de 7,8
Kg. Use un nivel de significancia de 0.05.
𝜇1−𝜇2:
58
Inferencia Estadística.
59
Inferencia Estadística.
Contraste de Hipótesis para la Diferencia de Proporciones:
60
Inferencia Estadística.
61
Inferencia Estadística.
Estimación por Intervalos:
;
^θl : Puntos Extremos del Intervalo
Se tiene una Coonfianza de (1-α) de Seleccionar una
variable aleatoria Que produzca un intervalo que contenga ᶿ
0<α<1Nivel de Confianza
62
Inferencia Estadística.
63
Muestra aleatoria: se considera aleatoria siempre y cuando cada observación, medición o individuo de la población tenga la misma probabilidad de ser seleccionado.
64
¿Censo o Muestreo?
- Costo
- Control Recolección de Información - Calidad
- Rapidez de resultados
- Población muy grande o infinita
- Población muy homogénea
- Proceso de medición destructivo
65
Individuos o Elementos: Cualquier ente, racional o irracional, objeto o concepto.
Características o Propiedades Existencia, Modalidad – Categoría (cuantitativa, cualitativa) Relaciones.
Proceso de Medición Determinar si un Individuo posee o no cierta característica o si presenta cierta modalidad en tal característica.
66
Variables: – son las características o lo que se estudia de
cada individuo de la muestra. Ej: sexo, edad, peso, estatura, color de ojos, estado civil, temperatura, cantidad de nacimientos, presión, diámetro, ...
Datos:– son los valores que toma la variable en cada
caso.
67
Cualitativos: son datos que solo toman valores asociados a las cualidades o atributos, clasificándolos en una de varias categorías, es decir, no son valores numéricos.– Sexo: f/m.– Hábito de fumar: Fumador/No fumador– Color de ojos: negro, azul, marrón, …– Religión: Católica, Evangélica, …– Estado civil: soltero, casado, divorciado,…
68
Cuantitativos: provienen de variables que pueden medirse, cuantificarse o expresarse numéricamente. Ejemplos:– Peso– Edad– Estatura– Presión– Humedad– Intensidad de un sismo– Cantidad de hermanos
69
Tipos de variables cuantitativas:– Discretas: es aquella que solo puede tomar un
número finito o infinito numerable de valores. Ejemplo: cantidad de hermanos.
– Continuas: es la variable que puede tomar cualquier valor en una escala continua. Ejemplo: cantidad de líquido contenido en un recipiente.
70
Escalas de medida
Concepto:
Conjunto de valores que puede tomar una
variable, o conjunto de modalidades que
puede presentar una característica.
71
Escalas de medida
Nominal. Ordinal. De Intervalos. De Razón o Proporción. Absoluta.
Variables Cualitativas
VariablesCuantitativas
72
Escalas de medida
Escala Nominal: los datos se pueden agrupar en categorías que no mantienen una relación de orden entre sí, por lo tanto no están definidas las operaciones lógicas (>, <, , ) sino solo las de igualdad o diferencia. Ejemplos: color de ojos, sexo, profesión,
estado civil, religión.
73
Escalas de medida
Escala Ordinal: existe un cierto orden o jerarquía entre las categorías (>, <, , ).Ejemplos: grados militares, organigrama de
una empresa, escalafón de los profesores universitarios,
grados de disnea, estadiaje de un tumor, resultados de estudios de opinión. (Excelente, Bueno,
Regular, Malo)
74
Escalas de medida
Escala de Intervalos: valores numéricos de las variables y además de las relaciones de orden (>, <, , ), se pueden establecer distancias, es decir, tienen sentido las operaciones de suma y resta. Propiedades:– Existe una unidad de medida que se mantiene constante
para todos los valores que toma la variable.– Existe un valor patrón u origen relativo que no significa la
ausencia de valor en la variable.
75
Escalas de medida
Ejemplo: temperatura, nivel de ruido, movimientos sísmicos.
76
Escalas de medida
Escala de Razón o Proporción: es la más completa y general de todas las escalas. Se caracteriza porque los valores de la variable son números, entre los cuales, además de las relaciones de orden (>, <, , ) y distancia (+,-), se pueden establecer múltiplos y proporciones.
Ejemplos: peso, altura, volumen, ingreso, precio
Propiedades:
- Poseen 0 absoluto que significa ausencia de la propiedad.- Tienen unidad de medida
77
Escalas de medida
Escala Absoluta: se caracteriza porque los valores que toma la variable son el resultado de un conteo y por lo tanto, está constituida por los enteros positivos y el cero.Ejemplos: número de hermanos, cantidad de
autos vendidos, cantidad de accidentes en una
intersección, cantidad de hijos,…
78
Escalas de medida
Nominal Ordinal Intervalos Razón Absoluta
Categoriza X X X X X
Jerarquiza X X X X
Diferencias tienen sentido X X X
Múltiplos tienen sentido X X
Cero absoluto X X
Operaciones Aritméticas X X X
Se pueden transformar en otras del mismo tipo X X X X
(Algunas)
Propiedades Escalas
79
Datos Univariantes y Multivariantes
Univariantes o unidimensionales: sólo recogen información sobre una característica (Ej: edad de los alumnos de una clase).
Bivariantes o bidimensionales: recogen información sobre dos características de la población. (Ej: edad y estatura de los alumnos de una clase).
80
Datos Univariantes y Multivariantes
Multivariantes o pluridimensionales: recogen información sobre tres ó más características. (Ej: edad, estatura y peso de los alumnos de una clase).
81
Estadística - Abusos
Conclusiones erróneas debido a que los datos son numéricamente insuficientes.
Representaciones gráficas engañosas (escalas).
Datos muestrales no representativos:– Muestra que no incluye a elementos de toda la población.– Ciertas categorías de personas no responden correctamente.– Respuestas voluntarias (sesgadas).
82
Organización de los datos
Datos cualitativos
Se realiza de acuerdo a las modalidades que presente la variable en estudio. Mediante un conteo se determina el número de datos (Frecuencia) correspondiente a las diferentes categorías de la variable. Se usa para cualquier cantidad de datos.
83
Organización de datos cualitativos
Ejemplo: En un estudio sobre las personas que ejercen cargos directivos en una empresa, se realizaron 32 entrevistas y se obtuvo la siguiente información. Variable: Sexo.
F, F, M, M, F, M, F, F, M, F, M,
M, M, M, F, F, M, F, F, F, M, F,
F, M, M, F, F, F, F, F, M, M. .
84
Organización de datos cualitativos
Clasificación del Personal Directivo
de acuerdo al sexo.
Sexo Personas
Masculino 14
Femenino 18
Total 32
85
Organización de datos cualitativos
Tablas de Doble Entrada o de Contingencia. Se utilizan para agrupar los datos de acuerdo a dos características simultáneamente. Característica B
b1 b2 ... bk Totales
xxx xxx xxx
xxx xxx
Totales
Ca
ract
eris
tica
A
a1
a
2
...
ak
86
Organización de datos cualitativos
Datos correspondientes a Sexo y Profesión de 32 Ejecutivos de Empresa
Profesión Sexo M F Totales
Abogados 3 4 7
Economistas 3 2 5
Educadores 3 1 4
Geógrafos 2 1 3
Ingenieros 2 5 7
Médicos - 2 2
Sociólogos 1 3 4
Totales 14 18 32
87
Organización de los datos
Datos cuantitativos
Para organizar y agrupar datos de tipo cuantitativo, discretos o continuos, se utiliza un procedimiento similar al utilizado con los datos cualitativos, pero más laborioso.
88
Organización de datos cuantitativos
Una vez que se ha realizado la recolección de los datos, se obtienen datos en bruto, los cuales rara vez son significativos sin una organización y tabulación.
89
Formas de organizar los datos:
Organización de datos cuantitativos
– Distribución de Frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases, mostrando el patrón de la distribución de manera más significativa.
Clase Pto. Medio fi Fi fri FRi
90
Organización de datos cuantitativos
La Distribución de Frecuencias:– Se recomienda su uso cuando se tienen grandes
cantidades de datos (n).– Su construcción requiere, en primer lugar, la
selección de los límites de los intervalos de clase.– Para definir la cantidad de intervalos de clase (k),
se puede usar: La regla de Sturges: k = 1 + 3.3log(n) k = n
91
La Distribución de Frecuencias:– La cantidad de clases no puede ser tan pequeño
(menos de 5) o tan grande (más de 20), que la verdadera naturaleza de la distribución sea imposible de visualizar.
– La amplitud de todas las clases deberá ser la misma. Se recomienda que sea impar y que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto.
– Los límites de las clases deben tener una cifras significativas más que los datos en bruto.
Organización de datos cuantitativos
92
Organización de datos cuantitativos
Determinar:– Punto medio = (Li+Ls)/2.– Frecuencia absoluta de la clase (fi).
– Frecuencia acumulada de la clase (Fi).
– Frecuencia relativa de la clase (fri): fri = fi/n
– Frecuencia relativa acumulada de la clase (FRi).
93
Ejemplos de Distribuciones de Frecuencias
Organización de datos cuantitativos
94
Organización de datos cuantitativos
Formas de organizar los datos:– Arreglo: es la forma más sencilla de organizar los datos en
bruto. Consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente.
– Poco práctica cuando se tiene una gran cantidad de datos.
Distribución de Frecuencias
Se desea determinar cómo varían las estaturas de las mujeres, al tomar una muestra de 50 trabajadoras de una fábrica de pantalones.
Los datos obtenidos fueron los siguientes:
Ejemplo 1:
1.65 1.63 1.65 1.63 1.69 1.67 1.53 1.58 1.60 1.611.65 1.64 1.71 1.68 1.66 1.56 1.59 1.61 1.62 1.631.63 1.69 1.67 1.66 1.58 1.60 1.61 1.62 1.64 1.641.55 1.59 1.66 1.57 1.61 1.68 1.66 1.57 1.72 1.671.64 1.65 1.64 1.65 1.63 1.70 1.62 1.64 1.60 1.62
95
Organice los datos en una distribución de Frecuencias en intervalos de clases, con amplitud constante.
Para el calculo de la amplitud, aproxime a tres decimales, y para el calculo de las clases aproxime a dos decimales.
96
Distribución de Frecuencias
Distribución de Frecuencias
1.- Se determina el número de intervalos (Sturges)
K = 1 + 3.3 log(50) = 6.6 => tomamos K = 7
2.- Se determina la amplitud del intervalo
A 1.72 – 1.53 0.027
3.- Se determinan los intervalos
Primer intervalo: 1,53 + 0,027 = 1,557
[1,53 – 1,5571)
[1,5571 – 1,5843)
==7
97
Distribución de Frecuencias
No. Clase Intervalo fi Pto.Medio Fi fri FRi
1 1.53 – 1.55 2 1.54 2 2/50 = 0,04 = 4% 2/50 = 0,04 = 4%
2 1.56 – 1.58 5 1.57 7 5/50 = 0,1 = 10% 7/50 = 0,14 = 14%
3 1.59 – 1.61 9 1.60 16 9/50 = 0,18 = 18% 16/50 = 0,32 = 32%
4 1.62 – 1.64 15 1.63 31 15/50 = 0,3 = 30% 31/50 = 0,62 = 62%
5 1.65 – 1.67 12 1.66 43 12/50=0,24 = 24% 43/50 = 0,86 = 86%
6 1.68 – 1.70 5 1.69 48 5/50 = 0,1 = 10% 48/50 = 0,96 = 96%
7 1.71 – 1.73 2 1.72 50 2/50 = 0,04 = 4% 50/50 = 1 = 100%
Totales 50 100%
98
Distribución de Frecuencias
Clasificación de un grupo de trabajadoras
de la empresa El Pantalón
de acuerdo a sus estaturas (en Mts.)
Estaturas Nº. Empleadas Porcentaje
1.53 – 1.55 2 4
1.56 – 1.58 5 10
1.59 – 1.61 9 18
1.62 – 1.64 15 30
1.65 – 1.67 12 24
1.68 – 1.70 5 10
1.71 – 1.73 2 4
Totales 50 100%Fuente: Registros Empresa El Pantalón
99
Distribución de Frecuencias
A 40 pacientes de un hospital se les investigó la variable número de hijos, obteniéndose la siguiente información:
4 0 5 6 4 2 6 0 6 4
3 7 7 7 7 4 3 4 7 0
2 6 5 7 5 4 6 6 2 5
3 6 6 5 0 6 7 5 6 2
Ejemplo 2:
100
Distribución de Frecuencias
Clases fi fri Fi FRi
0 4 0.100 = 10% 4 0,100 = 10%
1 0 0,000 = 0% 4 0,100 = 10%
2 4 0,100 = 10% 8 0,200 =20%
3 3 0,075 = 7,5% 11 0,275 =27,5%
4 6 0,150 = 15% 17 0,425 = 42,5%
5 6 0,150 = 15% 23 0,575 = 57,5%
6 10 0,250 = 25% 33 0,825 = 82,5%
7 5 0,125 = 12,5% 38 0,950 = 95%
8 2 0,050 = 5% 40 1,000 = 100%
Totales 40 1,000 = 100%
101
Distribución de Frecuencias
Los datos que se muestran a continuación representan las calificaciones de 60 estudiantes que presentaron la PINA en el año 2010.
a) Construya una distribución de frecuencias.
b) ¿Qué puede concluir de estos datos?
Ejercicio:
102
Distribución de Frecuencias
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61
Ejercicio:
103
Representación gráfica de los datos
Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases, comúnmente se utilizan tres tipos de gráficos:– Histogramas.– Polígono de frecuencias.– Ojiva o Polígono de frecuencias acumuladas.
104
Representación gráfica de los datos
Para datos cuantitativos- Diagrama de puntos- Diagramas de dispersión- Curvas- Pictogramas
Para datos cualitativos– Curvas– Barras– Circulares o de Sectores
- Histogramas.- Polígono de frecuencias.
- Ojiva o Polígono de frecuencias acumuladas.
105
Representación gráfica de los datos
Histograma:
106
Representación gráfica de los datos
Histograma y Polígono de Frecuencias
107
Representación gráfica de los datos
Ojiva
108
Representación gráfica de los datos
Barras
109
Representación gráfica de los datos
Curvas
110
Representación gráfica de los datos
Pictogramas
111
Representación gráfica de los datos
Sectores, torta o circular
112
Ejemplos de construcción de gráficos
113
Medidas de Tendencia Central
Se les conoce también como “Medidas de Posición”.
Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos.
Forma cómo los datos se pueden condensar en un solo valor central, alrededor del cual se distribuyen todos los datos de la muestra.
114
Medidas de Tendencia Central
Las medidas de tendencia central más importantes son:– Media: Aritmética y Aritmética ponderada.– Mediana.– Moda.
115
Media Aritmética
Es la suma de todas las observaciones dividida entre el número total de observaciones.
Expresada de forma más intuitiva, se puede decir que la media aritmética es la cantidad total de la variable, distribuida a partes iguales entre cada observación. (Wikipedia)
116
Media Aritmética
Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable. (Wikipedia)
117
Cálculo de la Media Aritmética
Para datos no agrupados:
n
xX
n
ii
1
Para datos agrupados:
n
fmX
k
iii
1
Donde: mi: punto medio de la clase i fi: frecuencia absoluta de la clase i
118
Mediana
Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente.
Divide al conjunto de datos en dos partes iguales.
119
Cálculo de la Mediana
Para datos no agrupados:– Si n es impar:
posición donde se ubica la mediana es igual a (n+1)/2.
– Si n es par:
(n+1)/2 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales.
120
Cálculo de la Mediana
Para datos agrupados: Clase mediana (o medianal) es la que contiene a la observación que ocupa la posición n/2.
Cmxf
xFn
LmMdm
m
)(
)(2
11
Donde: Lm: límite inferior de la clase mediana. F(xm-1): frecuencia acumulada de la clase anterior a la clase mediana. f(xm): frecuencia absoluta de la clase mediana. Cm: amplitud de la clase mediana.
121
Moda
Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.
122
Cálculo de la Moda
Para datos no agrupados: es simplemente la observación que más se repite.
Para datos agrupados:
CmLimMo21
1
Donde: Lim: límite inferior de la clase modal. 1: diferencia entre fi de la clase modal y la anterior. 2: diferencia entre fi de la clase modal y la posterior. Cm: amplitud de la clase modal (clase de mayor frecuencia).
123
Relación Media - Mediana - Moda.
Cuando los datos son sesgados es mejor emplear la Md
124
Propiedades de la Media
La suma de las diferencias entre la media muestral y el valor de cada observación es cero.
La media de una constante es la constante. Si todas las observaciones xi se multiplican
por una constante a, la X también se debe multiplicar por ese mismo valor constante.
125
Propiedades de la Media
Si se somete a una variable estadística X a un cambio de origen y escala, Y = a + bX, la media aritmética de dicha variable X varía en la misma proporción.
La media de la suma de dos variables es igual a la suma de sus medias.
126
Media. Ventajas y desventajas
Ventajas: Emplea en su cálculo toda la información
disponible. Se expresa en las mismas unidades que la
variable en estudio. Es el centro de gravedad de toda la
distribución, representando a todos los valores observados.
Es un valor único.
127
Media. Ventajas y desventajas
Ventajas: Se trata de un concepto familiar para la
mayoría de las personas. Es útil para llevar a cabo procedimientos
estadísticos como la comparación de medias de varios conjuntos de datos.
128
Media. Ventajas y desventajas
Desventajas: Se ve adversamente afectada por valores
extremos, perdiendo representatividad. Si el conjunto de datos es muy grande puede
ser tedioso su cálculo manual. No se puede calcular para datos cualitativos. No se puede calcular para datos que tengan
clases de extremo abierto, tanto superior como inferior.
129
Mediana. Ventajas y desventajas
Ventajas: Fácil de calcular si el número de observaciones
no es muy grande. No se ve influenciada por valores extremos, ya
que solo influyen los valores centrales. Fácil de entender.
130
Mediana. Ventajas y desventajas
Ventajas: Se puede calcular para cualquier tipos de datos
cuantitativos, incluso los datos con clase de extremo abierto.
Es la medida de tendencia central más representativa en el caso de variables que sólo admiten la escala ordinal.
131
Mediana. Ventajas y desventajas
Desventajas: No utiliza en su “cálculo” toda la información
disponible. No pondera cada valor por el número de
veces que se ha repetido. Hay que ordenar los datos antes de
determinarla.
132
Moda. Ventajas y desventajas
Ventajas: No requiere cálculos. Puede usarse para datos tanto cuantitativos
como cualitativos. Fácil de interpretar. No se ve influenciada por valores extremos. Se puede calcular en clases de extremo
abierto.
133
Moda. Ventajas y desventajas
Desventajas: Para conjuntos pequeños de datos su valor
no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.
No utiliza toda la información disponible. No siempre existe, si los datos no se repiten.
134
Moda. Ventajas y desventajas
Desventajas: En ocasiones, el azar hace que una sola
observación no representativa sea el valor más frecuente del conjunto de datos.
Difícil de interpretar si los datos tiene 3 o más modas.
135
Medidas de dispersión
También conocidas como Medidas de variación o variabilidad.
Son valores numéricos que indican o describen la forma en que las observaciones están dispersas o diseminadas, con respecto al valor central.
136
Medidas de dispersión
Son importantes debido a que dos muestras de observaciones con el mismo valor central pueden tener una variabilidad muy distinta.
137
Medidas de dispersión
Rango. Varianza. Desviación Típica. Coeficiente de Variación.
138
Medidas de dispersión: Rango
Rango (amplitud o recorrido): Está determinado por los dos valores
extremos de los datos muestrales, es simplemente la diferencia entre la mayor y la menor observación.
Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer la máxima dispersión.
139
Medidas de dispersión: Rango
Casi no se emplea debido a que depende únicamente de dos valores.
No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribución.
Notación: R
140
Medidas de dispersión: Varianza
Es un valor numérico que mide el grado de dispersión relativa, porque depende de la posición de los datos x1,x2,…,xn con respecto a la media.
Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.
Notación: s2, 2, var(X)
141
Medidas de dispersión: Varianza
Si la varianza de un conjunto de observaciones es grande, se dice que los datos tienen una mayor variabilidad que un conjunto de datos que tenga un varianza menor.
21
2
2
1
2
2
xn
xs
n
xxs
n
ii
n
ii
142
Dispersión: Desviación Típica
Es la raíz cuadrada de la varianza. Notación: s, .
2ss
143
Dispersión: Coeficiente de Variación
Es una medida de dispersión relativa que permite comparar el nivel de dispersión de dos muestras de variables estadísticas diferentes.
No tiene dimensiones. Notación: CV
%100x
sCV
144
Ventajas y Desventajas del Rango
Ventajas: Útil cuando se quiere conocer la extensión
de las variaciones extremas (valor máximo de la dispersión).
Fácil de calcular.
145
Ventajas y Desventajas del Rango
Desventajas: No es una Medida de Dispersión con
respecto al centro de la distribución. Solo emplea dos valores en su cálculo. No se puede calcular en distribuciones de
límite de clase abierto.
146
Propiedades de la Varianza
Propiedades:
1. Siempre es mayor o igual a cero y menor que infinito.
2. La varianza de una constante es cero.
3. Si a una variable X la sometemos a Y=a+bX, la varianza de Y será Var(Y) = b2Var(X)
147
Ventajas y Desventajas - Varianza
Ventajas: Es útil cuando se compara la variabilidad de
dos o más conjuntos de datos. Utiliza toda la información disponible.Desventajas: No proporciona ayuda inmediata cuando se
estudia la dispersión de un solo conjunto de datos.
Difícil de interpretar por tener sus unidades elevadas al cuadrado.
148
Ventajas/Desventajas Desviación Típica
Ventajas: Esta expresada en las mismas unidades que
la variable en estudio. Utiliza todas las observaciones en su
cálculo. Fácil de interpretar.
Desventajas: No tiene.
149
Ventajas/Desventajas Coeficiente de Variación
Ventajas: Es la única Medida de Dispersión que
permite comparar el nivel de dispersión de dos muestras de variables diferentes.
Emplea toda la información disponible en su cálculo.
Fácil de calcular.
150
Desventaja: No es una Medida de Dispersión con
respecto al centro de la distribución de los datos.
Ventajas/Desventajas Coeficiente de Variación
151
Medidas de Forma
Son medidas numéricas que permiten determinar la forma que tiene la curva de los datos. Por lo tanto, sirven para corroborar lo que muestran los gráficos.
Medidasde forma
- Asimetría
- Kurtosis o apuntamiento
Coeficiente de Pearson Coeficiente de Fisher
152
Medidas de Forma: Asimetría
Permiten estudiar la forma de la curva, dependiendo de cómo se agrupan los datos.
153
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson: Fácil de calcular e interpretar. Cálculo:
s
MdXASP
3
o Interpretación:
ASP
= 0, X=Md Simétrica
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
154
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher: No es de fácil cálculo, pero si su interpretación.
3
1
3
31
3
ns
fxMASF
ns
XxASF
k
iii
n
ii
Datos NO agrupados
Datos Agrupados
155
Medidas de Forma: Asimetría
o Interpretación:
ASF
= 0, Simétrica
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
156
Medidas de Forma: Kurtosis
Miden si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra (zona central de la distribución).
Se definen tres tipos de distribución según su grado de apuntamiento o Kurtosis.
157
Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración medio alrededor de los valores centrales de la variable.
Leptocúrtica: grado de concentración elevado.
Platicúrtica: grado de concentración reducido.
158
Medidas de Forma: Kurtosis
3
3
41
4
41
4
ns
fXMCK
ns
XxCK
k
iii
n
ii
Datos No Agrupados
Datos Agrupados
159
Medidas de Forma: Kurtosis
Interpretación:
CK
= 0 Mesocúrtica
> 0 Leptocúrtica
< 0 Platicúrtica
CK
160
Referencias:
Wikipedia(http://es.wikipedia.org/wiki/Wikipedia:Portada)
Walpole y Myers. Probabilidad y Estadística. Mc Graw-Hill.
Triola, Mario F. Estadística. Pearson.Armas, G, Jose, M.(2002). Estadística Sencilla:
Descriptiva. Universidad de Los Andes, Facultad de Economía, Departamento de Estadística.
Chao, Lincoln L . 1985. Introducción a la Estadística. México: Continental.
161