Upload
laura-jackson
View
7
Download
0
Embed Size (px)
DESCRIPTION
Análisis Descriptivo de Datos, Estadística par la administración
Citation preview
Estadística descriptiva:
Se dedica a analizar y representar losdatos.
Análisis básico, pero fundamental entodo estudio.
Su poder inferencial es mínimo.
Tabla o Distribución de frecuencias:
Agrupación de datos en clases mutuamente excluyentes,que muestra el número de observaciones en cada clase.
•Su objetivo es construir tablas, diagramas y gráficas querevelen rápidamente la concentración y distribución de losdatos.
Ejm:
Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).
Datos en bruto o no agrupados
1 2 3 4 5 6 7 8 9 10
0 23197 23372 20454 23591 26651 27453 17266 18021 28683 30872
1 19587 23169 35851 19251 20047 24285 24324 24609 28670 15546
2 15935 19873 25251 25277 28034 24533 27443 19889 20004 17357
3 20155 19688 23657 26613 20895 20203 23765 25783 26661 32277
4 20642 21981 24052 25799 15794 18263 35925 17399 17968 20356
5 21442 21722 19331 22817 19766 20633 20962 22845 26285 27896
6 29076 32492 18890 21740 22374 24571 25449 28337 20642 23613
7 24220 30655 22442 17891 20818 26237 20445 21556 21639 24296
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
1. Definir el número de clases (k): Emplear un número suficiente de talmanera que se perciba la forma de la distribución.
2k>n
• n=80; k=6 26>80 64<80
• n=80; k=7 27>80 128>80
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
2. Determinar el intervalo o ancho de clase (i): Todas las clases juntasdeben cubrir por lo menos la distancia del valor mínimo al máximode los datos.
i≥ [(H-L)/k]
Donde: i=intervalo de clase; H=máximo valor; L=mínimo valor
k=no. de clases
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
2. Determinar el intervalo o ancho de clase (i):
i≥ [(H-L)/k]
i≥ [(35925-15546)/7=2911≈3000]
Al redondear el intervalo de clase hacia arriba se cubre un rangomás amplio que el necesario. Se usa un múltiplo de 100.
Los i desiguales resultan necesarios cuando se pretende evitar clasesvacías o casi vacías.
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
3. Establecer los límites de cada clase: Hace posible incluir cadaobservación en una sola categoría.
• 7 clases de 3000 de amplitud = 21000 de rango
• Rango real= H-L= 35925-15546=20379
• El límite inferior de la primer clase debe ser un
múltiplo del intervalo de clase (3000x5=15000).
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
4. Clasificar cada una de las
observaciones en las clases.
5. Número de elementos en cada
clase.
Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Construir una distribución de frecuencias
Conclusiones:
Un 72.5% de los precios de
venta se concentran en la clase
2, 3 y 4 (58).
La clase 2 presenta la máxima
concentración, así que el precio
típico de venta es de 19 500.
Punto medio de clase:Media de límites inferiores (L.I.) de dos clases consecutivas.
Ejm: Whitner Autoplex
(15000+18000)/2=16500 punto medio de la clase 1
(precio típico)
Intervalo de clase:Diferencia entre límites inferiores de la clases consecutivas o bien ladiferencia entre puntos medios consecutivos.
(18000-15000)=3000 ó (19500-16500)=3000
Distribución de frecuencias relativas:Muestra la fracción del total de observaciones que hay en cada clase.
Ejm: Whitner Autoplex
¿Cuántos vehículos se vendieron a un
precio de entre $18000 y $21000?
¿Qué porcentaje se vendió a un precio
de entre $24000 y $27000?
¿Qué porcentaje se vendió en $30000 o
más?
Representación gráfica de una distribución de frecuencias:Histograma
Gráfica en la que las clases se señalan en el eje horizontal y lasfrecuencias de clase en el eje vertical.
Ejm: Whitner Autoplex
Representación gráfica de una distribución de frecuencias:Polígono de frecuencias
Gráfica en la que segmentos de recta conectan los puntos formados por lasintersecciones de los puntos medios de clase y las frecuencias de clase.
Ejm: Whitner Autoplex
Distribución de frecuencias acumulativas:Muestra la fracción del total de observaciones que hay en cada clase deforma acumulada.
Ejm: Whitner Autoplex
Medidas de ubicación=promedios:Muestra el valor central de los datos.
Si se toma en cuenta las medidas de ubicación en un conjunto de datos osi se comparan varios conjuntos de datos utilizando valores centrales, sellega a conclusiones incorrectas.
Medidas de dispersión:Muestra la variación o propagación de los datos.
Ejm:
Tipo de EjecutivosIngreso anual
promedio (USD)Rangos salariales (USD)
Compañías relacionadas con
internet80000 70000-90000
Compañías farmacéuticas
80000 40000-120000
Medidas de ubicación
Media poblacional:En el caso de datos no agrupados, es la suma de todos los valores en lapoblación dividida entre el número de la población.
Cualquier característica medible de una población es un parámetro.
Media de una muestra:Es la suma de todos los valores en la muestra dividida entre el númerode la muestra.
Cualquier característica medible de una muestra es un estadístico.
Medidas de ubicación
Propiedades de la media aritmética:
•Todos los valores se encuentran incluidos en el cálculo dela media.
•La media es única.
•La suma de las desviaciones de cada valor de la media escero;
Ejm: 3, 8 y 4
Medidas de ubicación
Media ponderada:Caso especial de la media aritmética que se usa cuando hay variasobservaciones con el mismo valor.
; w=ponderación
Las ponderaciones son generalmente conteos de frecuencias. Sinembargo, cualquier medida de importancia puede ser una ponderación.
Medidas de ubicación
Mediana:Punto medio de valores una vez que se han ordenado de menor a mayoro viceversa.
Ejms:
Precios en un fraccionamiento:
Precio típico=$110 000
Presupuesto=$75000Mediana
Rendimientos mutualistas accionarios 2008-2010:
Medidas de ubicación
Moda:Valor de la observación que aparece con mayor frecuencia.
Ejm:Número de encuestados
que prefieren ciertos tipos
de aceites para baño.
Los salarios anuales de los gerentes de control de calidad en algunos estados seleccionados de EUA.
Medidas de ubicación
Moda:Ventaja:
Es posible determinarla para todos los niveles de datos:nominal, ordinal, de intervalo y de razón.
Desventaja:
En el caso de muchos conjuntos de datos en los que ningúnvalor se presenta más de una vez, no existe la moda.
Medidas de ubicación
Posiciones relativas de la media, la mediana y la moda:
Distribución con sesgo positivo
Medidas de ubicación
Posiciones relativas de la media, la mediana y la moda:
Distribución con sesgo negativo
Medidas de ubicación
Ejm:
Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).
Excel: Análisis de Datos MegaStat
Medidas de ubicación
Media geométrica:Se usa para determinar el cambio promedio de porcentajes, razones,índices o tasas de crecimiento.
•Siempre es menor o igual a la media aritmética.
•Todos los datos deben ser positivos.
Medidas de ubicación
Media geométrica:Ejms:
1. Asuma que usted recibe 5% de incremento salarial este año y 15% elsiguiente. El incremento porcentual anual promedio es de 9.886, no de10.
Incremento 1= $3000(.05)= $150.00
Incremento 2= $3150(.15)= 472.5
Total $622.50
$3000(.09886)= $296.58
$3150(.09886)= 325.90
$622.48
Medidas de ubicación
Media geométrica:Ejms:
2. La recuperación de una inversión realizada por una CompañíaConstructora durante cuatro años consecutivos fue de 30, 20, -40 y200%. Suponga que el total de la inversión de cada periodo se reinvierteo se convierte en la base de la siguiente. ¿Calcule GM de la recuperaciónde la inversión?
Tasa promedio de recuperación=29.4%
Media aritmética = 52.5%
Medidas de ubicación
Porcentaje promedio de incremento:
Ejm:
1. La densidad de población en Guanajuato (habitantes/km2) seincrementó de 152 en 2000 a 179 en 2010. ¿Cuál es el incremento anualpromedio en el periodo?
1 n
VI
VFGM
Medidas de dispersión
Rango = Valor máximo - Valor mínimo
Desviación media:Mide la cantidad media respecto de la cual los valores deuna población o muestra varían.
Varianza y Desviación estándar:
Poblacional Muestral:
1
)( 2
2
n
XXs
1
)( 2
n
XXs
Medidas de dispersión
Sesgo:Coeficiente de sesgo de Pearson (sk):
Coeficiente de sesgo calculado con software (Minitab y Excel):
s
MedianaXsk
)(3
3
)2)(1( s
XX
nn
nsk
Medidas de dispersión
Ejm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Excel: Análisis de Datos
Precios
Media 23218.1625
Mediana 22831
Moda 20642
Desviación estándar 4354.43781
Varianza de la muestra 18961128.6
Coeficiente de asimetría 0.72681585
Rango 20379
Mínimo 15546
Máximo 35925
Suma 1857453
Cuenta 80
Medidas de dispersión
Métodos consistentes en determinar la ubicación de los valores quedividen un conjunto de observaciones en partes iguales.
Cuartiles (Q): Localización de un cuartil
Deciles (D): Localización de un decil
Percentiles (P): Localización de un percentil
donde ; Q, D,P = representan el quartil, decil o percentil que busca.
4)1(Q
nLQ
10)1(
DnLD
100)1(
PnLP
Medidas de dispersión
Ejm:
1. Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).
Minitab
Medidas de dispersión
Ejm:
Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).
Excel: Análisis de datosPrecios
Media 23218.1625
Mediana 22831
Moda 20642
Desviación estándar 4354.43781
Varianza de la
muestra 18961128.64
Coeficiente de
asimetría 0.72681585
Rango 20379
Mínimo 15546
Máximo 35925
Suma 1857453
Cuenta 80
Mayor (20) 25799
Menor(20) 20047
n=80, localizar 25° percentil
= 81(0.25)=20.25
Medidas de dispersión
Ejm:
2.
3.
1 2 3 4 5 6 7 8 9 10 11
46 47 49 49 51 53 54 54 55 55 59valoronMediana .66
2
1)1(53
valorernLQ Q .334
1)111(
4
1)1(;49
11
valoronLQ Q .994
3)111(
4
3)1(;55 33
1 2 3 4 5 6
43 61 75 91 101 104
75.14
1)16(
4
1)1(
1 nLQ
61-43=18; 0.75(18)=13.5
5.565.13431 Q
Medidas de dispersión
Teorema de Chebyshev:El matemático ruso Pafnuty L. Chebyshev (1821-1894) determinó lamínima porción de valores que se encuentran a cierta cantidad dedesviaciones estándares de la media:
• 75% deben encontrarse entre ±2σ respecto a la media (3 de 4 valores).
•88.9% deben encontrarse entre ±3σ respecto a la media (8 de 9 valores).
•96% deben encontrarse entre ±5σ respecto a la media (24 de 25 valores).
En cualquier conjunto de observaciones (población o muestra), la
proporción de valores que se encuentran a k desviaciones
estándares de la media es de por lo menos 1-(1/k2), siendo k
cualquier constante mayor que 1.
Ejm: ¿Por lo menos qué porcentaje de cualquier conjunto de
observaciones se encontrará a 1.8 desviaciones estándares de la media?
Medidas de dispersiónRegla empírica: En cualquier distribución de frecuencias simétricas enforma de campana, aproximadamente 68% de las observaciones seencontraran entre ±1σ desviación estándar de la media; cerca de 95% delas observaciones entre ±2σ desviaciones estándares de la media y 99.7%entre ±3σ desviaciones estándares de la media.
Regla
em
pír
ica
1σ
3σ
2σ
-1σ
-2σ
-3σ
Media y desviación estándar de datos agrupados:
donde: f=frecuencia en cada clase; M=punto medio de cada clase
Ejm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex (USD/unidad).
Media y desviación estándar de datos agrupados:
Ejm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
23100$
n
fMX 4403$
1
)( 2
n
XMfs
4354$1
)( 2
n
XXs23218$
n
XX
Aproximadas
Diagramas para la presentación y análisis de datos:
Diagrama de puntos
Agrupa los datos lo menos posible y evita la pérdida de identidad decada observación.
Propiedades:
•Cada punto representa una observación a lo largo de una rectanumérica horizontal.
•Si hay observaciones idénticas o que se encuentran muy próximas,los puntos se apilan para que se puedan ver de manera vertical.
•Estos diagramas son más útiles en el caso de conjuntos de datospequeños.
Diagramas para la presentación y análisis de datos:
Diagrama de puntos
Ejm:
Cantidad de vehículos vendidos durante los pasados 24 meses pordos concesionarias de AutoUSA:
Diagramas para la presentación y análisis de datos:
Diagrama de puntos
Ejm:
Cantidad de vehículos vendidos durante los pasados 24 meses pordos concesionarias de AutoUSA:
Diagramas para la presentación y análisis de datos:
Gráfica de tallo y hojas
•Cada valor numérico se divide en dos partes.
•El dígito principal se convierte en el tallo y los dígitossecundarios en las hojas.
•El tallo se localiza a lo largo del eje vertical y los valores delas hojas se apilan unos contra otros a lo largo del ejehorizontal.
•Ventajas: a) Permite una visualización rápida de la formade la distribución sin hacer ningún cálculo, b) cada valormantiene su identidad exacta.
Diagramas para la presentación y análisis de datos:
Gráfica de tallo y hojasEjm:
Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:
Diagramas para la presentación y análisis de datos:
Gráfica de tallo y hojasEjm:
Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:
o¿Cuál es el número menor y mayor de
espacios publicitarios comprados?
oAlrededor de que valores tienden a
acumularse el número de espacios
publicitarios?
o¿Cuál es la mediana? 45/2=22.5≈23
o¿Cuántos miembros de la asociación
compraron menos de 110 y más de 130
spots en radio?
Diagramas para la presentación y análisis de datos:
Diagrama de caja
Representación gráfica de un conjunto de datos, basada encuartiles.
Para construirlo se necesita:
• El valor mínimo y máximo.
• La mediana.
• Q1 y Q3
Diagramas para la presentación y análisis de datos:
Diagrama de cajaEjm:
Iguana´s Pizza ofrece el servicio a domicilio gratuito a 35 km a laredonda. El propietario desea información relacionada con el tiempode entrega, en el caso de una muestra de 20 entregas se recopiló lasiguiente información:
• Valor mínimo=13 min.
• Valor máximo= 30 min.
• Mediana=18 min.
• Q1 =15 min. Q3 =22 min.
Diagramas para la presentación y análisis de datos:
Diagrama de cajaEjm:
Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:
Diagramas para la presentación y análisis de datos:
Diagrama de cajaEjm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Diagramas para la presentación y análisis de datos:
Diagrama de cajaEjm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).
Dato atípico > Q3 + 1.5(Q3-Q1)=26000-1.5(26000-20000)=35000
Dato atípico < Q1 - 1.5(Q3-Q1)=20000-1.5(26000-20000)=11000
Diagramas para la presentación y análisis de datos:
Diagrama de dispersión o correlaciónMuestra la relación entre datos bivariados.
Ejm:
Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).