37
RJAL UNIDAD I: ESTADISTICA DESCRIPTIVA UNIVERSIDAD NACIONAL DE INGENIERIA FACULTAD DE CIENCIAS Y SISTEMA INGENIERIA DE SISTEMA ESTADISTICA I MSC. ROBERTO JOSE AGUILERA LOPEZ

Pres unid i estadistica descriptiva 2011

Embed Size (px)

DESCRIPTION

Primera unidad de Estadistica I de la Carrera de Ingenieria de Sistemas UNI

Citation preview

Page 1: Pres unid i estadistica descriptiva 2011

RJAL

UNIDAD I: ESTADISTICA DESCRIPTIVA

UNIVERSIDAD NACIONAL DE INGENIERIAFACULTAD DE CIENCIAS Y SISTEMA

INGENIERIA DE SISTEMA

ESTADISTICA I

MSC. ROBERTO JOSE AGUILERA LOPEZ

Page 2: Pres unid i estadistica descriptiva 2011

RJALDEFINICION DE ESTADISTICA

Se define como la ciencia que se encarga de reunir, organizar, presentar, analizar e interpretar datos para ayudar a tomar mejores decisiones.

Se dice que es la ciencia de la toma de decisiones a partir de datos cuantitativos y cualitativos, este proceso incluye determinar los atributos y cualidades reales al igual que realizar estimaciones y verificar hipótesis mediante las cuales se determinan valores probables o esperados.

Rama de las matemáticas que aborda el tema de la organización, recolección, presentación, análisis e interpretación de grupos de datos numéricos

13/04/2023 2 ING. ROBERTO AGUILERA LOPEZ

Page 3: Pres unid i estadistica descriptiva 2011

RJAL

En términos de áreas funcionales de negocios la estadística puede aplicarse por ejemplo en:

Contabilidad: Para seleccionar muestras con propósitos de auditoría.

Finanzas: Para decidir si se concede o no un préstamo basado en las características demográficas, historial crediticio, ingresos, etc. Predecir la tasa de rendimiento de un activo. Evaluar oportunidades de inversión.

Administración: Para describir características de empleados dentro de una organización.

13/04/2023 3 ING. ROBERTO AGUILERA LOPEZ

IMPORTANCIA DE LA ESTADISTICA

Page 4: Pres unid i estadistica descriptiva 2011

RJAL

Mercadeo: Para estimar la demanda de un producto. Para determinar los efectos de una campaña publicitaria

Producción: Para el control de calidad de un proceso de producción.

Macroeconómico: Para analizar el comportamiento de las tasas tributarias, el comportamiento de la inversión, del consumo y el de la producción entre otros.

13/04/2023 4 ING. ROBERTO AGUILERA LOPEZ

IMPORTANCIA DE LA ESTADISTICA

Page 5: Pres unid i estadistica descriptiva 2011

RJAL

Para tomar una decisión eficaz y oportuna se necesita de la estadística para ser capaz de:

Determinar si la información existente es adecuada o si se necesita información adicional.

Conseguir información adicional, si es necesaria, de manera que no lleve resultados erróneos.

Resumir la información de una manera útil e informativa

Analizar la información disponible. Sacar conclusiones y hacer inferencias

determinando el riesgo de una conclusión incorrecta.

13/04/2023 5 ING. ROBERTO AGUILERA LOPEZ

IMPORTANCIA DE LA ESTADISTICA

Page 6: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ6

USARIOS DE LA ESTADISTICA

Organismos oficiales Administradores y gerentes de línea Investigadores científicos Diarios y revistas Políticos Deportistas Marketing Control de calidad Policía Médicos, etc.

IMPORTANCIA DE LA ESTADISTICA

Page 7: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ7

ESTADISTICA DESCRIPTIVA

RAMAS DE LA ESTADISTICA

La estadística descriptiva se puede definir como aquellos métodos que incluyen la recolección, organización, presentación y caracterización de un conjuntos de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos

Ejemplo 1: Los datos del Censo de población de 2001.

Ejemplo 2: La cantidad de robos ocurridos el último mes en el municipio.

Ejemplo 3: La cantidad de pacientes atendidos en un Hospital municipal el último año.

Page 8: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ8

ESTADISTICA INFERENCIAL

RAMAS DE LA ESTADISTICA

La estadística inferencial puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de decisión referente a una población , basándose en los resultados de una muestra.

Población(1) es la colección o conjunto de individuos, objetos o eventos cuyas propiedades serán analizadas. Puede ser finita o infinitaMuestra es un subconjunto de la población de interés.

(1) Algunos autores utilizan Universo como sinónimo

Page 9: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ9

Ejemplos de inferencia estadística

Predecir el periodo de vida útil de un equipo (sobre la base del desempeño de estas maquinas)

Determinar las dosis de un medicamento (sobre la base de pruebas realizadas)

Pronosticar la cantidad de ventas de un producto (sobre la base de su precio, diseño, ubicación, publicidad)

RAMAS DE LA ESTADISTICA

Page 10: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ10

RECOPILACION DE DATOS

Datos de fuentes primarias: Son aquellos datos que no han sido recopilados anteriormente por parte de organismos que trabajan en la obtención y elaboración de datos y que por consiguiente, son observados y anotados por el investigador.

• Encuestas• Observación• Entrevistas con expertos• Entrevistas de grupo con personas

informadas

Page 11: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ11

RECOPILACION DE DATOS

Datos de fuentes secundarias son datos ya han sido recopilados y elaborados para propósito diferentes de las necesidades inmediatas y específicas de una investigación

Los datos secundarios se clasifican como provenientes de:

Fuentes internas: disponible dentro de la organización.

Fuentes externas: son proporcionados por fuentes externas a la organización

Page 12: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ12

RECOPILACION DE DATOS

Recolección de información primariaRecolección de información secundaria

EncuestasPor correoTelefónicasPersonales

EntrevistasDe gruposPersonales

Observación

Experimental

PersonalMecánica

TestRetornoEtiquetasMercado

Fuentes internas

Fuentes externas

Registros contablesBanco de datos de marketing

CensosPublicaciones periódicasInformes

Page 13: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ13

Parámetro: Valor numérico que resume todos los datos de una población completa. Se utilizan letras griegas para simbolizar un parámetro como ser y .

Ejemplos: La calificación “promedio” del estudiante de secundaria en el momento de admisión de todos los estudiantes a una Universidad.

Estadística: Valor numérico que resume los datos de una muestra. Se utilizan letras del alfabeto español para simbolizarlas como y s .

Ejemplo: La edad “promedio” registrada en una encuesta de 150 consumidores de gaseosas.

RECOPILACION DE DATOS

Page 14: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ14

Variable: Característica de interés sobre cada elemento individual de una población o muestra.

Datos: conjunto de valores recolectados de la variable asociada a un elemento de la población o muestra. Estos valores pueden ser números, palabras o símbolos.

Ejemplo: La familia López tiene “6” miembros, sus ingresos mensuales son de “C$ 12,355”, “4” son de sexo femenino y “2” masculino.

RECOPILACION DE DATOS

Page 15: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ15

RECOPILACION DE DATOS Cualitativa o de Atributos: clasifica o describe un elemento

de la población. Los valores que puede asumir no constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, no son significativas.

Ejemplos: Sexo, nacionalidad, marcas de auto, grado de satisfacción, etc.

Cuantitativa o Numérica: Cuantifica un elemento de la población. Los valores que puede asumir constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, son significativas.

Ejemplos: Cantidad de habitaciones, número de hijos, kilómetros recorridos, tiempo de vuelo, ingreso, etc.

Page 16: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ16

RECOPILACION DE DATOS Variables Discretas: solo pueden asumir ciertos valores y

normalmente hay huecos entre ellos. Es decir cuando los posibles valores son un conjunto finito entre dos valores dados.

Ejemplo 1: Cantidad de materias aprobadas.(1, 2,3 ......) Ejemplo 2: Cantidad de hijos (1, 2, 3, 4...)

Variables Continuas: son aquellas que pueden tomar cualquier valor dentro de un rango especifico de medición. Normalmente se miden magnitudes como ser longitud, superficie, volumen, peso, tiempo, dinero.

Ejemplo 1: Peso al nacer. Ejemplo 2: Salario de un empleado. Ejemplo 3: Tiempo de viaje en bus entre Chinandega y León.

Page 17: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ17

PRESENTACION DE DATOSUna vez que los datos se recopilan se presentan básicamente mediante tablas y por gráficos.

TITULO (ENCABEZAMIENTO) CONTENIDO (CUERPO) FUENTE

CALIFICACIONES DE ESTADISTICAS

GRUPO 2M1IS

68

52

44

32

10

73

73

31

32

83

45

61

61

45

21

95

58

35

66

83

15

67

62

42

96

65

81

72

60

55

DEPARTAMENTO DE MATEMATICA RUPAP - UNI

Page 18: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ18

PRESENTACION DE DATOSCuando disponemos de gran número de datos es útil el distribuirlo en clases o categorías y determinar el número de individuos pertenecientes a cada clase, que es la frecuencia de clase.  Alturas de 100 estudiantes de la UNI

ALTURA

(mts)

NUMERO DE

ESTUDIANTES

1.41 - 1.50

23

1.51 - 1.60

28

1.61 - 1.70

37

1.71 - 1.80

10

1.81 - 1.90

2

TOTAL

100

Page 19: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ19

PRESENTACION DE DATOSUna distribución de frecuencia es una ordenación tabular de datos estadísticos que muestran cuantos elementos o que partes entran en diferentes intervalos o categorías en los cuales se agrupan los datos. Las distribuciones de frecuencia pueden ser distribuciones numéricas o cualitativas.

DÍAS

ARTÍCULOS

DEFECTUOSOS

1

35

2

45

3

52

4

31

5

48

Número de estudiantes

Planean ir a la Universidad

240

Quizás vayan a la Universidad

140

Quizás vayan a un vocacional

60

No seguirán estudiando

60

Page 20: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ20

PRESENTACION DE DATOS

Para construir distribuciones de frecuencias se debe de tomar en cuenta que:  Siempre nos aseguramos de que cada elemento quede

en una sola clase. Siempre que sea posible, hacemos que las clases

cubran escalas o intervalos iguales. El número de clases depende del número de

observaciones pero tiene muy poca utilidad usar menos de 5 o más de 20 clases.

Se deben evitar las clases abiertas (menos de, más de, menor que, mayor que) ya que hacen imposible el cálculo de ciertas descripciones adicionales que sean de interés.

Page 21: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ21

PRESENTACION DE DATOSPasos para organizar los datos en una distribución de frecuencia 1. Seleccionar el número apropiado de agrupamientos de

clases. En general la tabla deberá tener entre 5 y 20 clases. Se puede utilizar una regla simple para aproximar el número de clases a utilizar, c, la cual es 2c > n, donde n es el número de datos.

2. Determinar el intervalo o amplitud de clase de cada agrupamiento.

  Valor unitario siguiente Valor más Ancho de después del valor más - pequeño de los intervalos = grande de los datos los datos .de clase Número total de intervalos

 

Page 22: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ22

PRESENTACION DE DATOSPasos para organizar los datos en una distribución de frecuencia 3. Establecer los límites de cada agrupamiento de clase

para evitar los traslapes.

4. Clasifique los puntos de datos en clase y cuente el número de observaciones que hay en cada clase. Al número de observaciones en cada clase se le llama frecuencia de clase.

La marca de clase es el punto medio del intervalo de clase y se obtiene sumando el límite inferior al límite superior de la clase y dividiendo entre dos.

Page 23: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ23

PRESENTACION DE DATOSEjemplo: Los siguientes datos indican el número de trabajadores que faltan a una fábrica en 50 días de trabajo. Construya una tabla de distribución de frecuencia. Represéntelos gráficamente a través de un histograma de frecuencia, un polígono de frecuencias, una ojiva y una ojiva porcentual.

13

5

13

37

10

16

2

11

6

12

8

21

12

11

7

7

9

16

39

18

3

11

19

6

15

10

14

10

7

24

11

3

6

10

4

6

32

9

12

7

29

12

9

9

8

20

15

5

17

10

Page 24: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ24

REPRESENTACIÓN GRÁFICA DE LOS DATOS

HISTOGRAMA DE FRECUENCIA.Consiste en una serie de rectángulos que tienen sus bases sobre el eje horizontal con centro en las marcas de clase (Xi), ancho igual al tamaño de los intervalos de clase y alturas proporcionales a las frecuencias de clase. POLÍGONO DE FRECUENCIA.Gráfico que consiste en unir los puntos formados por la intersección de cada marca de clase (Xi) y la frecuencia de clase (fi). Es decir la frecuencia dentro de un intervalo de clase se representa como un punto, cuya abcisa es la marca de clase. Posteriormente, se unen los puntos para obtener el polígono de frecuencia, teniendo cuidado de agregar al inicio y al final marcas de clases adicionales.

Page 25: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ25

REPRESENTACIÓN GRÁFICA DE LOS DATOS

OJIVAGráfico que resulta de unir los puntos colocados encima de los límites reales de la clase a una altura según la frecuencia absoluta acumulada o es decir se marcan los intervalos de clase en el eje horizontal y la frecuencia absoluta acumulada en el eje vertical como ordenada en el extremo derecho de dicho intervalo. OJIVA PORCENTUALGráfico que resulta al unir los puntos colocados encima de los límites reales de clase a una altura según la frecuencia relativa acumulada.

DIAGRAMA DE PASTEL.Es un círculo dividido en sectores circulares proporcionales al tamaño de las frecuencias.

 

Page 26: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ26

MEDIDAS DE TENDENCIA CENTRAL

Un promedio es un valor que es típico o representativo de un conjunto de datos. Como tales, estos valores tienden a situarse en el centro del conjunto de datos ordenados según su magnitud, los promedios se conocen también como medidas de centralización    DATOS NO

AGRUPADOS

LA MEDIA

MEDIANA

LA MODA

MEDIA PONDERADA

MEDIA GEOMETRICA

DATOS AGRUPADOS

LA MEDIA

MEDIANA

LA MODA

CUARTILES

DECILES

PERCENTILES

Page 27: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ27

MEDIDAS DE TENDENCIA CENTRAL.

DATOS NO AGRUPADOSMedia aritmética Media poblacional = Suma de todos los valores de la población Número de valores en la población 

  

Media muestral = Suma de todos los valores en la muestra Número de valores en la muestra 

Page 28: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ28

MEDIDAS DE TENDENCIA CENTRAL.

Mediana La mediana de un conjunto de observaciones xi se define como el valor M que cae en el centro de los dos valores centrales cuando las observaciones están colocadas en orden de magnitud. Si el conjunto de datos tiene un número impar de observaciones, la posición de la mediana es  Posición de la mediana = (n + 1) / 2 Con un conjunto de datos que contiene un número par de observaciones es necesario promediar los dos valores medios.

Page 29: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ29

MEDIDAS DE TENDENCIA CENTRAL.

Moda La moda es el valor de las observaciones que se presentan con más frecuencia, es decir el valor más común. La moda puede no existir, incluso si existe puede no ser única. La denotaremos por Mo.

Media ponderadaSe presenta cuando se tienen varias observaciones con un mismo valor.    X = f1x1 + f2x2 + f3x3 +... + fkxk = Σfixi = Σfixi

f1 + f2 + f3 + ..... fk Σfi n

Page 30: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ30

MEDIDAS DE TENDENCIA CENTRAL.

Media geométrica La media geométrica es útil para encontrar el promedio de porcentajes, proporciones, índices o tasas de crecimiento. Como tal, tiene una gran aplicación en los negocios y la economía, debido a que con frecuencia se está interesado en establecer el cambio porcentual en las ventas, en el salario, en el producto interno bruto, o en cualquier serie económica. La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de números. 

Page 31: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ31

MEDIDAS DE TENDENCIA CENTRAL.

DATOS AGRUPADOSMedia aritmética   

 Mediana

M = Linf + [n/2 - F] * c fmd

 Linf = Límite inferior de la clase medianan = Tamaño de la muestra.c = Tamaño de la clase mediana.F = Frecuencia acum. de la clase que antecede a la clase mediana.fmd = Frecuencia de la clase mediana.

Page 32: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ32

MEDIDAS DE TENDENCIA CENTRAL.

ModaLa moda es el intervalo de clase (a menudo indicada por el punto medio de la clase) que posee la mayor frecuencia.  M = Linf + [ Da ] * c Db + Da

 Linf: Límite inferior real de la clase modal.c : Tamaño de la clase modal.Da : Diferencia entre la frecuencia de la clase modal y la clase que la antecede.Db : Diferencia entre la frecuencia de la clase modal y la clase que le sigue.

Page 33: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ33

MEDIDAS DE TENDENCIA CENTRAL.

POSICIONES RELATIVAS DE LA MEDIA, LA MEDIANA Y LA MODA Si el polígono de frecuencia, es simétrico, es decir que la distribución tiene la misma forma a ambos lados del centro; la moda, la mediana y la media aritmética se localizan en el centro y son siempre iguales.

Curva A

Moda = Mediana = Media

Page 34: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ34

MEDIDAS DE TENDENCIA CENTRAL.

Curva B

Media M Mo

Sesgada a la izquierda (negativamente sesgada)

Frecuencia

Curva A

Mo M Media

Sesgada a la derecha (positivamente sesgada)

Frecuencia

DISTRIBUCIÓN SESGADA A LA DERECHA

DISTRIBUCIÓN SESGADA A LA IZQUIERDA

Page 35: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ35

MEDIDAS DE TENDENCIA CENTRAL.

OTROS TIPOS DE MEDIDAS: CUARTILES, DECILES Y PERCENTILES.

¼ de las observaciones

¼ de las observaciones

Alcance intercuartil

Observación más baja

Observación más alta

1er cuartilQ1

2do cuartilQ2

3er cuartilQ3

MEDIANA Q1 Q2 Q3 └─────┴─────┴──┼──┴─────┴─────┼─────┴─────┴──┼──┴─────┴─────┴ 0 1 2 │ 3 4 5 6 7 │ 8 9 10 P25 P50 P75 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

Page 36: Pres unid i estadistica descriptiva 2011

RJAL

13/04/2023 ING. ROBERTO AGUILERA LOPEZ36

MEDIDAS DE TENDENCIA CENTRAL.

Las fórmulas para los cuartiles Q1 y Q3 son: 𝑄1 = 𝐿𝑖𝑛𝑓 + (𝑛4 − σ𝑓𝑖𝑛𝑓)𝑓𝑐𝑢𝑎𝑟𝑡𝑖𝑙 ∗𝐶 𝑄3 = 𝐿𝑖𝑛𝑓 + (3𝑛4 − σ𝑓𝑖𝑛𝑓)𝑓𝑐𝑢𝑎𝑟𝑡𝑖𝑙 ∗𝐶

Las fórmulas para los deciles D1 y D9 son: 𝐷1 = 𝐿𝑖𝑛𝑓 + ( 𝑛10 − σ𝑓𝑖𝑛𝑓)𝑓𝑑𝑒𝑐𝑖𝑙 ∗𝐶 𝐷9 = 𝐿𝑖𝑛𝑓 + (9𝑛10 − σ𝑓𝑖𝑛𝑓)𝑓𝑑𝑒𝑐𝑖𝑙 ∗𝐶

Las fórmulas para los percentiles P30 y P68 son: 𝑃30 = 𝐿𝑖𝑛𝑓 + (30𝑛100 − σ𝑓𝑖𝑛𝑓)𝑓𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 ∗𝐶 𝑃68 = 𝐿𝑖𝑛𝑓 + (68𝑛100 − σ𝑓𝑖𝑛𝑓)𝑓𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 ∗𝐶

Page 37: Pres unid i estadistica descriptiva 2011

RJAL