40
En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva Extraer conclusiones acerca de hipótesis Estadística planteadas

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Embed Size (px)

Citation preview

Page 1: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

Organizarlos y resumir

Estadística

la información

Descriptiva

Extraer conclusiones

acerca de hipótesis

Estadística

planteadas

Inferencial

Page 2: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

POBLACIÓN Y MUESTRA

POBLACIÓN:

- colección de elementos o sujetos de interés.

- puede ser finita o infinita.

MUESTRA:

- subconjunto elegido al azar de la población.

- tamaño muestral n.

Page 3: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

MUESTRA

Estimar Inferir acercacaracterísticas de hipótesis

POBLACIÓN

Page 4: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Tipos de datos

Numéricos: - discretos (determinados valores), Ej: nº de hermanos, nº accidentes.- continuos (valores en un intervalo), Ej: concentración de glucosa en sangre.

Categóricos: - ordinal (orden), Ej: estado de una enfermedad (severo, moderado, suave).- nominal (no orden), Ej: grupo sanguineo.

Page 5: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Estadística Descriptiva

- Provee de métodos que permitan organizar y resumir la información de los datos.

- De acuerdo al conjunto de datos se seleccionará el método más adecuado.

- ¿cómo hacerlo?

Realizando: Tablas de Distribución de frecuencias.

Medidas de posición o tendencia central.

Medidas de dispersión o variabilidad. Gráficos.

Page 6: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Tabla de distribución de frecuencia

• Tomar un intervalo que contenga al conjunto de datos.

• Dividir el intervalo en k intervalos de clase (IC) tal que sean adyacentes y disjuntos.

• Contar el número de observaciones en cada intervalo (FA).

• Calcular las FR como el cociente entre la FA dividida n en cada uno de los k intervalos.

Page 7: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Observaciones:- ¿Cómo elegir k?

No hay reglas generales.

Entre 5 a 20 intervalos.

Tomar k ~

- Los intervalos no tienen por que tener igual longitud.

- Además se tiene que:

Page 8: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Histograma

• Gráfico de mayor difusión y es la representación gráfica de la Tabla de distribución de frecuencia.

• ¿Cómo hacerlo?

- En una recta horizontal marcar los k intervalos.

- Sobre cada intervalo trazar un rectángulo cuya área sea proporcional al número de observaciones en el mismo.

¿Cómo elegir las alturas de los rectángulos?

Altura = FR / Longitud del IC

Page 9: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Observaciones:• Si los IC son de igual longitud entonces las

alturas de los rectángulos son proporcionales a las FA o FR. Luego comparar dos IC se reduce a ver sus alturas.

• Si los IC son de distintas longitudes entonces OJO!!!! Ahora para comparar dos IC debemos comparar las áreas de los IC y NO sus alturas.

Page 10: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Ejemplo 1

Para decidir el número de cajeras necesarias para en un supermercado, se requiere tener información sobre el tiempo (en minutos) requerido para atender a los clientes. Para tal fin, se tomó una muestra aleatoria de n=60 clientes y se midió el tiempo que se demora en atenderlos.

Page 11: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Los datos previamente ordenados de menor a mayor fueron:

0.20 0.20 0.30 0.30 0.30 0.40 0.40 0.40 0.50 0.50

0.60 0.60 0.60 0.60 0.70 0.70 0.70 0.80 0.80 0.80

0.80 0.90 0.90 1.00 1.00 1.10 1.10 1.10 1.10 1.10

1.10 1.10 1.20 1.20 1.20 1.30 1.30 1.30 1.40 1.40

1.60 1.60 1.70 1.70 1.80 1.80 1.80 1.80 1.90 1.90

2.10 2.20 2.30 2.50 2.80 3.10 3.10 3.60 4.50 5.20

Page 12: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Tabla de distribución de frecuencia

- Elección del número de intervalos de clase 

k 7.75 entonces tomar k = 8.

  - Longitud de los intervalos de clase (IC)??? si queremos una partición disjunta del intervalo [0.2 , 5.2] en k=8 intervalos de igual longitud (l), entonces esta debe ser igual

l = (5.2 – 0.2) / 8 = 0.625

Page 13: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Tabla de distribución de frecuenciaIC FA FR

[0.2, 0.825) 21 21/60 0.35

[0.825, 1.45) 19 19/60 0.32

[1.45, 2.075) 10 10/60 0.17

[2.075, 2.7) 4 4/60 0.07

[2.7, 3.325) 3 3/60 0.05

[3.325, 3.95) 1 1/60 0.02

[3.95, 4.575) 1 1/60 0.02

[4.575, 5.2] 1 1/60 0.02

n=60 1

Page 14: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Histograma de frecuencias relativas

0 1 2 3 4 5tiempo

0.0

0.1

0.2

0.3

Page 15: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Ejemplo 2Distribución del peso (x) en Kg de una muestra de500 alumnos varones de una Universidad

Intervalo de clase

FA FAA FR FRA Porcentaje Marca de clase

40 < x 45 1 1 0.002 0.002 0.2 42.5

45 x 50 3 4 0.006 0.008 0.6 47.5

50 x 55 12 16 0.024 0.032 2.4 52.5

55 x 60 75 91 0.150 0.182 15.0 57.5

60 x 65 103 194 0.206 0.388 20.6 62.5

65 x 70 155 349 0.310 0.698 31.0 67.5

70 x 75 101 450 0.202 0.900 20.2 72.5

75 x 80 29 479 0.058 0.958 5.8 77.5

80 x 85

11 490 0.022 0.980 2.2 82.5

85 x 90

8 498 0.016 0.996 1.6 87.5

90 < x 2 500 0.004 1.000 0.4 92.5

total 500 500 1.000 1.000 100.0 -FAA= Frecuencias absolutas acumuladasFRA= Frecuencias relativas acumuladas

Page 16: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5

MC

0.00

40.00

80.00

120.00

160.00

FA

Peso de 500 alumnos

42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5

MC

0.00

125.00

250.00

375.00

500.00

FAA

Peso de 500 alumnos

42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5

MC

0.00

0.10

0.20

0.30

0.40

FR

Peso de 500 alumnos

42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 92.5

MC

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

FRA

Peso de 500 alumnos

Page 17: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Medidas de posición o tendencia central

*Media muestral:

- Media muestral o Promedio = (x1 + x2 + … +

xn ) / n .

-Mejor estimador para la media poblacional ( ).

-Propiedad de centro de masa: 

-Desventaja: Muy sensible a la presencia de datos

extremos.Ejemplo:

A) 37, 40, 46, 50, 57

B) 37, 40, 46, 57, 200

µ

01

n

i i xx

Page 18: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

*Mediana muestral

• es un valor que deja el 50% de observaciones por encima como por debajo

de el.

• Puede o no ser un valor de la muestra.

• Es el valor central o el promedio de los dos valores centrales si n es impar o

par respectivamente.

x (n+1)/2 si n es impar

[x (n/2) + x (n/2)+1]/2 si n es par.

Page 19: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

*Percentiles o cuantiles

- EL percentil i% (p(i)) es aquel valor que acumula a su izquierda el i% de los datos.-Luego el percentil 50% es lo que definimos como mediana.-Otros percentiles de interés son el 25% y 75%, que

denotamos con Q1 y Q3 respectivamente.

¿Cómo calcular Q1 y Q3 para un conjunto de datos?

Q1 es la mediana de las (n/2) o las a (n+1)/2

observaciones más pequeñas dependiendo que n sea par o impar respectivamente.

Q3 es la mediana de las (n/2) o las a (n+1)/2observaciones más grandes dependiendo que n sea par o impar respectivamente.

Page 20: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Medidas de dispersión o variabilidad

¿Para qué definir medidas de dispersión?

Algunas de las más conocidas:RangoVarianza y Desviación Estandar muestralCoeficiente de VariaciónRango intercuartil

Page 21: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

* Rango

VentajasFácil de

calcular

Desventaja

Considera solo dos valores de la muestra

Muestra 1: 0, 5, 5, 5, 10

Muestra 2: 0, 4, 5, 6, 10

La muestra 2 es más variable que la 1!

Iguales unidades que los datos de origen

Se define como la diferencia entre la máxima y mínima observación, o sea (x (n) – x (1)).

Page 22: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Desviación Estandarmuestral

Ventaja Tiene las mismas unidades que los datos

Varianza muestral

Notar: Ambas utilizan el valor de la media muestral, luego son sensibles a la presencia de datos extremos.

Ejemplo: muestra A 100 valores iguales a 10 muestra B 99 valores iguales a 10 y uno igual a 1010

Page 23: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

* Rango intercuartil

f = Q3 - Q1

*Coeficiente de Variación

Page 24: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

-El CV permite comparar la variabilidad de características medidas en distintas escalas, luego la que tenga menor CV será el de menor variabilidad.

- Además el CV es adimensional.Ejemplo:

Medidas de altura de:

Edificios =20mS =0.1m

Personas =1.70mS =0.02mCV=1,18%

Notar:

CV=0,50%

Luego el conjunto que tiene mayor variabilidad es de las alturas de personas.

Page 25: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Algunos tipos de gráficos

1) Gráfico de barras o histograma.

2) Gráfico de caja.

3)Diagrama de dispersión. 4) Gráfico de densidad de puntos.

5) Q Q plot.

Page 26: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Guía para la construcción de un gráfico de caja (box-plot)

En 1977, Tukey presentó un simple método gráfico-cuantitativo que resume varias de las características más destacadas de un conjunto de datos. Tal método se conoce con el nombre de gráfico de caja o box-plot.

Las características de los datos incorporadas por este gráfico son:

a) centro o posición del valor más representativo, b) dispersión, c) naturaleza y magnitud de cualquier desviación de la

simetría d) identificación de los puntos no usuales o atípicos, o sea

puntos marcadamente alejados de la masa principal de datos.

Page 27: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

La presencia de datos atípicos producen cambios drásticos en la media muestral ( ) y la desviación estándar muestral (s), no así en otras medidas que son más resistentes o robustas, como lo son la mediana muestral ( ) y una medida de dispersión llamada rango intercuartil (RIQ).

y~

y

Page 28: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Pasos a seguir para la construcción del box plot :• Paso 1: Ordenar los datos de menor a mayor.• Paso 2: Calcular la media y mediana muestral, el cuartil superior

(Q3), el cuartil inferior (Q1) y el RIQ.• Paso 3: Sobre un eje horizontal dibujar una caja cuyo borde izquierdo

sea el cuartil inferior y el borde derecho el cuartil superior. • Paso 4: Dentro de la caja marcar con un punto la posición del

promedio muestral y trazar un segmento perpendicular cuya posición corresponde al valor de la mediana.

• Paso 5: Trazar segmentos desde cada extremo de la caja hasta las observaciones más alejadas, que no superen (1.5 RIQ) de los bordes correspondientes.

• Paso 6: Si existen observaciones que superen (1.5 RIQ) entonces marcarlos con circunferencias aquellos puntos comprendidos entre (1.5 RIQ) y (3 RIQ) respecto del borde más cercano, estos puntos se llaman puntos anómalos suaves, y con asteriscos aquellos puntos que superen los (3 RIQ) respecto de los bordes más cercanos, estos puntos se llaman puntos anómalos extremos.

Page 29: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

• Cálculos necesarios para realizar el Gráfico de Caja para el Ejemplo 1.

• *** Summary Statistics for data in: tiempo ***• tiempo • Min: 0.200000• 1st Qu.: 0.700000• Mean: 1.366667• Median: 1.100000• 3rd Qu.: 1.800000• Max: 5.200000• Std Dev.: 1.002652

• Luego el Rango intercuartil • fs = Q3 - Q1 = 1.8 - 0.7 = 1.1• 1.5 fs = 1.65 y 3 fs = 3.3• Q1 - 1.5 fs = - 0.95 , Q1 - 3 fs = - 2.6• Q3 + 1.5 fs = 3.45 , Q3 + 3 fs = 5.1

• Luego como el mínimo es 0.2, NO HAY DATOS ATIPICOS en el extremo inferior.• Pero en el extremo superior hay tres observaciones que superan la distancia (1.5 fs)

respecto de Q3 , ellos son: 3.6, 4.5 y 5.2. Siendo los dos primeros atípicos suaves y el último atípico extremo.

Page 30: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

0

1

2

3

4

5

tiem

po

Page 31: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Ejemplo:

Los siguientes valores de contenido de un metabolito en lasangre de un paciente en 13 extracciones diferentes :

11,6

39,2

4,9

7,3

50,6

9,8

11,6

6,7

42,1

14,4

5,1

48,8

15,9

Los datos están informados en mg.L-1.Haga un gráfico de densidad de puntos y analice los resultados.

Page 32: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

0,00

15,00

30,00

45,00

60,00

con

cen

tra

ció

n

Page 33: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Ejemplo:

La siguiente tabla muestra los resultados de un experimento de respuesta a una dosis, realizado a tres grupos con 5 animales a los que se les aplicaron una dosis.

Dosis (mg)

Respuesta

1 8, 12, 9, 14, 6

2 16, 20, 12, 15, 17

4 20, 17, 25, 27, 16

¿Qué gráfico haría ?

Page 34: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

1 2 4

dosis

5,00

10,00

15,00

20,00

25,00

30,00

res

pu

es

ta

1 2 4

dosis

9,66

13,20

16,74

20,27

23,81

res

pu

es

ta

Grafico de cajas Grafico de puntos.

Page 35: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Ejemplo

Los datos que mostrare corresponden a una tesina de alumnas de la Escuela de Nutrición (Facultad de Medicina, UNC).

Tema de la tesinaIngesta de líquidos en el Adulto Mayor (AM).

Selección de la muestraLa muestra fue tomada de un grupo de AM que asisten al Comedor del Centro de Jubilados de un Barrio de la ciudad de Córdoba.

Page 36: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Algunos de los objetivos de este trabajo fueron:

• Conocer la ingesta diaria de líquidos en AM, a partir de alimentos ricos en agua.

• Comparar la ingesta diaria de líquidos en AM por sexo.• Determinar si los AM cumplen con las recomendaciones

para la ingesta diaria de líquidos por sexo. Las recomendaciones diarias de líquido por sexo son las siguientes: en mujeres debe ser de por lo menos 2,7 litros y en varones de por lo menos 3,7 litros.

Page 37: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Dos de las variables que nosotros consideraremos serán la ingesta diaria total de líquido (llamada Total litros) y el sexo del AM.

Estadística descriptiva para la variable ingesta diaria total de líquido

n Media D.E. Var(n-1) Mín Máx Mediana Q1 Q3

97 3,0213 1,0920 1,1925 0,7888 7,3943 3,0495 2,3570 3,5496

0,5 1,5 2,6 3,7 4,8 5,8 6,9 8,0

Total litros

0,00

0,13

0,25

0,38

0,50

fre

cue

nci

a r

ela

tiva

Histograma de FR (10 IC)

Page 38: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Estadística descriptiva para la variable ingesta diaria total de líquido por sexo

SEXO n Media D.E. Var(n-1) Mín Máx Mediana Q1 Q3

F 63 3,0993 1,1344 1,2870 0,7888 7,3943 3,1168 2,3727 3,5877

M 34 2,8766 1,0089 1,0179 1,1947 5,4458 2,8861 1,97773,4463

0,0 1,1 2,3 3,4 4,6 5,7 6,9 8,0

Total litros

0,00

0,13

0,25

0,38

0,50

fre

cue

nci

a r

ela

tiva

Histograma para sexo masculino (6 IC)

0,0 0,9 1,8 2,7 3,6 4,4 5,3 6,2 7,1 8,0

Total litros

0,00

0,13

0,25

0,38

0,50

fre

cue

nci

a r

ela

tiva

Histograma para sexo femenino (8 IC)

Page 39: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

Gráficos de caja

0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

Inge

sta T

otal

(litr

os)

Box plot para ingesta total de líquidos en AM

Femenino Masculino

SEXO

0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

Inge

sta T

otal

(litr

os)

Box plot para ingesta total de líquidos en AM

Page 40: En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de : Organizarlos y resumir Estadística la información Descriptiva

• Con el objetivo de responder a algunos interrogantes del estudio se debieron realizar algunas pruebas de hipótesis, las cuales forman parte de lo que llamamos la Estadística Inferencial.

• Para tener una mejor comprensión de la Estadística Inferencial necesitamos de una medida llamada PROBABILIDAD.