Upload
matias-barrera
View
2
Download
0
Embed Size (px)
DESCRIPTION
Unidades 1 y 2: conceptos básicos iniciales.
Citation preview
1
ESTADÍSTICA
Licenciatura en Radiología
INSTITUTO SUPERIOR DE TECNOLOGÍA MÉDICA
Profesores: Javier Bussi, Fernanda Méndez
La importancia de la Estadística
Estadística Descriptiva e Inferencial
Algunos conceptos básicos: poblaciones y parámetros, muestras y
estadísticos
Unidad 1: Introducción
2
Definición La Estadística es la Ciencia de la • Sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
Pasos en un estudio estadístico • Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales que los no fumadores • ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
• Decidir qué datos recoger (diseño de experimentos) – Qué individuos pertenecerán al estudio (muestras)
• Fumadores y no fumadores en edad laboral. • Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas?
– Qué datos recoger de los mismos (variables) • Número de bajas • Tiempo de duración de cada baja • ¿Sexo? ¿Sector laboral? ¿Otros factores?
• Recoger los datos (muestreo)
– ¿Estratificado? ¿Sistemáticamente?
• Describir (resumir) los datos obtenidos • tiempo medio de baja en fumadores y no (estadísticos) • % de bajas por fumadores y sexo (frecuencias), gráficos,...
• Realizar una inferencia sobre la población • Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.
• Cuantificar la confianza en la inferencia – Nivel de confianza del 95% – Significación del contraste: p=2%
3
Método científico y estadística
Plantear
hipótesis
Obtener
conclusiones
Recoger datos
y analizarlos
Diseñar
experimento
ALGUNOS EJEMPLOS DEL USO DE LA ESTADÍSTICA
La estadística tiene aplicación en los más diversos aspectos:
Los esfuerzos de control de calidad, minimización de costos, combinación de
productos e inventarios, y una gran cantidad de otros asuntos empresariales,
pueden manejarse efectivamente a través del uso de procedimientos estadísticos.
En el área de investigación de mercados, la estadística es de gran ayuda en el
momento de determinar qué tan probable es que un nuevo producto sea exitoso.
Para evaluar oportunidad de inversión por parte de asesores financieros.
Un investigador en el campo de la medicina, interesado en la efectividad de un
nuevo medicamento, considera a la estadística una aliada imprescindible.
¿Quién ganará las elecciones presidenciales?
La ESTADÍSTICA es la ciencia que proporciona técnicas y métodos para la
recolección, sistematización y análisis de datos y a través del análisis llegar a tomar
decisiones frente a situaciones de incertidumbre.
4
ALGUNAS DEFINICIONES BÁSICAS:
POBLACIÓN: es el conjunto o totalidad de elementos bajo estudio. La población se
clasifica en:
finita: tiene un número limitado de elementos.
infinita: tiene un número ilimitado de elementos.
Cuando es imposible estudiar la población por ser muy grande o por razones de
tiempo y costo o porque el estudio lleva a la destrucción del material, se trabaja con
una muestra.
MUESTRA: subconjunto o parte de la población.
x x x
x x
x x x
x
Población N=tamaño
Muestra n=tamaño El estudio de la población
recibe el nombre de censo o
enumeración completa.
El estudio de la muestra
recibe el nombre de
muestreo.
• POBLACION: Conjunto de individuos u objetos con una
característica común observable. Debe estar definida en tiempo y
espacio
• PARAMETRO O VALOR POBLACIONAL: Cualquier
característica medible de la población
5
• MUESTRA: Subconjunto de la población
• MUESTRA PROBABILISTICA: A cada unidad se le asigna una probabilidad
de ser seleccionada
• TAMAÑO DE MUESTRA: Número de elementos que componen la muestra
(n)
• UNIDAD MUESTRAL: Cada elemento de la muestra
• VARIABLES: Características que se observan a las unidades
LA MUESTRA SOLO
PROPORCIONA
INFORMACION DE LA
POBLACION DE LA QUE HA
SIDO EXTRAIDA
6
¿POBLACION O MUESTRA?
% de en la población: 6/17 (35.29%)
¿POBLACION O MUESTRA?
% de en la muestra: 2/6 (33.3%)
% de en la población: 6/15 (40.0%)
7
¿POBLACION O MUESTRA?
% de en la muestra: 5/6 (83.3%)
% de en la población: 6/17 (35.29%)
¿POBLACION O MUESTRA?
% de en la muestra: 0/6 (0.0%)
% de en la población: 6/17 (35.29%)
8
¿POBLACION O MUESTRA?
POBLACION: Pacientes que llegan a centros asistenciales
en Rosario
¿Es representativa la muestra: Pacientes del Hospital
Carrasco?
QUIZ 1.
OBJETIVO: Determinar el % de pacientes que llegan con
SIDA a un centro asistencial público (en Rosario)
Contamos con los pacientes de ICR ¿es una muestra o
una población?
QUIZ 2.
OBJETIVO: Determinar el % de muertes en pacientes con
IAM
ESTADISTICA
Estadística Descriptiva: como su nombre lo dice, describe un
conjunto de datos. Se ocupa de las técnicas
para recopilar, organizar y presentar
datos. En los estudios descriptivos sólo se
pretende mostrar las características
del fenómeno que se quiere estudiar.
Estadística Inferencial:
comprende el conjunto de métodos que
permiten extender los resultados de la
muestra hacia la población.
9
Gráficos de Distribuciones
¿Qué estamos resumiendo?
Tipos de variables
Distribución de una variable
Gráficos de distribuciones – Variables cualitativas
Diagramas de sectores
Diagramas de barras
Gráficos de distribuciones – Variables cuantitativas
Diagramas de frecuencias
Formas de las distribuciones
Diagramas de Tallo y Hoja
Histogramas de frecuencias
Unidad 2: Estadística Descriptiva
Variables • Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo es resumida en variables.
• En los individuos de la población argentina, de uno
a otro es variable: – El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
– Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
– El número de hijos • {0,1,2,3,...} Var. Numérica discreta
– La altura • {1’62 ; 1’74; ...} Var. Numérica continua
Los datos varían!
10
• Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) – Nominales: Si sus valores no se pueden ordenar
• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
– Ordinales: Si sus valores se pueden ordenar
• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
• Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) – Discretas: Si toma valores enteros
• Número de hijos, Número de cigarrillos
– Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Altura, Presión intraocular, Dosis de medicamento administrado, edad
Tipos de variables
• Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.
• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. – Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre • 2 = Mujer
– Raza (Cualit: Códigos arbitrarios) • 1 = Blanca • 2 = Negra,...
– Felicidad Ordinal: Respetar un orden al codificar.
• 1 = Muy feliz • 2 = Bastante feliz • 3 = No demasiado feliz
• Se pueden asignar códigos a respuestas especiales como
• 0 = No sabe • 99 = No contesta...
• Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)
11
• Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.
• No todo está permitido con cualquier tipo de variable.
POBLACION
ELEMENTOS CARACTERISTICAS
(VARIABLES)
CUANTITATIVAS CUALITATIVAS
DISCRETAS CONTINUAS
12
ESCALAS DE MEDIDA
• NOMINAL
• ORDINAL
• DE INTERVALOS
• DE RAZON
13
14
Indicar tipo de variable y escala de medida de cada
una de las siguientes características:
• Antecedentes de hipertensión (SI-NO-NO SABE)
• Diámetro del vaso lesionado
• Clase Killip (I, II, III, IV)
• Número de vasos lesionados
• Condición de fumador (Nunca, antes, actualmente)
• Peso
• Causa de muerte
15
LOS DATOS
• Cómo cargar los datos: DBF, Excell, Acces, etc
• Importancia del ID para relacionar 2 o más bases
• 1 Registro= 1 Paciente (¿?)
16
DATOS FALTANTES
Supongamos: Evento Muerte, pacientes con IAM
7/100=7%
Pero si hay 30 missings
7/70=10%
17
18
LOS DATOS
• Errores más comunes en los datos
• datos faltantes (missing)
• ilegibles (campos de textos)
• variables faltantes
• inconsistencias médicas
• fechas (formatos)
• inconsistencias
• fuera de rango
• cruce de información
19
Presentación ordenada de datos
0
1
2
3
4
5
6
7
Hombre Mujer
• Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
Género Frec.
Hombre 4
Mujer 6
Tablas de frecuencia
Nivel de fel icidad
467 30,8 31,1 31,1
872 57,5 58,0 89,0
165 10,9 11,0 100,0
1504 99,1 100,0
13 ,9
1517 100,0
Muy f eliz
Bastante f eliz
No demasiado f eliz
Total
Válidos
No contestaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
v álido
Porcentaje
acumulado
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
Válidos
Frecuencia Porcentaje
Porcentaje
v álido
Número de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o más
Total
Válidos
No contestaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
v álido
Porcentaje
acumulado
• Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). – Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad
– Frecuencias relativas (porcentajes): Idem, pero dividido por el total
– Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
• Muy útiles para calcular cuantiles (ver más adelante) – ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 – ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%
20
Datos desordenados y ordenados en tablas
• Variable: Género – Modalidades:
• H = Hombre
• M = Mujer
• Muestra:
M H H M M H M M M H
– equivale a HHHH MMMMMM
Géner
o
Frec. Frec. relat.
porcentaje
Hombr
e
4 4/10=0,4=40%
Mujer 6 6/10=0,6=60%
10=tamañ
o muestral
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
Porcent.
(v álido)
Porcent.
acum.
Ejemplo
• ¿Cuántos individuos tienen menos de 2 hijos? – frec. indiv. sin hijos
+ frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
• ¿Qué porcentaje de individuos
tiene 6 hijos o menos? – 97,3%
• ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? – 2 hijos
≥50%
21
Gráficos para variables cualitativas
• Diagramas de barras – Alturas proporcionales a las frecuencias (abs. o rel.) – Se pueden aplicar también a variables discretas
• Diagramas de sectores – No usarlo con variables ordinales. – El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
22
Gráficos diferenciales para variables numéricas
• Son diferentes en función de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas.
– Diagramas barras para v. discretas
• Se deja un hueco entre barras para indicar los valores que no son posibles
– Histogramas para v. continuas
• El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Recu
en
to
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Recu
en
to
HISTOGRAMAS
Pasos básicos para construir un Histograma:
Encontrar el valor mínimo y máximo, y el recorrido total de los datos. (diferencia
entre el valor máximo y mínimo).
Dividir el recorrido de los datos en clases de igual amplitud. Las clases deben
cubrir todo el recorrido de valores, pero ellas no se deben superponer.
Contar el número de observaciones que caen en cada clase. Recuerda que el
número de observaciones es también llamado frecuencia.
Dibujar un eje horizontal y marcar las clases en el eje de las abscisas.
El eje vertical puede ser la frecuencia, la proporción o el porcentaje.
Dibujar un rectángulo o barra vertical sobre cada clase con una altura igual a la
frecuencia, la proporción o el porcentaje.
23
DEFINICIÓN
Si una o dos observaciones están alejadas del resto de los datos, estas
observaciones son llamadas outliers u observaciones atípicas.
Formas de las distribuciones
Simétrica, forma de campana, unimodal Bimodal
Asimétrica a la derecha
Característica: Ingreso
Asimétrica a la izquierda
Característica: Notas en un curso de Estadística
Uniforme
Característica: Un número
elegido al azar entre a y b
24
Brevemente, los términos usados para describir la forma de una distribución
son:
Simétrica La distribución puede ser dividida en dos partes alrededor de un valor
central y cada parte es el reflejo de la otra.
Unimodal La distribución tiene un único pico que muestra el(los) valor(es) más
común(es) o frecuente(s) del conjunto de datos.
Bimodal La distribución tiene dos picos. Esto ocurre a menudo cuando dos
poblaciones están siendo muestreadas.
Uniforme Los valores posibles tienen igual frecuencia.
Asimétrica Un lado de la distribución se extiende mucho más lejos que el otro. La
dirección de la asimetría es la dirección del lado más largo.
Notemos el impacto visual del área …
No hay una sola elección correcta para las clases de
un histograma. Pocas clases pueden dar un gráfico
con aspecto de “rascacielos” con todos los valores en
pocas clases con barras altas. Demasiadas clases
pueden dar un gráfico con aspecto “aplastado” con la
mayoría de las clases con una o ninguna
observación. Cuando escojas las clases tienes que
utilizar tu sentido común para mostrar la forma de la
distribución.
Sugerencia: Suele aplicarse una regla práctica que indica que el número de número de clases
es aproximadamente igual a la raíz cuadrada del número de observaciones.
25
Algunas pautas en la construcción de gráficos
Hay algunos errores comunes que aparecen gráficos y diagramas. Algunas
veces estos errores llevan a una mala interpretación de la información que se
está resumiendo.
Aquí hay algunas pautas para chequear antes de interpretar un gráfico o bien
cuando construyas tus propios gráficos:
Provee un título adecuado para el gráfico.
Incluye la fuente de los datos.
Asegúrate de denominar los ejes apropiadamente.
Cheque si el eje correspondiente a la frecuencia, proporción o porcentaje
comienzan en cero.
Incluye la unidad de medida de las variables representadas en el gráfico.
¿Qué hemos visto?
• Definición de estadística • Población • Muestra • Variables
– Cualitativas – Numéricas
• Presentación ordenada de datos – Tablas de frecuencias
• absolutas • relativas • acumuladas
– Representaciones gráficas • Cualitativas • Numéricas