Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Estadistica Aplicada
Ing. Biomedica, Ing. Electronica
y Lic. en Biologıa
Capitulo I
Introduccion
D.U. Campos-Delgado
Facultad de Ciencias
UASLP
Enero-Junio/2020
1
CONTENIDO
Introduccion
Tipos de datos
Recopilacion de datos muestrales
Tecnicas de conteo: tablas, frecuencias e
histogramas
Representaciones grı¡ficas entre dos varia-
bles
2
Introduccion
Estadısitica: ciencia de la planificacion de
estudios y experimentos, la obtencion de
datos, la organizacion, el resumen, la pre-
sentacion, el analisis y la interpretacion de
esos datos para despues obtener conclusio-
nes basados en ellos.
En la actualidad estamos acosturmbrados
a encuestas y estudios de percepcion:
• ¿Que candidato puede ganar una elec-
cion?
• ¿Que programa de televison es mas po-
pular?
• ¿Que medicamento es mas eficaz en el
tratamiento de una enfermedad?
• ¿Que deporte es mas popular en Mexi-
co?
3
• ¿Cual en el salario de un ingeniero biomedi-
co al egresar?, etc.
Estos estudios deben seguir una metodo-
logıa para seleccionar a los encuestados, y
ası garantizar representatividad.
DEFINICIONES
• Datos: conjunto de observaciones reco-
piladas en una encuesta.
• Poblacion: conjunto completo sobre el
cual se realiza un estudio estadıAstico.
• Muestra: sub-conjunto de la poblacion.
• Censo: conjunto de datos recopilados de
toda la poblacion.
En general, una poblacion puede ser muy
grande, entonces buscamos generar una mues-
tra representativa que permita obtener con-
clusiones de la poblacion.
Todo estudio estadıstico involucra: prepa-
rar, analizar y concluir.
• Preparar: i) Estudiar el contexto, ii) De-
terminar la fuente de los datos, iii) De-
finir el metodo de muestreo.
• Analizar: i) Visualizar los datos, ii) Ex-
plorar los datos, iii) Aplicar metodos es-
tadısitcos.
• Concluir: Definir la significancia.
Tipos de datos
DEFINICIONES
• Parametro: medicion numerica que des-
cribe una caracterıstica de una pobla-
cion.
• Dato estadısitico: medicion numerica que
describe una caracterıstica de una mues-
tra.
Para una poblacion o muestra se pueden
tener
• Datos cuantitativos: numeros que repre-
sentan conteos o mediciones → discre-
tos o continuos.
• Datos categoricos o cualitativos: nom-
bres o etiquetas.
Los datos tambien se pueden clasificar segun
sus niveles de medicion:
4
• De razon: hay un punto de inicio cero
natural y las proporciones tienen senti-
do (p.e. alturas, longitudes, distancias,
etc.)
• De intervalo: las diferencias son signifi-
cativas, pero no hay un punto de inicio
cero y las proporciones no tienen sen-
tido (temperatura corporal, los anos de
eventos historicos).
• Ordinal: los datos pueden colocarse en
orden, pero no pueden encontrar dife-
rencias o carecen de significado (p.e.
clasificacion de universidades en MX, ca-
lificaciones en EUA).
• Nominal: solo nombres, etiquetas o ca-
tegorıas, y sin poder ordenarse (p.e. co-
lores de ojos, genero de una muestra)
Grandes datos (Big data): conjuntos de da-
tos tan grandes y complejos que su anali-
sis, visualizacion e interpretacion requiere
herramientas de software especializadas →
excede Terabytes de datos !
Al realizar la recopilacion de datos en una
muestra, pueden faltar algunos valores →
completamente al azar si la probabilidad de
su inexistencia es independiente de su va-
lor.
Correccion de datos faltantes: (i) Elimina-
cion de casos, y (ii) Imputacion de valores
faltantes.
Recopilacion de datos muestrales
Si los datos muestrales no se recopi-
lan de forma adecuada, ningun analisis
estadıstico serıa pertinente.
Para ciertos estudios estadısticos se requie-
re disenar experimentos, donde se aplica un
procedimiento y se observan sus efectos so-
bre los individuos.
Mientras tanto en un estudio observacional
se miden y registran caracterısticas especı-
ficas de los individuos sin modificarlos.
Un buen diseno de un experimento in-
volucra replicacion, estudio a ciegas (pla-
cebo), y aleatorizacion (p.e. estudios para
evaluar la eficacia de una nueva vacuna).
5
Muestra aleatoria simple: subconjunto equi-
probable extraido de la poblacion.
Muestra sistematica: seleccionar un punto
de inicio y luego se elige cada k-esimo su-
jeto de la poblacion.
Muestra por conveniencia: utilizar los datos
que son mas faciles de obtener.
Muestra estratificada: subdividir la pobla-
cion en subgrupos con las mismas carac-
terısticas, y a continuacion de extraen mues-
tras de cada subgrupo.
Muestras por conglomerados: dividir la po-
blacion en grupos segun secciones espacia-
les, y enseguida se muestrean de estos gru-
pos.
Tecnicas de conteo
Una tabla de frecuencias indica como un
conjunto de datos se divide en varias ca-
tegorıas (o clases) al listar todas las cate-
gorıas junto con el numero de valores de los
datos (frecuencias) que hay de cada una.
Las clases se pueden definir en funcion de
lımites inferiores y superiores por cada una.
Las marcas de clase son los valores en el
punto medio de las clases.
Tambien se puede calcular la distribucion
de frecuencias relativas o porcentuales en
la tabla.
6
−10 −8 −6 −4 −2 0 2 4 6 8 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
x
f(x)
σ=2
σ=0.25
σ=1
σ=4
Ejercicio 1: realizar la medicion del ritmo car-
diaco, presion sistolica y diastolica de todos los
alumnos del salon y realizar una tabla de fre-
cuencias considerando cinco clases; y calcular
tambien la frecuencias porcentuales.
Ejercicio 2: generar una censo en el salon del
deporte favorito por alumno, y realizar una ta-
bla de frecuencias normal y porcentual.
¿Que se puede deducir de una tabla de fre-
cuencias?
La distribucion del conjunto de datos, es
decir analizar su dispersion → por ejemplo
si muestra una distribucion normal.
La presencia de brechas puede sugerir que
los datos provienen de dos o mas poblacio-
nes diferentes.
¿Que es un histograma?
Grafica que consiste en barras adyacentes de
igual anchura dibujadas. La escala horizontal
representa las clases de valores cuantitativos,
y la escala vertical representa las frecuencias;
ası las alturas de las barras se asocian a los
valores de frecuencia (normal o relativa).
Permite visualizar diferentes tipos de distribu-
ciones de datos
A)Gaussiana
-4 -3 -2 -1 0 1 2 3 4
Medición
0
50
100
150
Fre
cu
en
cia
B)Uniforme
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Medición
0
10
20
30
40
50
60
Fre
cu
en
cia
C) Asimetrica
0 0.5 1 1.5 2 2.5 3 3.5 4
Medición
0
20
40
60
80
100
120
Fre
cu
en
cia
D)Dos poblaciones
-12 -10 -8 -6 -4 -2 0 2 4 6 8
Medición
0
20
40
60
80
100
120
140
160
180
200
Fre
cu
en
cia
Representaciones graficas
Graficas de puntos: grafico de datos cuan-
titativos donde cada valor de datos se re-
presenta como un punto sobre una escala
horizontal de valores. Los puntos que re-
presentan valores iguales se apilan.
-12 -10 -8 -6 -4 -2 0 2 4 6 8
Medición
0
20
40
60
80
100
120
140
160
180
200
Fre
cuencia
Diagramas de tallo y hojas (stem-and-leaf
plot): representa datos cuantitativos sepa-
rando cada valor en dos partes: el tallo (por
7
ejemplo el dıgito mas a la izquierda) y las
hojas (como el dıgito mas a la derecha);
en ocasiones se necesita aplicar primero un
proceso de redondeo a los datos. Consi-
derar la siguiente base de datos de edades
Histogram of X01_Body_Data$AGE
X01_Body_Data$AGE
Fre
qu
en
cy
20 30 40 50 60 70 80
05
10
15
20
25
30
que genera el siguiente diagrama de tallo y
hojas
1 888888888888999992 0000011111122222333334444442 5566667777778999999993 0000000111122233333344443 5555556667777777888999994 000111111111222222333344444 555555555566666666677889995 0011111111122333344445 55556666677777778888889996 000000001111222223333333444446 555556666677788888999997 000022444447 55566678898 0000000000000000
¿Que nos dice este diagrama de los datos?
Grafica de series en tiempo: grafica de co-
mo los datos se generaron o evolucionaron
en el tiempo. (por ejemplo en escala de dıa,
meses o anos).
1995 2000 2005 2010
40
50
60
70
80
90
Muertes de Manatíes
año
nú
me
ro
Grafica de Pareto: grafica de barras para
datos categoricos, donde las barras se or-
denan de forma descendente de acuerdo a
las frecuencias de los datos.
0
500
1000
Moto acuatica
Lancha de motor
Utilitario (pesca)
Motor a bordo
Velero
TipoVehiculo
Ro
bo
s
Grafica circular o de pastel: otra grafica
para datos categoricos donde el tamano
de cada rebanada es proporcional al conteo
de frecuencia para la categorıa.
0
1000
2000
Robos
x
TipoVehiculo
Lancha de motorMoto acuaticaMotor a bordoUtilitario (pesca)
Velero
Representaciones graficas
Nos enfocaremos en entender cuando dos me-
diciones tiene relacion entre sı y como cuanti-
ficarla.
Correlacion: propiedad entre dos variables
que asocia sus valores, pero que no implica
que una cause la otra, es decir no involucra
causalidad.
Asumir que tenemos N mediciones de dos
variables {xi, yi}Ni=1 tomadas de un estudio
estadıstico.
Diagrama de dispersion (scatter plot): dia-
grama de datos cuantitativos de dos varia-
bles {xi}Ni=1 y {yi}
Ni=1 que ubica cada par
ordenado (xi, yi) por un punto dentro de un
plano bidimensional.
8
Estos diagramas permiten visualizar un par
de variables con correlacion
20
30
40
60 90 120 150
Circunferencia cintura (cm)
Circunfe
rencia
bra
zo(c
m)
o sin correlacion
50
70
90
60 90 120 150
Peso (kg)
Puls
o (
LP
M)
El coeficiente de correlacion lineal r evalua
la intensidad de la asociacion lineal entre
dos variables r ∈ [−1,1]
r =N(
∑
i xiyi)− (∑
i xi)(∑
i yi)√
N(∑
i x2i )− (
∑
i xi)2√
N(∑
i y2i )− (
∑
i yi)2
Si r ≈ 1 o r ≈ −1 parece haber una correla-
cion, pero si r es cercano a cero no parece
existir.
El P-valor permite cuantificar si no existe
correlacion lineal significativa entre dos va-
riables, y define la probabilidad de obtener
datos muestrales entre las dos variables con
un coeficiente r que sea al menos tan extre-
mo como el obtenido experimentalmente.
Un P-valor pequeno, como 0.05 o menor
(o una probabilidad de 5% o menos) apoya
la conclusion de que existe una correlacion
lineal entre las dos variables.
Considerar dos casos de correlaciones po-
sitivas y negativas:
20
30
40
50
60
60 90 120 150
Cintura (cm)
BM
I
r=0.9128, P−valor<2.2e−16
2
3
4
5
10 15 20 25 30 35
Millas por galón (mpg)
Peso (
1000 lbs)
r=−0.868, P−valor=1.294e−10
Regresion lineal: permite modelar los datos
{xi}Ni=1 y {yi}
Ni=1 a traves de un ecuacion
lineal
yi = b0 + b1xi ∀i ∈ [1, N ]
donde las variables (b0, b1) se seleccionan
tal que se minimice el error cuadratico
entre los datos y la prediccion
mınb0,b1∈R
N∑
i=1
{yi − (b0 + b1xi)}2
20
30
40
50
60
60 90 120 150
Cintura (cm)
BM
I
BMI=0.374*Cintura−8.156
1
2
3
4
5
10 15 20 25 30 35
Millas por galón (MPG)
Peso (
1000 lbs)
Peso=−0.141*MPG+6.047
Este modelo lineal permite hacer prediccio-
nes para valores nuevos.
Tarea # 1
Problemas del Libro de Texto (Estadıstica, Ma-
rio Triola, 12va 4a Edicion, Pearson):
Proyecto de Tecnologıa del Capıtulo 1 (pag.
38)
Proyecto de Tecnologıa del Capıtulo 2 (pag.
78)
9