28
Estadistica Aplicada Ing. Biom´ edica,Ing.Electr´onica y Lic. en Biolog´ ıa Capitulo I Introducci´on D.U. Campos-Delgado Facultad de Ciencias UASLP Enero-Junio/2020 1

Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Estadistica Aplicada

Ing. Biomedica, Ing. Electronica

y Lic. en Biologıa

Capitulo I

Introduccion

D.U. Campos-Delgado

Facultad de Ciencias

UASLP

Enero-Junio/2020

1

Page 2: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

CONTENIDO

Introduccion

Tipos de datos

Recopilacion de datos muestrales

Tecnicas de conteo: tablas, frecuencias e

histogramas

Representaciones grı¡ficas entre dos varia-

bles

2

Page 3: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Introduccion

Estadısitica: ciencia de la planificacion de

estudios y experimentos, la obtencion de

datos, la organizacion, el resumen, la pre-

sentacion, el analisis y la interpretacion de

esos datos para despues obtener conclusio-

nes basados en ellos.

En la actualidad estamos acosturmbrados

a encuestas y estudios de percepcion:

• ¿Que candidato puede ganar una elec-

cion?

• ¿Que programa de televison es mas po-

pular?

• ¿Que medicamento es mas eficaz en el

tratamiento de una enfermedad?

• ¿Que deporte es mas popular en Mexi-

co?

3

Page 4: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

• ¿Cual en el salario de un ingeniero biomedi-

co al egresar?, etc.

Estos estudios deben seguir una metodo-

logıa para seleccionar a los encuestados, y

ası garantizar representatividad.

DEFINICIONES

• Datos: conjunto de observaciones reco-

piladas en una encuesta.

• Poblacion: conjunto completo sobre el

cual se realiza un estudio estadıAstico.

• Muestra: sub-conjunto de la poblacion.

• Censo: conjunto de datos recopilados de

toda la poblacion.

En general, una poblacion puede ser muy

grande, entonces buscamos generar una mues-

tra representativa que permita obtener con-

clusiones de la poblacion.

Page 5: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Todo estudio estadıstico involucra: prepa-

rar, analizar y concluir.

• Preparar: i) Estudiar el contexto, ii) De-

terminar la fuente de los datos, iii) De-

finir el metodo de muestreo.

• Analizar: i) Visualizar los datos, ii) Ex-

plorar los datos, iii) Aplicar metodos es-

tadısitcos.

• Concluir: Definir la significancia.

Page 6: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Tipos de datos

DEFINICIONES

• Parametro: medicion numerica que des-

cribe una caracterıstica de una pobla-

cion.

• Dato estadısitico: medicion numerica que

describe una caracterıstica de una mues-

tra.

Para una poblacion o muestra se pueden

tener

• Datos cuantitativos: numeros que repre-

sentan conteos o mediciones → discre-

tos o continuos.

• Datos categoricos o cualitativos: nom-

bres o etiquetas.

Los datos tambien se pueden clasificar segun

sus niveles de medicion:

4

Page 7: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

• De razon: hay un punto de inicio cero

natural y las proporciones tienen senti-

do (p.e. alturas, longitudes, distancias,

etc.)

• De intervalo: las diferencias son signifi-

cativas, pero no hay un punto de inicio

cero y las proporciones no tienen sen-

tido (temperatura corporal, los anos de

eventos historicos).

• Ordinal: los datos pueden colocarse en

orden, pero no pueden encontrar dife-

rencias o carecen de significado (p.e.

clasificacion de universidades en MX, ca-

lificaciones en EUA).

• Nominal: solo nombres, etiquetas o ca-

tegorıas, y sin poder ordenarse (p.e. co-

lores de ojos, genero de una muestra)

Grandes datos (Big data): conjuntos de da-

tos tan grandes y complejos que su anali-

sis, visualizacion e interpretacion requiere

Page 8: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

herramientas de software especializadas →

excede Terabytes de datos !

Al realizar la recopilacion de datos en una

muestra, pueden faltar algunos valores →

completamente al azar si la probabilidad de

su inexistencia es independiente de su va-

lor.

Correccion de datos faltantes: (i) Elimina-

cion de casos, y (ii) Imputacion de valores

faltantes.

Page 9: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Recopilacion de datos muestrales

Si los datos muestrales no se recopi-

lan de forma adecuada, ningun analisis

estadıstico serıa pertinente.

Para ciertos estudios estadısticos se requie-

re disenar experimentos, donde se aplica un

procedimiento y se observan sus efectos so-

bre los individuos.

Mientras tanto en un estudio observacional

se miden y registran caracterısticas especı-

ficas de los individuos sin modificarlos.

Un buen diseno de un experimento in-

volucra replicacion, estudio a ciegas (pla-

cebo), y aleatorizacion (p.e. estudios para

evaluar la eficacia de una nueva vacuna).

5

Page 10: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Muestra aleatoria simple: subconjunto equi-

probable extraido de la poblacion.

Muestra sistematica: seleccionar un punto

de inicio y luego se elige cada k-esimo su-

jeto de la poblacion.

Muestra por conveniencia: utilizar los datos

que son mas faciles de obtener.

Muestra estratificada: subdividir la pobla-

cion en subgrupos con las mismas carac-

terısticas, y a continuacion de extraen mues-

tras de cada subgrupo.

Muestras por conglomerados: dividir la po-

blacion en grupos segun secciones espacia-

les, y enseguida se muestrean de estos gru-

pos.

Page 11: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Tecnicas de conteo

Una tabla de frecuencias indica como un

conjunto de datos se divide en varias ca-

tegorıas (o clases) al listar todas las cate-

gorıas junto con el numero de valores de los

datos (frecuencias) que hay de cada una.

Las clases se pueden definir en funcion de

lımites inferiores y superiores por cada una.

Las marcas de clase son los valores en el

punto medio de las clases.

Tambien se puede calcular la distribucion

de frecuencias relativas o porcentuales en

la tabla.

6

Page 12: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

−10 −8 −6 −4 −2 0 2 4 6 8 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

f(x)

σ=2

σ=0.25

σ=1

σ=4

Ejercicio 1: realizar la medicion del ritmo car-

diaco, presion sistolica y diastolica de todos los

alumnos del salon y realizar una tabla de fre-

cuencias considerando cinco clases; y calcular

tambien la frecuencias porcentuales.

Ejercicio 2: generar una censo en el salon del

deporte favorito por alumno, y realizar una ta-

bla de frecuencias normal y porcentual.

¿Que se puede deducir de una tabla de fre-

cuencias?

La distribucion del conjunto de datos, es

decir analizar su dispersion → por ejemplo

si muestra una distribucion normal.

Page 13: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

La presencia de brechas puede sugerir que

los datos provienen de dos o mas poblacio-

nes diferentes.

¿Que es un histograma?

Grafica que consiste en barras adyacentes de

igual anchura dibujadas. La escala horizontal

representa las clases de valores cuantitativos,

y la escala vertical representa las frecuencias;

ası las alturas de las barras se asocian a los

valores de frecuencia (normal o relativa).

Permite visualizar diferentes tipos de distribu-

ciones de datos

A)Gaussiana

Page 14: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

-4 -3 -2 -1 0 1 2 3 4

Medición

0

50

100

150

Fre

cu

en

cia

B)Uniforme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Medición

0

10

20

30

40

50

60

Fre

cu

en

cia

C) Asimetrica

Page 15: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

0 0.5 1 1.5 2 2.5 3 3.5 4

Medición

0

20

40

60

80

100

120

Fre

cu

en

cia

D)Dos poblaciones

-12 -10 -8 -6 -4 -2 0 2 4 6 8

Medición

0

20

40

60

80

100

120

140

160

180

200

Fre

cu

en

cia

Page 16: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Representaciones graficas

Graficas de puntos: grafico de datos cuan-

titativos donde cada valor de datos se re-

presenta como un punto sobre una escala

horizontal de valores. Los puntos que re-

presentan valores iguales se apilan.

-12 -10 -8 -6 -4 -2 0 2 4 6 8

Medición

0

20

40

60

80

100

120

140

160

180

200

Fre

cuencia

Diagramas de tallo y hojas (stem-and-leaf

plot): representa datos cuantitativos sepa-

rando cada valor en dos partes: el tallo (por

7

Page 17: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

ejemplo el dıgito mas a la izquierda) y las

hojas (como el dıgito mas a la derecha);

en ocasiones se necesita aplicar primero un

proceso de redondeo a los datos. Consi-

derar la siguiente base de datos de edades

Histogram of X01_Body_Data$AGE

X01_Body_Data$AGE

Fre

qu

en

cy

20 30 40 50 60 70 80

05

10

15

20

25

30

que genera el siguiente diagrama de tallo y

hojas

Page 18: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

1 888888888888999992 0000011111122222333334444442 5566667777778999999993 0000000111122233333344443 5555556667777777888999994 000111111111222222333344444 555555555566666666677889995 0011111111122333344445 55556666677777778888889996 000000001111222223333333444446 555556666677788888999997 000022444447 55566678898 0000000000000000

¿Que nos dice este diagrama de los datos?

Grafica de series en tiempo: grafica de co-

mo los datos se generaron o evolucionaron

en el tiempo. (por ejemplo en escala de dıa,

meses o anos).

Page 19: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

1995 2000 2005 2010

40

50

60

70

80

90

Muertes de Manatíes

año

me

ro

Grafica de Pareto: grafica de barras para

datos categoricos, donde las barras se or-

denan de forma descendente de acuerdo a

las frecuencias de los datos.

Page 20: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

0

500

1000

Moto acuatica

Lancha de motor

Utilitario (pesca)

Motor a bordo

Velero

TipoVehiculo

Ro

bo

s

Grafica circular o de pastel: otra grafica

para datos categoricos donde el tamano

de cada rebanada es proporcional al conteo

de frecuencia para la categorıa.

Page 21: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

0

1000

2000

Robos

x

TipoVehiculo

Lancha de motorMoto acuaticaMotor a bordoUtilitario (pesca)

Velero

Page 22: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Representaciones graficas

Nos enfocaremos en entender cuando dos me-

diciones tiene relacion entre sı y como cuanti-

ficarla.

Correlacion: propiedad entre dos variables

que asocia sus valores, pero que no implica

que una cause la otra, es decir no involucra

causalidad.

Asumir que tenemos N mediciones de dos

variables {xi, yi}Ni=1 tomadas de un estudio

estadıstico.

Diagrama de dispersion (scatter plot): dia-

grama de datos cuantitativos de dos varia-

bles {xi}Ni=1 y {yi}

Ni=1 que ubica cada par

ordenado (xi, yi) por un punto dentro de un

plano bidimensional.

8

Page 23: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Estos diagramas permiten visualizar un par

de variables con correlacion

20

30

40

60 90 120 150

Circunferencia cintura (cm)

Circunfe

rencia

bra

zo(c

m)

o sin correlacion

50

70

90

60 90 120 150

Peso (kg)

Puls

o (

LP

M)

El coeficiente de correlacion lineal r evalua

Page 24: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

la intensidad de la asociacion lineal entre

dos variables r ∈ [−1,1]

r =N(

i xiyi)− (∑

i xi)(∑

i yi)√

N(∑

i x2i )− (

i xi)2√

N(∑

i y2i )− (

i yi)2

Si r ≈ 1 o r ≈ −1 parece haber una correla-

cion, pero si r es cercano a cero no parece

existir.

El P-valor permite cuantificar si no existe

correlacion lineal significativa entre dos va-

riables, y define la probabilidad de obtener

datos muestrales entre las dos variables con

un coeficiente r que sea al menos tan extre-

mo como el obtenido experimentalmente.

Un P-valor pequeno, como 0.05 o menor

(o una probabilidad de 5% o menos) apoya

la conclusion de que existe una correlacion

lineal entre las dos variables.

Considerar dos casos de correlaciones po-

sitivas y negativas:

Page 25: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

20

30

40

50

60

60 90 120 150

Cintura (cm)

BM

I

r=0.9128, P−valor<2.2e−16

2

3

4

5

10 15 20 25 30 35

Millas por galón (mpg)

Peso (

1000 lbs)

r=−0.868, P−valor=1.294e−10

Regresion lineal: permite modelar los datos

{xi}Ni=1 y {yi}

Ni=1 a traves de un ecuacion

Page 26: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

lineal

yi = b0 + b1xi ∀i ∈ [1, N ]

donde las variables (b0, b1) se seleccionan

tal que se minimice el error cuadratico

entre los datos y la prediccion

mınb0,b1∈R

N∑

i=1

{yi − (b0 + b1xi)}2

20

30

40

50

60

60 90 120 150

Cintura (cm)

BM

I

BMI=0.374*Cintura−8.156

Page 27: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

1

2

3

4

5

10 15 20 25 30 35

Millas por galón (MPG)

Peso (

1000 lbs)

Peso=−0.141*MPG+6.047

Este modelo lineal permite hacer prediccio-

nes para valores nuevos.

Page 28: Estadistica Aplicada - galia.fc.uaslp.mxgalia.fc.uaslp.mx/~ducd/cursos/EA/Capitulo1_EA.pdf · Una tabla de frecuencias indica como un conjunto de datos se divide en varias ca-tegor´ıas

Tarea # 1

Problemas del Libro de Texto (Estadıstica, Ma-

rio Triola, 12va 4a Edicion, Pearson):

Proyecto de Tecnologıa del Capıtulo 1 (pag.

38)

Proyecto de Tecnologıa del Capıtulo 2 (pag.

78)

9