208
1 Curso teórico práctico Introducción a la Bioestadística Técnicas Multivariantes en Biomedicina con el Programa de Análisis Estadísticos G-Stat 2.0 Alejandro Pedromingo Marino Biometría GSK Tres Cantos, Madrid www.e-biometria.com Ver 12

curso _gstat_12

  • Upload
    uchpuc

  • View
    36

  • Download
    8

Embed Size (px)

Citation preview

Page 1: curso _gstat_12

1

Curso teórico práctico

Introducción a la BioestadísticaTécnicas Multivariantes en Biomedicinacon el Programa de Análisis Estadísticos G-Stat 2.0

Alejandro Pedromingo MarinoBiometría GSKTres Cantos, Madrid www.e-biometria.com

Ver 12

Page 2: curso _gstat_12

2

6D1_90

Clasificación práctica de las técnicas estadísticas

6D1_90

Estima

ESTIMACIÓN

Poblaciones

Decide

C.HIPÓTESIS

Conocimiento

Muestras

ProcesaResume

DESCRIPTIVA

ejemplo

Page 3: curso _gstat_12

3

63 enfermos tomaron parte en un estudio cruzado para determinar la eficacia de 2 tratamientos: A y B.Al término del estudio señalaron su preferencia por uno de ellos.

31 prefieren A

15 prefieren B

17 no muestran preferencia

Ejemplo

Resultados

Clasificación de la Estadística

Descr_estim

Page 4: curso _gstat_12

4

Población

El verdadero valor de la diferencia A-B en la población estará comprendido en el IC

[ 9.2% A-B 41.2% ]

Estimación

Diferentes tipos de técnicas estadísticas (I)

49.2 %

23.8%

26.9%

A-B = 25.4 %

Muestra

A

B

A B

Descriptiva

CH- mod

Page 5: curso _gstat_12

5

Explicación / Predicción

Si el sujeto es mujer y la gravedad es moderada la preferencia de A sobre B es solo un 12%

Modelización

Diferentes tipos de técnicas estadísticas (y II)

Existe evidencia de que A es más preferido que B

(McNemar; p=0.0183)

ConocimientoC. Hipótesis

Contenido

Page 6: curso _gstat_12

6

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza

G-stat

Page 7: curso _gstat_12

7

Módulo I : G-Stat 2.0 / Manejo de Datos

G-Stat 2.0

� Características� Instalación y contenido del CD-ROM� Pantalla de trabajo (BdD) y Menús

Manejo de datos� Fichero de ejemplo� Importar datos� Transformación de variables� Recodificación y filtrado de variables

Caracteristicas

Page 8: curso _gstat_12

8

Características

� SW Libre distribución� Enfocado en Bio-Ciencias� Actualizable

� Menús con orden� Multi S.O.� No programación� Usuarios no profesionales de la estadística� Desarrollado por Biometría-GSK

G-Stat 2.0

instalacion

Page 9: curso _gstat_12

9

Instalación:1. Leer las condiciones de licencia2. Doble clic en install3. Doble clic en la opción del sistema operativo en la ventana que aparece4. Seguir instrucciones de instalación5. Observar que hay una versión PDF del manual

G-Stat 2.0

Instalación y contenido del CD

Pantallas y menus

Page 10: curso _gstat_12

10

G-Stat 2.0

Pantalla de trabajo y Menús

Fichero integrado

Page 11: curso _gstat_12

11

Manejo de datos

Fichero integrado

Importar

Iconos

Variables

Casos

Page 12: curso _gstat_12

12

Bases de Datos EXCEL ASCII SW ESTADÍSTICO

Texto delimitado por tabulaciones

Manejo de datos

Importar datos

Abrir Manejo de datos1.txt

Page 13: curso _gstat_12

13

Variables del fichero Manejo de datos1.txt

EDAD: (edad en años del paciente)

SEXO: 1_Hombre, 2_Mujer

PESO: en Kg.

TALLA: en cm.

TAS: en mmHg.

TAD: en mmHg.

DIABETES: No, Tipo 1, Tipo 2

Manejo de datos

Abrir Archivo

Fichero: Manejo de datos1.txt Trtans , Recod, filtrar

Page 14: curso _gstat_12

14

Ejemplos:

DT=TAS-TADLog_peso=ln(Peso)IMC=Peso/altura^2

Manejo de datos

Transformación de variables

Transformación

Manejo de datos1.txt recodificacion

Page 15: curso _gstat_12

15

Recodificar BdD Recodificada

Manejo de datos

Recodificación

Fichero: Manejo de datos1.txt filtro

Page 16: curso _gstat_12

16

Filtrar BdD Filtrada

Manejo de datos

Filtrado

Fichero: Manejo de datos1.txt Analisis en 1 min

Page 17: curso _gstat_12

17

Manejo de datos Cómo realizar un análisis estadístico en menos de 1’

No programación

No hay sesiones

Sí hay que guardar resultados

Sí hay que guardar datos

fin

Page 18: curso _gstat_12

18

Contenido del curso

I- G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza

Page 19: curso _gstat_12

19

Definición y Bases de Datos

Tipos de variables

Descriptiva uni y bivariante, análisis estratificado

Gráficos

Ajuste a la normal

Medidas de efecto en Epidemiología y Diagnóstico

Validación de los datos

Módulo II Descriptiva

definiciones

Page 20: curso _gstat_12

20

Algunas definiciones básicas

PoblaciónMuestraMuestra representativa o aleatoriaCaso, sujeto, unidad, registro

Características / Variablesfactores campos

respuesta / explicativaprincipal, secundariascovariablesdemográficasgestiónficticias

Base de datos

definición

Page 21: curso _gstat_12

21

índices, medidas, estadísticos

Resumir, describir, sintetizar … la muestra

Descriptiva

Objetivo de la Estadística Descriptiva

obtenidos a partir de la muestra

publicación

Page 22: curso _gstat_12

22

Ejemplo de publicación

estudio migraña

Page 23: curso _gstat_12

23

Descriptiva

Estudio de Migraña

Se desea hacer un análisis descriptivo de una muestra de 259 migrañosos. Se han recogido datos relacionados con su enfermedad.

Definicion variables

Variables

Centro Centro1, Centro2…

Sexo: Mujer, Hombre

Edad Años

Intensidad: 1 Leve, 2 Moderada, 3 Severa

Duración: 1 (4-12h), 2 (12-24h), 3 (24-48h), 4 (>48h)

Localización: 1 Hemicraneal, 2 Holocraneal

Productividad: Pérdida de horas laborables /año

FBG: Fibrinógeno sérico

Leucocitos: Recuento

Page 24: curso _gstat_12

24

Descriptiva

Datos Estudio MigrañaCENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

Los estadísticos dependen …

Page 25: curso _gstat_12

25

¡ Los Estadísticos descriptivos que se emplean

dependen del tipo de variable !

Descriptiva

Page 26: curso _gstat_12

26

Ordinales

Cualitativas (a,b,c)

Cuantitativas (x,y,z)

Centro, Tratamiento

Temperatura, Edad, Col.

Dicotómicas o Binarias Sexo, Curación

¡ Las pruebas estadísticas dependen del tipo de variable !

Descriptiva

Clasificación de Variables

Descriptiva

EstimaciónContrate

Mejoría, Gravedad

Page 27: curso _gstat_12

27

Núm. Var.

Var. Respuesta

Var. Explicativa

Datos en la Muestra

Tipo de Técnica Técnica Menú

1 C Indep. Param. t-Student para una muestra Análisis / Cuantitativa (y) / t-Student1 C Indep. Param. Chi-2 para una desviación típica Análisis / Cuantitativa (y) / Chi-2 para una desviación típica1 C Indep. Param. Chi-2 bondad de ajuste Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov-Lilliefors Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Shapiro-Wilk Análisis / Cuantitativa (y) / Ajuste1 D Indep. No Par. z para una muestra Análisis / Cualitativa (a) / Una Proporción1 O Indep. No Par. Signos para una muestra Análisis / Cuantitativa (y) / Signos1 O Indep. No Par. Wilcoxon para una muestra Análisis / Cuantitativa (y) / Rangos Signados1 Cens. Indep. No Par. Kaplan-Meier Multivariante / Regresión de Cox (xz|y cens)2 C C Indep. Param. Regresión lineal simple Análisis / x|y / Regresión Lineal Simple2 C C Indep. Param. Regresión lineal simple con transformaciones Análisis / x|y / Modelos Transformados2 C C Indep. Param. Regresión polinómica Análisis / x|y / Regresión Polinómica2 C D Indep. Param. t-Student para dos muestras independientes Análisis / Dos grupos (b|y) / t-Student2 C D Indep. Param. F-Snedecor para dos desviaciones típicas Análisis / Dos grupos (b|y) / F-Snedecor2 C D Paread. Param. t-Student para dos muestras pareadas Análisis / Dos grupos (b|y) / t-Student. Pareados2 C N Indep. Param. ANOVA 1 factor Anova / Un Factor (a|y)2 C N Paread. Param. ANOVA 1 factor con bloques Anova / Un Factor con Bloques (a bloque|y)2 C N Paread. No Par. Friedman Anova / Friedman (a bloque|y)2 D C Indep. No Par. Regresión logística simple Multivariante / Regresión Logística (xz|b)2 D D Indep. No Par. ROC Análisis / Diagnóstico (b|b) / ROC (y|b)2 D D Indep. No Par. Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 D D Indep. No Par. z Análisis / Tablas (a,b) / Dos proporciones. Datos agrupados2 D D Indep. No Par. Fisher Análisis / Tablas (a,b) / Fisher2 D D Indep. No Par. OR, RR Análisis / Epidemiología (b|b) / Tablas2 D D Indep. No Par. Diagnóstico Análisis / Diagnóstico (b|b) / Tablas2 D D Paread. No Par. McNemar Análisis / Tablas (a,b) / McNemar2 D N Indep. No Par. Metha-Patel No disponible2 D O Indep. No Par. Chi-2 de tendencia lineal Análisis / Tablas (a,b) / Chi-Cuadrado tendencia lineal (y|b)2 N C Indep. Param. Análisis discriminante No disponible2 N D Indep. No Par. z / Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 O D Indep. No Par. Mann-Whitney / Wilcoxon para dos muestras independientes Análisis / Dos grupos (b|y) / Mann-Whitney (Wilcoxon)2 O D Paread. No Par. Signos para dos muestras pareadas Análisis / Dos grupos (b|y) / Signos. Pareados2 O D Paread. No Par. Wilcoxon para dos muestras pareadas Análisis / Dos grupos (b|y) / Wilcoxon. Pareados2 O N Indep. No Par. Kruskal-Wallis Anova / Kruskal-Wallis (a|y)2 O O Indep. No Par. Jonckheere-Tersptra No disponible2 Cens. C Indep. No Par. Regresión de Cox simple Multivariante / Regresión de Cox (xz|y cens)2 Cens. D Indep. No Par. Log-Rank Análisis / Dos grupos (b|y cens) / Log-Rank3 C C,D Indep. Param. ANACOVA Anova / Anacova (ax|y)3 C N,N Indep. Param. ANOVA dos factores Anova / Anova Dos Factores (ab|y)≥3 C C,D Indep. Param. Regresión lineal múltiple Multivariante / Regresión Múltiple (xz|y)≥3 D C,D Indep. No Par. Regresión logística múltiple Multivariante / Regresión Logística (xz|b)≥3 D N,D Indep. No Par. Mantel-Haenszel Análisis / Epidemiología (b|b) / Mantel-Haenszel≥3 N C,D Indep. Param. Análisis discriminante múltiple No disponible≥3 O C,D Indep. No Par. Regresión "Odds proportional" múltiple No disponible≥3 Cens. C,D Indep. No Par. Regresión de Cox múltiple Multivariante / Regresión de Cox (xz|y cens)≥3 C,C N Indep. Param. MANOVA No disponible≥4 C,C N,C Indep. Param. MANACOVA No disponible2 C,C Indep. Param. r de Pearson Análisis / x|y / Regresión Lineal Simple2 C,C Indep. No Par. Rho de Spearman Análisis / x|y / Regresión Lineal Simple

Resumen de utilización de las 50 principales técnicas estadísticas

¡ Las pruebas Estadísticas dependen del tipo de variable !

QA

Page 28: curso _gstat_12

28

CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

Estudio Migraña¿De qué tipo son las variables del estudio?

Fichero: Migranna1.txt

Page 29: curso _gstat_12

29

Descriptiva univariante variables Cualitativas (a)Frecuencias y Barras

Frecuencias==============================================Número de Casos: 259

INTENSIDAD Frecuencias Porcentajes -------------------------------------------Leve 22 8.49 Moderada 149 57.53 Severa 88 33.98

-------------------------------------------Total 259 100.00

SEXO Frecuencias Porcentajes --------------------------------------Hombre 81 31.52 Mujer 176 68.48

--------------------------------------Total 257 100.00

Moda: nivel observado más frecuente

Fichero: Migranna1.txt Descriptiva / Cualitativas (a)(b) Bivariantes , cruces

Page 30: curso _gstat_12

30

Descriptiva bivarianteCruces o Tablas de dos variables cualitativas (a|b)

¿Cómo se distribuye la Intensidad de la migraña en los dos Sexos?

Fichero: Migranna1.txt

( SEXO | INTENSIDAD )

¡Hablar de los modelos !

Descriptiva / Tablas (a|b) / Tablas

Page 31: curso _gstat_12

31

Descriptiva bivarianteCruces o Tablas de frecuencias (a|b)

¿ En qué sexo se produce una mayor frecuencia de migrañas Leves?

Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================

Número de Casos: 257

INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila

-------------------------------------------------------------------------| 11 | 54 | 16 | 81

Hombre | 4.28 | 21.01 | 6.23 | 31.52 -------------------------------------------------------------------------

| 11 | 94 | 71 | 176 Mujer | 4.28 | 36.58 | 27.63 | 68.48

-------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00

Los porcentajes de cada celda se refieren al total de la tabla

Q&A

Page 32: curso _gstat_12

32

Descriptiva bivariante¿En qué sexo se produce una mayor frecuencia de migrañas Leves?

Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================

Número de Casos: 257

INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila

--------------------------------------------------------------------------| 11 | 54 | 16 | 81

Hombre | 13.58 | 66.67 | 19.75 | 31.52 --------------------------------------------------------------------------

| 11 | 94 | 71 | 176 Mujer | 6.25 | 53.41 | 40.34 | 68.48

--------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00

Los porcentajes de cada celda se refieren al total de cada fila

Fichero: Migranna1.txt Cuanti

Page 33: curso _gstat_12

33

Descriptiva Estudio MigrañaCuantitativa (y): descriptiva univariante

Fichero: Migranna1.txt

CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 80.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

Page 34: curso _gstat_12

34

0,0 2,9 4,9 6,4 8,6 . . . 33,40,0 2,9 5,0 6,4 8,6 . . . 34,30,0 3,1 5,0 6,6 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 35,70,0 3,4 5,1 6,9 8,6 . . . 35,70,3 3,4 5,1 6,9 8,6 . . . 37,10,3 3,4 5,1 6,9 8,6 . . . 37,70,4 3,6 5,1 6,9 8,7 . . . 37,91,1 3,6 5,4 7,1 9,1 . . . 40,01,4 4,0 5,4 7,1 9,1 . . . 41,11,4 4,1 5,7 7,1 9,1 . . . 41,71,7 4,3 5,7 7,1 9,1 . . . 42,92,0 4,3 5,7 7,1 9,1 . 18,57 . 42,92,1 4,3 5,7 7,1 9,3 . . . 48,62,3 4,3 5,7 7,1 9,6 . . . 48,62,3 4,3 5,7 7,1 9,7 . . . 50,02,3 4,3 6,0 7,4 10,0 . . . 51,42,3 4,6 6,0 7,7 10,3 . . . 52,02,3 4,6 6,0 7,9 10,3 . . . 54,02,3 4,6 6,0 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 68,62,6 4,7 6,3 8,0 10,8 . . . 77,52,6 4,7 6,3 8,6 10,8 . . . 80,0

Descriptiva Variable Productividad ordenada

N=253

Page 35: curso _gstat_12

35

Descriptiva Variables Cuantitativas (y)Medidas de Centralización y Posición: Cajas (Box-Plot)

Percentil 50%MedianaQ2: 10.8

Percentil 25%Cuartil inferior

Q1: 5.7

Percentil 75% Cuartil superior

Q3: 18.5

Mínimo: 0,0 Máximo: 80

Rango intercuartílico: 12.8

Amplitud: 80

14.7n

xxmedia === ∑ i

dt

Page 36: curso _gstat_12

36

Descriptiva: Medidas de dispersiónDesviación Típica

Var _uno000000999999

1)( 2

1 −−Σ

=− nxx

S in

Desviación Típica 4.70Varianza 22.09

Desviación Típica 2.93Varianza 8.63

Estadístico Var-dos ------------------------------N 12 Media 4.5 Mediana 4.5Amplitud 9.0

Estadístico Var-uno ------------------------------N 12 Media 4.5Mediana 4.5Amplitud 9.0

Var _dos003334566699 output

Page 37: curso _gstat_12

37

Descriptiva Variables CuantitativasMedidas de Centralización y Posicionamiento: Cajas

----------------------------------------Estadístico PRODUCTIVIDAD

----------------------------------------

N 253

Media 14.7231

Mediana 10.8600

Moda 14.2900

Varianza 188.7021

Desviación Típica 13.7369

E.E. de la Media (*) 0.8636

Mínimo 0.0000

Máximo 80.0000

Rango 80.0000

Cuartil Inferior 5.7100

Cuartil Superior 18.5700

Rango Intercuartílico 12.8600

Asimetría 2.0694

Curtosis 5.2820

Coeficiente de Variación 93.3015

Fichero: Migranna1.txt Descriptiva / Cuantitativa(y) Histogramas

Page 38: curso _gstat_12

38

Descriptiva Variables Cuantitativas (y)Histogramas, Discretizar una variable Cuantitativa

Fichero: Migranna1.txt normal

Page 39: curso _gstat_12

39

Histograma

Ventaja

N( m=-0.17, dt=2.1)Distribución Normal

Si la variable sigue una distribución Normal toda la información de la muestra queda recogida con la Media y Desviación Estándar

4,503,50

2,501,50

,50-,50

-1,50-2,50

-3,50-4,50

-5,50

30

20

10

0

4,503,50

2,501,50

,50-,50

-1,50-2,50

-3,50-4,50

-5,50

30

20

10

04,50

3,502,50

1,50,50

-,50-1,50

-2,50-3,50

-4,50-5,50

30

20

10

0

-> =

Comprobación del ajuste

Descriptiva

Histograma y Ajuste a la Normalidad

Para contrastar si variable sigue una distribución normal se aplicará la prueba de Kolmogorov con la correción de Lilliefords (KL) o la de Shapiro-WilK(SW)

Gauss

Page 40: curso _gstat_12

40

Descriptiva

Gauss

C.F. Gauss (1777-1855)

heuristico

Page 41: curso _gstat_12

41

Descriptiva

Las normales/gausianas se dan en la naturaleza

Normalidad test

Page 42: curso _gstat_12

42

Comprobar si la variable PRODUCTIVIDAD sigue una distribución normal

Descriptiva

Diagnóstico de Normalidad (I)

Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt

D+ de Kolmogorov: 0.16.80D- de Kolmogorov: -0.1419DN: 0.16.8p-valor: 0.0006E-3

p-valor Lilliefors corregido: 0.0004E-15

W Shapiro-Wilk: 0.7998p-valor Shapiro-Wilk: 0.0008E-13

Normalidad test II

Page 43: curso _gstat_12

43

Comprobar si la variable LEUCOS sigue una distribución normal

Descriptiva

Diagnóstico de Normalidad (II)

Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt Chevicheff

D+ de Kolmogorov: 0.0350D- de Kolmogorov: -0.0443DN: 0.0443p-valor: 0.8753

p-valor Lilliefors corregido: >0.1

W Shapiro-Wilk: 0.9898p-valor Shapiro-Wilk: 0.2308

Page 44: curso _gstat_12

44

DescriptivaUtilidad de la Desviación típica como descriptor

Dos grupos

99,997,293,8499,795,188,8395,588,875286,680,255,51,568,255,501

NormalSimétricaCualquieraK dt

% Casos entre la media ± K dt

Page 45: curso _gstat_12

45

Descriptiva bivariante

Grupos(a|y)

¿La Intensidad de la migraña influye en la Productividad?

¿Puede una variable discreta (a) explicar una continua (y)?

Grupos de Cuantitativa (a|y):

Page 46: curso _gstat_12

46

Descriptiva bivariante

Cuantitativa (a|y): Grupos

Descriptiva de la variable PRODUCTIVIDAD por INTENSIDAD

Descriptiva / Grupos (a|y)

Estadísticos para PRODUCTIVIDAD por INTENSIDAD------------------------------------------------------Grupos Leve Moderada Severa

------------------------------------------------------N 21 147 85 Media 6.728 12.682 20.710 Mediana 4.570 10.860 14.290 Desviación Típica 7.152 9.1926 18.780Mínimo 0.000 0.0000 0.0000 Máximo 34.29 50.000 80.000 Cuartil Inferior 3.430 6.2900 5.7100 Cuartil Superior 8.000 17.710 27.430

------------------------------------------------------

Fichero: Migranna1.txt los dos

Page 47: curso _gstat_12

47

Descriptiva bivarianteLos dos estadísticos descriptivos más importantes del mundo

Diferencia de proporciones p2-p1 Diferencia de medias m2-m1

Diferencia de Productividad entre Localización

Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION

Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------

Diferencia de Medias: 7.2327

Diferencia de Eficacia entre Analgésicos

Tabla de Frecuencias de EFICACI por ANALGESIC===========================================

ANALGESICO | A | B EFICACIA | | |

---------------------------------------------| 116 | 63 |

SI | 66.2% | 77.7% | --------------------------------------------

| 59 | 18 | NO | 33.7% | 22.2% |

--------------------------------------------Total | 175 | 81 |

Diferencia de proporciones: 11.5 %

Epi y diag

Page 48: curso _gstat_12

48

Descriptiva

Mas allá de la descriptiva clásica (b|b)

• Epidemiología (b|b)Odds Ratio Riesgo Relativo Diferencia de Riesgos

• Diagnóstico (b|b)SensibilidadEspecificidadVP-; VP+; LR

Medidas de Efecto en:

Page 49: curso _gstat_12

49

Datos de un estudio prospectivo de salud dental en 76 niños.

Se estudia la relación entre la aparición de caries y una dieta pobre en vegetales y fibra

Descriptiva en Epidemiología Estudio prospectivo de salud dental

Dieta Pobre FibraFactor (Causa)

CariesRespuesta(Efecto)

a|b

Page 50: curso _gstat_12

50

Datos

Estudio prospectivo

Datos experimentales

N=76

DPF | Si Exp + | No Exp - | Total Caries | | | Fila -----------------------------------------------------Si | 21 | 16 | 37 Res+ | 72.4% | 34.0% | -----------------------------------------------------No | 8 | 31 | 39 Res- | 27.5% | 65.9% | -----------------------------------------------------Total | 29 | 47 | 76

¿Cómo se puede medir la asociación entre DPF y Caries ?

Factor Exposición

Res

pues

ta/ E

vent

o

Page 51: curso _gstat_12

51

Medidas de riesgo basadas en el cociente

Riesgo relativo: ratio de las proporciones de eventos entre sujetos con factory sin factor de riesgo.

Odds ratio: cociente entre los odds del grupo con el factor y sin el factor

Descriptiva

Medidas de Efecto en Epidemiología

Medidas de riesgo basadas en la diferenciaDiferencia absoluta de riesgo: diferencia entre la proporción de eventos en expuestos y no expuestosDiferencia relativa de riesgoReducción absoluta de riesgoReducción relativa de riesgo

Número necesario a tratar (NNT) : inverso de la diferencia de riesgo

Page 52: curso _gstat_12

52

60.21trataranecesarioNúmero

38,0riesgo de absoluta Diferencia

08.58·16

31·21RatioOdds

12.234.072.0

)/()/( RelativoRiesgo

48.07637aPrevalenci

=−

=

=−=

===

==++

=

==+++

+=

RnFRF

RnFRFbcad

dbbcaadcba

ba

Descriptiva

Medidas de Efecto en Epidemiología: Ejemplo

Evento

No evento

Total

a = 21 b = 16 a+b=37

c = 8 d = 31 c+d=39

a+c=29 b+d=47 76

Presenciafactor

Ausenciafactor

Total

Page 53: curso _gstat_12

53

Descriptiva

Medidas de Efecto : Resultados

Medidas de Asociación en Estudios Epidemiológicos=========================================================================Número de Casos : 76

Localización RR EE[LnRR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 2.1272 0.2332 1.3469 3.3594

Asumiendo Explicativa en Columnas y Respuesta en Filas con:

Localización OR EE[LnOR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 5.0859 0.5171 1.8460 14.0125

Análisis /Epidemiología b|b / Tablas. Datos Agrupados / Ejemplo por defecto

Page 54: curso _gstat_12

54

Se estudia la fiabilidad de un nuevo diagnóstico para la candidiasis infectiva (CI)

Índices de Fiabilidad en Diagnóstico

Ejemplo

Entre los métodos paraclínicos disponibles para el diagnóstico de CI el hemocultivo tiene una baja sensibilidad (10-43%) comparado con la necropsia. Lo anterior ha motivado del desarrollo de métodos alternativos basados en la determinación de anticuerpos en suero mediante ELISA, inmunodifusión, etc.

Page 55: curso _gstat_12

55

Estudio de Diagnóstico

Datos experimentales

Número de Casos: 90

| Test + | Test - | Total | | | Fila

-------------------------------------------------------| 30 | 10 | 40

EN + | 33.33 | 11.11 | 44.44 -------------------------------------------------------

| 5 | 45 | 50 EN - | 5.56 | 50.00 | 55.56

-------------------------------------------------------Total | 35 | 55 | 90Columna | 38.89 | 61.11 | 100.00

Los porcentajes de cada celda se refieren al total de la tabla

Como se puede medir la relación entre los resultados Test+/- y el EN +/-

Page 56: curso _gstat_12

56

Permiten evaluar la fiabilidad de un dispositivo o test

Descriptiva

Índices de Fiabilidad en Diagnóstico

Sensibilidad: porcentaje de Test + en Enfermos

Especificidad: porcentaje de Test - en Sanos

Valor Predictivo Positivo: porcentaje de Enfermos en Test +

Valor Predictivo Negativo: porcentaje de Sanos en Test -

Asociados a tablas de frecuencia 2x2

b|b

Page 57: curso _gstat_12

57

Enfermo

Sano

Total

a = 30 b = 10 a+b=40

c = 5 d = 45 c+d=50

a+c=35 b+d=55 90

Test + Test -

Total

90.05045

75.04030S

==+

=

==+

=

dcddadEspecifici

baadensibilida

Descriptiva

Índices de Fiabilidad en Diagnóstico: ejemplo

811.05545

857.03530

==+

=

==+

=

dbdNegVP

caaPosVP

Q&A

Page 58: curso _gstat_12

58

Descriptiva

Índices de Fiabilidad en Diagnóstico

Análisis/ Diagnostico (b|b) /Tablas. Datos Agrupados/ Ejemplo por defecto

Índices Diagnósticos================================================================================

Variable Estado de la Naturaleza: ENVariable Test: Test

Prevalencia = 0.4444

Sensibilidad = 0.7500 con I.C. al 95.00% [0.5880,0.8731]Especificidad = 0.9000 con I.C. al 95.00% [0.7819,0.9667]

Prob(EN+ | Test+) = 0.8571 si Prev = 0.4444 con I.C. al 95.00% [0.7412,0.9731]Prob(EN+ | Test-) = 0.1818 si Prev = 0.4444 con I.C. al 95.00% [0.0410,0.3226]

fin

Page 59: curso _gstat_12

59

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza

Page 60: curso _gstat_12

60

Concepto de Estimación de ParámetrosError EstandarIntervalos de Confianza

Módulo III

Técnicas de Estimación de parámetros poblacionales

Una ojeada al universo

ejemplos

Page 61: curso _gstat_12

61

Prevalencia de EPOC (%)

Duración media del efecto analgésico (media)

Tiempo mínimo hasta pico de cc. máxima (mínimo)

Porcentaje de éxitos quirúrgicos (%)

Diferencia de eficacia entre dos fármacos (dif. medias)

Mediana del incremento de IgE tras inmunoterapia (mediana)

Dispersión de la glucemia en ayunas (varianza)

Relación cloración del agua e infecciones (RR)

El 50% de datos centrales (Rango IQ)

Estimación

Ejemplos de parámetros poblacionales

IC en publicaciones

Page 62: curso _gstat_12

62

Ejemplos de IC

Esquema IC

Page 63: curso _gstat_12

63

De letras latinas a griegasDe estadísticos a parámetros

Información de la muestra

Características de la población

Parámetros

μ σ π

EstimaciónConcepto de Estimación de parámetros poblacionales

Estimación

Estadísticos

x s p

muestra población

Propiedades de las muestras

Page 64: curso _gstat_12

64

Muestra

Dos propiedades de las muestras

Representativa

Aleatoria n suficiente

Población

Calidad Cantidad (TM)

goodnews

Page 65: curso _gstat_12

65

Estimación

¡Buenas Noticias!

La media muestral es un buen estimador de la media poblacional

μ=)(xE

La desviación típica muestral es un buen estimador de la dt poblacional

σ=−=− )(1)( 1 sEnnsE n

La prevalencia muestral es un buen estimador de la prevalencia poblacional

π=)( pE

Que significa ser un buen parámetro poblacional ?

El or muestral es un buen estimador del OR poblacional

ORorEnnorE =−= )()( 1

Page 66: curso _gstat_12

66

Ser un estimador adecuado no significa ..., significa ...

... manejo de la incertidumbrey de la imprecisión

Estimación

Concepto de estimación de parámetros

Construccion de IC

Page 67: curso _gstat_12

67

Estimación

Intervalo de Confianza (IC) de una proporción (prevalencia)

Muestra (estadístico p) p=22%

Población (parámetro π) 19% 25%IC 95%

Imprecisión± 3%

Confianza95%

Dos propiedades de los IC

Formula proporciones

Page 68: curso _gstat_12

68

⎥⎥⎦

⎢⎢⎣

⎡ −⋅+≤≤

−⋅−=

nppzp

nppzpIC )1()1(%95 2/2/ αα π

Estimación

Intervalo de confianza para una proporción

Parámetro: Prevalencia Poblacional

Límites de confianza

Nivel de confianza

Error Estándar

[ ]322322%95 +≤≤−= πIC

[ ]%25%19%95 ≤≤= πIC

Ejemplo

Concepto de confianza

Page 69: curso _gstat_12

69

0

0.10

0.20

0.30

0.40

0.50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20muestra

Prevalencia poblacionalProporción muestral

EstimaciónConcepto de Confianza

π

interpretaciones

Page 70: curso _gstat_12

70

Interpretación InformalUn rango de valores en donde se tiene una confianza del 95% que se encuentre el parámetro poblacional

Interpretación estrictaSi repitiésemos el experimento 100 veces con distintas muestras, en 95 ocasiones el IC calculado contendrían el valor del parámetro poblacional

EstimaciónInterpretación del IC del 95%

n y la imprecisión

Page 71: curso _gstat_12

71

Estimación

El tamaño muestral condiciona la imprecisión

0

0,02

0,04

0,06

0,08

0,1

0,12

0 200 400 600 800 1000 1200 1400

Tamaño Muestral

Impr

ecis

ión

IC = 0,95 p = 10%

Formula medias

Page 72: curso _gstat_12

72

⎥⎦

⎤⎢⎣

⎡+≤≤−= −

−−

−n

stx

ns

txIC nn

nn

11

11%95 μ

Estimación

Intervalo de confianza para la media poblacional

Parámetro: Media Poblacional

Límites de confianza

Nivel deconfianza

Estimo

Error Estándar

Ejemplo [ ]3032030320%95 +≤≤−= μIC

[ ]350290%95 ≤≤= μIC

Factor relacionadocon la confianza

Factor de confianza

Page 73: curso _gstat_12

73

0.200.25

0.300.38

0.400.52

0.500.67

0.600.84

0.701.03

0.801.28

0.901.64

0.951.96

0.972.24

0.982.32

0.992.58

0.9952.8

0.9993.29

Nivel de confianzaK

Estimación

Factores relacionados con el nivel de confianza

Ej. FBG

Page 74: curso _gstat_12

74

[ ]

[ ]81.409 51.379

69.7·96.166.39469.7·96.166.394

⇔=

+⇔−

Intervalo de confianza al 95%

Análisis / Cuantitativa (y)/ t-Student

Estimación

Intervalo de confianza: ejemplo FBG

Variable: FBG: Fibrinógeno sérico

Estadísticos para la variable FBG

----------------------------------Estadístico FBG

----------------------------------N 257 Media 394.66Desviación Típica 123.31E.E. de la Media (*) 7.6919

----------------------------------

(*) Usar con propósito de estimación para el I.C. de la media

Migranna1.txt los 2 importantes

Page 75: curso _gstat_12

75

DescriptivaRecordatorio: Los dos estadísticos descriptivos más importantes del mundo

Diferencia de proporciones p2-p1 Diferencia de medias m2-m1

Diferencia de Productividad entre SexosDiferencia de Eficacia entre Analgésicos

Toda “medida” debe tener su IC

Tabla de Frecuencias de EFICACI por ANALGESIC===========================================

ANALGESICO | A | B EFICACIA | | |

---------------------------------------------| 116 | 63 |

SI | 66.2% | 77.7% | --------------------------------------------

| 59 | 18 | NO | 33.7% | 22.2% |

--------------------------------------------Total | 175 | 81 |

Diferencia de proporciones: 11.5 %

Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION

Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------

Diferencia de Medias 7.2327

Page 76: curso _gstat_12

76

Estimación de la Diferencia Poblacional deDos Proporciones

-----------------------------------------------

Grupo Trat B Trat A-----------------------------------------------Tamaños Muestrales: 81 175 Proporciones: 0.7770 0.6620E. E. de las proporciones: 0.0463 0.0358

-----------------------------------------------

Diferencia de proporciones: 0.1150

Estimación----------I.C. al 95.00% para la diferencia : 0.1150 +/- 0.1146 [0.0004, 0.2296]

Recordatorio: Los dos estadísticos descriptivos más importantes del mundo

Intervalos de confianza

Analisis / Dos Grupos(b|y )/ t-Student

Fichero: Migranna1.txt

Analisis / Tablas (a|b) / Dos Prop. Datos Agrupados

Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION

Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------

E. E. de la Diferencia de Medias: 1.8773 Diferencia de Medias 7.2327

Estimación----------I.C al 95% para la diferencia de medias:7.2327 +/- 3.6974 [3.5352, 10.9301]

IC riesgo

Page 77: curso _gstat_12

77

Seguridad

Riesgo de A RA 3% [0.62% 8.52%]

Riesgo de B RB 1% [0.03% 5.45%]

Riesgo Relativo: RRAB RA / RB 3.0 [0.31 28.3 ]

Diferencia Absoluta de Riesgo (DAR) RA-RB 2% [-1.87% 5.87%]

Diferencia Relativa de Riesgo 200%

Trat A Trat BEA 3 1No EA 97 99

100 100

Intervalos de confianza de Medidas de Riesgo

Número Necesario Tratar para Dañar (NND) 50 [-54 17]

OR 3.06 [0.31 29.9]

IC eficacia

Page 78: curso _gstat_12

78

Eficacia de A EA 75% [65.3% 83.1%]

Eficacia de B EB 60% [49.7% 69.6%]

Eficacia Relativa: ERAB EA / EB 1.25 [1.02 1.52]

Eficacia

Intervalos de confianza de Medidas en EficaciaTrat A Trat B

Sano 75 60Enf 25 40

100 100

Diferencia Absoluta de Eficacia EA-EB 15% [2.19% 27.8%]

Diferencia Relativa de Eficacia 25% [2% 52%]

Número Necesario Tratar para Curar (NNT) 7 [4 46 ]

OR 2.0 [1.09 3.65 ]

IC en publicacines

Page 79: curso _gstat_12

79

Ejemplos de IC

fin

Page 80: curso _gstat_12

80

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas / InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza

Page 81: curso _gstat_12

81

6D4_10

PRUEBAS ESTADÍSTICAS

¡ El momento de la decisión !

Módulo IVPruebas Estadísticas BásicasMódulo IVPruebas Estadísticas Básicas

Contraste de Hipótesis

Comparando tratamientos

Page 82: curso _gstat_12

82

SimulacionesSimulaciones

Lanzamiento de una moneda

publicacion

Page 83: curso _gstat_12

83

Ejemplos de ObjetivosEjemplos de Objetivos

Ejenplo CV

Page 84: curso _gstat_12

84

Pruebas Estadísticas Básicas

Ejemplo: Factores de riesgo CVPruebas Estadísticas Básicas

Ejemplo: Factores de riesgo CV

En una muestra de 195 hipertensos se ha recogido información relacionada con factores de riesgo cardiovascular: Diabetes, Dislipemia, Tabaquismo, etc

Se les ofrecieron 3 tratamientos para el control de la HTA y se evaluaron los resultados.

BD

Page 85: curso _gstat_12

85Factores de riesgo cv1.txt

Pruebas Estadísticas Básicas

Datos: Factores de riesgo CVPruebas Estadísticas Básicas

Datos: Factores de riesgo CV

Pregunttas para IC CH

Page 86: curso _gstat_12

86

¿Influye el Sexo (b) en la TAD inicial (y)?

Pruebas Estadísticas Básicas PreguntasPruebas Estadísticas Básicas Preguntas

¿Cúal es la diferencia de la TAD inicial entre hombres y mujeres?

IC 95% [0.67 (2.29) 3.90 mmHg]

Pregunta para Estimación

Pregunta para Contraste de hipótesis

hipótesis

Page 87: curso _gstat_12

87

Podemos reformular los objetivos de un estudio:

Pruebas Estadísticas Básicas

Como transformar objetivos en hipótesisPruebas Estadísticas Básicas

Como transformar objetivos en hipótesis

Ho: No hay diferencias entre los tratamientos A y B H1: Hay diferencias entre los tratamientos A y B

Ho: El descenso de la T.A. con X es <= 70 mmHg / mesH1: El descenso de la T.A. con X es > 70 mmHg / mes

Ho: Dos parámetros bioquímicos no están asociadosH1: Dos parámetros bioquímicos están asociados

Ho: La TAD es igual para hombres y mujeresH1: La TAD es distinta para hombres y mujeres

Tipos de hipótesis

Page 88: curso _gstat_12

88

Hipótesis Nula (Ho):

Aquella que se formula con el único objetivo de rechazarla

Es una hipótesis conservadora

Connotación: ‘igualdad’

Hipótesis Alternativa (H1):

Cualquiera distinta de Ho

Es la hipótesis objetivo de interés

Es la hipótesis arriesgada

Pruebas Estadísticas Básicas

HipótesisPruebas Estadísticas Básicas

Hipótesis

Riesgos en la decisión

Alfa y beta

Page 89: curso _gstat_12

89

REALIDAD

DECISION Ho Verdadera H1 Verdadera

OK(1-alfa)

Riesgo alfa F +

Error tipo I

Riesgo betaF –

Error tipo II

OK(1-Beta )

Poder

Aceptar Ho(No Rechazar)

Aceptar H1

Antes del experimento

n = f (alfa, beta)

Pruebas Estadísticas Básicas

Cómo convivir con los riesgos de la experimentaciónPruebas Estadísticas Básicas

Cómo convivir con los riesgos de la experimentación

T l central

Page 90: curso _gstat_12

90

Pruebas Estadísticas BásicasLocalización y medida de riesgos

Pruebas Estadísticas BásicasLocalización y medida de riesgos

Sexo y tad

Page 91: curso _gstat_12

91Factores de riesgo cv1.txt

Pruebas Estadísticas Básicas

Datos: Factores de riesgo CVPruebas Estadísticas Básicas

Datos: Factores de riesgo CV

Pregunta CH +descriptiva

Page 92: curso _gstat_12

92

Descriptiva

Hombres Mujeres

Media (x)

D. típica (s)

n

102.24

6.08

98

99.95

4.74

84

Pruebas Estadísticas Básicas

Cómo funcionanPruebas Estadísticas Básicas

Cómo funcionan

mmHgmh xxDif 29.2)( =−

¿Influye el Sexo (b) en la TAD inicial (y)?

Estad contras

Hipótesis:

Ho: No, la TAD es igual para hombres y mujeres (la diferencia es cero).

H1: Sí, la TAD es distinta para hombres y mujeres (la diferencia no es cero)

Page 93: curso _gstat_12

93

Estadístico de Contraste, texp

Pruebas Estadísticas Básicas

Estadístico de contrastePruebas Estadísticas Básicas

Estadístico de contraste

79.284.029.2

11||

toEstadístic exp ==+

−=

mhp

mh

nns

xx

46.82

)1()1( 22=

−+−+−

=mh

mmhhp nn

snsns

Estadísticos Descriptivos

Interpretación de texp

Page 94: curso _gstat_12

94

El estadístico texp muestral representa un valor queresume la evidencia (prueba) en contra de Ho

Si Ho es cierta, las posibles texp muestrales tendránvalores cercanos a cero

Pruebas Estadísticas Básicas Interpretación de texpPruebas Estadísticas Básicas Interpretación de texp

esquema decision

Page 95: curso _gstat_12

95

Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones

Prob (p) Ho verdadera

0

Alta

*Acepto Ho Acepto H1

Región Crítica de aceptación

Muy Baja

8

Tabla

α = 0.05α = 0.01Nivel de significación

Decisión

?

texp

01

* No rechazo

tabla

Page 96: curso _gstat_12

96

3.2913.0912.5762.3261.9601.6451.282∞

3.3733.1602.6172.3581.9801.6581.289120

3.4603.2322.6602.3902.0001.6711.29660

3.6463.3852.7502.4572.0421.6971.31030

3.8503.5522.8452.5282.0861.7251.32520

4.5874.1443.1692.7642.2281.8121.37210

12.92410.2145.8414.5413.1822.3531.6383

31.60022.3289.9256.9654.3032.9201.8862

636.578318.28963.65631.82112.7066.3143.0781

0.0010.0050.010.020.050.1α = 0.2

Probabilidad de H0 cierta

Tabla texp y probabilidadesTabla texp y probabilidades

texp= 2.79 p-valor=0.0057

gl; T

amañ

o de

la m

uest

ra

esquema

Page 97: curso _gstat_12

97

Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones

Probabilidad (p)//Ho verdadera

0

Alta

*Acepto Ho Acepto H1

8

Tabla

α = 0.05Nivel de significación

Decisión

texp

01 p-valor=0.0057

2.79

Q&A

resumen

Page 98: curso _gstat_12

98

texp = = 2.792.29

0.84

Estadístico de contraste

p=0.0057

Evidencia a favor H0

Pruebas Estadísticas Básicas

Contraste de Hipótesis para Diferencia de MediasPruebas Estadísticas Básicas

Contraste de Hipótesis para Diferencia de Medias

Rechazar H0

Aceptar H1

Decisión

Hombres MujeresMedia(x)

D.típica(s)

n

102.24

6.08

98

99.95

4.74

84

Estadísticos descriptivos

foto

Page 99: curso _gstat_12

99

GOSSET, William Sealy ('Student') 1876-1937

Pruebas Estadísticas Básicas

StudentPruebas Estadísticas Básicas

Student

Practica

Page 100: curso _gstat_12

100

Pruebas Estadísticas Básicas

Dos grupos independientes (b|y): t-Student (1de2)

Pruebas Estadísticas Básicas

Dos grupos independientes (b|y): t-Student (1de2)

Análisis /Dos Grupos (b|y) / t-StudentFactores de riesgo cv1.txt

Page 101: curso _gstat_12

101

Variable Respuesta: TADINICIALVariable Explicativa: SEXO

Grupo Hombre Mujer -----------------------------------------------Tamaños Muestrales 98 84 Medias: 102.2449 99.9524Desviaciones Típicas: 6.0863 4.7406 E. E. de las Medias: 0.6148 0.5172

-----------------------------------------------Diferencia de Medias 2.2925

Estimación----------I.C. al 95.00% para la diferencia de medias: 2.2925 +/- 1.6157 [0.6768, 3.9082]

t-Student---------Hipótesis Nula: diferencia de medias = 0.0000Hipótesis Alternativa: no igualt-Student: 2.7998p-valor: 0.0057

Pruebas Estadísticas Básicas

Dos grupos independientes (b|y): t-Student (2de2)

Pruebas Estadísticas Básicas

Dos grupos independientes (b|y): t-Student (2de2)

Factores de riesgo cv1.txt Clasificacion b|yAnálisis /Dos Grupos (b|y) / t-Student

Page 102: curso _gstat_12

102

2 GRUPOS

Independientes

Pareados

Normalidad ó Grupos grandes

t-Student

t-Student pareada

Mann-Whitney (Wilcoxon)

Wilcoxon pareado

Pruebas Estadísticas Básicas

Modelos (b|y)Pruebas Estadísticas Básicas

Modelos (b|y)

Prueba

t-pareada

No-Normalidad y Grupos pequeños

Normalidad ó Grupos grandes

No-Normalidad y Grupos pequeños

Page 103: curso _gstat_12

103

¿Disminuye la TAD >8 mmHg con el tratamiento?

Pruebas Estadísticas Básicas

Dos grupos pareadosPruebas Estadísticas Básicas

Dos grupos pareados

Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados descriptiva

Page 104: curso _gstat_12

104

HIPÓTESIS

Ho: No: La disminución de TAD es =<8 mmHg

H1: Si: La disminución de TAD es >8 mmHg

Se modeliza la diferencia de TAD (antes-después)

Pruebas Estadísticas Básicas

Dos grupos pareados (y)Pruebas Estadísticas Básicas

Dos grupos pareados (y)

Estadísticos TADINICIAL-TADFINAL -------------------------------------------N 186 Media 8.7285 Mediana 6.7500 Desviación Típica 8.2542 Mínimo -7.5000 Máximo 43.5000

Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados output

Page 105: curso _gstat_12

105

Pruebas Estadísticas Básicas

Dos grupos pareados: t-Student datos pareadosPruebas Estadísticas Básicas

Dos grupos pareados: t-Student datos pareados

Análisis / Dos Grupos (b|y) / t-Student Pareados

Estimación y Contraste de Una Media Poblacional para TADINICIAL menos TADFINAL====================================================

Tamaño Muestral: 186Media: 8.7285

Estimación----------I.C. inferior al 95.00% para la media: 8.7285 - 1.0005 [7.7280]

t-Student---------Hipótesis Nula: media = 8.0000Hipótesis Alternativa: mayor queEstadístico de contraste t: 1.2037p-valor: 0.1151

Factores de riesgo cv1.txtK grupos

Page 106: curso _gstat_12

106

2 GRUPOS

K GRUPOS

Independientes

Pareados

t-Student

t-Student pareada

Mann-Whitney (Wilcoxon)

Wilcoxon pareado

Independientes

Pareados

ANOVA 1 factor

Kruskal-Wallis

Friedman

ANOVA un factor con bloques

Pruebas Estadísticas Básicas

Pruebas Básicas Modelos (a|y)Pruebas Estadísticas Básicas

Pruebas Básicas Modelos (a|y)

Normalidad y Homoc.

Normalidad y HMCD

No-Normalidad o No-Homoc.

No-Normalidad o No-HMCD

Normalidad ó Grupos grandes

No-Normalidad y Grupos pequeños

Normalidad ó Grupos grandes

No-Normalidad y Grupos pequeños

Page 107: curso _gstat_12

107

HIPÓTESIS

Ho: No hay diferencias en las TAD finales de los tres TTOs

H1: Si hay diferencias en las TAD finales de los tres TTOs

Se desea comparar la eficacia de tres tratamientos en cuanto a la TAD final

Pruebas Estadísticas Básicas

k grupos independientes (a|y)Pruebas Estadísticas Básicas

k grupos independientes (a|y)

Tratamiento:DietaEjercicioFármaco

Objetivo

TAD Final(a|y)

Page 108: curso _gstat_12

108

DescriptivaDatos

Pruebas Estadísticas Básicas

k grupos independientesPruebas Estadísticas Básicas

k grupos independientes

Anova / Anova Un Factor (a|y)

Estadísticos para la variable TADFINAL por TTOHTA

Grupos Ejercicio Dieta Farmaco-----------------------------------------------------N 65 56 60 Media 91.7462 95.4911 90.1958Mediana 93.7500 96.1250 90.7500 Desviación Típica 8.8204 8.3675 7.5365 Mínimo 73.0000 73.5000 72.0000 Máximo 114.0000 115.0000 107.5000

-----------------------------------------------------

Factores de riesgo cv1.txt output

Page 109: curso _gstat_12

109

Pruebas Estadísticas Básicas

k grupos independientes: AnovaPruebas Estadísticas Básicas

k grupos independientes: Anova

Anova /Anova 1 Factor

¿ Qué grupo o grupos son diferentes de los otros ?

Anova Un Factor===========================================================================

Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

---------------------------------------------------------------------------Suma de Cuadrado Cuadrados G.L. Medio F-valor p-valor

---------------------------------------------------------------------------Entre Grupos 854.3389 2 427.1695 6.2421 0.0024Dentro Grupos 12181.1935 178 68.4337

---------------------------------------------------------------------------Total (corr.) 13035.5325 180

---------------------------------------------------------------------------

Factores de riesgo cv1.txt Comp multi

Page 110: curso _gstat_12

110

Pruebas Estadísticas Básicas

Comparaciones múltiplesPruebas Estadísticas Básicas

Comparaciones múltiples

Comparaciones Múltiples

Anova, Comparaciones Múltiples===============================================Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

Método: LSD al 95.00%

-----------------------------------------Grupos

TTOHTA N Media Homogéneos-----------------------------------------Farmaco 60 90.1958 X Ejercicio 65 91.7462 X Dieta 56 95.4911 X

-----------------------------------------

Otra pregunta: Y si no fueran homocedásticos?

Factores de riesgo cv1.txt Anova /Anova 1 Factor/Comparaciones múltiples Snedecor

Page 111: curso _gstat_12

111

George W. Snedecor (1882 -1974)

Two famous works: Calculation and Interpretation of Analysis of Variance and Covariance (1934) and StatisticalMethods (1937). The latter work, ultimately co-authored with William G. Cochran, went through seven editionsbefore the death of both authors and sold more than 125,000 copies.

Pruebas Estadísticas Básicas

SnedecorPruebas Estadísticas Básicas

Snedecor

Kruscal Wallis ?

Page 112: curso _gstat_12

112

Normalidad + Igualdad de Varianzas (Homocedasticidad)

ANOVA

Pruebas Estadísticas Básicas

k grupos independientes (a|y): Anova ó KWPruebas Estadísticas Básicas

k grupos independientes (a|y): Anova ó KW

Si

Kruskal-Wallis

No

Grandes y Homocedásticos?

Homocedasticidad (en realidad heterocedasticidad)==============================================

Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

Prueba C de Cochran: 0.3802 P-valor = 0.5214Prueba de Bartlett: 1.5165 P-valor = 0.4685

a|b

Page 113: curso _gstat_12

113

Tablas

Independientes

Pequeñas muestras

Chi-Cuadrado*

McNemar

a|b

Pareados

Fisher

Pruebas Estadísticas Básicas

Pruebas básicas con Variables Cualitativas (a|b)Pruebas Estadísticas Básicas

Pruebas básicas con Variables Cualitativas (a|b)

Hasta ahora (a|y)Prueba

100 i100 i

Page 114: curso _gstat_12

114

0NO FUMA01EJERCICIOMujer45.87

0FUMA11DIETAMujer

0NO FUMA11EJERCICIOHombre53.87

0FUMA01FARMACOSHombre

0NO FUMA11DIETAHombre42.93

0NO FUMA01FARMACOSHombre49.54

0FUMA11FARMACOSHombre

0NO FUMA01FARMACOSHombre59.06

0FUMA11DIETAHombre

0FUMA11DIETAHombre41.63

0FUMA11FARMACOSHombre58.05

0NO FUMA01DIETAHombre56.05

0NO FUMA01FARMACOSMujer63.06

0NO FUMA11FARMACOSHombre58.02

0NO FUMA11EJERCICIOHombre54.06

0NO FUMA11FARMACOSHombre55.79

0NO FUMA01Hombre

0FUMA01FARMACOSHombre62.08

0FUMA11FARMACOSHombre59.36

0NO FUMA01FARMACOSHombre

IAMTABACODISLIPDIABTTOHTASEXOEDAD

Pruebas básicas con Variables Cualitativas

Listado de la BDPruebas básicas con Variables Cualitativas

Listado de la BD

Factores de riesgo cv1.txt

Page 115: curso _gstat_12

115

Es uno de los contrastes más importantes en Tablas de Frecuencias

Pruebas Estadísticas Básicas

Prueba de Chi-CuadradoPruebas Estadísticas Básicas

Prueba de Chi-Cuadrado

Ho: No hay diferencias entre las proporciones. P’e=Pe; P’d=Pd; P’f=Pf

H1: Si hay diferencias entre las proporciones. Otra≠Ho

Contrastar si los fumadores eligieron los mismos tratamientos que los no fumadores

Chi 2

Page 116: curso _gstat_12

116

Descriptiva

Pruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: DescriptivaPruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: Descriptiva

Analisis/Tablas a|b/Chi Cuadrado

Tabla de Frecuencias de TTOHTA (filas) por TABACO (columnas)=================================================================

Número de Casos: 189

TABACO | FUMA | NO FUMA | Total TTOHTA | | | Fila

--------------------------------------------------------| 31 | 30 | 61

Dieta | 38.75 | 27.52 | 32.28 --------------------------------------------------------

| 20 | 47 | 67 Ejercicio | 25.00 | 43.12 | 35.45

--------------------------------------------------------| 29 | 32 | 61

Farmaco | 36.25 | 29.36 | 32.28 --------------------------------------------------------Total | 80 | 109 | 189 Columna | 42.33 | 57.67 | 100.00

Los porcentajes de cada celda se refieren al total de cada columna

Factores de riesgo cv1.txt

Page 117: curso _gstat_12

117

Estadístico de contraste Chi 2

CHi2exp =

CHi2exp =

(O1 - E1)2

(31 – 35.5)2

(O2 - E2)2

(30 – 27,8)2

(O6 – E6)2

(32 – 34.3)2

E1

35.5

E2

27.8

E6

34.3

+

+

+ +

+ +

...

.... 6.75=

Análisis / Tablas (a|b) / Chi-Cuadrado

Pruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: contrastePruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: contraste

Chi-Cuadrado de TTOHTA (filas) por TABACO (columnas)================================================================================

Tamaño Muestral: 189Estadístico de contraste Chi-Cuadrado: 6.7538G.L.: 2p-valor: 0.0342

Nº de celdas con frecuencias absolutas esperadas < 5: 0 de 6, un 0.0000%Nº de celdas con frecuencias absolutas esperadas < 1: 0 de 6, un 0.0000%

=

Factores de riesgo cv1.txt Tabla chi2

Page 118: curso _gstat_12

118

Pruebas Estadísticas Básicas

Tabla de Chi-CuadradoPruebas Estadísticas Básicas

Tabla de Chi-Cuadrado

Consideraciones chi2

Page 119: curso _gstat_12

119

• Los contrastes de Chi2 son, de modo inherente, unilaterales

• En tablas de 2x2 se aplica la corrección de Yates

• La frecuencia esperada en cada debe ser de 5 ó mayor

• Si no se cumple lo anterior se aplica la Prueba exacta de Fisher

• Para datos pareados se aplica la Prueba de McNemar

Pruebas Estadísticas Básicas

Consideraciones a cerca de Chi-CuadradoPruebas Estadísticas Básicas

Consideraciones a cerca de Chi-Cuadrado

Prueba Dislipemia Fisher

Page 120: curso _gstat_12

120

Pruebas Estadísticas Básicas

Ejemplo Dislipemias por Sexos en diabéticos: FisherPruebas Estadísticas Básicas

Ejemplo Dislipemias por Sexos en diabéticos: Fisher

¿Es la prevalencia de dislipemia diferente según el sexo,en la subpoblación de diabéticos?

Factores de riesgo cv1.txt Tabla

Page 121: curso _gstat_12

121

Pruebas Estadísticas Básicas

Fisher; DescriptivaPruebas Estadísticas Básicas

Fisher; Descriptiva

Tabla de Frecuencias de SEXO (filas) por DISLIPEM (columnas)==============================================================

Número de Casos: 23

DISLIPEM | 0 | 1 | Total SEXO | | | Fila

------------------------------------------------------| 9 | 7 | 16

Hombre | 56.25 | 43.75 | 69.57 ------------------------------------------------------

| 5 | 2 | 7 Mujer | 71.43 | 28.57 | 30.43

------------------------------------------------------Total | 14 | 9 | 23 Columna | 60.87 | 39.13 | 100.00

Los porcentajes de cada celda se refieren al total de cada fila

Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher

Descriptiva

Factores de riesgo cv1.txt significacion

Page 122: curso _gstat_12

122

Fisher de SEXO (filas) por DISLIPEM (columnas)================================================

Tamaño Muestral: 23p-valor (unilateral-izquierda): 0.4182p-valor (unilateral-derecha): 0.8758p-valor (bilateral): 0.6570

Pruebas Estadísticas Básicas

Fisher; ContrastePruebas Estadísticas Básicas

Fisher; Contraste

Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher

Contraste

¿Es la distribución de dislipemia diferente según el sexo,en la población de diabéticos?

No, las diferencias encontradas no han resultado significativas

Factores de riesgo cv1.txt Fisher

Page 123: curso _gstat_12

123

Pruebas Estadísticas Básicas

FisherPruebas Estadísticas Básicas

Fisher

Ronald A. Fisher (1890-1962)

Page 124: curso _gstat_12

124

Pruebas Estadísticas Básicas

ResumenPruebas Estadísticas Básicas

Resumen

Estimación ⇔ Información

C. Hipótesis ⇔ Decisión

Estadística Descriptiva + Medida del efecto

Estadístico de contraste

Función de probabilidad Ho (p-valor)

Ho Decisión H1

Riesgos alfa y betaFormulacion de Ho y H1

Ene

fin

Page 125: curso _gstat_12

125

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza

Page 126: curso _gstat_12

126

Correlación y Regresión Lineal Simple x|y

Maurits C. Escher (1898-1972) - Waterfall

Page 127: curso _gstat_12

127

Se han recogido datos correspondientes a 40 sujetos con la enfermedad de Alzheimer.

Se estudia su Movilidad (0-10) en relación a su Calidad de Vida (0-45).

Correlación y Regresión Lineal Simple Ejemplo: Calidad de Vida en pacientes con Alzheimer

Alzheimer1. txt preguntas

Page 128: curso _gstat_12

128

Correlación y Regresión Lineal Simple

Posibles preguntas

¿Se puede cuantificar la relación entre la Movilidad y la CV?

¿Es debida al azar? - ¿Es la relación Estadísticamente significativa?

¿En general cuánto varía la CV al aumentar una unidad la Movilidad ?

¿Podría predecir la CV a partir de la Movilidad de cada individuo?

¿Cuánto me equivoco al hacer la predicción?

Diagram dispersi.

Page 129: curso _gstat_12

129

Correlación y Regresión Lineal Simple

Descriptiva Diagrama de dispersión

¿Cómo medir o cuantificar la asociación?

Gráficos / Dispersión (x|y) / Dispersión

Descriptiva

Alzheimer1. txt estadsiticos

Page 130: curso _gstat_12

130

Correlación y Regresión Lineal Simple

Descriptiva. Coeficiente de correlación

531.0

iónDeterminac Coef.

7290

n Correlació Coef.

1.8))((1

1Covarianza

2 =

==

=−−−

= ∑

r

.ss

sr

yyxxn

s

yx

xy

iixy

Descriptiva

definicion

Page 131: curso _gstat_12

131

El Coeficiente de Correlación (r) da una medida del grado y la

dirección (-1; 1) de la relación entre dos variables continuas

El Coeficiente de Determinación (r2) cuantifica (0 ;1)

La información compartida por dos variables continuas

La relación

Correlación y Regresión Lineal Simple

Coeficientes r y r2

Interpretacion grafica

Page 132: curso _gstat_12

132

Correlación y Regresión Lineal Simple

Interpretación del Coeficiente de correlación

r =0.90 r =0.58

r = - 0.58 r =0.01

nube

Page 133: curso _gstat_12

133

Correlación y Regresión Lineal Simple

Modelo ¿Cómo predecir la respuesta?

Diagrama de dispersión

Gráficos / Dispersión (x|y) / Dispersión

Descriptiva

Alzheimer1. txt

Page 134: curso _gstat_12

134

Propiedades:DireccionaCuantificaPrediceMinimiza el error de predicción

Correlación y Regresión Lineal Simple

Coeficientes de la regresión

028.0

22.32

=−=

==

xbyass

bx

xy

xy 22.3028.0^ +=

Descriptiva

bxay +=^

Cuanto me equivoco

Page 135: curso _gstat_12

135

Correlación y Regresión Lineal Simple

Cuanto nos equivocamos al hacer la predicción

86421

2

22 .)( =−

−−

=

=

=

x

xyyr s

ss

nns

residuos los de típica Desviación

0 residuos los de Media

Residuo:Diferencia entre la realidad y el modelo

Descriptiva

Ejemplos de residuos

xy 22.3028.0^ +=

Page 136: curso _gstat_12

136

Correlación y Regresión Lineal Simple

Residuos vs coef. de correlación

Sr= 0.89 Sr= 2.4

Sr= 2.4 Sr= 3,8

output resultados

Page 137: curso _gstat_12

137

Modelo de CV con MOVILIDAD====================================================Número de Casos: 40

Modelo: Lineal----------------------------------------------------Ecuación: CV = 0.0286 + 3.2249 * MOVILIDAD----------------------------------------------------

Coef. E.E. t-valor p-valor---------------------------------------------------Ordenada 0.0286 2.7019 0.0106 0.9916 Pendiente 3.2249 0.4910 6.5675 0.0001---------------------------------------------------

r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2

Correlación y Regresión Lineal Simple

Resultados del Caso

Análisis/xy/Regresion lineal Simple/ModeloFichero: Alzheimer1. txt respuestas

Page 138: curso _gstat_12

138

Correlación y Regresión Lineal Simple

Respuestas a las preguntas (I)

¿Se puede cuantificar la asociación entre la Movilidad y la CV ?r=0.729 r2=0.531

¿Es debida al azar? ¿Es la relación Estadísticamente significativa?

p-valor=0.0001

Respondidas por la Correlación

Page 139: curso _gstat_12

139

Correlación y Regresión Lineal Simple

Respuestas a las preguntas (II)

En general cuanto varía la CV al variar una unidad la Movilidadb=3.224

¿Como predecir la CV a partir de la Mov. de cada individuo?Calidad de Vida= 0.028+3.224 Movilidad

¿Cuanto me equivoco al hacer la predicción?d.t. residuos=4.86

Respondidas por la Regresión

condiciones

Page 140: curso _gstat_12

140

Regresión Lineal Simple

Condiciones de Aplicación

Linealidad

Homocedasticidad

Normalidad de residuos

Y variable aleatoria

Independencia

que falla

Page 141: curso _gstat_12

141

Regresión Lineal Simple

¿Qué falla en este ejemplo?

No linealidad

Page 142: curso _gstat_12

142

Regresión Lineal Simple

Linealidad vs relación

Un coeficiente no significativo sólo implica: ausencia de relación Lineal

Page 143: curso _gstat_12

143

Correlación y Regresión Lineal Simple

Tres Estrategias si el modelo RLS no es válido

2.- Regresión polinómica

3.- Correlación no paramétrica de rangos: Rho de Spearman

1.- Transformación de variables

r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2

Pearson y spearman

Page 144: curso _gstat_12

144

Correlación y Regresión Lineal Simple

Pearson y Spearman

Karl Pearson 1857-1936 Charles E. Spearman 1863-1945

cigueñas

Page 145: curso _gstat_12

145

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza

Page 146: curso _gstat_12

146

Técnicas MultivariantesRegresión Lineal MúltipleRegresión LogísticaKaplan-Meier y Regresión de Cox

Técnicas Multivariantes

Un aproximación intuitiva a las

…. el análisis del mundo real

Page 147: curso _gstat_12

147

Datos de 40 sujetos que sufren Alzheimer,(La Movilidad explica la Calidad de Vida p<0.0001)

¿Qué variables pueden explicar la CV ?

Posibles Predictoras:

Movilidad

Memoria (0-17)

Ingresos Económicos (€)

Integración social (0-10)

Regresión Lineal Múltiple

Ejemplo: Calidad de Vida en pacientes de Alzheimer

Datos

Page 148: curso _gstat_12

148

Regresión Lineal Múltiple

Calidad de Vida en pacientes de Alzheimer; Datos

Fichero: Alzheimer1. txt Posibles preguntas

Page 149: curso _gstat_12

149

Correlación y Regresión Múltiple

Posibles preguntas

¿Se puede cuantificar la relación entre la CV y las var. explicativas?

¿Es debida al azar?

¿Cuáles son las variables realmente explicativas?

¿En general cuánto varía la CV al variar una unidad cada variable explicativa ?

¿Cómo puedo predecir la CV para cada individuo?

¿Cuánto me equivoco al hacer la predicción?

Bivariante -Matriz de correlaciones

Page 150: curso _gstat_12

150

Análisis del mundo real

Matriz de correlaciones bivariantes

CV MOVILIDAD INGRESOS MEMORIA INTEGRACIÓN--------------------------------------------------------------------------------

CV 1.0000 0.7291 0.0589 0.9440 0.8588 (0.0001) (0.7181) (0.0001) (0.0001)

MOVILIDAD 0.7291 1.0000 0.0663 0.6893 0.6291 (0.0001) (0.6843) (0.0001) (0.0001)

INGRESOS 0.0589 0.0663 1.0000 0.1306 -0.1059 (0.7181) (0.6843) (0.4220) (0.5153)

MEMORIA 0.9440 0.6893 0.1306 1.0000 0.7816 (0.0001) (0.0001) (0.4220) (0.0001)

INTEGRACIÓN SOCIAL 0.8588 0.6291 -0.1059 0.7816 1.0000 (0.0001) (0.0001) (0.5153) (0.0001)

--------------------------------------------------------------------------------

La matriz de correlaciones permite cuantificar la relación de las variables entre sí

Multivariante /Regresión Múltiple (xz|y)/CorrelacionesFichero: Alzheimer1. txt Ecuación

Page 151: curso _gstat_12

151

varresp = b0 + b1 varexpl_1 + b2 varexpl_2 + ... + b4 varexpl_4

una variablerespuesta

Regresión Lineal Múltiple

Esquema del Modelo

^CV = a + b1 Movilidad + b2 Memoria + ... + b4 Ingresos

Ordenada Coeficientes de la regresión

¿Cómo se calculan los b?

varias variables explicativas o predictoras

batalla

Page 152: curso _gstat_12

152

CV

Análisis del mundo real

La batalla por la explicación de la variación

Movilidad

Ingresos

Memoria

Integración social

ajust

Page 153: curso _gstat_12

153

CV

Análisis del mundo real

La batalla por la explicación de la variación

Movilidad

Ingresos

Integración social

output

Memoria

Page 154: curso _gstat_12

154

Regresión Lineal Múltiple

Modelo inicial

Multivariante /Regresión Múltiple (xz|y) / Modelo

Variable Respuesta: CV Número de Casos: 40

------------------------------------------------------------------Coef. E.E. t-valor p-valor

------------------------------------------------------------------CONSTANTE -0.0783 1.1965 -0.0655 0.9482MEMORIA 1.8921 0.2327 8.1304 0.0001E-5MOVILIDAD 0.4427 0.2712 1.6327 0.1115 INGRESOS -0.0003E-1 0.0006 -0.0539 0.9573 INTEGRACIÓN SOCIAL 0.9286 0.2452 3.7863 0.0006

------------------------------------------------------------------

----------------------------------------------------------------------------Variabilidad S.Cuadrados G.L. C. medio F-valor p-valor

----------------------------------------------------------------------------Modelo 1789.7630 4 447.4407 123.4144 0.0004E-16

r cuadrado (coeficiente de determinación) 93.3795 %r cuadrado (ajustado) 92.6228 %Desviación Típica de los Residuos 1.9041

Fichero: Alzheimer1. txt Resumen y Filtros

Page 155: curso _gstat_12

155

Las siguientes siuaciones pueden darse:

• Una variable explicativa puede en bivariante serser significativa y en multivariante nono

• Una variable explicativa puede en bivariante no serno ser significativa y en multivariante sísí

RLM Modelo inicial

Consecuencias, filtros y paradojas

¿ Inutilidad de los filtros previos ?

Depuracion

NoNoINGRESOS

SiSíIntegración SOCIAL

NoSíMOVILIDAD

SíSíMEMORIA

MúltipleInicial

BivarianteFactor

Page 156: curso _gstat_12

156

¿Qué hacer con las variables no significativas en el modelo multiple inicial?

Depuración del modelo

Regresión Lineal Múltiple

Mejora del Modelo inicial

Selección automatica de variables:hacia delante hacia atráspaso a paso

Eliminación directa

^CV= -0.078 + 1.89*MEMORIA + 0.44*MOVILIDAD - 0.00003*INGRESOS + 0.928*INTEGRACIÓN

resultados

Page 157: curso _gstat_12

157

• El modelo va incorporando variables paso a paso

• En el paso 1, la variable MEMORIAentra en el modelo, porque es la que más explica la CALIDAD DE VIDA.

• En el paso 2, se incorpora la Integración SOCIAL

• Las restantes variables NO aportan capacidad explicativa al modelo, por lo que se quedan fuera.

• En cada paso podemos saber cuánto somos capaces de explicar de la CALIDAD DE VIDA.

Regresión Lineal Múltiple

Ejemplo: Modelización hacia adelante

Multivariante /Regresión Múltiple (xz|y)/ModeloFichero: Alzheimer1. txt resultados

Page 158: curso _gstat_12

158

Variable Respuesta: CVVariable(s) Explicativa(s): MEMORIA, MOVILIDAD, INGRESOS, INTEGRACIÓN SOCIAL--------------------------------------------------------------

Coef. E.E. t-valor p-valor --------------------------------------------------------------CONSTANTE 1.0562 0.8010 1.3187 0.1954MEMORIA 2.0357 0.2043 9.9667 0.0005E-8INTEGRACIÓN SOCIAL 1.0084 0.2283 4.4169 0.0008E-1

--------------------------------------------------------------

----------------------------------------------------------------------------Variabilidad Cuadrados G.L. Medio F-valor p-valor

----------------------------------------------------------------------------Modelo 1780.0977 2 890.0488 241.1557 0.0006E-18----------------------------------------------------------------------------

r cuadrado (coeficiente de determinación) 92.8752 %r cuadrado (ajustado) 92.4901 %Desviación Típica de los Residuos 1.9211

RLM – Modelización hacia adelante

Modelo Final

Multivariante /Regresión Múltiple (xz|y) / Modelo

Modelización hacia adelante

Fichero: Alzheimer1. txt perfiles

Page 159: curso _gstat_12

159

Predicción del Modelo RLM

Perfiles de pacientes y Predicción de CV

Predicción CV MEMORIA INTEGRACION

4.1 1 111.2 1 89.2 3 2

12.2 3 517.3 6 421.3 6 821.4 9 224.4 9 528.5 9 9

preguntas

Calidad de Vida= 1.05 + 2.03 MEMORIA + 1.00 INTEGRACIÓN

Page 160: curso _gstat_12

160

Correlación y Regresión Múltiple

Respuestas a las posibles preguntas

¿Se puede cuantificar la relación entre la CV y las var. explicativas?R2 = 92.49 %

¿Es posible explicar significativamente la CV; es debida al azar? P-valor modelo =0.0006E-18

¿Cuáles son las variables Explicativas?Memoria e Integración

¿En general, cuánto varía la CV al variar una unidad cada variable Explicativa ?Los coeficientes bi: +2.03 y +1.00

¿Cómo puedo predecir la CV para cada individuo?Mediante la ecuación de regresión

¿Cuánto me equivoco al hacer la predicción?Sr = 1.9211 Restricciones

Page 161: curso _gstat_12

161

Validación del modelo:

Los residuos del modelo deben seguir cumpliendo :Linealidad

Homocedasticidad

Normalidad de residuos

Y variable aleatoria

Independencia

Regresión Lineal Múltiple

Validación y garantía del modelo

Análisis de la distribución de residuales

Media =cero

Normalidad

Incorrelados con la respuesta

Homocedasticidad

residuos

Page 162: curso _gstat_12

162

Estadístico Residuo

------------------------------------

N 40

Media -0.0006

Desviación Típica 1.8712

Regresión Lineal Múltiple

Análisis de los Residuos

Contraste de Normalidad

--------------------------------------

W Shapiro-Wilk: 0.9638

p-valor Shapiro-Wilk: 0.2255

Yule

Page 163: curso _gstat_12

163

El término "regresión múltiple" fue utilizado por primera vez por Karl Pearson en 1908, aunque su discípulo George Udny Yule (1871-1951) estudió

previamente sus propiedades. Yule fue un matemático escocés interesado en las ciencias sociales.

George Udny Yule

Regresión Lineal MúltipleYule

mas alla

Page 164: curso _gstat_12

164

Regresión Lineal Múltiple

Mejoras del modelo

Transformación

Regresión polinómica

Modelización de Interacciones

Var dummies

Nuevos predictores

fin

Page 165: curso _gstat_12

165

Regresión Logística

¿Como modelizar una respuesta dicotómica?

Page 166: curso _gstat_12

166

Regresión Logística

Ejemplo: Rehabilitación de accidentados

Page 167: curso _gstat_12

167

Regresión LogísticaEjemplo: Rehabilitación de accidentados

Estudio en 46 sujetos víctimas de accidentes graves de tráfico

Se desea saber si la inmovilización previa, la focalización de la lesión, el número de horas hasta quirófano y la edad del sujeto influyen en una rehabilitación satisfactoria del paciente.

Variable respuesta dicotómica:REHABILITA

0 No se rehabilita

1 Se rehabilita satisfactoriamente

Variables explicativas: INMOVILIZA

0 No se inmoviliza

1 Si se inmoviliza

FOCAL

0 Lesión difusa

1 Lesión focalizada

HORAS hasta intervención

EDAD en años

datos

Page 168: curso _gstat_12

168Fichero: Rehabilitacion1.txt

Regresión Logística

Datos del Ejemplo

preguntas

Page 169: curso _gstat_12

169

Regresión Logística

Las mismas preguntas naturales

¿Se puede cuantificar la relación entre Rehabilitación y las var. explicativas?

¿Es debida al azar?

¿Cuáles son las variables realmente Explicativas?

¿Cuánto influye cada variable explicativa en la Rehabilitación?

¿Cómo puedo predecir la Rehabilitación para cada individuo?

¿Cuánto me equivoco al hacer la predición?

todos los multivariante son parecidos

Page 170: curso _gstat_12

170

NoSíSíPredición para individuos

NoR2 + ClasificaR2Rendimiento del modelo

HRORBMedida del efecto de las v. explicativas

NoSíSíError en la Predición

SíSíSíVarias variables explicativas

SíSíSíSignificación global del efecto

R. CoxR. LogísticaRLMCaracterística

SíSíSíModelo final

SíSíSíModelo inicial

SíSíSíAproximación bivariante errónea

Censur.DicotómicaCuantit.Única variable Respuesta

Las Técnicas de Regresión Multivariantes son parecidas

logit

Page 171: curso _gstat_12

171

La variable respuesta es dicotómica.Pero no se puede modelizar como tal

Se modeliza la probabilidad de ocurrencia del suceso

Regresión Logística

La diferencia

Función Logit de p = Ln odds p= Ln (p/1-p)

ecuacion log

Page 172: curso _gstat_12

172

bpXpXbXbbXOcurP

XOcurP++++=⎥

⎤⎢⎣

−...

)()(

ln 221101

r

r

Regresión Logística

La ecuación de regresión

)....22110(11),...,3,2,1|( bpXpXbXbbe

XpXXXOcurP++++−+

=

Matriz de correlaciones

Page 173: curso _gstat_12

173

Regresión Logística

Ejemplo: Correlación y significación bivariantes

Multivariante / Regresión Múltiple (xz|y) / Correlaciones - Spearman

r de Spearman(Significación)

REHABILITA INMOVILIZA HORAS FOCAL EDAD -----------------------------------------------------------------------

REHABILITA 1.0000 0.4019 -0.4089 0.2267 -0.3395 (0.0056) (0.0048) (0.1298) (0.0210)

INMOVILIZA 0.4019 1.0000 -0.3441 0.3867 -0.3412 (0.0056) (0.0192) (0.0079) (0.0203)

HORAS -0.4089 -0.3441 1.0000 -0.0083 0.2170 (0.0048) (0.0192) (0.9563) (0.1475)

FOCAL 0.2267 0.3867 -0.0083 1.0000 -0.2950 (0.1298) (0.0079) (0.9563) (0.0465)

EDAD -0.3395 -0.3412 0.2170 -0.2950 1.0000 (0.0210) (0.0203) (0.1475) (0.0465)

Fichero: Rehabilitacion1.txt modelo ini

Page 174: curso _gstat_12

174

Regresión Logística

Ejemplo. Modelo inicial

Valor modelizado (ocurrencia): REHABILITA = 1

Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 16.2828; G.L. 4; p-valor = 0.0027

R Cuadrado del Modelo:-------------------------Cox-Snell = 0.2981Nagelkerke = 0.3985

Regresión Logística:----------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

----------------------------------------------------------------------INMOVILIZA 1.0002 0.7611 1.7272 1 0.1888 0.0000 HORAS -0.4671 0.2052 5.1836 1 0.0228 -0.2240 FOCAL 0.6371 0.7823 0.6633 1 0.4154 0.0000 EDAD -0.0646 0.0521 1.5376 1 0.2150 0.0000 CONSTANTE 3.3008 1.8457 3.1982 1 0.0737 0.1375

Multivariante / Regresión Logística / Modelo ocurrencia=1Fichero: Rehabilitacion1.txt depuracion

Page 175: curso _gstat_12

175

• Globalmente, el modelo es estadísticamente significativo, no nulo. p-valor= 0.0027

• Los predictores consiguen explicar de forma conjunta el R2= 39.85%

• HORAS se mantiene significativa en el modelo inicial

• INMOVILIZACION y EDAD dejan de ser significativos

• FOCAL sigue sin ser significativo

Regresión Logística

Conclusiones del modelo inicial

Depuración y especificación del modelo

Selección de variables hacia delante paso a paso

Eliminación directa

modelo final

Page 176: curso _gstat_12

176

Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 13.6425; G.L. 2; p-valor = 0.0011

R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431

Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688

Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478

Regresión Logística

Modelo final

Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Resumen filtros

Page 177: curso _gstat_12

177

NoNoSíEdad

NoNoNoFocal

SíNoSíInmoviliza

SíSíSíHoras

MúltipleFinal

MúltipleInicial

BivarianteFactor

Regresión Logística

Consecuencias de la colinealidad y confusión

Estudio de Rehabilitación

Interpreta coeficientes

Page 178: curso _gstat_12

178

Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 13.6425; G.L. 2; p-valor = 0.0011

R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431

Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688

Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478

Regresión Logística

Coeficientes

Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Interpreta coeficientes

Page 179: curso _gstat_12

179

Para cada coeficiente bi del modelo se puede calcular el efecto de la variable mediante el OR

ibi

i

ORe

ORbi

=

= )ln(

Medida del efecto de los factores

Interpretación de los coeficientes de Reg. Logística

Dificulta el eventoMenor de 1Negativo

Favorece el eventoMayor de 1Positivo

Efecto(OR)Coeficiente b

Output final

Page 180: curso _gstat_12

180

Regresión Logística

Perfiles de pacientes y Prob. de Rehabilitación

INMOVILIZA HORAS B Prob. (Rehab./ B)0 1 1,084 0,75

0 3 0,226 0,56

0 5 -0,632 0,35

0 7 -1,49 0,18

0 9 -2,348 0,09

1 1 2,483 0,92

1 3 1,625 0,84

1 5 0,767 0,68

1 7 -0,091 0,48

1 9 -0,949 0,28

)429.0399.1513.1(11)2,1|1( HORASINMOVILIZAe

XXREHABILITAP−+−+

==

Cuanto me equivoco?

Page 181: curso _gstat_12

181

La Regresión Logística como dispositivo Diagnóstico

Tabla de Clasificación para REHABILITA (Punto de corte = 0.50)----------------------------------------------------------

| Predicción | | Observados | 1 | 0 | % Correcto

----------------------------------------------------------1 | 16 | 9 | 64.0000 % 0 | 8 | 13 | 61.9048 %

----------------------------------------------------------| | | 63.0435 %

Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6667Valor Predictivo Negativo = 0.5909Sensibilidad = 0.6400Especificidad = 0.6190Indice de Youden = 0.2590

Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Como optimizar

Page 182: curso _gstat_12

182

La Regresión Logística como dispositivo Diagnóstico

Optimización

Punto de corte =0.4565

Tabla de Clasificación para REHABILITA (Punto de corte = 0.46)----------------------------------------------------------

| Predicción | | Observados | 1 | 0 | % Correcto

----------------------------------------------------------1 | 17 | 8 | 68.0000 % 0 | 8 | 13 | 61.9048 %

----------------------------------------------------------| | | 65.2174 %

Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6800Valor Predictivo Negativo = 0.6190Sensibilidad = 0.6800Especificidad = 0.6190Indice de Youden = 0.2990

Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Q & A

Page 183: curso _gstat_12

183

Regresión Logística

Las mismas preguntas naturales

¿Se puede cuantificar la relación?Nagelkerke = 0.3431

¿Es posible explicar significativamente la Respuesta->Rehabilitación?p-valor = 0.0011

¿Cuáles son las variables realmente Explicativas?Horas e Inmoviliza

¿Cuánto influye cada variable explicativa en la Rehabilitación?OR=0,65(Horas) OR=4,05 (Inmoviliza)

¿Cómo puedo precedir la probabilidad de Rehabilitación para cada individuo?Mediante la ecuación del modelo

¿Cuánto me equivoco al hacer la predición?1.00 - 0.65=0.35

fin

Page 184: curso _gstat_12

184

Análisis de Supervivencia

Estudio del tiempo hasta …

Page 185: curso _gstat_12

185

Análisis de Supervivencia

Ejemplo: Cirugía y Recidiva

89 pacientes han sido sometidos una operación quirúrgica.

Se estudiará si un Tratamiento farmacológico puede retrasar la recidiva.

Se sospecha que la Gravedad y el nivel de un Marcador puede influir en la recidiva.

Tiempo total del estudio: 64 meses.

Concepto de censura

MarcadorGravedad Trat

Tiempo LS

Page 186: curso _gstat_12

186

Pac

iente

s

Fin del estudio

Evento: Recidiva

Evento

Evento

Incumplimiento terapéutico (censurado)

Sin evento en el fin (censurado)

Sin evento en el fin (censurado)

Estudio del tiempo hasta

Concepto de censura

Inicio del estudio

Desaparece (censurado)

Tiempo 640

Tipos de variables

Page 187: curso _gstat_12

187

Explicativas

TiempoTiempo hasta que ocurre un evento

Respuesta de Censura

indica si se ha producido el evento

Posible influencia sobre el tiempo

Eje

mp

los

Hasta exitus (-)

Hasta recaída (-)

Hasta síntomas (-)

Hasta curación (+)

Hasta efecto (+)

• No cumplimiento

• Perdida del seguimiento

• Efectos secundarios

• Violaciones al protocolo

• Fin del estudio

Diagnóstico al inicio

Tratamiento

Dosis

Antecedentes

Gravedad

Factor de riesgo

Análisis de Supervivencia

Variables

Variables en el ejemplo

Page 188: curso _gstat_12

188

Análisis de Supervivencia

Variables del ejemplo “Cirugía y Recidiva”

Respuesta

TIEMPO LS: Tiempo transcurrido entre la intervención y la recidiva (meses)

Censura

Evento (0=dato censurado; 1=evento )

Explicativas

Trat: 0=No; 1=Si

Gravedad : 1=Baja; 2=Moderada; 3= Grave

Marcador: Concentración del Marcador (rango: 16-66)

BDatos

Page 189: curso _gstat_12

189

Análisis de Supervivencia

Datos Ejemplo

Fichero: Tiempo hasta recidiva2.txt Descriptiva erronea

Page 190: curso _gstat_12

190

Análisis de Supervivencia

Descriptiva Errónea

Gráficos /xy/Fichero: Tiempo hasta recidiva2.txt

Sin considerar la censura

Curva KM

Page 191: curso _gstat_12

191

Permite comparar diferentes grupos

Análisis de Supervivencia

Descriptiva S(t), Kaplan-Meier por grupos

Formula KM

Función de probabilidad de supervivencia de Kaplan Meier

Page 192: curso _gstat_12

192

Análisis de Supervivencia

Descriptiva S(t), Kaplan-Meier por grupos

Función de probabilidad de supervivencia de Kaplan-Meier

Pregunta para descriptiva:¿Que probabilidad se tiene de llegar / alcanzar diferentes tiempos?

Tabla KM

i

iij

i

KMj n

dnS

−= ∏

=1

Page 193: curso _gstat_12

193

Análisis de Supervivencia

Kaplan-Meier para el grupo Trat=1i

iij

i

KMj n

dnS

−= ∏

=1

0,00000,000010152

0,24740,666731148

0,37110,857173144

0,43290,6000152640

0,72150,8889181236

0,81170,9091222232

0,89290,8929283324

Sj(nj-dj)/njnjljdjtj

Tabla KM salida PC

Page 194: curso _gstat_12

194

• Al cabo de 1,9 meses, aparecen 3 recidivas.

• En ese instante se calcula la probabilidad de supervivencia: 25 pacientes de los 28 de estudio no han recidivado, luego p=25/28 = 0.975

• A los 2,1 meses aparecen 2 nuevos casos de recidiva y 3 censurados

• En ese instante se calcula la probabilidad de supervivencia.

• La probabilidad de supervivencia es el producto de las probabilidades de no recidivar en el período 0-1,9 meses por la de no recidivar en el período 1.9-2.1 meses, esto es 0.8929 x (20/(25-3)= 0.954

Análisis de Supervivencia

Descriptiva. Tabla de Kaplan-Meier

Multivariante /Regresión de Cox / K-M tablaFichero: Tiempo hasta recidiva2.txt Curva KM Trat

Page 195: curso _gstat_12

195Multivariante /Regresión de Cox / K-M Gráfico

Análisis de Supervivencia

Descriptiva por Trat. Curva de Kaplan-Meier

Fichero: Tiempo hasta recidiva2.txt

Trat

Curva KM Estres

Page 196: curso _gstat_12

196

Análisis de Supervivencia

Descriptiva por Gravedad

GravedadFichero: Tiempo hasta recidiva2.txt macador

Page 197: curso _gstat_12

197

Análisis de SupervivenciaDescriptiva por Marcador

Marcadorpreguntas

Page 198: curso _gstat_12

198

Regresión de COX

Las mismas preguntas de siempre

¿Se puede cuantificar globalmente la relación?

¿Es significativa?

¿Cuáles son las variables Explicativas?

¿Cuánto influye cada variable explicativa en la respuesta?

¿Cómo puedo predecir el Tiempo S L para cada individuo?

¿Cuánto me equivoco al hacer la predicción?

En multivariante

ecuacion cox

Page 199: curso _gstat_12

199

h(t|Trat, Gravedad, Marcador) = ho(t)·exp(b1 Trat+ b2 Gravedad+b3 Marcador)

Ecuación de regresión de Cox

Función de riesgo (h) Coeficientes de var. explicativas

Tiempo

Bivariante

Es una tasa que mide el cambio instantáneo del valor de una variable

La FUERZA DE MORBILIDAD: Fuerza que una enfermedad tiene para cambiar el estado de salud al de enfermedad por unidad de tiempo.

El POTENCIAL instantáneo de cambio en el status de enfermedad por unidad de tiempo, en relación con la población susceptible.

Page 200: curso _gstat_12

200

Regresión de COX

Analisis Bivariantes

Coeficiente Cox(Significación)

Trat Gravedad Marcador----------------------------------------------------

Tiempo LS -0.1897 0.2238 0.1651(0.4568) (0.2368) (0.0005E-11)

output cox

Page 201: curso _gstat_12

201

Variable Respuesta: Tiempo LSVariable Censura: EVENTOValor asociado al dato censurado: EVENTO=0Variable(s) Explicativa(s): Trat, Gravedad, Marcador

Ajuste del Modelo (Diferencia de Likelihood)---------------------------------------------------------------------Chi-Cuadrado = 76.0027; G.L. 3; p-valor = 0.0002E-12

Regresión de Cox---------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

---------------------------------------------------------------------Trat -0.6257 0.2807 4.9683 1 0.0258 -0.0811Gravedad -0.1319 0.2057 0.4114 1 0.5213 0.0000 Marcador 0.1844 0.0238 59.9479 1 0.0010E-11 0.3584

Variable HR IC95.0%inf IC95.0%sup----------------------------------------------Trat 0.5349 0.3085 0.9273 Gravedad 0.8764 0.5856 1.3116 Marcador 1.2024 1.1476 1.2599

Regresión de COX

Variables y Coeficientes del modelo inicial

Multivariante /Regresión de Cox (xz|y cens)/ModeloTiempo hasta recidiva2.txt Interpretacion de Bi y HR

Page 202: curso _gstat_12

202

Medida del efecto de los factores

Interpretación de los coeficientes iniciales de Reg. Cox

Acelera el tiempo para el eventoMayor de 1Positivo

Enlentece el tiempo para el evento Menor de 1Negativo

Efecto del factorHazard Ratio (HR)Coeficiente b

Output inicial

• exp(b)= Hazard Ratio (HR)

Razón de Riesgos

h(t|Trat, Gravedad, Marcador)=ho(t)·exp(-0.625·Trat + -0.131·Gravedad - 1.184·Marcador)

Page 203: curso _gstat_12

203

• Coef negativo:El factor enlentece el evento

• Coef positivos:El factor acelera el evento

Regresión de COX

Interpretación de Coeficientes del modelo inicial

HR menor que uno implica que el grupo Con TRAT=1 y tiene mayor supervivencia (tiempo enlentecido)

HR mayor que uno implica que los grupos con elevados niveles de Marcador tienen menor supervivencia (tiempo acelerado)

Multivariante /Regresión de Cox (xz|y cens)/Modelo ; K=1Fichero: Tiempo hasta recidiva2.txt Interpretacion de HR

Page 204: curso _gstat_12

204

HRReducción vs

HR=1Ratio de

medianasElasticidad del tiempo hasta ..

10 -9 0,10 10%

6 -5 0,17 17%

2 -1 0,50 50%

1,5 -0,5 0,67 67%

1,2 -0,2 0,83 83%

1 0 1,00 100%

0,7 0,3 1,43 143%

0,66 0,33 1,50 150%

0,5 0,5 2,00 200%

0,33 0,67 3,00 300%

0,2 0,8 5,00 500%

0,1 0,9 10,00 1000%

0,06 0,94 16,67 1667%

Ace

lera

Enl

ente

ce

Regresión de COX

Interpretación del HR ( en modelos exponenciales / riesgos constantes a lo largo del tiempo )

Interpretacion grafica del HR

E(%)=100/HR

Page 205: curso _gstat_12

205

0102030405060708090

100

0 50 100 150 200

HR=2 HR=0.5

Regresión de COXInterpretación de HR

Modelo final

Page 206: curso _gstat_12

206

Regresión de COXModelo ajustado: Selección hacia adelante

Multivariante /Regresión de Cox (xz|y cens)/Modelo

Ajuste del Modelo (Diferencia de Likelihood)----------------------------------------------------------------------

Chi-Cuadrado = 75.5933; G.L. 2; p-valor = 0.0004E-13

Regresión de Cox

-----------------------------------------------------------------------

Variable Coef. E.E. Wald G.L. p-valor R

-----------------------------------------------------------------------

Marcador 0.1820 0.0236 59.6303 1 0.0001E-10 0.3574

Trat -0.6036 0.2777 4.7240 1 0.0297 -0.0777

Variable HR IC95.0%inf IC95.0%sup

----------------------------------------------

Marcador 1.1997 1.1455 1.2564

Trat 0.5468 0.3173 0.9424

Fichero: Tiempo hasta recidiva2.txt

No hay medida del rendimiento global del modelo

No hay predicción para individuos

Debe ser comprobada la asunción de h(t) proporcionales

cox

Page 207: curso _gstat_12

207

Los avances más significativos en el análisis de la supervivencia aplicado a los ensayos clínicos han sido debidos a Kaplan y Meier (1958) que presentaron un método para estimar la función de supervivencia, a Mantel (1966) que definióel estadístico Log-Rank para comparar dos distribuciones de supervivencia y a Cox (1972) que propuso el modelo de riesgos proporcionales para cuantificar

el efecto de covariables sobre el tiempo de supervivencia.

David Roxbee Cox

Regresión de COXCox

perfiles

Page 208: curso _gstat_12

208

Regresión de COX

Comparación de Perfiles

fin

Trat1 Marc1 Trat2 Marc2 HR Elasticidad

1 40 0 40 0.55 183%

1 35 1 30 2.48 40%0 35 0 30 2.48 40%

1 35 0 30 1.36 74%0 30 1 35 0.74 136%

0 30 1 33.3 1.00 100%

Perfil1 Perfil 2

)()(exp( 2121 MMbTTbHR MarcadorTrat −+−=