312

XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir
Page 2: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir
Page 3: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII COLOQUIO DE ESTADÍSTICAEscuela de Estadística - Facultad de Ciencias

Organizadores

Patrocinadores

Medellín, Colombia, 2019

Page 4: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII COLOQUIO DE ESTADÍSTICAEscuela de Estadística - Facultad de Ciencias

© Universidad Nacional de Colombia, Sede Medellín Memorias del evento

Volumen 1

Comité Organizador:

Mario César Jaramillo Elorza. Profesor Universidad Nacional de Colombia,

Sede Medellín

Norman Giraldo Gómez. Profesor Universidad Nacional de Colombia,

Sede Medellín.

René Iral Palomino. Profesor Universidad Nacional de Colombia,

Sede Medellín

Francisco Javier Rodríguez Cortés. Profesor Universidad Nacional de Colombia,

Sede Medellín

Juan Carlos Salazar Uribe. Profesor Universidad Nacional de Colombia,

Sede Medellín.

Fabio Sepúlveda. Profesor Universidad de Medellín.

Page 5: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Comité Científico:

María Eugenia Castañeda López. Profesora Universidad de Antioquia - Colombia

Guillermo Ferreira Cabezas. Profesor Universidad de Concepción - Chile

Víctor López Ríos. Profesor Universidad Nacional de Colombia - Colombia

Jorge Mateu Mahiques. Profesor Universitat Jaume I, España

Raúl Pérez Ágamez. Profesor Universidad Nacional de Colombia - Colombia

Francisco Rodríguez Cortés. Profesor Universidad Nacional de Colombia - Colombia

Contacto:

Carrera 65 No. 59 A - 110Medellín - Antioquia - Colombia

Correo electrónico: [email protected]

Teléfono: (+57 4) 430 90 00 ext. 46352

https://ciencias.medellin.unal.edu.co/eventos/coloquioestadistica/

Page 6: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Contenido

Comunicaciones

Conferencias

15

20

25

37

38

44

48

12

David Arango LondoñoAnálisis Espacial de la Calidad Educativa en Colombia

Daniel Betancur RodríguezAplicación Shinny para Análisis Descriptivo

Rafael Eduardo Borges PeñaMeta-Análisis en Estudios de Casos Controles de la Enfermedad de Changas de Transmisión Oral en Venezuela

María Eugenia Castañeda LópezOptimal Desings in Non-Linear Mixed Models with Correlated Observations

Jonathan GalindoModelo Basado en Similaridad de Canastas para Recomendación de Productos en Retail

Isabel Cristina García ArboledaChange Point Detection in Mean of Short Memory Process and Applications in Time Series

Yuri Marcela García Saavedra Estimación Bayesiana de un Modelo de Regresión Cox con Predictores Funcionales Dispersos

Page 7: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

52

56

80

85

90

95

99

128

133

145

Rafael Meléndez SurmayAnálisis Temporal espacial del índice NDVI Utilizando el Archivo de Imágenes de Satélite Landsat

Sergio Luis MercadoBivariate Independence Test Based on the Ranks of the Observations

Cristian Daniel Obando ArbeláezDistribución Poisson Truncada en Cero

Yeison Yovany Ocampo NaranjoAplicación Shinny para la Interpretación de Señales en la Carta T

Ricardo Fernando Otero CaicedoCaracterización de la Proporción de Estudiantes Desertores en Diferentes IES

Katherin Juliana Quiñones LosadaValidación Externa de Prototipos Clasificadores para un Caso Aplicado: Dengue

Andrés Ramírez – HassanFocused Estimation for Noisy and Small Data Sets- a Bayesian Minimum Expected Loss Estimator Approach

Héctor Luis Romero ValbuenaActividad Económica Regional en Colombia- Una Aplicación de la Metodología STATIS

Roger Jesús Tovar FalónUn Modelo Lineal Mixto con Intercepto Aleatorio Asimétrico para Datos Censurados

Juan Camilo Valencia BeltránAplicación Web Scraping para la Estimación del Precio de Vivienda para la Ciudad de Cali

Page 8: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

PósterJuan Felipe Arias AguirreClasificación Supervisada LDA: Un Enfoque Robusto y no Paramétrico

Heber Esteban Bermúdez GonzálezAprendizaje Automático para el Análisis de Texto

Luis Alberto Bernal BerrioCalibración de Parámetros para la Intensidad de Default Estocástica de Covariables Observables y un Factor de Fragilidad

Rafael Eduardo Borges PeñaAnálisis de Supervivencia con Interacción de Diabetes e Índice de Masa Corporal en Pacientes en Diálisis Peritoneal

José Luis Cabrera VegaModelación Diseños Experimentales en Presencia de Correlación Espacial Aplicado a Experimentos Agrícolas

Juan Camilo Cárdenas MárquezCaracterización Estadística de la Desigualdad de Ingreso en los Departamentos de Colombia

Lina Marcela Díaz BejaranoAnálisis de la Adjudicación de Tierras Baldías en Colombia

Eddy Johanna Fajardo OrtizAnálisis de la Calidad del Agua del Área Metropolitana de Bucaramanga Utilizando la Metodología STATIS

José Alexander Fuentes MontoyaDiseño de un Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos Machine Learning

Contenido

150

159

164

170

180

181

187

199

203

Page 9: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Yenny Vanesa García BlandónEvaluación por Simulación del Efecto de Especificar Incorrectamente la Matriz de Varianzas-Covarianzas Intra-Individual en Modelos de Efectos Mixtos no Lineales

Valentina García VelásquezComparación entre dos Pruebas de Hipótesis para el Vector de Medias

Andrés Santiago Gil PuertaCalibración de Tasas de un Modelo de Markov Para Libro de Órdenes Dinámico

Jean Carlo Jiménez GiraldoRedes Neuronales para Segmentación de Imágenes Médicas

Diana Lucía Londoño LondoñoTécnicas de Minería de Datos (MD) para el Diagnóstico del Desempeño Escolar en Instituciones Públicas de Medellín

María Catalina Medina RuizAnálisis Multivariado para Caracterización de las 19 Estaciones de Muestreo y Calidad del Agua del Río Cauca desde el año 2007 hasta 2016.

Rafael Meléndez SurmayEvaluación de la Biodiversidad a Través del Enfoque de Datos Funcionales

Claudia Lorena Montes MoraContribución de la Prueba Rápida Combinada NS1 e IgM/IgG al Rendimiento de Algoritmos Clínicos de Dengue en Pacientes Febriles de una IPS de la Ciudad de Cali en el año 2012

Stephany Nieves UribeMétodos de Clustering para la Selección y Distribución del Portafolio de Productos en un Dark Store

Javier Olaya OchoaAvances en la Imputación de Datos Faltantes de PM2.5

Santiago Ortiz AriasEstimación Robusta del Modelo de Regresión Lineal en Presencia de Multicolinealidad

209

210

215

221

224

233

237

241

245

253

257

Page 10: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Miguel Oswaldo Pérez PulidoEvaluación Estadística de Estrategias Implementadas para una Movilidad Urbana Sostenible y Reducción de la Accidentalidad en la Ciudad de Bucaramanga

Julián Alberto Quintero Bejarano Caracterización de los Tiempos hasta el Desenlace en Pacientes Diagnosticados con Cáncer de Colon y Recto

Mateo Restrepo HiguitaUna Alternativa para la Predicción de Tiempo en el Desarrollo de Software

Jessica María Rojas MoraMetodología de Flujo de Conocimiento (primera fase) Aplicada al Proceso de Investigación Científica con Fines de Visibilidad Nacional e Internacional en la Universidad de Medellín

Yuberth Anderson Saavedra ConeoModelos Alternativos para Predecir la Tasa de Natalidad en Función de los Factores Ambientales y Socioeconómicos de un País

Juan Carlos Salazar UribeUn Estudio De Simulación Para Comparar Métodos De Estimación Para Datos Longitudinales

Lizeth Fernanda Suárez MensaModelación del Tiempo de Recurrencia en Pacientes con Cáncer Diferenciado de Tiroides

Vanessa Toledo SernaComparación entre un modelo de Cointegración y un modelo de Cointegración por Suavización Exponencial para una ventana de tiempo trimestral para la TRM y COLCAP.

Roger Jesús Tovar FalónDistribución Asimétrica Beta- Skew Laplace Póster

266

275

280

284

286

292

297

301

304

Page 11: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir
Page 12: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

12

Retos del Análisis Estadístico en la Era de la Análitica de Datos y el Big Data Juan David Ospina Arango, Grupo Bancolombia.

Zen o el Arte de la Selección de Software Estadístico Juan Carlos Correa Morales, Universidad Nacional de Colombia - Colombia.

Minería de Texto para la Gestión de Organizaciones Jorge Iván Pérez Rave, IDINNOV S.A.S.

El Análisis de Datos en la Cuarta Revolución Industrial John William Branch, Universidad Nacional de Colombia - Colombia.

Nuevas aportaciones del análisis de datos funcionales en el control estadístico de procesosMiguel Alfonso Flores Sanchez, Escuela Politécnica Nacional - Ecuador.

Aplicaciones de los Modelos de Sobrevivencia para Modelar Riesgo de Crédito Jaime Huertas Campo, Universidad Nacional de Colombia - Colombia.

Análisis de Datos Funcionales: Introducción y Aplicaciones Martha Bohorquez, Universidad Nacional de Colombia - Colombia.

R, Python y Julia, ¿Qué ventajas Ofrecen?. Comparación de Herramientas Estadísticas Abiertas Kenneth Cabrera Torres, Universidad Nacional de Colombia - Colombia.

Análisis de Series de Tiempo con R y Aplicaciones en FinanzasGuillermo Ferreira, Universidad de Concepción - Chile.

Aprendizaje Estadístico, Regresion Penalizada, Tendencias con Series de TiempoNorman Giraldo, Universidad Nacional de Colombia - Colombia.

Modelos de Regresión en Ciencia de DatosRamón Giraldo Henao, Universidad Nacional de Colombia - Colombia.

Conferencias

Page 13: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

13

Control Multivariado de procesos - Principios y PerspectivasNelfi González Alvarez - Isabel Cristina Ramírez Guevara, Universidad Nacional de Colombia - Colombia.

La Utilidad de TensorFlow para Estadística Freddy Hernández Barajas, Universidad Nacional de Colombia - Colombia.

Procesos Estocasticos con Dependencias Espaciales y Temporales. Predicción de Crimenes y Diseño de Experimentos en IngenieríaJorge Mateu, Universitat Jaume I - España.

Page 14: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

14

Page 15: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

15

GeorreferenciacióndelacalidadeducativaenColombia,apartirdelfenómenodelaaglomeracióny

segregaciónacadémica

EstebanMorenoCediel1,DavidArango-Londoño2,MaribelCastilloCaicedo3

1FACULTADDECIENCIASSOCIALESYECONOMICAS,ECONOMÍA,UNIVERSIDADDELVALLE,CALI,COLOMBIA

2FACULTADDECIENCIASNATURALESYMATEMÁTICAS,PONTIFICIAUNIVERSIDADJAVERIANA,CALI,COLOMBIA

3FACULTADDECIENCIASECONOMICASYADMINISTRATIVAS,PONTIFICIAUNIVERSIDADJAVERIANA,CALI,COLOMBIA

Resumen El presente proyecto busca medir el grado de aglomeración de la calidad educativa en Colombia, partiendo de la no socialización (o mezcla) de la población que muestra baja calidad en educación, con la que evidencia alta calidad [nivel de competencias escolares], y así determinar cómo dicha aglomeración afecta al fenómeno de la segregación académica. Para ello, se realizó un análisis espacial de la calidad educativa en Colombia y de las principales variables socioeconómicas que pueden influir en esta, y que propicia el fenómeno de la aglomeración educativa. A través del Índice de Moran, una prueba de autocorrelación espacial, se demuestra el nivel de aglomeración en la calidad educativa en Colombia, con un índice de 0,62, observando espacialmente que la alta calidad educativa se concentra en la región Andina, abarcando las principales ciudades de esta región (Bogotá, Medellín y Cali), mientras que la baja calidad educativa se aglomera en la periferia del país, zonas como la región Pacífica, gran parte de la costa, la región Amazónica y los llanos orientales. Palabras clave: Calidad educativa, aglomeración, segregación, autocorrelación espacial, I. de Moran, geovisualización.

Introducción

El objetivo primordial de medir la calidad de un sistema educativo es determinar en qué medida se han alcanzado las metas y objetivos propuestos en los estándares que se exigen en los procesos de formación y aprendizaje. Por ello, las mediciones, a través de las pruebas o evaluaciones estandarizadas, se constituyen en una herramienta fundamental para obtener la información confiable y necesaria para el mejoramiento de los sistemas, ya que, con base en ellas, es posible identificar tanto las fortalezas como las debilidades del sistema, lo que permite una retroalimentación a las instituciones educativas y entes territoriales (Ministerio de Educación Nacional, 2006).

Para evaluar su sistema educativo, Colombia viene aplicando lo que actualmente se conoce como las pruebas SABER, y está participando en diferentes evaluaciones internacionales de desempeño escolar. Todas ellas se aplican en distintos niveles educativos

Page 16: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

16

y evalúan diferentes competencias, Sus resultados han sido empleados en diversos estudios que emplean múltiples metodologías, y han estado orientados a la identificación de factores asociados al desempeño académico [ver Castro, et al. (2018); Ayala, et al. (2011); Sánchez (2011)], a la estimación de brechas educativas [ver Castro, Giménez y Pérez (2017); Cárcamo y Mola (2012)], a estudios de eficiencia [ver de OCDE (2016)], y estos sirven como base principal para el cálculo del Índice Sintético de Calidad Educativa –ISCE–, construido por el ICFES, con el cual se realiza la clasificación de los centros educativos en Colombia.

Teniendo en cuenta lo anterior, el presente trabajo busca responder a las siguientes preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir del cálculo del ISCE, para el año 2018?, y partiendo de las variables socioeconómicas más significativas que puedan afectar este problema de aglomeración responder ¿Cómo esas variables socioeconómicas pueden incidir en este grado de aglomeración? es decir, se busca conocer qué tan concentrada está la calidad en educación a lo largo del país, para así determinar cómo la distribución de la calidad educativa está originando la segregación académica; esto es, determinar cómo la aglomeración impide que los estudiantes (población) con bajos niveles de competencias escolares socialicen con los de altos niveles, y encontrar los factores socioeconómicos del entorno escolar y como estos influyen de manera significativa en dicha segregación.

El problema de investigación se justifica, toda vez que los resultados obtenidos en anteriores trabajos tienen una característica que ha sido poco abordada por los estudios orientados hacia la medición de la calidad educativa en Colombia, y es que se concentran en la eficacia y/o en los factores determinantes del desempeño escolar: la ubicación espacial de la escuela, que tiene una relación con la calidad educativa, vía efecto entorno, el cual puede estar originando clúster en educación. De la misma forma, poco se ha investigado si la aglomeración educativa está originando el fenómeno de segregación académica.

Materiales y métodos

La hipótesis es que, partiendo de la existencia de la aglomeración en la calidad educativa en Colombia, y sumado a esta, factores socioeconómicos de los departamentos como el número de homicidios, entre otras, está generando en gran medida segregación académica, y esto evita que el nivel educativo en el país aumente. Para ello, esta investigación realizará el cálculo del ISCE en los departamentos de Colombia, para los estudiantes de grado 11 en las competencias de matemáticas y lenguaje, para el año 2018, basados en la metodología propuesta por el ICFES para su estimación [ver ICFES (2016)]. El estudio se enfoca en esta parte de la población estudiantil debido a que el ISCE se aplica a los niveles básico y medio. A partir de los resultados del ISCE se realizará la agregación del índice, por departamentos.

Inicialmente se evaluará el grado de dependencia espacial del ISCE por departamentos utilizando el índice de correlación de Moran y probando diversas estructuras de vecindad (tipo reina y torre) al igual que los rezagos espaciales. El índice de moran nos muestra si los departamentos con alto ISCE están rodeados por otros con altos índices (aglomeración).

Page 17: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

17

Para calcular el ISCE, se estimarán los puntajes promedio de las pruebas SABER 11, por departamento en Colombia, en las áreas de matemáticas y lenguaje, para el año 2018, con base en las puntuaciones individuales obtenidas por los estudiantes en dichas pruebas. Estas son diseñadas y aplicadas por el ICFES a los estudiantes de último año de bachillerato, y evalúan el logro educativo promedio de un estudiante durante su vida escolar.

Una vez agregada la información a nivel de departamento, se adicionará a la cartografía de estos, utilizando Sistemas de Información Geográficos –SIG–, por medio del software R y las librerías raster, rgdal y sp.

Existencia de aglomeración

Figura 2: Geovisualización del puntaje global de las pruebas saber 11

La hipótesis principal del problema de investigación es la existencia de aglomeración educativa en Colombia, y para asegurar esta hipótesis se utiliza el programa Geoda, el cual es un paquete de software gratuito para el análisis de datos espaciales, geovisualización, autocorrelación y modelado espaciales. A partir de este, se distribuye el puntaje global de las pruebas en 5 cuantiles, obteniendo el mapa de la figura 2, en el cual se puede observar claramente la existencia de aglomeración educativa, donde los puntajes altos se encuentran concentrados en la zona andina del país, mientras que los puntajes bajos se encuentran en la periferia de este.

Page 18: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

18

Figura 3: Calculo del Índice de Moran de la calidad educativa

Sin embargo, para confirmar dicha aglomeración se utiliza el Índice de Moran como medida de autocorrelación espacial, es decir, entender el grado en que un objeto es similar a otros objetos cercanos, en este caso, medir el grado en que la calidad educativa afecta la calidad educativa de los municipios vecinos. El I. de Moran puede ser clasificado como positivo, negativo y sin autocorrelación espacial. Un I de Moran muy cercano a 1, nos indica aglomeración, mientras que uno muy cercano a -1 nos indica segregación. Al realizar el análisis para esta investigación, nos da como resultado un índice de 0,642, lo que nos soporta la hipótesis de la existencia de aglomeración en Colombia (figura 3).

Conclusiones

Se demuestra la existencia de aglomeración educativa en Colombia a través del índice de autocorrelación espacial de Moran con un valor de 0,62, lo que impide que la calidad educativa aumente para las zonas donde la baja calidad está concentrada (zona pacifica, amazonia, llanos orientales y parte de la costa), sin embargo, posteriormente en este estudio se determinará las variables socioeconómicas que mas influyen en el aumento del fenómeno de la aglomeración educativa, a través de un análisis de regresión espacial.

Referencias

Ayala, J., Marrugo, S. & Saray, B., 2011. Antecedentes familiares y rendimiento académico

en los colegios oficiales de Cartagena. Economía y Región, 5(2), pp. 43-85.

Cárcamo, C. & Mola, J., 2012. Diferencias por sexo en el desempeño académico en Colombia:

Un análisis regional. Economía y Región, 6(1), pp. 133-169.

Page 19: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

19

Castro, G., Giménez, G. & Pérez, D., 2017. Educational Inequalities in Latin America, 2012

PISA: Causes of Differences in School Performance between Public and Private Schools.

Revista de Educación, Volumen 376, pp. 33-61.

Castro, G., Giménez, G. & Pérez, D., 2018. Estimación de los factores condicionantes de la

adquisición de competencias académicas en América Latina en presencia de endogenidad.

Revista CEPAL, Chile, Issue 124, pp. 35-59.

Instituto Colombiano para la Evaluación de la Educación -ICFES-, 2016. SABER en breve. 5

ed. Santafe de Bogotá: ICFES.

Ministerio de Educación Nacional, C., 2006. Al tablero. [En línea] Available at:

https://www.mineducacion.gov.co/1621/article-107321.html [Último acceso: 30/05 2019].

OCDE, 2016. Education in Colombia. Reviews of National Policies for Education. Paris-Bogotá:

Organización para la Cooperación y el Desarrollo Económicos, OCDE.

Sánchez, A., 2011. Etnia y Desempeño Académico en Colombia, Documentos de Trabajo sobre

Economía Regional, 156, Cartagena, Colombia: Banco de la República, Centro de Estudios

Económicos Regionales (CEER).

Page 20: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

20

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas ?? a ??

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Aplicacion en Shiny para analisis descriptivoa

Shiny app for descriptive analysis

Daniel Betancur Rodrıguez b *, Rene Iral Palomino c,

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: El presente trabajo consiste en la presentacion de una aplicacion web interactiva para la rea-

lizacion de analisis descriptivos basicos utilizando el paquete Shiny, del software R. Su objetivo es permitir

un acercamiento inicial a personas en formacion estadıstica a los graficos y estadısticos descriptivos basicos,

facilitar el analisis descriptivo a un publico general sin formacion en programacion estadıstica y agilizar

la elaboracion de graficos y obtencion estadısticos descriptivos a cualquier usuario al ahorrar tiempo en el

proceso de lectura de datos y elaboracion de codigo.

PALABRAS CLAVE: Aplicacion shiny, Estadıstica descriptiva, Analisis descriptivo de datos.

ABSTRACT: The present work consists of the presentation of an interactive web application using the

R package Shiny. It’s target is to allow people in statistical training to have an initial approach to statisti-

cal graphics and basic descriptive statistics, facilitate the descriptive analysis for people without statistical

training and streamline the elaboration of graphics and obtainment of descriptive statistics to any user by

saving time in the process of data reading and code elaboration.

KEYWORDS: Shiny app, Descriptive statistic, Descriptive analysis of data.

1. INTRODUCCION

Como afirma ? para lograr comprender los complicados problemas del mundo moderno se requiere

de la recoleccion de infromacion objetiva, es decir, de la obtencion de datos. Para ello la estadıstica,

definida por el autor como el arte del arender de los datos, se preocupa por la recoleccion de

datos, su descripcion y analisis, y las conclusiones a que se llegue a partir de estos. Ası, es de

suma importancia que los hallazgos numericos de cualquier estudio se presenten de manera clara

y concisa y que permita hacerse a una idea rapida de las caracterısticas escenciales de los datos,

particularmente en casos de grandes grupos de datos.

aBetancur, D. & Iral, R. (2019). Aplicacion en ahiny para analisis descriptivo. Revista de la Facultad de Ciencias,

6 (1), ??–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante. Facultad de Ciencias. Universidad Nacional de Colombia Sede Medellın*Autor para correspondencia: [email protected](PhD(C)) en Estadıstica. Docente. Facultad de Ciencias. Universidad Nacional de Colombia sede Medellın

1

Page 21: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

21

Daniel Betancur Rodrıguez, Rene Iral Palomino

Esta presentacion adecuada de los datos y su analisis se realiza, generalmente, con apoyo en herra-

mientas de computo. En la comunidad estadıstica el programa de computacion estadıstica R tiene

gran acogida. De a cuerdo con ? R es un software que se hizo disponible en internet a traves de

una Licencia Publica General, permitiendo su uso libre y distribucion. R provee un ambiente para

realizar analisis estadıstico y producir graficos y al estar basado en un lenguaje de computacion

formal tiene una tremenda flexibilidad. Sin embargo, el aprovechamiento de los recursos de R re-

quiere conocimiento en la sintaxis que utiliza. Ademas, el uso de la herramienta, salvo utilizando

ciertos paquetes, implica la escritura de las lıneas de codigo que permitan ejecutar las instrucciones

deseadas, lo que lo hace de dificil uso para usuarios sin conocimiento en el lenguaje, por un lado,

y genera inconvenientes de eficiencia e interactividad en cuanto a analisis visuales que requieran

observar distintias combinaciones de las variables de forma dinamica.

El resente trabajo presenta una alternativa interactiva y de facil uso para la realizacion de un

analisis descriptivo basico de datos, por medio de una aplicacion untilizanod el paquete Shiny en

R.

2. Objetivo

El presente trabajo busca presentar una nueva aplicacion en Shiny que permita la realizacion de una

analisis descriptivo basico de una manera facil y eficiente, con la ventaja de resultar interactiva para

los usuarios. Si bien la aplicacion tiene limitantes con respecto la flexibilidad de la programacion

directa en R, puede resultar sumamente adecuada para personas sin el conocimiento en la sintaxis

de programacion necesaria para ello o conveniente para usuarios de R en general por la eficiciencia

e interactividad para la presentacion de graficos y resumenes numericos. Por otro lado, la aplicacion

puede tener un enfoque didactico para la introduccion a la realizacion del analisis descriptivo de

los datos.

3. Presentacion de la aplicacion

Este documento iniciara con una breve definicion de que es una aplicacion Shiny, luego presentara

la aplicacion en cinco etapas: Inicio y lectura de datos, Diagramas de dispersion, Diagramas de caja

y bigotes, Histogramas y Graficos de medias.

3.1. ¿Que es una aplicacion Shiny?

De a cuerdo con ? Shiny es un paquete en R que hace sencilla la construccion de aplicaciones web

interactvias directamente desde R, combinando el poder computacional de R y la interactividad de

la web moderna.

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 22: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

22

Aplicacion en Shiny para analisis descriptivo

3.1.1. Inicio y lectura de datos

A continuacion se presenta la interfaz de inicio de la aplicacion, dodne se tiene un panel de lectura

de datos, una salida que permite ver si los datos se han leıdo adecuadamente, un boton para pasar

al modo calculo 2un panel movil para personalizar el tema de la aplicacion.

Figura 1: Interfaz inicial de la aplicacion

3.2. Diagramas de dispersion

Una vez se activan el modo calculo.el primer panel de resultados presenta un grafico de dispersion

de las dos variables elegidas junto con una lınea de tendencia obtenida com un metodo de suaviza-

miento loess. Los datos graficados toman el color de la variable factor de comparacion en caso de

seleccionarse alguna.

Figura 2: Interfaz de graficos de dispersion

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 23: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

23

Daniel Betancur Rodrıguez, Rene Iral Palomino

3.3. Diagramas de caja y bigotes

El segundo panel de resultados presenta el grafico de caja y bigotes de cada una de las variables

continuas elegidas, ası como su resumen de cuartiles y rango intercuartil, filtrado por variable de

comparacion en caso de que se seleccione alguna.

Figura 3: Interfaz diagramas de caja y bigotes

3.4. Histogramas

De manera similar, se presenta el histograma para cada variable, junto con las lineas de la densidad

observada y se discrimina por colores de la variable de comparacion si se selecciona alguna.

Figura 4: Interfaz histogramas

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 24: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

24

Aplicacion en Shiny para analisis descriptivo

3.5. Graficos de medias

Finalmente se presenta el graficod e medias de cada una de las variables por niveles de la variable

seleccionada para la comparacion junto con la media y desviacion estandar por niveles de esta.

EN caso de que no se seleccione una variable de comparacion unicamente se presentan la media y

desviacion estandar de las dos variables continuas seleccionadas.

Figura 5: Interfaz graficos de medias

Referencias

Ross, S.M. (2010). Introductory Statistics. Elsevier Inc. San Diego, U.S.A. pp: 1-18.

Dalgaard, P. (2008). Introductory Statistics with R. Springer. Denmark. Preface.

R Studio Inc. (2017). Shiny. [En lınea]. R Studio Inc. [Consultada en octubre de ]. Disponible en:

https://shiny.rstudio.com/

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 25: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

25

1 Dirección de Asuntos Estudiantiles, Universidad de Los Andes, Mérida, Venezuela. 2 Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. * Autor para correspondencia: [email protected] y [email protected] .

META-ANÁLISIS EN ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE CHAGAS DE

TRANSMISIÓN ORAL EN VENEZUELA. META-ANALYSIS IN CASE-CONTROL STUDIES OF ORAL

TRANSMISSION CHAGAS DISEASE IN VENEZUELA.

MONSALVE, MEYDIBETH1, BORGES, RAFAEL2*

RESUMEN: La investigación propuesta emplea como estrategia la realización de un metaanálisis sobre los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la literatura. La localización de diversos reportes de la enfermedad, permitieron definir las estrategias de búsqueda utilizadas, donde la debida inclusión y exclusión de los estudios centrales objetos de la investigación, fue de vital importancia para evitar el sesgo de publicación y recurrir de forma adecuada a la aplicación de los modelos de efectos fijos y efectos aleatorios, con la finalidad de conocer la estimación medida por la Razón de Posibilidades en cada uno de los métodos propuestos. Ante esta evaluación se concluye finalmente que, el método de Inverso de la Varianza arrojó como resultado 11 veces más posibilidades de adquirir la enfermedad por la ingesta de alimentos, fijándose como el mejor método respecto a los otros métodos aplicados tales como Mantel-Haenszel, Peto y, el de Dersimonian y Laird. PALABRAS CLAVE: Chagas Disease; Chagas oral en Venezuela; Enfermedad de Chagas Oral; Metaanálisis. ABSTRACT: The proposed research presents a meta-analysis strategy using the different cases of Chagas disease of oral transmission in Venezuela reported in scientific papers. The localization of diverse reports of the disease, allowed to define the strategies of search used, where the proper inclusion and exclusion of the central studies objects of the research, was of vital importance to avoid the bias of publication and to resort in an adequate way to the application of the models of fixed effects and random effects, with the purpose of knowing the estimation measured by the Odds Ratio in each one of the proposed methods. Given this evaluation, we conclude that with tthe Variance Inverse, there is 11 times more possibilities of acquiring the disease through food intake, establishing itself as the best method with respect to other applied methods such as Mantel-Haenszel, Peto, and Dersimonian & Laird. KEYWORDS: Meta-analysis, Oral Chagas Disease, Chagas Disease, Oral Chagas in Venezuela.

Page 26: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

26

1 INTRODUCCIÓN Ante el exceso de información científica, existen diversas maneras para tratar correctamente el conocimiento científico. Acceder y revisar a fondo todo lo que se publica sobre estudios de casos y controles en Venezuela por medio del uso de bases de datos bibliográficas y revistas a través del acceso ordenado, sistemático y sin sesgos de la información derivada de los trabajos, resultó ser compleja. Es por ello que la necesidad de disponer de esta herramienta de investigación fue pertinente, ya que permitió abordar la información de forma adecuada en términos de calidad, cantidad y actualidad, la cual está presentada de modo práctico y de fácil interpretación. Asimismo, es importante destacar que, durante el desarrollo de esta investigación no se logró acceder a algunos datos de brotes orales registrados en el país, siendo motivo de su exclusión sin comprometer la fiabilidad del estudio. En el área de la epidemiologia, para la aplicación adecuada de un metaanálisis en el estudio de enfermedad de Chagas de transmisión oral, es indispensable mantener una guía, donde se permita no solo evaluar la heterogeneidad de los estudios para elevar el poder estadístico de comparación, mejorando las estimaciones y el efecto de tratamiento, sino también para contribuir a la obtención de resultados confiables de diferentes estudios, mediante la evaluación de grupos y aportar información para la realización de futuras investigaciones (Bolaños y Calderón, 2014). El metaanálisis para efectos de esta investigación, es un proceso en el que se analizan los distintos casos de enfermedad de Chagas de transmisión oral en Venezuela reportados en la literatura. No obstante, los resultados que arroja esta técnica se pudieran considerar más sólidos que los resultados de cualquier otro estudio desarrollado de forma tradicional. Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el sesgo y mejorando la confiabilidad y precisión de sus conclusiones. El desarrollo de esta investigación consiste en aplicar los principios básicos para entender el poder que brinda la técnica y conocer los instrumentos esenciales para su realización mediante las siguientes etapas: formulación del problema, criterios de inclusión y búsquedas de los estudios, codificación de las características de los estudios, cálculo del tamaño del efecto, técnicas de análisis estadístico, interpretación y publicación del metaanálisis. 2 ESTUDIOS DE CASOS Y CONTROLES DE LA ENFERMEDAD DE CHAGAS DE TRANSMISIÓN ORAL EN VENEZUELA. Las enfermedades vectoriales son consideradas como una de las principales amenazas para la salud social a nivel mundial. Éstas son causadas por virus, bacterias y parásitos cuya transmisión al ser humano suele ser por medio de mosquitos, ácaros, garrapatas, entre otros; denominados vectores, causando distintos brotes de importancia mundial como lo son: el paludismo, el dengue, la enfermedad de Chagas, entre otras. Los vectores suelen ser organismos vivos, muchos de ellos son insectos hematófagos, capaces de transmitir enfermedades infecciosas de un portador infectado a otro, bien sea persona o animal, inoculando un nuevo portador (OMS, 2017).

Page 27: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

27

Es por eso, que el Tripanosoma cruzi, definido como un protozoario flagelado, es el parásito transmitido mediante vectores denominados Triatominos, responsable de la transmisión de la enfermedad de Chagas. Los mecanismos de transmisión de la enfermedad suelen ser de forma vectorial, por transfusión sanguínea, transplacentaria, trasplante de órganos infectados, accidentes de laboratorios y la vía oral, que se ha convertido en el mecanismo principal de preocupación, debido a la cantidad de brotes reportados de América Latina. Las manifestaciones clínicas son variables, y se distinguen dos fases infección: la aguda y la crónica (Alarcón et al., 2015). En este sentido, para Soto et al. (2014), la enfermedad de Chagas es considerada una zoonosis y se ha descrito como una enfermedad endémica cuyos ciclos de transmisión del parásito estarán siempre presentes y el riesgo de transmisión al hombre siempre presentará una probabilidad. La transmisión oral de la enfermedad de Chagas presenta una tendencia al incremento reportada en diversas revisiones de brotes agudos por posible transmisión oral en países como Brasil, Colombia, México y Venezuela. Según Alarcón et al. (2016), la transmisión del parásito por vía oral, es posible a través de la contaminación de alimentos directamente por el consumo del triatominos o sus deyecciones. La sospecha se da cuando varias personas desarrollan síndromes febriles prolongados sin causa o explicación aparente con algunos síntomas tales como taquicardias, arritmias, entre otros.

2.1 Tratamiento Estadístico y Análisis de la Información

Las investigaciones científicas basadas en estudios de revisión sistemática, persiguen un objetivo fundamental de integrar los resultados de estudios empíricos de forma objetiva, limitando el sesgo, y mejorando la confiabilidad y precisión de sus conclusiones. El objetivo principal del metaanálisis es definir el problema de investigación y las características de los estudios incluidos en la revisión. El conocimiento previo de la investigación, aporta validez a las conclusiones, hipótesis con mayor apoyo empírico y material para la obtención de respuestas claras y consistentes (Marín et al., 2009). El desarrollo de la investigación, se rige mediante las siguientes etapas:

Imagen 1.

En la formulación del problema: se procedió a la realización de un metaanálisis de los distintos de casos de Chagas oral en Venezuela, reportados en la literatura entre los años 2007 – 2019, haciendo énfasis en estudios de casos y controles.

Page 28: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

28

Criterios de inclusión y búsqueda de los estudios: la búsqueda, se realizó por vía electrónica por medio de las bases de datos: ProMed, ResearchGate, JID y Elsevier, entre otros, empleando para la búsqueda las palabras claves: “Enfermedad de Chagas Oral”, “Oral Chagas Desease in Venezuela”, así como palabras asociadas en las diferentes bases de datos consultadas relacionados con estos términos, combinándose entre sí en diferentes comandos de búsqueda. A pesar de que existen distintos estudios referentes a la enfermedad de Chagas de transmisión oral, en los criterios de inclusión, se tomaron en cuenta las publicaciones de estudios de casos y controles de todos los idiomas, fecha o estado de publicación.

De las 12 investigaciones seleccionadas de estudios de casos y controles de enfermedad de Chagas de transmisión oral, los 10 primeros artículos fueron propuestos por el artículo base publicado por Alarcón et al., 2015, las dos últimas investigaciones reflejadas en la tabla 1, fueron agregadas debido a que la fecha del brote ocurrieron luego de la fecha de publicación del artículo base propuesto para esta investigación.

Tabla 1. Fuente de publicaciones seleccionadas.

MES/AÑO DE PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE

DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID

MAYO 2008 SAN JOSE, CARACAS NO PUBLICADO ResearchGate

MARZO 2009 CHICHIRIVICHE, VARGAS ALARCON DE NOYA ET AL. (2016) ELSEVIER

MAYO 2010 ANTIMANO, CARACAS ProMed ProMed

NOVIEMBRE 2010 RUBIO, TACHIRA BENITEZ ET AL. (2013) JID

MARZO 2012 COCHE, CARACAS ProMed ProMed

JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb.

JUNIO 2013 MIRIMIRE, FALCON NO PUBLICADO ResearchGate

FEBRERO 2014 EL GUAPO, MIRANDA NO PUBLICADO ResearchGate

JULIO 2014 SAN CRISTOBAL, TACHIRA NO PUBLICADO ResearchGate

FEBRERO 2015 GUATIRE, MIRANDA ALARCON ET AL. (2017) Men. Ins. Oswaldo Cruz

FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate Fuente: Elaboración Propia. Los estudios que presentaron casos de transmisión vertical como lo fueron “Chichiriviche de la Costa” y “Guatire”, estudios no publicados como lo fueron “San José, Mirimire, El Guapo y San Cristóbal” y las publicaciones con dudosa exposición de los casos y/o datos faltantes que no se pudieron corroborar por contacto directo con los investigadores, tales como “Antímano, Rubio y Coche”, fueron excluidos de la investigación. Los estudios de “El Bordo y La Macarena”, se completaron mediante contacto directo con los autores del centro de investigaciones Parasitológicas “J. F. Torrealba”, del departamento de Biología de la Facultad de Ciencias de la Universidad de los Andes, para solicitar información no disponible en las publicaciones. De tal manera que, de las 12 publicaciones seleccionadas solo

Page 29: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

29

tres de ellas que se muestran en la tabla 2, cumplieron con los criterios de inclusión y exclusión definidos.

Tabla 2. Estudios de casos y controles registrados en Venezuela. MES/AÑO DE PUBLICACIÓN LOCALIDAD REFERENCIA FUENTE

DICIEMBRE 2007 CHACAO, CARACAS ALARCON DE NOYA ET AL. (2010a) JID JULIO 2012 EL BORDO, MERIDA AÑEZ ET AL. (2013) Bol. Mal. Salud Amb.

FEBRERO 2016 LA MACARENA, MERIDA AÑEZ ET AL. (2016) ResearchGate Fuente: Elaboración Propia.

Codificación de las características de los estudios: De acuerdo a la selección del

conjunto de variables de interés en la investigación, se precisó una búsqueda de datos faltantes para evitar cualquier pérdida de información o que pudieran generar estimaciones incorrectas, creando una base de datos general de las publicaciones seleccionadas, haciendo mención de los casos y controles de cada una de ellas.

En el cálculo del tamaño del efecto: para el estudio de la enfermedad de Chagas de transmisión oral, el análisis se ajustará tanto a un modelo de efectos fijos como de efectos aleatorios, aplicando los respectivos métodos dispuestos en dichos modelos para el estudio de variables dicotómicas, y el efecto del tratamiento se cuantificará mediante la razón de probabilidades, aportando una medida conjunta final.

Técnicas de análisis estadístico e interpretación: se evaluará la heterogeneidad entre estudios cuya medición se realizara mediante la cuantificación del índice I2 para el caso de modelos de efectos fijos y τ2 para el caso de modelos de efectos aleatorios. La posibilidad de sesgo de publicación se evaluará mediante el método gráfico del funnel Plot o la gráfica de embudo y el análisis de la medida conjunta final proporcionada por la razón de probabilidades, se verificará mediante el Forest Plot.

En la publicación del metaanálisis: cada vez es más común la utilización de la técnica metaanalítica ante la dificultad al momento de realizar trabajos de investigación debido a factores costo-tiempo. Las técnicas propuestas por el metaanálisis atribuyen una gran importancia al momento de realizar una evaluación cuantitativa en el uso de métodos estadísticos, no solo para abordar un problema o pregunta específica a partir de la combinación de una serie de estudios que no tienen un tamaño muestral representativo, sino también, para examinar la eficacia en los modelos seleccionados y fuentes de heterogeneidad entre los estudios, permitiendo resolver controversias ante la existencia de desacuerdos entre los resultados. Su contribución a las distintas áreas profesionales, tomando en cuenta la aplicación adecuada de la técnica, puede ser de gran valor, ya que determina cuáles son los factores de riesgos existentes y los resultados preventivos o de tratamiento de los estudios necesarios para planificar futuras investigaciones.

2.2 Identificación de los Casos y Controles El estudio se compone de dos grupos: el grupo de casos, que se define como los individuos expuestos que adquirieron la enfermedad y el grupo de controles, que es una muestra de la población expuesta, a los que no se les había confirmado la enfermedad.

Page 30: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

30

El grupo de casos en total se compone de 115 individuos expuestos que adquirieron la enfermedad de 157 personas expuestas y el grupo controles se compone de un total de 42 casos reportados de 270 personas expuestas en las 3 investigaciones que cumplieron con el criterio de inclusión y exclusión reportadas entre los años 2007 al 2019, cuya fuente de infección como factor de riesgo, se presume es por consumo de alimentos contaminados. (Ver Tabla 3).

Tabla 3. Estudios de casos y controles registrados en Venezuela.

PUBLICACION CASOS CONTROLES

EXPUESTOS TOTAL CASOS EXPUESTOS TOTAL CONTROLES

CHACAO 2007 103 138 35 150 EL BORDO 2012 5 7 2 10 LA MACARENA 2016 7 12 5 110

TOTAL 115 157 42 270 Fuente: Elaboración Propia. Datos adquiridos de las publicaciones seleccionadas.

2.3 Meta-análisis En la tabla 3, se presentan los casos estudiados definidos por el lugar del brote y año, acompañados de los casos y controles con sus individuos expuestos y total de expuestos respectivamente. Los casos representan el número de individuos reportados en el brote que, mediante pruebas serológicas se confirmaron como positivos y los controles son aquellos individuos que, a pesar de haber estado expuestos a la enfermedad no habian sido confirmados. Los reportes registrados en Chacao, Caracas, se define como brote debido a la magnitud o cantidad de personas infectadas, mientras que los reportes registrados en el Bordo y la Macarena, se catalogan como microbrotes, debido a que la contaminacion se registró en un grupos familiares.

Imagen 2. Metaanálisis de estudios seleccionados.

En la imagen 2, se puede observar que todos los estudios favorecen al grupo control, el brote registrado en Chacao en el año 2007, posee mayor significancia debido a la contribución que aporta al estudio, ejerciendo mayor influencia sobre el resultado determinando la solidez en el mismo. La precisión reflejada en el forest plot, por medio de los intervalos de confianza nos permiten evidenciar la exactitud de los estudios y pudieran considerarse estadísticamente significativos. La prueba de heterogeneidad entre estudios indica que éstos son heterogéneos, por lo que se pudiera concluir que es indiferente el tipo de método a utilizar, ya que no existe

Page 31: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

31

diferencia significativa entre ellos. En cuanto a la significación estadística el p-valor es mayor a 0.05 es decir, que basado en el resultado de la heterogeneidad y en el resultado de la razón de probabilidades, se pudiera inferir que existe una fuerte asociación de adquirir la enfermedad por medio de la ingesta de alimentos contaminados. La medida del sesgo de publicación se evaluó mediante el gráfico funnel plot dispuesta en la imagen 3, donde se determinó que no existe evidencia de heterogeneidad en la investigación, es decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de Chagas por transmisión oral. Se puede verificar que los estudios que poseen mayor número de muestras se encuentran cercanos al vértice del embudo, siendo estos Chacao como brote y La Macarena como microbrote, el estudio del bordo a pesar de situarse en la parte inferior del gráfico por ser un microbrote respecto al primer estudio, no deja de ser estadísticamente significativo.

Imagen 3. Funnel Plot de estudios seleccionados.

2.3.1 Modelo de Efectos Fijos.

2.3.1.1 Método Mantel-Haenszel (MH) Basados en el supuesto que define el modelo de efectos fijos en cuanto a la no existencia de heterogeneidad de todos los estudios, tomando en cuenta las muestras de sujetos diferentes de forma que la variabilidad del tamaño de efecto se atribuya únicamente al error de muestreo, se tiene la aplicación del metodo del Mantel Haenszel, para estimar una razón de probabilidad combinada en la mayoría de las situaciones.

2.3.1.1.1 Forest Plot y Funnel Plot. Método “MH”. Al igual que en el caso de la aplicación de la razón de probabilidades, todos los estudios favorecen al grupo control, cuya mayor significancia debido a la contribucion que aporta al estudio se mantiene en el brote de Chacao, Caracas. La precision mostrada en los intervalos de confianza evidencian que los estudios mantienen su significacion estadística y el indice de heterogeneidad nos indica que los estudios seleccionados siguen siendo heterogéneos. En cuanto a la significacion estadistica el p-valor es mayor a 0.05, por lo que se pudiera corroborar ante todas las pruebas descritas anteriormente que existe una fuerte asociacion de adquirir la

Page 32: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

32

infección por medio de la ingesta de alimentos y los individuos expuestos tienen 10 veces mas posibilidades de contraer la enfermedad.

Imagen 4. Forest Plot. Método “MH”

El funnel plot de la imagen 5, no muestra cambios significativos, el brote ocurrido en Chacao, Caracas, debido a su magnitud registrada, se mantiene en el vértice del embudo determinando su significancia estadística, y los otros microbrotes debido a que sus tamaños muestrales son pequeños respecto al brote del año 2007, se encuentran en la parte media e inferior, sin embargo, no existe evidencia suficiente para concluir que los estudios sean menos significativos.

Imagen 5. Funnel Plot. Método “MH”.

.

2.3.1.2 Método de Peto (PETO). A pesar de que el método de Peto se deriva del método de Mantel-Haenszel, en cuanto a la combinacion de estudios individuales cuyo enfoque proporcionado por el inverso de la varianza, se hace apropiado cuando están cerca de 1 o la magnitud de efecto es próxima al valor nulo, en otras situaciones proporciona sesgos en sus resultados y generalmente se sugiere su uso cuando el tamaño de las muestras son similares.

2.3.1.2.1 Forest Plot y Funnel Plot. Método “PETO”. Es evidente que el resultado proporcionado por la razón de probabilidades en el caso del método de Peto no incluye ni el valor nulo ni la unidad, pero se puede apreciar que se registra un 86% de

Page 33: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

33

heterogeneidad (imagen 6), deduciendo por tanto que el método de Peto no es un buen estimador.

Imagen 6. Forest Plot. Método “PETO”.

Debido a que en el Forest plot evidenció que peto es un método altamente heterogéneo en este caso particular, se pudo constatar en el gráfico del embudo de la imagen 7, que el estudio de la Macarena se sale de los límites del gráfico. Los tamaños muestrales pudieran ser una de las principales causas por la que el estudio arrojo alta variabilidad.

Imagen 7. Funnel Plot. Método “Peto”.

2.3.1.3 Método del Inverso de la Varianza (IV). Obteniendo la estimación del efecto del tratamiento y la varianza de cada estudio para transformar los resultados a una escala donde la distribución de los estimadores se aproxime mejor a la distribución normal, se tiene que el modelo encaja perfectamente para la estimacion tanto para modelos de efectos fijos como aleatorios, sin embargo no difere de forma significativa al método de aplicación original proporcionada por la razón de probabilidades.

2.3.1.3.1 Forest Plot y Funnel Plot. Método “IV”. En la imagen 8, se puede evidenciar la heterogeneidad entre estudios es decir, es indiferente el tipo de método a utilizar, ya que no existe diferencia significativa entre ellos. En igual que el resto de los modelos, por lo que se pudiera inferir una vez más que existe una fuerte asociación de adquirir la enfermedad por medio de la ingesta de alimentos contaminados.

Page 34: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

34

Imagen 8. Forest Plot. Método “IV”.

El gráfico funnel plot dispuesto en la imagen 9, determina que no existe evidencia de heterogeneidad en la investigación es decir, todas las revisiones sistemáticas mantienen el mismo criterio de estudio de enfermedad de Chagas por transmisión oral.

Imagen 9. Funnel Plot. Método “IV”.

2.3.2 Modelo de Efectos Aleatorios.

2.3.2.1 Método Dersimonian-Laird (DL) En este otro caso, contrario al modelo de efectos fijos, se estima el tamaño del efecto de todos los estudios, para el método de Dersimonian-Laird el resumen proporcionado por la salida del paquete estadístico “meta”, al igual que en el modelo de efectos fijos, evidencia que para la estimación del tamaño del efecto de todos los estudios ante la incorporación realizada al estimador de un componente de la variabilidad intraestudios, no se registra cambios significativos en el método aplicado respecto a la salida del “OR” o razón de probabilidades.

2.3.2.1.1 Forest Plot y Funnel Plot. Método “DL”. A pesar de que los efectos del tratamiento no son los mismos para todos los estudios, como teóricamente se define el modelo de efectos fijos, se demostró en el Forest plot y el funnel plot, que la aplicación del método Dersimonian-Laird no evidencia cambios o significación alguna que difieran de los análisis proporcionados en la imagen 10 y 11.

Page 35: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

35

Imagen 10. Forest Plot. Método “DL”.

Imagen 11. Funnel Plot. Método “DL”.

3 CONCLUSIONES Luego de la aplicación de los métodos correspondientes a la técnica metaanalítica en el estudio de enfermedad de Chagas de transmisión oral, con la intención de evaluar la asociación real de la enfermedad, se puede concluir que: Debido a la magnitud del brote y al impacto que este generó, los datos aportados en el estudio de Chacao, Caracas, publicado en el año 2007, basado en las contribuciones registradas, se pudo evidenciar que favorece mayormente al grupo control independientemente del método aplicado. A pesar de que los reportes evidenciados en los estudios seleccionados de El Bordo en el año 2012 y la Macarena en el año 2016, son considerados como microbrotes; ya que la magnitud de infectados se confinó en un brote familiar; la medida del sesgo de publicación evaluada mediante el funnel plot en los distintos métodos aplicados, determinó la no existencia de heterogeneidad, predispuesta también en el Forest plot. Sin embargo, ante este resultado, ningún estudio deja de ser estadísticamente significativo, dejando en claro la propuesta del uso de los métodos Mantel-Haenszel y Dersimonian-Laird como métodos de elección para los modelos de efectos fijos y efectos aleatorios respectivamente. Independientemente de que el método de Peto, contrasta sus bases teóricas referente al tamaño muestral, permite evidenciar alta heterogeneidad en los estudios, concluyendo que no es un estimador adecuado para la investigación y el método del inverso de la varianza, encaja

Page 36: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

36

perfectamente para la estimación del modelo de efectos fijos, ambos no difieren de forma significativa a la medida de la razón de probabilidades como estadístico propuesto. A través de la razón de probabilidades como medida de asociación en esta investigación, se pudo determinar que independientemente del método aplicado, se pone de manifiesto que los individuos expuestos tienen 11 veces mayores posibilidades de adquirir la enfermedad de Chagas de transmisión oral, cuya principal fuente de asociación se atribuye al consumo de alimentos contaminados. REFERENCIAS Alarcón de N. B., Díaz B. Z., Colmenares C., Ruiz G. R., Mauriello L., Muñoz C. A. & Noya O. (2015).

Update on oral Chagas disease outbreaks in Venezuela: epidemiological, clinical and diagnostic approaches. Mem Inst Oswaldo Cruz, 110(3), 377-386.

Alarcón N. B., Ruiz G. R., Diaz B. Z., Colmenares C., Muñoz C. A., Mauriello L. & Noya O. (2016). En

Venezuela la enfermedad de Chagas de transmisión oral llegó para quedarse. ResearchGate, 17(2). Bolaños D., R., Calderón C., M. (2014). Introducción al meta-análisis tradicional. Rev. Gastroenterol

Perú. 34(1), 45-51. Marín M. F., Sánchez M. J. y López L. J. A. (2009). El metaanálisis en el ámbito de las Ciencias de la

Salud: una metodología imprescindible para la eficiente acumulación del conocimiento. Elsevier. 31(3), 107-114.

Organización Mundial de la Salud. (2017). Respuesta mundial para el control de vectores 2017-2030.

Recuperado desde https://www.who.int/malaria/.../vector_control/Draft-WHO-GVCR-2017-2030-esp.pdf

Soto H., Tibaduiza T., Montilla M., Triana O., Suárez D. C., Torres T. M., Arias M. T., Lugo L. (2014).

Investigación de vectores y reservorios en brote de Chagas agudo por posible transmisión oral en Aguachica, Cesar, Colombia. Cad. Saúde Pública, Rio de Janeiro, 30(4), 746-756.

Page 37: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

37

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a ??

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

DISENOS OPTIMOS EN MODELOS DE EFECTOS MIXTOS

NO-LINEALES CON OBSERVACIONES

CORRELACIONADASa

OPTIMAL DESIGNS IN NON-LINEAR MIXED EFFECTS

MODELS WITH CORRELATED OBSERVATIONS

MARIA EUGENIA CASTANEDA L. b *, VICTOR IGNACIO LOPEZ R. c

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: En este trabajo se considera el problema de encontrar disenos optimos poblacionales para

modelos de efectos mixtos no lineales con observaciones correlacionadas. Se explora la construccion de los

disenos optimos, condiciones experimentales optimas donde se debe realizar el experimento, que permita

estimar los parametros del modelo al maximizar el determinante de la matriz de informacion de Fisher. Con

un modelo mixto no lineal particular se hallan los disenos para diferentes estructuras de correlacion. Se

realizan diferentes escenarios de simulacion para investigar las propiedades de los disenos hallados.

PALABRAS CLAVE: Disenos optimos, Matriz de informacion de Fisher, Modelos mixtos no lineales,

Observaciones correlacionadas.

ABSTRACT: In this work, we consider the problem of to find the population optimal design for nonli-

near mixed effects models with correlated observations. The construction of the optimal designs, optimal

experimental conditions where the experiment should be carried out, is explored in order to estimate the

parameters of the model by maximizing the determinant of Fisher’s information matrix. With a particular

nonlinear mixed model, we found the designs for different correlation structures. Different simulation scena-

rios in order to investigate the properties of the designs are performed.

KEYWORDS: Correlated observations, Fisher information matrix, Nonlinear mixed models, Optimal de-

sign.

aCastaneda, M. E. & Lopez, V. I. (2019). Disenos optimos en modelos de efectos mixtos no-

lineales con observaciones correlacionadas. Revista de la Facultad de Ciencias, 6 (1), 1–??. DOI:

https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bPhD en Ciencias Estadıstica. Profesora Asociada. Instituto de Matematicas. Universidad de Antioquia*Autor para correspondencia: [email protected] en Ciencias Estadıstica. Profesor Asociado. Escuela de Estadıstica. Universidad Nacional de Colombia

1

Page 38: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

38

XII Coloquio de EstadısticaMedellın, Colombia 19 al 22 de Noviembre 2019

MODELO BASADO EN SIMILARIDAD DE CANASTAS PARA

RECOMENDACION DE PRODUCTOS EN RETAIL

BASKET-SIMILARITY-BASED MODEL FOR PRODUCT

RECOMMENDATION IN RETAIL

Jonathan Galindo Estrada a *, Reinaldo Uribe b**

RESUMEN: El proposito de un sistema de recomendacion es llegar al cliente mediante la sugerencia de

productos que no haya consumido, pero pertenezcan al mismo rango de gustos, los cuales pueden inferirse de

su comportamiento de compra. Este documento presenta un esquema de recomendacion construido para una

categorıa especıfica de una cadena de retail. El metodo se basa en una funcion de similaridad de canastas de

la categorıa. Aunque es posible demostrar que la funcion de similaridad empleada no es una distancia, pues

no cumple la desigualdad triangular, se argumenta que su uso en el contexto del recomendador es adecuado,

con sustento en algunas cifras preliminares de su puesta en produccion.

PALABRAS CLAVE: Recomendacion; metrica; similaridad; distancia

ABSTRACT: The goal of recommendation systems is to reach the customer with the suggestion of products

that they have not yet purchased that fall within the scope of their taste, which can be inferred form their

transactions. This document presents a recommendation scheme built specifically for a given category in a

retail chain. The method is based on a basket similarity function for that category. Although it can be proved

that the similarity function does not hold the triangular inequality, and therefore is not a distance metric,

we argue that its use in the recommendation context is suitable. Furthermore we present some preliminary

figures from its operation as additional support.

KEYWORDS: Recommendation; metric; similarity; distance

1. INTRODUCCION

Actualmente, satisfacer y atraer al cliente se ha convertido en un reto complejo, gracias a su cre-

ciente experiencia omnicanal, al amplio conocimiento del mercado que acumula y a la cantidad de

informacion que tiene a la mano, factores que lo convierten en un cliente exigente y con necesidades

claras. Esto supone un reto mayor: la metodologıa de segmentar los clientes para brindarles ofertas

aDireccion de Analıtica Digital, Vicepresidencia de Mercadeo e Innovacion, Grupo Exito.*Email: [email protected] de Analıtica Digital, Vicepresidencia de Mercadeo e Innovacion, Grupo Exito.

**Email: [email protected]

1

1

Page 39: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

39

Jonathan Galindo Estrada, Reinaldo Uribe

especiales, masivas y poco personalizadas, ya no es un metodo diferenciador entre las cadenas de re-

tail. Para alcanzar un mayor impacto en el cliente, es necesario generar una mayor complicidad, por

medio de recomendaciones totalmente personalizadas basadas en su propia huella de informacion.

Esto hace necesario entender, por medio del analisis de datos, el comportamiento transaccional

individual, para poder brindar una experiencia unica y adecuada a las necesidades de cada cliente,

estableciendo una relacion uno a uno desde las marcas.

Con el crecimiento de las plataformas digitales de retail, marketing y consumo de contenidos, el

interes en disenar modelos de recomendacion ha crecido enormemente en las ultimas dos decadas,

lo cual justifica que exista una rica literatura academica. Entre los enfoques similares al propuesto

en este caso, se destaca el sistema recomendador Video-Video Similarity [3], o “sim”. Este algoritmo

no personalizado calcula, para cada video, una lista de filmes similares del catalogo que maneja

Netflix. A fin de que la recomendacion final sea verdaderamente personalizada, “sims” se integra a

alguno o algunos de los demas algoritmos de recomendacion que se utilizan en esta plataforma, de

forma que la recomendacion final sea adecuada para un usuario especıfico. En la tienda virtual de

Amazon [4], la recomendacion se hace mediante el cambio del catalogo que observa el cliente, por

medio de una metodologıa llamada “filtro colaborativo item-to-item”, que consiste en agrupar los

productos comprados y calificados por el cliente con aquellos productos similares guardados en una

tabla de recomendacion, creada aplicacando la distancia coseno entre los productos comprados y

calificados por distintos usuarios.

Para la plataforma YouTube, segun se describe en [2], dados los grandes volumenes de videos y

usuarios, existen tres grandes retos al momento de recomendar contenidos relevantes: la escala, el

dinamismo de la plataforma y el ruido en los datos de los que se dispone para entrenar. El sistema

empleado se compone de dos redes neuronales profundas. A la primera (“candidate generation”) se

ingresa la totalidad de videos de la plataforma, junto con la historia de actividad de vistas de videos

de los usuarios y el contexto que tienen estos para filtrar videos que puedan ser relevantes, generando

un conjunto de cientos de videos candidatos para cada usuario. Estos candidatos ingresan luego a

la segunda red neuronal (“ranking”), que toma ademas como insumo la actividad historica de vistas

de videos, el contexto, caracterısticas propias de los videos y otras fuentes de videos candidatos,

para generar una lista puntuada de videos relevantes para el usuario.

2. Metodologıa de recomendacion

El contexto de recomendacion en el que se aplica la metodologıa propuesta es, para una categorıa

dada de productos, ofecerle a cada comprador de la categorıa items que no haya adquirido nunca

y que, con base en la traza transaccional de los demas clientes, se consideren afines a los productos

que sı compra. El metodo, que podrıa llamarse “productos como el mıo”, se basa en el estableci-

2

Page 40: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

40

Modelo basado en similaridad de canastas para recomendacion de productos en retail

miento de una medida de similitud entre productos de la categorıa, donde pares de productos que

hayan sido comprados por un numero grande de clientes de la categorıa sean mas “proximos” y

productos que no tienen o tienen pocos compradores en comun se consideren “lejanos”. Con base

en esta similiaridad, el proceso de recomendacion es simple: encontrar el producto o los productos

favoritos del cliente y determinar en su canasta los items mas proximos que nunca haya adquirido

de la categorıa. Este metodo tiene la ventaja adicional de permitir incluir facilmente otras conside-

raciones como la disponibilidad de inventario de los productos a recomendar.

Formalmente, para una categorıa de retail que tiene un conjunto de productos P y unos clientes

C, donde cada cliente ha adquirido por lo menos un producto y cada producto ha sido adquirido

por al menos un cliente, el insumo fundamental del proceso de recomendacion son los conjuntos de

clientes que han adquirido cada producto, que se pueden representar comodamente mediante una

matriz de incidencia M donde:

Mij =

1, cliente i ha comprado producto j.

0, en caso contrario.(1)

Para cualquier par de productos x e y , con conjuntos de compradores X e Y, correspondientes a las

columnas MX y MY de la matriz de incidencia, respectivamente, el nucleo geometrico del proceso

de recomendacion es la funcion de similutud

ρ(X , Y) = − log

(|X ∩ Y|2

|X ||Y|

)= − log

((MT

XMY)2

MTXMX ·MT

YMY

). (2)

Nuevamente, por comodidad es posible representar las proximidades entre productos en una matriz

de similitud D con componentes Dxy = ρ(X , Y).

Algoritmo 1: Recomendacion para cliente c ∈ C

Determinar f ∈ P entre los productos mas comprados por c;

Sea r = argminy =f

Dfy;

Recomendar el producto r al cliente c.

El Algoritmo 1 resume el procedimiento de generacion de una recomendacion para un cliente cual-

quiera c ∈ C. En el primer paso, el objeto es identificar cual es el producto de la categorıa preferido

por el cliente, por frecuencia de compra, donde en caso de empates, se rompen al azar.

En el segundo paso del algoritmo, la seleccion del producto a recomendar, incluye simplemente

buscar el siguiente ıtem mas proximo de la categorıa en la matriz de similitudes D, pero puede

extenderse para incluir consideraciones de existencia de inventario I (r = argminy =f, Iy>0

Dfy) o para

3

Page 41: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

41

Jonathan Galindo Estrada, Reinaldo Uribe

retornar un numero arbitrario n < |P| de recomendaciones ordenadas para el cliente.

3. La funcion de similaridad no es una distancia

La funcion de similaridad ρ(X , Y) introducida en la Ecuacion 2 tiene las caracterısticas que intuiti-

vamente se desea que tenga la comparacion de productos para generar recomendaciones: cuando la

interseccion de los conjuntos X e Y es grande, es decir, cuando muchos de los clientes han comprado

ambos productos, el valor del logaritmo es cercano a cero, indicando “proximidad” de los items. Por

otro lado, cuando el numero de compradores comunes entre los dos es pequeno, ρ crece, tendiendo

a infinito cuando los productos no comparten clientes. De hecho, es facil probar que:

1. La funcion de similaridad es no negativa, dado que la cardinalidad de X ∩Y es menor que las

cardinalidades de X e Y, ası que el argumento del logaritmo siempre es menor o igual que

uno y por lo tanto ρ nunca es negativa.

2. La similaridad solo vale cero cuando X es igual a Y, haciendo que el numerador y denominador

del argumento del logaritmo sean iguales y en por ende el logritmo cero.

3. ρ es una funcion simetrica, como consecuencia directa de la simetrıa de la interseccion.

Estos resultados sugieren que la medida de similitud ρ(X , Y) es una candidata fuerte a ser una

distancia. Sin embargo, es posible demostrar que la condicion restante, la desigualdad triangular,

no se cumple.

Considerese por ejemplo una instancia de recomendacion con una categorıa compuesta por tres

productos P = x, y, z y tres clientes C = a, b, c, con traza transaccional:

M =

x y z

1 0 0 a

1 1 0 b

0 1 1 c

Notese que y comparte un comprador con x y otro con z, mientras x y z no tienen clientes en

comun, es decir que son disyuntos. Evaluando la condicion de la desiguladad triangular:

ρ(X , Z)?≤ ρ(X , Y) + ρ(Y, Z) ;

− log

(|X ∩ Z|2

|X ||Z|

)?≤ − log

(|X ∩ Y|2

|X ||Y|

)− log

(|Y ∩ Z|2

|Y||Z|

);

− log(0)?≤ − log

(1

4

)− log

(1

2

);

∞?≤ log(8)

4

Page 42: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

42

Modelo basado en similaridad de canastas para recomendacion de productos en retail

lo cual naturalmente no es cierto, de manera que la medida de similitud viola la desigualdad

triangular y por lo tanto no es una distancia.

4. Resultados y conclusiones

El consumo en general y particularmente en el contexto de la industria de retail, el primer indicador

clave de un sistema de recomendacion es que exista, dado que en la medida que la recomendacion

de productos se convierte en una expectativa de los clientes, no estar en condiciones de darles

recomendaciones, aunque sean imprecisas, se convierte en una desventaja competitiva.

Mas alla de esto, dada la abundancia de datos disponibles y la relativa simplicidad y bajo costo de

montar sistemas de recomendacion como el descrito en este documento, en terminos de negocio es

facil considerar un alto porcentaje de las ventas impulsadas a traves de un sistema de recomenda-

cion como marginales, atribuibles casi exclusivamente al sistema.

En una prueba piloto efectuada durante un perıodo de un mes con los clientes de una categorıa de

bebidas en una cadena de retail en Colombia (|P| ≈ 1200, |C| ≈ 300,000 para la construccion de

M), se observo una venta incremental en canales virtuales y fısicos correspondiente al 10% de las

recomendaciones entregadas a los clientes, lo cual, aunque no proviene de un proceso estricto de

medicion con grupos de control, no considera canibalizacion causada por las recomendaciones ni

validacion de la permanencia en el tiempo o tecnicas estadısticas similares, sugiere la efectividad

de la recomendacion de productos a traves de metodos como el presentado en este documento.

En consecuencia, es posible concluir que aunque la medida de similitud usada no es propiamente

una distancia metrica, generalmente el metodo permite generar recomendaciones precisas, que en

terminos reales los clientes encuentran interesantes y valiosas al momento de decidir que producto

comprar de la categorıa.

Referencias

[1] Ajay Agarwal and Minakshi Chauhan. Similarity measures used in recommender systems: a

study. International Journal of Engineering Technology Science and Research IJETSR, ISSN,

pages 2394–3386, 2017.

[2] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommen-

dations. In Proceedings of the 10th ACM conference on recommender systems, pages 191–198.

ACM, 2016.

5

Page 43: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

43

Jonathan Galindo Estrada, Reinaldo Uribe

[3] Carlos A Gomez-Uribe and Neil Hunt. The netflix recommender system: Algorithms, busi-

ness value, and innovation. ACM Transactions on Management Information Systems (TMIS),

6(4):13, 2016.

[4] Greg Linden, Brent Smith, and Jeremy York. Amazon. com recommendations: Item-to-item

collaborative filtering. IEEE Internet computing, (1):76–80, 2003.

6

Page 44: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

44

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellAnV 6 NA1 enero-junio de 2017 • ISSN-e 2357-5749 • ArtAculo InvestigaciA3n• PA¡ginas 1 a ??

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Detecciıon del punto de cambio en la media de procesos de

memoria corta en series de tiempoa

Change Point Detection in Mean of Short Memory Process and

Applications in Time Series

Herold Dehling b *, Ronald Fried c, Isabel Garcıa d, Martin Wendlere

ABSTRACT: We study the detection of change-points in time series. The classical CUSUM statistic for

detection of jumps in the mean is known to be sensitive to outliers. We thus propose a robust test based

on the Wilcoxon two sample test statistic. The asymptotic distribution of this test can be derived from a

functional central limit theorem for two-sample U-statistics. We extend a theorem of Csorgo and Horvath

to the case of dependent data.

KEYWORDS: Two-sample U-statistics, change-point detection, weakly dependent data.

1. INTRODUCCION

En el analisis de puntos de cambio una pregunta de interes es si este ocurre o no durante todo el perıodo

de observacion de un proceso estocastico. Bajo el supuesto de independencia de los datos, existe una teorıa

muy bien desarrollada ver Csorgo y Horvath (1997) para un excelente estado del arte. Cuando los datos son

dependientes, se tienen menos resultados conocidos. El estadıstico CUSUM ha sido intensamente estudiado,

incluso bajo la condicion de un tipo de dependencia; ver de nuevo Csorgo y Horvath (1997). Sin embargo,

este estadıstico CUSUM, no es robusto en la presencia de outliers. En este trabajo, se estudio un estadıstico

robusto basado en el estadıstico bimuestral Wilcoxon. Las simulaciones muestran que el comportamiento de

este estadıstico es mejor en el caso de datos provenientes de distribuciones pesadas.

En orden de derivar la distribucion asintotica de los estadısticos de prueba, estudiamos el proceso estocastico

[nλ]∑i=1

n∑j=[nλ]+1

h(Xi, Xj), 0 ≤ λ ≤ 1

donde h : R2 −→ R es una funcion kernel. En el caso de observaciones independientes, la distribucion

asintotica del proceso se ha estudiado por Csorgo y Horvath (1988). En este trabajo se extendio dicho

aDehling, H., Fried, R., Garcıa, I. & Wendler, M. (2015). CHANGE-POINT DETECTION UNDER DE-

PENDENCE BASED ON TWO-SAMPLE U-STATISTIC. Asymptotic Laws and Methods in Stochastics: A Volu-

me in Honour of Miklos Csorgo, Fields Institute Communications, Springer, New York, NY (76), 195–220.DOI:

https://doi.org/10.1007/978-1-4939-3076-012bProf. Dr. Fakultt fur Mathematik . Ruhr - Universitat Bochum*Corresponding author: [email protected]. Dr. Fakultat Statistik. Technische Universitat DortmunddAssistant Prof. Facultad de Ingenierıa y Ciencias. Pontificia Universidad Javeriana CalieProf. Dr. Institut fur Mathematik und Informatik. Universitat Greifswald

1

Page 45: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

45

Dehling, Fried, Garcıa & Wendler

resultado para datos con dependencia corta. Resultados similares se han obtenido para datos con dependencia

larga por Dehling, Rooch y Taqqu (2012), albeit con metodos diferentes.

Por otro lado, U estadısticos han sido introducidos por Hoeffding (1948), donde la distribucion asintotica

se demostro tanto para el caso univariado y bivariado bajo el supuesto de independencia. La distribucion

univariada en el caso dependiente fue estudiada por Sen (1963, 1972), Yoshihara (1976), Denker and Keller

(1983, 1985) y por Borovkova, Burton and Dehling (2001) en el caso no-degenerado, y por Babbel (1989)

y Leucht (2012) en el caso degenerado. Para U estadısticos bivariados, Dehling y Fried (2012) establecen la

distribucon asintotica de∑[n1

i=1

∑n2

j=[1 h(Xi, Xj) para datos dependientes.

El principal resultado de este artıculo es una version funcional de este teorema lımite. En particular con-

centramos nuestra atencion en datos que pueden ser representadoscomo funcionales de procesos mixing. De

esta manera, cubrimos modelos de series de tiempo, tales como procesos ARMA y GARCH, tambien datos

de sistemas dinamicos caoticos. Para una revision de este tipo de dependencia, ver por ejemplo Borovkova,

Burton and Dehling (2001). Tambien algunas referencias clasicas son Ibragimov y Linnik (1970) y Billingsley

(1968).

2. DEFINICIONES Y RESULTADOS PRINCIPALES

Considere que las observaciones se generan por medio de un proceso estocastico (Xi)i≥1,

Xi = µi + εi i ≥ 1,

(µi)i≥1 son senales desconocidas,

(εi)i≥1 es un ruido estacionario tal que E(εi) = 0.

Con base en X1, X2, . . . , Xn, queremos probar

H0 : µ1 = . . . = µn

contra

HA : µ1 = . . . = µk = µk+1 = . . . = µn,

para algun k ∈ 1, . . . , n− 1.

2.1. Motivacion para punto de cambio

Cuando el punto de cambio se conoce, tenemos el problema de dos muestras X1, X2, . . . , Xk y Xk+1, . . . , Xn.

Los correspondientes U estadısticos bivariados para puntos de cambio, e.g.

GauA:1

k

n∑i=1

Xi −1

n− k

n∑i=k+1

Xi

Wilkoxon:k∑

i=1

n∑j=k+1

1Xi≤Xj

Cuando el punto de cambio se desconoce (lo cual es nuestro supuesto), usamos el supremo de estos estadıs-

ticos, tomado sobre todos los k ∈ 1, 2, . . . , n− 1, con las constantes de normalizacion apropiadas.

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellAn

Page 46: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

46

TATULO DEL ARTICULO EN ESPAAOL

2.2. Dependencia

Recordemos que se conocen algunos resultados bajo independencia, en este caso supongamos que el ruido

(εi)i≥1 es una funcion de un proceso absolutamente regular (β-mixing)

εi = f(Zi, Zi−1, . . .), donde

1. (Zi)i∈Z es un proceso absolutamente regular con coeficientes mixing βk.

2. f : RN → R es una funcion 1− approximating, i.e.

E|εi − fm(Zi, Zi−1, . . . , Zi−m)| ≤ am,

para alguna fm : Rm+1 → R y am → 0 cuando m → ∞.

Algunos ejemplos de este tipo de procesos son procesos ARMA, procesos lineales con coeficientes sumables,

procesos de ramificacion y sistemas dinamicos.

2.3. U estadısticos bivariados

Consideremos

U[nλ],n−[nλ] :=1

[nλ](n− [nλ])

nλ∑i=1

n∑j=nλ+1

h(Xi, Xj), 0 ≤ λ ≤ 1,

El analisis de este proceso usa la descomposicion Hoeffding

h(x, y) = θ + h1(x) + h2(y) + ψ(x, y),

donde θ = Eh(X,Y ), h1(x) = Eh(x, Y )− θ, h2(y) = Eh(X, y)− θ y ψ(x, y) = h(x, y)− h1(x)− h2(y)− θ

2.4. Version Funcional del Teorema Central del Lımite

Sea (Xi)i≥1 un 1-approximating funcional de un proceso absolutamente regular. Entonces, bajo algunas

condiciones tecnicas, el proceso D[0, 1]-valuado

√n(λ(1− λ)(U[nλ],n−[nλ] − θ)

)0≤λ≤1

,

converge en distribucion al proceso Gaussiano ((1− λ)W1(λ) + λ(W2(1)−W2(λ))0≤λ≤1 donde (W1λ,W2(λ))

denota movimiento Browniano bidimensional con funcion de covarianza

E(Wi(λ),Wj(µ)) = (λµ)∑k∈Z

Cov(hi(X1), hj(XK)).

Idea de la prueba

Usando la descomposicion Hoeffding h(x, y) = θ + h1(x) + h2(y) + ψ(x, y), obtenemos

[nλ]∑i=1

n∑j=[nλ]+1

(h(Xi, Xj)− θ) = (n− [nλ])

[nλ]∑i=1

h1(Xi) + [nλ]

n∑j=[nλ]+1

h2(Xj) +

[nλ]∑i=1

n∑j=[nλ]+1

ψ(Xi, Xj)

Los primeros dos terminos se pueden tratar usando un Teorema Central del lımite Funcional para la suma

de vectores∑[nλ]

i=1 (h1(Xi), h2(Xi)). Ademas, probamos que

[nλ]∑i=1

n∑j=[nλ]+1

ψ(Xi, Xj) = Op(n3/2).

V 6 NA1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • ArtAculo InvestigaciA3n 3

Page 47: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

47

Dehling, Fried, Garcıa & Wendler

3. CONCLUSIONES

El analisis de algunos estadısticos robustos de punto de cambio en series de tiempo, requiere teorıa

asintotica para un U estadısticos bivariados .

Desarrollamos teorıa asintotica para estos procesos para datos dependientes, tanto para la hipotesis

nula como para una alternativa local.

Los resultados asintoticos se confirmaron via simulaciones.

El estadıstico Wilkoxon tiene mejor potencia que el CUSUM cuando los datos tienen cola pesada.

Utilizamos estos estadısticos para detectar punto de cambio en una serie de tiempo con datos climaticos

en Postdam, Alemania.

Referencias

B. Babbel (1989). Invariance Principles for U-Statistics and von Mises Functionals. Journal of Statistical

Planning and Inference 22: 337-354.

P. Billinsgley (1999). Convergence of Probability Measures. 2nd edition. John Wiley & Sons, New York.

A. Borovkova, R. M. Burton and H. G. Dehling (2001). Limit Theorems for Functionals of Mixing Processes

with Applications to U-Statistics and Dimension Estimation. Transactions of the American Mathema-

tical Society 353: 4261-4318.

M. Csorgo and L. Horvath (1988). Invariance Principles for Changepoint Problems. Journal of Multivariate

Analysis 27: 151-168.

M. Csorgo y L. Horvath (1997). Limit Theorems in Change Point Analysis. John Wiley & Sons, New York.

H. Dehling and R. Fried (2012). Asymptotic Distribution of Two-Sample Empirical U-Quantiles with Appli-

cations to Robust Tests for Shifts in Location. Journal of Multivariate Analysis 105: 124-140.

H. Dehling, A. Rooch and M. S. Taqqu (2013). Nonparametric Change-Point Tests for Long-Range Dependent

Data. Scandinavian Journal of Statistics 40: 153-173.

W. Hoeffding (1948). A Class of Statistics with Asymptotically Normal Distribution. Annals of Mathematical

Statistics 19: 293-325.

A. Ibragimov and Yu. V. Linnik (1971). Independent and Stationary Sequences of Random Variables Wolters

Noordhoff Groningen

A. Leucht (2012) Degenerate U and V Statistics under Weak Dependence: Asymptotic Theory and Bootstrap

Consistency. Bernoulli 18: 552-585.

K. Sen (1963). On the Properties of U-Statistics when the Observations are not Independent. I. Estimation of

Non-Serial Parameters in some Stationary Stochastic Processes. Calcutta Statistical Association Bulletin

12: 69-92.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellAn

Page 48: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

48

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a ??

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

ESTIMACION BAYESIANA DE UN MODELO DE

REGRESION COX CON PREDICTORES FUNCIONALES

DISPERSOS APLICADOS A DATOS DE CIRROSIS BILIAR

PRIMARIA a

BAYESIAN ESTIMATION OF A COX REGRESSION MODEL

WITH SPARSE FUNCTIONAL PREDICTORS APPLIED TO

PRIMARY BILIARY CIRRHOSIS DATA

YURI MARCELA GARCIA SAAVEDRA b *, JULIAN ALFONSO ACUNA COLLAZOS c,

JAIRO ALFONSO CLAVIJO MENDEZ d,

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: En este trabajo se presenta, desde un enfoque bayesiano, un procedimiento para la estima-

cion y seleccion de variables en un modelo de regresion de Cox con datos funcionales dispersos. En estudios

medicos frecuentemente se registran datos longitudinales como perfiles medidos en individuos en diferentes e

irregulares puntos del tiempo (datos dispersos). Para poder configurar tales datos en una estructura funcio-

nal se usa regresion local con el fin de suavizar las covariables funcionales mediante componentes principales

funcionales (FPCA). La seleccion de variables funcionales se hace con posterioridad a la suavizacion de las

covariables mediante metodos de regularizacion como el metodo de penalizacion LASSO. Se quiere proponer

ahora un metodo de estimacion con enfoque bayesiano, mediante metodos MCMC, los cuales se consideran

flexibles para la implementacion de nuevos modelos que consideran las respectivas probabilidades a priori pa-

ra los parametros del modelo de Cox. La motivacion de este trabajo se basa en datos de cirrosis biliar primaria

donde hay un interes principal doble: estimar la funcion de riesgo - probabilidad de que un paciente fallezca en

un determinado tiempo- y a la vez que la seleccion de covariables funcionales que inciden sobre dicha funcion.

PALABRAS CLAVE: MCMC, inferencia bayesiana, FPCA, modelo de regresion de Cox, penalizacion

LASSO

aGarcıa, Y. M. & Acuna, J.A. & Clavijo, J.A. (2019). Estimacion bayesiana de un modelo de regresion Cox con

predictores funcionales dispersos aplicados a datos de cirrosis biliar primaria). Revista de la Facultad de Ciencias, 6

(1), 1–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bM.Sc en Estadıstica. Profesor Asistente. Facultad de Ciencias. Universidad del Tolima*Autor para correspondencia: [email protected] en Estadıstica. Profesor Asistente. Facultad de Ciencias Basicas. Universidad Militar Nueva GranadadM.Sc en Estadıstica. Profesor titular. Facultad de Ciencias. Universidad del Tolima

1

Page 49: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

49

AUTOR1, AUTOR2, AUTOR3, AUTOR4, AUTOR5

ABSTRACT: This paper presents, from a Bayesian approach, a procedure for the estimation and selection

of variables in a Cox regression model with sparse functional data. In medical studies, longitudinal data

are frequently recorded as profiles measured in individuals at different and irregular points of time (sparse

data). In order to configure such data in a functional structure, local regression is used to smooth the fun-

ctional covariates by using functional principal components (FPCA). The selection of functional variables is

made after the smoothing of the covariates by means of regularization methods such as the LASSO penalty

method. We now want to propose an estimation method with a Bayesian approach, using MCMC methods,

which are considered flexible for the implementation of new models that consider the respective a priori

probabilities for the Cox model parameters. The motivation for this work is based on data of primary biliary

cirrhosis where there is a double main interest: to estimate the risk function -probability that a patient dies

in a certain time- and selection of functional covariates that affect this function.

KEYWORDS: MCMC, bayesian inference, FPCA. Cox regression models, LASSO penalty.

1. INTRODUCCION

En el analisis de datos funcionales (FDA), la unidad basica es el dato funcional. En general cualquier

observacion que varıe en un continuo se puede considerar un dato funcional. Bajo la estructura del

FDA, cada observacion es considerada a ser una curva o funcion real. De esta manera el conjunto

de valores sobre el cual estas funciones estan definidas son a menudo el tiempo o espacio.

La motivacion de este trabajo se basa en un ensayo controlado aleatorizado de la Clınica Mayo

en el que se recopilaron datos longitudinales y de supervivencia entre 1974 y 1984 para estudiar

la progresion de la cirrosis biliar primaria (Fleming & Harrington, 1991). Este conjunto de datos

consiste de 16 variables de 312 pacientes en total. La variable de respuesta es el tiempo de supervi-

vencia (en anos). Cuatro covariables tienen mediciones longitudinales: Bilirrubina serica (mg/dl),

albumina (gm/dl), fosfatasa alcalina (U/litter) y plaquetas (ml/1000). Cinco covariables escalares

consideradas son la edad, el sexo, la ascitis, la hepatomegalia y la droga.

Consideramos el problema de seleccion de variables en el modelo de regresion funcional lineal de

Cox para determinar que covariables funcionales y escalares estan asociadas con la respuesta de

tiempo de supervivencia usando la penalizacion LASSO y el metodo Stochastic Search Variable

Selection (SSVS).

2. MARCO TEORICO

Una variable aleatoria χ se llama variable funcional si toma valores en un espacio infinito di-

mensional (espacio funcional). Ası una observacion X de χ se llama dato funcional (ver Figura

1). Por otro lado, si xi(t), i = 1, 2, ..., N es una muestra de curvas o datos funcionales, la media

funcional esta dada por x(t) =1

N

∑i xi(t).

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 50: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

50

TITULO DEL ARTICULO EN ESPANOL

5 10 15

010

2030

40

Tiempo

Bilirrub

ina Sé

rica (m

g/dl)

5 10 15

12

34

56

78

Tiempo

Album

ina (m

g/dl)

5 10 15

0200

0600

0100

00

Tiempo

Alkalin

e fosfa

tasa (U

/lt)

5 10 15

0200

400600

800100

0

Tiempo

Plaque

tas (m

l/1000)

Figura 1: Covariables funcionales longitudinales dispersas (Sparse)

2.1. Analisis de componentes principales funcionales (ACPF)

Al usar este metodo, se representa un dato funcional con bases propias (eigenbases), la cual es una

base ortonormal de un espacio de Hilbert L2 que consiste de funciones propias (eigenfunctions) del

operador de covarianza C(s, t). El ACPF representa datos funcionales en una forma parsimoniosa,

es decir cuando se usa un numero fijo de funciones base, la base de la primera funcion propia explica

mas variacion que cualquier otra expansion de base de las demas funciones propias.

Para un proceso estocastico integrable cuadratico X(t), t ∈ τ , sea µ(t) = E(X(t)) y C(s, t) definida

como: C(s, t) = Cov(X(s), X(t)) =∑∞

k=1 λkϕk(s)ϕk(t), donde λ1 ≥ λ2 ≥ ... ≥ 0 son los valores

propios y ϕ1, ϕ2, ... son las funciones propias ortonormales de un operador lineal de Hilbert C :

L2(τ) → L2(τ) con C(f) =∫τ C(s, t)f(s)ds.

Mediante el teorema de Karhunen− Loeve, podemos expresar el proceso centrado como:

X(t)− µ(t) =∞∑k=1

ξkϕk(t),

donde ξk =∫τ (X(t)− µ(t))ϕk(t)dt es la componente principal (score) asociada a la k-esima funcion

propia ϕk con propiedades E(ξk) = 0, V ar(ξk) = λk y E(ξk, ξl)) = 0, ∀k = l

En la Figura 2 podemos observar el% de variabilidad explicada por cada componente, las cur-

vas para las tres componentes principales seleccionadas y la media funcional correspondiente a la

covariable funcional Bilirrubina serica (mg/dl).

0 2 4 6 8 10 12 14

02

46

810

1214

Design Plot

Observed time grid

Obser

ved tim

e grid

Count

1

2

3

4+

0 2 4 6 8 10 12 14

3.54.0

4.55.0

5.5

Mean Function

s

Scree−plot

Number of components

Fractio

n of V

arian

ce Ex

plaine

d

020

4060

8010

0

Cumul. FVE

0 2 4 6 8 10 12 14

−0.4

0.00.4

First 3 Eigenfunctions

s

φ1

φ2

φ3

Figura 2: ACPF para la covariable funcional Bilirrubina serica (mg/dl)

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 51: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

51

AUTOR1, AUTOR2, AUTOR3, AUTOR4, AUTOR5

2.2. Modelo de regresion de Cox funcional

La funcion de hazard para el modelo de regresion funcional de Cox tiene la siguiente forma

λi(t) = λ0(t) exp

(Ziγ +

M∑m=1

lm

χim(sm)βm(sm)dsm

)

donde χim(sm) es el m-esimo predictor funcional y βm(sm) es el m-esimo parametro funcional.

En la Figura 3 podemos ver la funcion de sobrevivencia y los residuales de Cox-Snell para el modelo

de regresion funcional de Cox Bayesiano ajustado, usando el Software R. Las variables seleccionas

mediante el metodo SSVS fueron Bilirrubina serica, Albumina, Plaquetas y edad, ya que esta

combinacion de variables presento el mayor% de proporcion. Esta seleccion coincide usando una

penalizacion LASSO.

0 10 20 30 40 50

0.900.92

0.940.96

0.981.00

Time

Surviva

l Proba

bility

1

2

0 1 2 3 4

01

23

4

Figura 3: izquierda:Survival Probability. derecha:Residuos de Cox-Snell

3. CONCLUSIONES

El analisis de datos funcionales son una herramienta muy importante y util en casos en los cuales

se tienen datos con una alta dimensionalidad, con covariables sean dispersas (sparse) o densas y

medidas longitudinalmente en el tiempo o espacio.

Referencias

Cox, D. R. (1972). Regression models and life-tables, Journal of the Royal Statistical Society: Series

B (Methodological), 34(2), 187-202.

Fleming, T.; Harrington, D. (1991). Counting processes and survival analysis. John Wiley & Sons.

Vol. 169

Lee, E., Zhu, H., Kong, D., Wang, Y., Giovanello, K. S., & Ibrahim, J. G. (2015). BFLCRM: A

Bayesian functional linear Cox regression model for predicting time to conversion to Alzheimers

disease. The annals of applied statistics, 9(4), 2153.

Kong, D., Ibrahim, J. G., Lee, E., & Zhu, H. (2018). FLCRM: Functional linear cox regression

model. Biometrics, 74(1), 109-117.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 52: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

52

1 Profesor titular. E-mail: [email protected]

2 profesor asociado. Email: [email protected]

Análisis temporal espacial del índice NDVI utilizando el archivo

de imágenes de satélite Landsat

Spatio temporal analysis of NDVI index using the Landsat satellite image archive

Rafael Meléndez1, Haroldo De Luquez,2, Mónica Caicedo3, Emerson Castellanos3

1 Facultad de Ingeniería, Universidad de La Guajira, Riohacha, Colombia 2 Facultad de Ingeniería, Universidad de La Guajira, Riohacha, Colombia

3 Estudiante, Maestría en gestión integral frente al Cambio climático, Universidad de La Guajira, Colombia 3 Estudiante, Maestría en gestión integral frente al Cambio climático, Universidad de La Guajira, Colombia

Resumen

El Índice de Vegetación de Diferencia Normalizada NDVI ha demostrado ser un indicador robusto de la producción de plantas y un indicador ambiental asociado con la distribución y la dinámica de los ecosistemas. Las imágenes satelitales ofrecen un medio muy útil para evaluar los patrones del paisaje y proporcionan un compuesto digital de la distribución espacial de la cobertura del suelo, además de establecer indicadores de degradación y conservación de los recursos naturales, que sirven para evaluar la dinámica de los cambios en los usos del suelo y la vegetación. En este trabajo, el índice NDVI fue utilizado para evaluar la cubertura vegetal a través del análisis espacio temporal de la cuenca del río Ranchería (La Guajira-Colombia) durante cinco períodos anuales 1997, 2001, 2010, 2014 y 2016. Imágenes de sensores, Landsat 5 y 8 ETM +, se utilizaron para calcular estos cambios. Además, se aplicó un ANOVA de medidas repetidas para evaluar los cambios en la vegetación a lo largo del tiempo. La prueba multivariada indica una diferencia significativa entre los niveles medios del NDVI. Se verifico el supuesto de esfericidad mediante la prueba de Mauchy y se aplicó la prueba F corregida, y finalmente se concluye que hay cambios significativos en los niveles medios de NDVI a lo largo del tiempo. Palabras clave: índice NDVI, espacio temporal, medidas repetidas, cobertura vegetal, imágenes satelitales. Introducción La disponibilidad de imágenes satelitales en varias resoluciones espaciales ha generado interés entre la comunidad científica con respecto al potencial de la teledetección para medir y monitorear variables que afectan la biodiversidad (Roughgarden et al. 1991, Turner et al. 2001). Por otro lado, el uso del Índice de Vegetación de Diferencia Normalizada (NDVI) para la clasificación de la cubierta del suelo puede ser apropiado, no solo para generar clases altamente precisas (Friedl et al. 2000b). Para la obtención de puntos pequeños, los datos Landsat de alta resolución proporcionan una alternativa atractiva. En este trabajo, evaluamos las medidas de NDVI derivadas de las imágenes del Landsat 5 y 8 para explicar la variación espacial del bosque, la extracción minera, pasturas, arbustos, áreas sin vegetación y humedales en la cuenca del río Ranchería (Norte de Colombia). Los índices de NDVI se utilizaron para evaluar los cambios de vegetación durante cinco períodos anuales 1997, 2001, 2010, 2014 y 2016. Área de estudio

El río Ranchería del norte de Colombia (Figura 1) incluye más de 423,000 hectáreas y la actividad principal en el área de estudio es la extracción de carbón, ubicada entre la ciudad de Maicao, Albania y Barrancas.

Page 53: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

53

1 Profesor titular. E-mail: [email protected]

2 profesor asociado. Email: [email protected]

Figura 1: Mapa de la cuenca del río Ranchería del norte de Colombia. Materiales y métodos Los datos satelitales multiespectrales corresponden a los satélites Landsat 5 (1997, 2001 y 2010) y Landsat 8 (2014 y 2016). Las imágenes fueron adquiridas del visor de visualización global de USGS (Glo Vis). Evaluamos el cambio de cobertura en los diferentes años en la cuenca del río Ranchería y para este fin se utilizó el índice NDVI. En muchas situaciones en la ecología, las observaciones repetidas se hacen sobre el mismo individuo, unidad experimental o en el mismo punto de muestreo. Además, alguna característica o factores se mide en diferentes momentos del tiempo. Utilizamos los índices NDVI obtenidos de las imágenes de satélite en la cuenca en los diferentes años (1997,2001,2010,2014 y 2016) para el análisis de medidas repetidas. Nuestro objetivo se centra en determinar si existieron modificaciones del índice NDVI que permita evaluar posibles cambios en el uso del suelo. Resultados y discusión Calculamos la media y la desviación estándar del NDVI y evaluamos estos valores para determinar posibles cambios en el uso del suelo. Así que se prueban las siguientes hipótesis. Ho: La hipótesis estadística nula es que las medias de la medición de NDVI son las mismas para los diferentes años de estudio.

N Medias D.S A_1997 4926 0,6483 0,18153 A_2001 4351 0,5802 0,17695 A_2010 5018 0,5927 0,18481 A_2014 4872 0,5293 0,18835

Page 54: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

54

1 Profesor titular. E-mail: [email protected]

2 profesor asociado. Email: [email protected]

A_2016 4175 0,7508 0,17570 Tabla 1: Desviación media y estándar de NDVI en los diferentes años de muestreo en la cuenca del río Ranchería. Inicialmente, utilizamos una prueba multivariada para probar la hipótesis de igualdad de las medias del índice NDVI a lo largo del tiempo. Las diferentes estadísticas indican que se rechaza la hipótesis de igualdad de medias del NDVI en el tiempo.

Valor F Hipotesis g.l Error g.l p-valor

Pillai's Trace 0,642 1869,325b 4,000 4171,000 0,000 Wilks' Lambda 0,358 1869,325b 4,000 4171,000 0,000

Hotelling's Trace 1,793 1869,325b 4,000 4171,000 0,000

Roy's Largest Root 1,793 1869,325b 4,000 4171,000 0,000

Tabla 2: prueba multivariante del indices de NDVI index. Se evaluó el supuesto de esfericidad W de Mauchly (valor de p <0,0001). Como no se cumple este supuesto, se aplica una corrección de los grados de libertad tanto para el numerador como el denominador multiplicando por ε. Epsilon (Box, 1945).

Prueba de esfericidad de Mauchly Effect Mauchly's

W Approx. Chi-Square

df Sig. Epsilonb Greenhouse-Geisser

Huynh-Feldt

Lower-bound

factor1 ,867 593,164 9 ,000 ,929 ,930 ,250 Tabla 3: prueba de esfericidad de Mauchly. Se viola el supuesto de esfericidad, por lo tanto recurrimos a la estadística Greenhouse-Geisser que es la más utilizada, esto indica que existen diferencias significativas en las medias del NDVI. Además, cuando se viola el supuesto de esfericidad, es preferible utilizar la aproximación univariante, ya que la estadística F univariada es más potente.

Source Type III Sum of Squares

df Mean Square

F Sig.

factor1 Sphericity Assumed

152,680 4 38,170 1771,571 0,000

Greenhouse-Geisser

152,680 3,716 41,085 1771,571 0,000

Huynh-Feldt 152,680 3,720 41,044 1771,571 0,000 Lower-bound

152,680 1,000 152,680 1771,571 0,000

Tabla 4: efecto intra sujetos

Page 55: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

55

1 Profesor titular. E-mail: [email protected]

2 profesor asociado. Email: [email protected]

Figura 2: medias marginales estimadas.

Se aplica la prueba par a par entre los niveles de factores. La corrección de Bonferroni ajusta los niveles críticos de la tabla para controlar la tasa de error Tipo I. Hay diferencias significativas entre las medias de los niveles de NDVI en el tiempo.

Conclusiones

El análisis multitemporal permitió comparar la dinámica de la cobertura del suelo presente en la cuenca del río Ranchería durante un período de 20 años. (1997 a 2016). Los niveles medios de NDVI están disminuyendo significativamente hasta 2014, y se muestra que el bosque ha disminuido mucho en el tiempo, pero en 2016 este nivel aumentó significativamente.

Las actividades económicas de la región, como la agricultura, la pesca y la minería, se ven afectados directamente por cambio de la cobertura vegetal, por lo tanto, los valores de NDVI se ven afectados espacialmente.

Estos valores proporcionan información para la gestión ambiental en los aspectos del territorio (erosión, incendios forestales, desertificación, producción de agua, producción de madera, turismo). El NDVI es una herramienta práctica y económica para la clasificación de la cobertura en regiones semiáridas, además de determinar cambios de la cobertura y el uso del suelo.

Bibliografía Chu H., Venevsky S., Wu C., Wang M., (2019), NDVI-based vegetation dynamics and its response to climate changes at Amur-Heilongjiang River Basin from 1982 to 2015. Science of the Total Environment 650, 2051–2062. Zingga, S., Grenzb, J., Humberta, J., (2018), Landscape-scale effects of land use intensity on birds and butterflies, Agriculture, Agriculture, Ecosystems and Environment 267, 119–128. Roughgarden, J., Running, S. W., y Matson, P. A., (1991), What does remote sensing do for ecology? Ecology, 76(6), 1918–1922.

Page 56: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

56

Independence test based on the ranks of theobservations

Sergio L. M. Londono 1

AbstractWe study the association between two continuous random variables. We propose anonparametric statistical test to study the association structure between two randomvariables. The statistical test is an empirical measure, which can be written as the integralover the square unit of a linear function of the two dimensional empirical estimator oftwo dimensional theoretical copula, where its slope and intercept are two sequences ofreal numbers, which are presented. We show that the test statistic has asymptotically anormal distribution under the null hypothesis. Under the null hypothesis, the mean andvariance of this empirical process are given. In practice the statistical test is computedusing the bivariate Monte Carlo Method integration. We compare the performance withthat of various tests in the literature on a simulation study. We present an application toreal data about association between pulmonary conditions.Keywords: Association; Linear; Ranks; Statistic; Test.1

1Faculty of Sciences, University of Antioquia, Calle 67, No 53-108, Medellín, Antioquia, Colombia.E-mail: [email protected]

1

Page 57: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

57

1 Introduction

In modern applications, one often needs to test the independence between two randomvariables, for example, in Health Sciences, the recognition of association patterns betweentwo pulmonary conditions is very important. Coal is an important global commodityand will remain so for the foreseeable future. Thus, mining of coal will also remainimportant. Despite improvements in exposure assessment and ventilation controls and theexistence of protective government regulations, coal miners are still at risk for respiratorydiseases caused by coal mine dust and their associated morbidity and mortality. Thus,clinicians must be prepared to diagnose these diseases and recognize their association withwork in coal mining, see the article Laney and Weissman (2014); McCullagh and Nelder(1989); Seixas et al. (1992) to more information. Non-parametric tests of two-dimensionaldependence have been discussed by statisticians for more than 120 years. Francis Galtondiscovered the concept of correlation in the late fall of 1888 Stigler (1989). A decadelater, Karl Pearson developed the correlation coefficient Benesty et al. (2009); Rodgersand Nicewander (1988). In literature, we find several tests based only on the rank ofobservations. In the article Spearman (1904) was published a new correlation coefficient,this coefficient is defined as the correlation coefficient between two ranked variables. Inpsychological works, the problem of comparing two different rankings of the same setof individuals contributes to the publication of a new correlation coefficient based onranks Kendall (1938). In the article Hoeffding (1948) was proposed a non-parametrictest based only on the ranks of the observations for the hypothesis of independencebetween two continuous random variables. In the article Genest and Rémillard (2004)published a test for the supposition of independence in a continuous random vectorbased on empirical copula processes. In the article Heller et al. (2013) was consideredthe problem of detecting associations between random vectors of any dimension. Thistest is a consistent multivariate test of association based on ranks of distances. In thearticle García and González-López (2014) recently were published three statistical testsfor the supposition of independence between two continuous random variables based onthe longest increasing sub sequence. On the other hand, we can find article to study thedependence using other perspective, por example, in the article Reshef et al. (2011) waspublished a new test of independence based on the maximal information coefficient. Inthe article Robinson (1991) the independence was studied using the concepts of entropy.In this paper, we consider the problem of detecting dependence structure between twocontinuous random variables. These types of dependence include structures with eitherleverage points, possibly troublesome outliers, null correlation, or correlation close to zero,and mixtures of dependent and independent structures.

2 Theoretical framework

Let X X1, X2 be a continuous two dimensional random vector. We are interestedin testing if X1 and X2 are independent. Let F11 the joint distribution function of therandom vector X X1, X2, that is, F11x PX1 x1, X2 x2. Let F1 andF2 the marginal cumulative distribution functions of the random variables X1 and X2,

2

Page 58: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

58

that is, F1x1 PX1 x1, F2x2 PX2 x2. Let F11 and F1

2 the inverses ofF1 and F2, respectively. We propose a test statistic to study the independence betweentwo continuous random variables only on the ranks Rj

i n, of the observations Xji ; j

1, 2; i 1, 2, . . . , n, which are in the square unit. This statistical test is an empiricalprocess, which can be written as the integration over the square unit 0, 12 of a linearfunction of the two dimensional empirical estimator of two dimensional theoretical copula,which contains all information on the dependence structure between the components ofthe random vector X X1, X2. Suppose B

τ1, τ2 τ1, τ2 0, 12 be the set ofbinary sequences of length 2. Let x x1, x2 be an arbitrary sample point of the randomvector X X1, X2. Let τ1, τ2 be an point of the set binary B, and u u1, u2 apoint in the unit square 0, 12. Consider the function,

Cτ1,τ2u E

2

j1

τjI

XjF1j uj

1 τjI

XjF1j uj

. (1)

According to this definition, C1,1u is the two-dimensional theoretical copula of the

random vector X X1, X2. Consider the univariate theoretical function below,

Cτjuj E

τjI

XjF1j uj

1 τjI

XjF1j uj

; j 1, 2. (2)

According to the last definition, C1u1 C1,1

u1, 1, this is,

C1u1 P

X1 F11 u1

P

X1 F11 u1, X2

C1,1u1, 1.

Let

H1u C1,1

uC0,0u C1,0uC0,1

u. (3)

H0u 2C1u1C2u2C0u1C0u2. (4)

Definition 1. We define the theoretical association measure by

T u H1u H0

u (5)

If the random variables X1 and X2 are independent then, H1u H0

u

3 Estimation

Let X11, X21, . . . , X1n, X2n be a two dimensional random sample of the continuousrandom vector X X1, X2, and let R11, R21, . . . , R1n, R2n be the two dimensional

3

Page 59: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

59

random sample of the ranks of the random sample respective. We introduce the empiricalprocess to estimate the two-dimensional theoretical function defined in (1). Supposeu u1, u2 0, 12. The two dimensional empirical estimator of the two-dimensionaltheoretical copula is defined by,

Cτ1,τ2n u

1n 1

n

i1

2

j1

τjI Rjin1uj

1 τjI Rjin1uj

. (6)

According to the equation (6) and García et al. (2013), C1,1n u is the two dimensional

empirical estimator of the two dimensional copula PX1 F11 u1, X2 F1

2 u2. Weintroduce the empirical process to estimate the theoretical function defined in (1). Forj 1, 2. We consider the next empirical process

Cτjn uj

1n 1

n

i1

τjI Rjin1uj

1 τjI Rjin1uj

; j 1, 2. (7)

According to the equation (7), C1nuj is the estimator of the marginal cumulative

distribution functions of the random variables Xj, Fjuj PXj F11 uj; j 1, 2.

Definition 2. We introduce the empirical process to estimate the theoretical associationmeasure introduced in the definition 1. Consider the functions below,

H1nu C1,1

n uC0,0n u C1,0

n uC0,1n u,

H0nu 2

2

j1C1

nujC0nuj.

(8)

We define the two dimensional empirical association measure by,

Tnu H1nu H0

nu. (9)

If X1 and X2 have a continuous joint density, then for all x1, x2 R2, there is afunction βn : 0, 12 0, 1, such that for all u1, u2 0, 12, the two dimensionalempirical association measure Tnu can be written as a linear function with intercept βn.This result is presented in the following theorem

Theorem 3.1. The two dimensional empirical association measure defined in (9) can bewritten in the form,

Tnu n

n 1C1,1n u βnu, (10)

where

4

Page 60: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

60

βnu C1nu1C1

nu2 2C1nu1C1,1

n u 2C1,1n uC1

nu2

2n2

n 12C1nu1C1

nu2 2n

n 1C1nu1

C1nu2

2

2n

n 1

C1nu1

2 C1nu2 2

C1nu1C1

nu22 2

C1,1n u

2

(11)

for all natural number n.

We can observe, that this point estimator is a linear function. The slope and theintercept are functions depending of the marginals functions C1

nu1, C2nu2, and of the

two dimensional empirical estimator of two dimensional theoretical copula C1,1n u. See

the proof in the Appendix, subsection Proof of theorem 3.1.

3.1 The statistical test

Definition 3. The two dimensional empirical process to study the association in thesquare unit 0, 12 is defined by,

Tn n

n 1

0,12C1,1

n udu

0,12βnudu, (12)

where βnu is defined in 11, and the function C1,1n u is defined in (6).

Theorem 3.2. Under the null hypothesis of independence H0, the real number sequencesann1, and bnn1 satisfy,

nan a0 On12, and

nbn b0 On12, (13)

where an n

n 1 , and bn

0,12βnudu; a0 0 and b0 are constant values.

This theorem gets the convergence order of the two real number sequences ann1, andbnn1, which characterizes the estimator Tn.See the proof in the Appendix, subsection Proof of theorem 3.2

3.2 Computation of the test statistic

From (12) in practice, the two dimensional empirical process to study the association inthe square unit 0, 12 is computed using the bivariate Monte Carlo Method integration.This method can be used to numerically approximate the value of the double integral,which defines the test statistic given in (12). Consider the bivariate random sample of the

5

Page 61: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

61

ranks R11n 1, R21n 1 , . . . , R1nn 1, R2nn 1, which is a sequence ofbivariate random vectors with uniform distribution on the square unit 0, 12, then thetest statistic Tn can be computed as,

Tn n

n 1

n

k1C1,1

n R1kn 1, R2kn 1 n

k1βnR1kn 1, R2kn 1. (14)

3.3 Asymptotic distribution of the test statistic in the case ofindependence

Theorem 3.3. Under the null hypothesis of independence H0, the two dimensionalempirical process introduced in the definition 3. Then, when n ,

n

n

n 1Tn bn 14

W ZC1,1 N0, σ2

C1,1, (15)

where σ2C1,1 a2

0

0,12

0,12E GC1,1uGC1,1v dudv, and W denotes weak

convergence. In other words, the asymptotic variance of two dimensional empiricalprocess Tn is the double integral over the square unit 0, 12 of the covariance functionof the tight centered Gaussian process on 0, 12, this covariance function is given by,E GC1,1uGC1,1v C1,1

wC1,1uC1,1

v. On the other hand, the argumentstaken for this function are, w minu1, v1, minu2, v2, u u1, u2, v v1, v2. a0is a constant value such that a0 0, and N0, σ2

C1,1 denotes the normal distribution withmean zero and variance σ2

C1,1.

This theorem gets the asymptotic distribution of the test statistic in the case ofindependence. We can observe, that this test statistic has limiting normal distributionwith mean zero and variance, which is a function of the two dimensional theoretical copula.See the proof in the Appendix, subsection Proof of theorem 3.3

Theorem 3.4. Under the null hypothesis H0,

σ2C1,1

3a20

16 , (16)

where, σ2C1,1 a2

0

0,12

0,12E GC1,1uGC1,1v dudv. a0 0 is a constant value.

This theorem gets the variance of the asymptotic distribution of the test statistic in thecase of independence. We can observe, that this variance is a finite number, which dependsof the constant a0.See the proof in the Appendix, subsection Proof of theorem 3.4

6

Page 62: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

62

Corollary 3.1. Under the null hypothesis H0,

limn

P

4

n

3a0

n

n 1Tn bn 14

x

Φx, (17)

where Φx is the cumulative distribution function of the standard normal distribution,and a0 0 is a constant value.

This corollary gets the asymptotic distribution of the test statistic in the case ofindependence in function of the standard normal distribution.

Proof 1. The proof is a consequence of the theorems 3.3 and 3.4.

3.4 The test of independence

Let X11, X21, . . . , X1n, X2n be a two dimensional random sample of the continuousrandom vector X X1, X2, and let R11, R21, . . . , R1n, R2n be the two dimensionalrandom sample of the ranks of the random sample respective. Suppose that nullhypothesis H0 is satisfied, this is, the two random variables X1 and X2 are independent.The test of independence can now carry out as follows. Let 0 α 1 is the desired levelof significance, and δn the smallest number satisfying the inequality,

2 min PrTn δnH0, PrTn δnH0 α. (18)

The term on the left of inequality is the two sided p-value, H0 is the null hypothesis, andδn is an observed value of Tn. We reject the null hypothesis of independence H0, if andonly if the probabilities either of the event Tn δn or Tn δn is small enough, for nlarge enough.

Theorem 3.5. Let 0 α 1 the desired level of significance. Let δn is an observed valueof Tn. For sufficiently large n, we reject H0 if and only if

2 min

Φ

4

n

3a0

n

n 1δn bn 14

, 1 Φ

4

n

3a0

n

n 1δn bn 14

α, (19)

where Φx is the cumulative distribution function of the standard normal distribution,and a0 0 is a constant value. The sequences ann1 and bnn1 were given in thedefinition 3.

This theorem gets the test of independence. For sufficiently large n, and 0 α 1 thedesired level of significance, we can write this test in function of the standard normaldistribution.

Proof 2. The proof is a consequence of the corollary 3.1.

7

Page 63: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

63

4 Simulations

We carry out a simulation study in which for each test, we use sample sizes of20, 40, 60, 80, 100. We simulate 1000 samples of a two-dimensional continuous randomvector X X1, X2. All the simulations are written using the software R, R DevelopmentCore Team (2008). We compute the relevant two sided p-value for each random sample,and we estimate the power as the proportion of times that the two sided p-value issignificant. The procedure to estimates the power function is used in the literature, wecan see the articles García and González-López (2014); Sorkin (2006). Let j 1, . . . , 1000,and Sj

n

Xj1i , X

j2i

n

i1be the j-th simulated random sample of the random vector

X X1, X2. Given a significance level 0 α 1, we calculate the proportion of timesthat the two sided p-value is significant as being,

#

j : p -value

Sjn

α

1000, (20)

where p -value

Sjn

denotes the two sided p-value associated with the j-th simulatedrandom sample,

Xj1i , X

j2i

n

i1. In this simulation study we adopt a significance level

of α 0.05. For all tests of independence between two random variables that areconsidered in this work, we use the notation: Ln (L), JLn (J), JLMn (M), which are thetests published in the article García and González-López (2014), Pearson (P), Kendall(K), Spearman (S), Copulas (C), Hoeffding (H), Heller (D), MIC (I), and for the teststatistic introduced in this paper, we use the notation (T). We will analyze two bivariatedistribution functions.

Example one

We consider a mixture of two bivariate normal distributions with variances 1 andcorrelations ρ and ρ, namely X X1, X2

12N2µ, Σ1

12N2µ, Σ2, where µ 0, 0,

Σ1

1 ρρ 1

, and Σ2

1 ρρ 1

.

Table 1: Empirical power for example one

n (L) (J) (M) (P) (K) (S) (C) (H) (D) (I) (T)20 0.162 0.264 0.324 0.235 0.130 0.095 0.096 0.190 0.688 0.102 0.15740 0.287 0.521 0.705 0.250 0.149 0.117 0.160 0.216 0.969 0.178 0.56760 0.428 0.715 0.851 0.261 0.155 0.114 0.213 0.266 0.999 0.197 0.93880 0.645 0.799 0.957 0.250 0.153 0.107 0.270 0.353 1.000 0.333 0.995100 0.783 0.862 0.991 0.227 0.127 0.097 0.365 0.457 1.000 0.524 1.000

Example two

We consider a random vector X X1, X2 uniformly distributed on the square 1, 12,such that ρ X2 1. 2 is the euclidean norm in the space R2.

8

Page 64: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

64

Table 2: Empirical power of example two

n (L) (J) (M) (P) (K) (S) (C) (H) (D) (I) (T)20 0.184 0.507 0.864 0.016 0.001 0.002 0.054 0.203 0.602 0.271 0.44740 0.139 0.967 0.994 0.008 0.000 0.002 0.123 0.886 0.998 0.939 0.86360 0.047 0.998 1.000 0.007 0.000 0.000 0.369 1.000 1.000 0.997 0.97580 0.077 1.000 1.000 0.006 0.000 0.000 0.873 1.000 1.000 1.000 0.991100 0.043 1.000 1.000 0.009 0.000 0.002 1.000 1.000 1.000 1.000 0.999

For the two distributions considered in the two examples, we can observe that theempirical power for the test statistic studied in this paper, and considering size samplesn 20, 40, 60, 80, 100, is comparable with the empirical power of the tests, JLn (J), JLMn(M), Copulas (C), Hoeffding (H), Heller (D), and MIC (I), but the test Ln (L) presents asmall empirical power, which is to be expected since the test statistic Ln(L) is a discretestatistic. In the table 2, we can observe that the empirical power increases when thesize sample n increases for all tests, except for the tests Ln (L), Pearson (P), Kendall(K), and Spearman (S). This is expected, because the test Ln(L) is a discrete statistic,and the three test statistics, Pearson (P), Kendall (K) and Spearman (S) are coefficientsto measure the correlation between two random variables, but the structure analyzed inthese examples are non linear structures where the null hypothesis H0 is difficult to reject.On the other hand, we can observe that the empirical power to the test (T) is higher thanthe empirical power of the test based on copulas, when is considered a mixture 50 50 oftwo bivariate normal distributions, with correlation ρ and ρ, respectively (zero expectedcorrelation). For the two examples studied in this simulation study, we consider ρ 0.80.

5 Application: Data about the association betweentwo pulmonary conditions

In the application, we use the data published in the article Ashford and Sowden (1970) andused in the articles Agresti (1990); McCullagh and Nelder (1989) to study the associationbetween two pulmonary conditions, breathlessness and wheeze in a large sample of coalminers who were smokers with no radiological evidence of pneumoconlosis. The data setnamed "‘coalminers"’, appears on VGAM (package from R-project). Conceptually thedependence exists Agresti (1990); García and González-López (2014), however it is notdetected by various tests available in the literature. See the results in the table 3.

9

Page 65: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

65

0 100 200 300 400

100150

200250

300 BW

nBW

Figure 1: The graphic shows the counts with no breathlessness and wheeze nBW againstthe counts with breathlessness and wheeze BW .

Tests (L) (J) (M) (P) (K) (S) (C) (H) (D) (I) (T)p-value 0.1013 0.0464 0.0939 0.2567 0.1802 0.2125 0.1424 0.0426 0.0889 1.0000 0.0380

Table 3: p-values.

The tests JLn (J), Hoeffding (H), and the test (T) presented in this paper suggest thatthe observed data are inconsistent with the assumption that the null hypothesis is true,and thus that hypothesis must be rejected and the alternative hypothesis is accepted astrue at a significance level 5%. The other tests fail to reject the null hypothesis at thesame significance level.

6 Conclusion

In this work we develop a nonparametric independence test for the independence of twocontinuous random variables. We derived a test statistic, which is an empirical processbased only on the ranks of observations. This test statistic can be written as the integralover the square unit of a linear function of the two dimensional empirical estimator of twodimensional theoretical copula. The slope of this linear function is a sequence of boundedreal numbers, which has asymptotic convergence equal to one, and the intercept of thisfunction is a sequence of bounded real numbers, which has order On12

, this impliesthat asymptotically this linear function is equal to two dimensional empirical copula. Onthe other hand, we show that the test statistic has asymptotic normal distribution, underthe null hypothesis H0, where the square root of its variance decreases like n12. Thederivation of the limiting distribution under the null hypothesis, and the simulation studyshow that for n , the power efficiency of the statistic Tn as compared with the almostof the tests considered in this paper is either higher, this is, close to 100%, or comparable.Also, the results in this paper suggest study the dependence through of linear functions ofthe two dimensional empirical copulas instead of only two dimensional empirical copulas.

10

Page 66: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

66

Acknowledgments

Our genuine thanks are due to Professor Jesús Enrique García, and the Professor VerónicaAndrea González López by his critics and contributions to build this paper.

7 Appendix

7.1 Proof of theorem 3.1

Proof 3. We have, H1nu C1,1

n uC0,0n u C1,0

n uC0,1n u, and

H0nu 2

2

j1C1

nujC0nuj. According to the definition6,

C0,0n u

1n 1

n

i1

2

j1I Rji

n1uj

1n 1

n

i1I

R1in1u1

I

R2in1u2

1n 1

n

i1

1 I

R1in1u1

1 I

R2in1u2

1n 1

n

i1

1 I

R1in1u1

I

R2in1u2

I

R1in1u1

I

R2in1u2

n

n 1 1

n 1

n

i1I

R1in1u1

1n 1

n

i1I

R2in1u2

1n 1

n

i1I

R1in1u1

I

R2in1u2

n

n 1 C1nu1 C1

nu2 C1,1n u

Then,

C1,1n uC0,0

n u n

n 1C1,1n u C1,1

n uC1nu1 C1,1

n uC1nu2

C1,1n u

2

On the other hand,

C1,0n u

1n 1

n

i1I

R1in1u1

I

R2in1u2

1n 1

n

i1I

R1in1u1

1 I

R2in1u2

1n 1

n

i1

I

R1in1u1

I

R1in1u1

I

R2in1u2

1n 1

n

i1I

R1in1u1

1n 1

n

i1I

R1in1u1

I

R2in1u2

C1nu1 C1,1

n u

11

Page 67: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

67

C0,1n u

1n 1

n

i1I

R1in1u1

I

R2in1u2

1n 1

n

i1

1 I

R1in1u1

I

R2in1u2

1n 1

n

i1

I

R2in1u2

I

R1in1u1

I

R2in1u2

1n 1

n

i1I

R2in1u2

1n 1

n

i1I

R1in1u1

I

R2in1u2

C1nu2 C1,1

n u

then,

C1,0n uC0,1

n u C1nu1C1

nu2 C1nu1C1,1

n u C1nu2C1,1

n u

C1,1n u

2

Now,

C0nu1

1n 1

n

i1I

R1in1u1

1n 1

n

i1

1 I

R1in1u1

n

n 1 1

n 1

n

i1I

R1in1u1

n

n 1 C1nu1

C0nu2

1n 1

n

i1I

R1in1u2

1n 1

n

i1

1 I

R1in1u2

n

n 1 1

n 1

n

i1I

R1in1u2

n

n 1 C1nu2

H0nu 2

2

j1C1

nujC0nuj 2C1

nu1C1nu2C0

nu1C0nu2

2C1nu1C1

nu2C0nu1C0

nu2

2C1nu1C1

nu2

n

n 1 C1nu1

n

n 1 C1nu2

2C1nu1C1

nu2

n2

n 12 n

n 1C1nu1

n

n 1C1nu2 C1

nu1C1nu2

2n2

n 12C1nu1C1

nu2 2n

n 1

C1nu1

2 C1nu2

2n

n 1C1nu1

C1nu2

2

2

C1nu1C1

nu22

This implies that,

12

Page 68: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

68

Tnu H1nu H0

nu n

n 1C1,1n u βnu

where,

βnu C1nu1C1

nu2 2C1nu1C1,1

n u 2C1,1n uC1

nu2

2n2

n 12C1nu1C1

nu2 2n

n 1C1nu1

C1nu2

2

2n

n 1

C1nu1

2 C1nu2 2

C1nu1C1

nu22 2

C1,1n u

2

13

7.2 Proof of theorem 3.2

Proof 4. Let a0 0 and b0 constant values. Under the null hypothesis H0

0,12C1,1

n uC1nu1du

0,12

1n 1

n

i1I

R1in1u1

I

R2in1u2

1n 1

n

j1IR1j

n1u1du

1n 12

0,12

n

i1I

R1in1u1

I

R2in1u2

n

j1IR1j

n1u1du

1n 12

0,12

n

i1

n

j1I

R1in1u1

I

R2in1u2

IR1jn1u1

du

1n 12

0,12

n

i1

n

j1I

R1in1u1

IR1jn1u1

I

R2in1u2

du

1n 12

n

i1

n

j1

0,12I

R1in1u1

IR1jn1u1

I

R2in1u2

du

1n 12

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1

0,1I R1i

n1u1,R1jn1u1

du1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1P

R1i

n 1 u1,R1j

n 1 u1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1P

R1i

n 1 u1

P

R1j

n 1 u1

0,1I

R2in1u2

du2

1n 13

n

i1

n

j1n 1 R2i

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

1n 15

n

i1

n

j1n 1 R2in 1 R1in 1 R1j

1n 15

n

i1

n

j1

n 13 n 12R1j n 12R1i n 1R1jR1i n 12R2i

1n 15

n

i1

n

j1n 1R1jR2i n 1R1iR2i R1iR2iR1j

1n 15

n2n 13 nn 12

n

j1R1j nn 12

n

i1R1i n 1

n

i1

n

j1R1jR1i

1n 15

n 1n

i1

n

j1R1jR2i nn 12

n

i1R2i

14

Page 69: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

69

7.2 Proof of theorem 3.2

Proof 4. Let a0 0 and b0 constant values. Under the null hypothesis H0

0,12C1,1

n uC1nu1du

0,12

1n 1

n

i1I

R1in1u1

I

R2in1u2

1n 1

n

j1IR1j

n1u1du

1n 12

0,12

n

i1I

R1in1u1

I

R2in1u2

n

j1IR1j

n1u1du

1n 12

0,12

n

i1

n

j1I

R1in1u1

I

R2in1u2

IR1jn1u1

du

1n 12

0,12

n

i1

n

j1I

R1in1u1

IR1jn1u1

I

R2in1u2

du

1n 12

n

i1

n

j1

0,12I

R1in1u1

IR1jn1u1

I

R2in1u2

du

1n 12

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1

0,1I R1i

n1u1,R1jn1u1

du1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1P

R1i

n 1 u1,R1j

n 1 u1

0,1I

R2in1u2

du2

1n 12

n

i1

n

j1P

R1i

n 1 u1

P

R1j

n 1 u1

0,1I

R2in1u2

du2

1n 13

n

i1

n

j1n 1 R2i

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

1n 15

n

i1

n

j1n 1 R2in 1 R1in 1 R1j

1n 15

n

i1

n

j1

n 13 n 12R1j n 12R1i n 1R1jR1i n 12R2i

1n 15

n

i1

n

j1n 1R1jR2i n 1R1iR2i R1iR2iR1j

1n 15

n2n 13 nn 12

n

j1R1j nn 12

n

i1R1i n 1

n

i1

n

j1R1jR1i

1n 15

n 1n

i1

n

j1R1jR2i nn 12

n

i1R2i

14

1n 15

nn 1n

i1R1iR2i

n

i1

n

j1R1iR2iR1j

1n 15

n2n 13 n2

n 13

2

n2n 13

2 n 1n

j1R1j

n

i1R1i

1n 15

n 1n

j1R1j

n

i1R2i

n2n 13

2

1n 15

nn 1n

i1R1iR2i

n

i1R1iR2i

n

j1R1j

1n 15

n2n 13 n2

n 13

2

n2n 13

2

n2n 13

4

1n 15

n2n 13

4

n2n 13

2

1n 15

nn 1n

i1R1iR2i

nn 12

n

i1R1iR2i

1n 15

n2n 13 n2

n 13 n2n 13

4

1n 15

n2n 13

4

1n 15

nn 12

n

i1R1iR2i

1n 15

n2n 13 n2

n 13

1n 15

nn 12

n

i1R1iR2i

n

2n 14n

i1R1iR2i

15

Page 70: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

70

Analogously,

0,12C1,1

n uC1nu2du

n

2n 14n

i1R1iR2i

On the other hand,

0,12C1

nu1C1nu2du

0,12

1n 12

n

i1I

R1in1u1

n

i1I

R2in1u2

du

1n 12

0,1

n

i1I

R1in1u1

du1

0,1

n

i1I

R2in1u2

du2

1n 12

n

i1

0,1I

R1in1u1

du1

n

i1

0,1I

R2in1u2

du2

1n 12

n

i1

1 R1i

n 1

n

i1

1 R2i

n 1

1n 14

n

i1n 1 R1i

n

i1n 1 R2i

1n 14

nn 1 n

i1R1i

nn 1 n

i1R2i

1n 14

nn 1 nn 12

nn 1 nn 12

1n 14

nn 12

nn 12

n2

4n 12 14

n2

n 12 .

16

0,12

C1nu1

2 C1nu2du

0,12

1n 1

n

i1I

R1in1u1

2 1

n 1

n

i1I

R2in1u2

du

0,12

1n 13

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R1in1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

du

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

n

i1

n

i1

0,12I

R1in1u1

I

R2in1u2

du

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

n

i1

n

i1

0,12I

R1in1u1

I

R2in1u2

du

1n 13

i,j Ω

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

0,1I

R2in1u2

du2

1n 13

n

i1

n

i1

0,1I

R1in1u1

du1

0,1I

R2in1u2

du2

1n 13

i,j Ω

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

0,1I

R2in1u2

du2

17

Page 71: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

71

0,12

C1nu1

2 C1nu2du

0,12

1n 1

n

i1I

R1in1u1

2 1

n 1

n

i1I

R2in1u2

du

0,12

1n 13

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

2 n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R1in1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

0,12

n

i1I

R1in1u1

n

i1I

R2in1u2

du

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

n

i1

n

i1

0,12I

R1in1u1

I

R2in1u2

du

0,12

i,j ΩI

R1in1u1

IR1jn1u1

n

i1I

R2in1u2

du

1n 13

n

i1

n

i1

0,12I

R1in1u1

I

R2in1u2

du

1n 13

i,j Ω

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

0,1I

R2in1u2

du2

1n 13

n

i1

n

i1

0,1I

R1in1u1

du1

0,1I

R2in1u2

du2

1n 13

i,j Ω

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

0,1I

R2in1u2

du2

17

1n 13

n

i1

n

i1

1 R1i

n 1

1 R2i

n 1

1n 13

i,j Ω

1 R1i

n 1

1 R1j

n 1

n

i1

1 R2i

n 1

1n 15

n

i1

n

i1n 1 R1i n 1 R2i

1n 16

i,j Ωn 1 R1i n 1 R1j

n

i1n 1 R2i

1n 15

n

i1

n

i1

n 12 n 1R1i n 1R2i R1iR2i

1n 16

i,j Ω

n

i1

n 12 n 1R1i n 1R1j R1iR1j

n

i1n 1 R1i

1n 15

n2n 12 n 1n

n

i1R1i n 1n

n

i1R2i

n

i1

n

i1R1iR2i

1n 16

i,j Ω

n 12 n 1R1i n 1R1j R1iR1j

nn 1 n

i1R1i

1n 15

n2n 12 n 1n

n

i1R1i n 1n

n

i1R2i

n

i1

n

i1R1iR2i

1n 16

i,j Ω

n 12 n 1R1i n 1R1j R1iR1j

nn 1 n

i1R1i

1n 15

n2n 12 n 12n2

2

n 12n2

2

n

i1

n

i1R1iR2i

1n 16

n2n 12 n2

n 12

2

n2n 12

2

i,j ΩR1iR1j

nn 1 nn 12

1n 15

n

i1

n

i1R1iR2i

1n 16

i,j ΩR1iR1j

nn 12

1n 15

n

i1

n

i1R1iR2i

n

2n 15

i,j ΩR1iR1j

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

Analogously,

0,12

C1nu2

2 C1nu1du

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

18

Page 72: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

72

1n 13

n

i1

n

i1

1 R1i

n 1

1 R2i

n 1

1n 13

i,j Ω

1 R1i

n 1

1 R1j

n 1

n

i1

1 R2i

n 1

1n 15

n

i1

n

i1n 1 R1i n 1 R2i

1n 16

i,j Ωn 1 R1i n 1 R1j

n

i1n 1 R2i

1n 15

n

i1

n

i1

n 12 n 1R1i n 1R2i R1iR2i

1n 16

i,j Ω

n

i1

n 12 n 1R1i n 1R1j R1iR1j

n

i1n 1 R1i

1n 15

n2n 12 n 1n

n

i1R1i n 1n

n

i1R2i

n

i1

n

i1R1iR2i

1n 16

i,j Ω

n 12 n 1R1i n 1R1j R1iR1j

nn 1 n

i1R1i

1n 15

n2n 12 n 1n

n

i1R1i n 1n

n

i1R2i

n

i1

n

i1R1iR2i

1n 16

i,j Ω

n 12 n 1R1i n 1R1j R1iR1j

nn 1 n

i1R1i

1n 15

n2n 12 n 12n2

2

n 12n2

2

n

i1

n

i1R1iR2i

1n 16

n2n 12 n2

n 12

2

n2n 12

2

i,j ΩR1iR1j

nn 1 nn 12

1n 15

n

i1

n

i1R1iR2i

1n 16

i,j ΩR1iR1j

nn 12

1n 15

n

i1

n

i1R1iR2i

n

2n 15

i,j ΩR1iR1j

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

Analogously,

0,12

C1nu2

2 C1nu1du

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

18

0,12

C1nu1

2 C1nu2

2du

0,12

1n 1

n

i1I

R1in1u1

2 1

n 1

n

i1I

R2in1u2

2

du

0,12

1n 12

n

i1

n

j1I

R1in1u1

IR1jn1u1

1n 12

n

i1

n

j1I

R2in1u2

IR2jn1u2

du

1n 14

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

n

j1

0,1I

R2in1u2

IR2jn1u2

du2

1n 14

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

n

j1

0,1I

R2in1u2

IR2jn1u2

du2

h1

n 14

n

i1

n

j1

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

n

i1

n

j1

0,1I

R2in1u2

du2

0,1IR2j

n1u2du2

1n 18

n

i1

n

j1n 1 R1i n 1 R1j

n

i1

n

j1n 1 R2i n 1 R2j

1n 18

n

i1

n

j1

n 12 n 1R1i n 1R1j R1iR1j

n

i1

n

j1

n 12 n 1R2i n 1R2j R2iR2j

1n 18

n2n 12 nn 1

n

i1R1i nn 1

n

j1R1j

n

i1

n

j1R1iR1j

n2n 12 nn 1

n

i1R2i nn 1

n

j1R2j

n

i1

n

j1R2iR2j

1n 18

n2n 12 n2

n 12

2

n2n 12

2

n

i1

n

j1R1iR1j

n2n 12 n2

n 12

2

n2n 12

2

n

i1

n

j1R2iR2j

1n 18

n

i1

n

j1R1iR1j

n

i1

n

j1R2iR2j

19

Page 73: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

73

0,12

C1nu1

2 C1nu2

2du

0,12

1n 1

n

i1I

R1in1u1

2 1

n 1

n

i1I

R2in1u2

2

du

0,12

1n 12

n

i1

n

j1I

R1in1u1

IR1jn1u1

1n 12

n

i1

n

j1I

R2in1u2

IR2jn1u2

du

1n 14

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

n

j1

0,1I

R2in1u2

IR2jn1u2

du2

1n 14

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

n

i1

n

j1

0,1I

R2in1u2

IR2jn1u2

du2

h1

n 14

n

i1

n

j1

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

n

i1

n

j1

0,1I

R2in1u2

du2

0,1IR2j

n1u2du2

1n 18

n

i1

n

j1n 1 R1i n 1 R1j

n

i1

n

j1n 1 R2i n 1 R2j

1n 18

n

i1

n

j1

n 12 n 1R1i n 1R1j R1iR1j

n

i1

n

j1

n 12 n 1R2i n 1R2j R2iR2j

1n 18

n2n 12 nn 1

n

i1R1i nn 1

n

j1R1j

n

i1

n

j1R1iR1j

n2n 12 nn 1

n

i1R2i nn 1

n

j1R2j

n

i1

n

j1R2iR2j

1n 18

n2n 12 n2

n 12

2

n2n 12

2

n

i1

n

j1R1iR1j

n2n 12 n2

n 12

2

n2n 12

2

n

i1

n

j1R2iR2j

1n 18

n

i1

n

j1R1iR1j

n

i1

n

j1R2iR2j

19

1n 18

n

i1R1i

n

j1R1j

n

i1R2i

n

j1R2j

1n 18

n4n 14

8

18

n4

n 14

Also, under the null hypothesis H0,

0,12

C1,1n u

2du

0,12

1n 1

n

i1I

R1in1u1

I

R2in1u2

2du

0,12

1n 12

n

i1

n

j1I

R1in1u1

IR1jn1u1

I

R2in1u2

IR2jn1u2

du

1n 12

n

i1

n

j1

0,12I

R1in1u1

IR1jn1u1

I

R2in1u2

IR2jn1u2

du

1n 12

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

0,1I

R2in1u2

IR2jn1u2

du2

1n 12

n

i1

n

j1

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

0,1I

R2in1u2

du2

0,1IR2j

n1u2du2

1n 16

n

i1

n

j1n 1 R1i n 1 R1j n 1 R2i n 1 R2j

1n 16

n

i1

n

j1

n 12 n 1R1i n 1R1j R1iR1j

n 12 n 1R2i n 1R2j R2iR2j

1n 16

n

i1

n

j1

n 14 n 13R2i n 13R2j n 12R2iR2j n 13R1j

1n 16

n

i1

n

j1

n 12R1jR2i n 12R1jR2j n 1R2iR2jR1j n 13R1i

1n 16

n

i1

n

j1

n 12R1iR2i n 12R1iR2j n 1R2iR1iR2j n 12R1iR1j

1n 16

n

i1

n

j1n 1R1iR1jR2i n 1R1iR1jR2j R1iR1jR2iR2j

20

Page 74: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

74

1n 18

n

i1R1i

n

j1R1j

n

i1R2i

n

j1R2j

1n 18

n4n 14

8

18

n4

n 14

Also, under the null hypothesis H0,

0,12

C1,1n u

2du

0,12

1n 1

n

i1I

R1in1u1

I

R2in1u2

2du

0,12

1n 12

n

i1

n

j1I

R1in1u1

IR1jn1u1

I

R2in1u2

IR2jn1u2

du

1n 12

n

i1

n

j1

0,12I

R1in1u1

IR1jn1u1

I

R2in1u2

IR2jn1u2

du

1n 12

n

i1

n

j1

0,1I

R1in1u1

IR1jn1u1

du1

0,1I

R2in1u2

IR2jn1u2

du2

1n 12

n

i1

n

j1

0,1I

R1in1u1

du1

0,1IR1j

n1u1du1

0,1I

R2in1u2

du2

0,1IR2j

n1u2du2

1n 16

n

i1

n

j1n 1 R1i n 1 R1j n 1 R2i n 1 R2j

1n 16

n

i1

n

j1

n 12 n 1R1i n 1R1j R1iR1j

n 12 n 1R2i n 1R2j R2iR2j

1n 16

n

i1

n

j1

n 14 n 13R2i n 13R2j n 12R2iR2j n 13R1j

1n 16

n

i1

n

j1

n 12R1jR2i n 12R1jR2j n 1R2iR2jR1j n 13R1i

1n 16

n

i1

n

j1

n 12R1iR2i n 12R1iR2j n 1R2iR1iR2j n 12R1iR1j

1n 16

n

i1

n

j1n 1R1iR1jR2i n 1R1iR1jR2j R1iR1jR2iR2j

20

1n 16

n2n 14 n2

n 14

2

n2n 14

2

n2n 14

4

n2n 14

2

1n 16

n2n 14

4 nn 12n

j1R1jR2j

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

nn 12n

i1R1iR2i n 12

n

i1

n

j1R1iR2j

nn 12

2

n

i1R2iR1i

n2n 14

4

1n 16

nn 12

2

n

i1R1iR2i

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

n2n 14

4

1n 16

n2n 14

4 nn 12n

j1R1jR2j

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

nn 12n

i1R1iR2i

n2n 14

4

nn 12

2

n

i1R2iR1i

n2n 14

4

1n 16

nn 12

2

n

i1R1iR2i

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

n2n 14

2

1n 16

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

n

i1

n

j1R1iR2iR1jR2j

1n 16

n

i1R1iR2i

n

j1R1jR2j

21

Page 75: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

75

1n 16

n2n 14 n2

n 14

2

n2n 14

2

n2n 14

4

n2n 14

2

1n 16

n2n 14

4 nn 12n

j1R1jR2j

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

nn 12n

i1R1iR2i n 12

n

i1

n

j1R1iR2j

nn 12

2

n

i1R2iR1i

n2n 14

4

1n 16

nn 12

2

n

i1R1iR2i

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

n2n 14

4

1n 16

n2n 14

4 nn 12n

j1R1jR2j

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

nn 12n

i1R1iR2i

n2n 14

4

nn 12

2

n

i1R2iR1i

n2n 14

4

1n 16

nn 12

2

n

i1R1iR2i

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

nn 12

2

n

j1R2jR1j

n2n 14

2

1n 16

n2n 14

2

1n 16

nn 12

2

n

j1R1jR2j

n

i1

n

j1R1iR2iR1jR2j

1n 16

n

i1

n

j1R1iR2iR1jR2j

1n 16

n

i1R1iR2i

n

j1R1jR2j

21

This implies that,

0,12

C1,1n u

2du

1n 16

n

i1R1iR2i

n

j1R1jR2j

where, Ω i, j : i j, i 1, . . . , n, j 1, . . . , n.We have,

bn

0,12C1

nu1C1nu2du 2

0,12C1

nu1C1,1n udu 2

0,12C1,1

n uC1nu2du

2n2

n 12

0,12C1

nu1C1nu2du

2n

n 1

0,12C1

nu1

C1nu2

2du

2n

n 1

0,12

C1nu1

2 C1nu2du 2

0,12

C1nu1C1

nu22

du

2

0,12

C1,1n u

2du

14

n2

n 12 4

1 n2

n 12 n

2n 14n

i1R1iR2i

2n2

n 1214

n2

n 12

4n

n 1

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

28

n4

n 14 2

n 16

n

i1R1iR2i

n

j1R1jR2j

14

n2

n 12

4 4n2

n 12 2n

n 14n

i1R1iR2i

12

n4

n 14

4n2

n 16n

i1R1iR2i

12

n4

n 14

14

n4

n 14 2

n 16

n

i1R1iR2i

n

j1R1jR2j

limn

n bn b0

n lim

n

n bn b0

n lim

n

bn b0 limn

bn b0

38 b0

Then,

n bn b0 On12

On the other hand,

limn

an limn

n

n 1 1

Similarly,

22

Page 76: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

76

This implies that,

0,12

C1,1n u

2du

1n 16

n

i1R1iR2i

n

j1R1jR2j

where, Ω i, j : i j, i 1, . . . , n, j 1, . . . , n.We have,

bn

0,12C1

nu1C1nu2du 2

0,12C1

nu1C1,1n udu 2

0,12C1,1

n uC1nu2du

2n2

n 12

0,12C1

nu1C1nu2du

2n

n 1

0,12C1

nu1

C1nu2

2du

2n

n 1

0,12

C1nu1

2 C1nu2du 2

0,12

C1nu1C1

nu22

du

2

0,12

C1,1n u

2du

14

n2

n 12 4

1 n2

n 12 n

2n 14n

i1R1iR2i

2n2

n 1214

n2

n 12

4n

n 1

1n 15

n

i1

n

i1R1iR2i

18

n3

n 13

28

n4

n 14 2

n 16

n

i1R1iR2i

n

j1R1jR2j

14

n2

n 12

4 4n2

n 12 2n

n 14n

i1R1iR2i

12

n4

n 14

4n2

n 16n

i1R1iR2i

12

n4

n 14

14

n4

n 14 2

n 16

n

i1R1iR2i

n

j1R1jR2j

limn

n bn b0

n lim

n

n bn b0

n lim

n

bn b0 limn

bn b0

38 b0

Then,

n bn b0 On12

On the other hand,

limn

an limn

n

n 1 1

Similarly,

22limn

n an a0

n lim

n

n an a0

n lim

n

an a0 limn

an a0 1 b0

Then,

n an a0 On12

7.3 Proof of theorem 3.3

Proof 5. Under the null hypothesis H0,

T0 Cβ,α

0,12Cβ,αu1, u2du

0,12C1,1

udu

0,1C1u1du1

0,1C1u2du2

0,1P

X1 F11 u1

du1

0,1P

X1 F11 u2

du2

0,1u1du1

0,1u2du2

14 .

From theorem 3.2, and theorem 5.2 in the article García et al. (2013), for n ,

n

n

n 1Tn bn 14

W ZC1,1 N0, σ2

C1,1. (21)

7.4 Proof of theorem 3.4

Proof 6. Let w minu1, v1, minu2, v2, u u1, u2, v v1, v2, and a0 0 isconstant value. Without loss of generality, suppose that u1 v1 and u2 v2. Under thenull hypothesis H0,

σ2C1,1 a2

0

0,12

0,12E GC1,1uGC1,1v dudv

a20

0,1C1u1du1

0,1C1u2du2

0,1C1u1du1

0,1Cu2du2

0,1C1v1dv1

0,1C1v2dv2

.

On the other hand, since F1X1 has uniform distribution on the interval 0, 1 due to thatF1 is a continuous distribution function, then under the null hypothesis H0,

0,1C1u1du1

0,1PX1 F1

1 u1du1

0,1u1du1

u21

2

1

0

12 .

Finally, σ2C1,1 a2

01

4 116

3a20

16 .

23

Page 77: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

77

limn

n an a0

n lim

n

n an a0

n lim

n

an a0 limn

an a0 1 b0

Then,

n an a0 On12

7.3 Proof of theorem 3.3

Proof 5. Under the null hypothesis H0,

T0 Cβ,α

0,12Cβ,αu1, u2du

0,12C1,1

udu

0,1C1u1du1

0,1C1u2du2

0,1P

X1 F11 u1

du1

0,1P

X1 F11 u2

du2

0,1u1du1

0,1u2du2

14 .

From theorem 3.2, and theorem 5.2 in the article García et al. (2013), for n ,

n

n

n 1Tn bn 14

W ZC1,1 N0, σ2

C1,1. (21)

7.4 Proof of theorem 3.4

Proof 6. Let w minu1, v1, minu2, v2, u u1, u2, v v1, v2, and a0 0 isconstant value. Without loss of generality, suppose that u1 v1 and u2 v2. Under thenull hypothesis H0,

σ2C1,1 a2

0

0,12

0,12E GC1,1uGC1,1v dudv

a20

0,1C1u1du1

0,1C1u2du2

0,1C1u1du1

0,1Cu2du2

0,1C1v1dv1

0,1C1v2dv2

.

On the other hand, since F1X1 has uniform distribution on the interval 0, 1 due to thatF1 is a continuous distribution function, then under the null hypothesis H0,

0,1C1u1du1

0,1PX1 F1

1 u1du1

0,1u1du1

u21

2

1

0

12 .

Finally, σ2C1,1 a2

01

4 116

3a20

16 .

23

Page 78: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

78

ReferencesAgresti, A., 1990. Categorical Data Analysis. Wiley-Interscience.

Ashford, J., Sowden, R., 1970. Multi-variate probit analysis. Biometrics 26, 535–546.

Benesty, J., Chen, J., Huang, Y., Cohen, I., 2009. Pearson correlation coefficient, in:Noise reduction in speech processing. Springer, pp. 1–4.

García, J.E., González-López, V., Nelsen, R., 2013. A new index to measure positivedependence in trivariate distributions. J Multivariate Analysis 115, 481–495.

García, J.E., González-López, V., 2014. Independence tests for continuous randomvariables based on the longest increasing subsequence. J Multivariate Analysis 127,126–146.

García, J.E., González-López, V.A., Nelsen, R.B., 2013. A new index to measure positivedependence in trivariate distributions. Journal of Multivariate Analysis 115, 481–495.

Genest, C., Rémillard, B., 2004. Test of independence and randomness based on theempirical copula process. Test 13, 335–369.

Heller, R., Heller, Y., Gorfine, M., 2013. A consistent multivariate test of associationbased on ranks of distances. Biometrika 100, 503–510.

Hoeffding, W., 1948. A non-parametric test of independence. The Annals of MathematicalStatistics 19, 546–557.

Kendall, M.G., 1938. A new measure of rank correlation. Biometrika 30, 81–93.

Laney, A.S., Weissman, D.N., 2014. Respiratory diseases caused by coal mine dust.Journal of occupational and environmental medicine/American College of Occupationaland Environmental Medicine 56, S18.

McCullagh, P., Nelder, J.A., 1989. Generalized linear models. volume 37. CRC press.

R Development Core Team, 2008. R: A Language and Environment for StatisticalComputing. R Foundation for Statistical Computing. Vienna, Austria.

Reshef, D.N., Reshef, Y.A., Finucane, H.K., Grossman, S.R., McVean, G., Turnbaugh,P.J., Lander, E.S., Mitzenmacher, M., Sabeti, P.C., 2011. Detecting novel associationsin large data sets. Science 334, 1518–1524.

Robinson, P.M., 1991. Consistent nonparametric entropy-based testing. The Review ofEconomic Studies 58, 437–453.

Rodgers, J.L., Nicewander, W.A., 1988. Thirteen ways to look at the correlationcoefficient. The American Statistician 42, 59–66.

24

Page 79: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

79

Seixas, N.S., Robins, T.G., Attfield, M.D., Moulton, L.H., 1992. Exposure-responserelationships for coal mine dust and obstructive lung disease following enactment ofthe federal coal mine health and safety act of 1969. American journal of industrialmedicine 21, 715–734.

Sorkin, A., 2006. An Empirical Power Simulation of Several Methods for SimilarityAnalysis. Ph.D. thesis. University of Rhode Island.

Spearman, C., 1904. The proof and measurement of association between two things. TheAmerican Journal of Psychology 15, 72–101.

Stigler, S.M., 1989. Francis Galton’s account of the invention of correlation. StatisticalScience 4, 73–79.

25

Page 80: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

80

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 5

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

DISTRIBUCION POISSON TRUNCADA EN CERO a

ZERO TRUNCATED POISSON DISTRIBUTION

CRISTIAN DANIEL OBANDO ARBELAEZ b *, JUAN CARLOS CORREA MORALES c*

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: La distribucion Poisson se utiliza en problemas donde la variable aleatoria considerada es

el numero eventos ocurridos en un area o periodo de tiempo especıfico. En ocasiones la muestra de que se

dispone para estudiar dichos problemas esta truncada, es decir no es posible observar la variable aleatoria

en ciertos valores. En este trabajo se mencionan algunos casos en los que la variable sigue una distribucion

Poisson no observable en cero (Truncada en cero) y se presentan estimadores bayesianos y de maxima vero-

similitud para el parametro λ de dicha distribucion.

PALABRAS CLAVE: Distribucion Poisson Truncada en cero, Datos censurados, Estimadores puntuales.

ABSTRACT: The Poisson distribution is used in problems where the random variable considered is the

number of events occurring in a specific area or period of time. Sometimes the sample available to study

these problems is truncated, that is, it is not possible to observe the data for certain values that the random

variable can take. In this work some cases are mentioned in which the variable follows a Poisson distribution

not observable in zero (Truncated in zero) and Bayesian estimators and maximum likelihood are presented

for the parameter λ of said distribution.

KEYWORDS: Zero Truncated Poisson Distribution, Censored data, Point estimators.

1. INTRODUCCION

En este trabajo se mencionan algunas aplicaciones de la distribucion Poisson Truncada en Cero, es

decir cuando se tiene una variable aleatoria con distribucion Poisson no observable en cero. Algunos

casos en que esta distribucion ha sido aplicada son:

aObando Arbelaez, C. D. . & Correa Morales, Juan Carlos. (2019). Distribucion Poisson truncada en cero. Revista

de la Facultad de Ciencias, 6 (1), 1–5. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante de Maestrıa en Ciencias Estadısticas. Facultad de Ciencias. Universidad Nacional de Colombia. Sede

Medellın*Autor para correspondencia: [email protected] en estadıstica. Profesor Asociado. Facultad de Ciencias. Universidad Nacional. sede Medellın*Autor para correspondencia: [email protected]

1

Page 81: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

81

AUTOR1, AUTOR2, AUTOR3, AUTOR4, AUTOR5

Cuando se tiene informacion del numero de personas por hogar que padecen una enfermedad,

pero no se registraron el numero de hogares sin enfermos (David & Johnson, 1952; Cohen,

1960). Dahiya & Gross (1973) y Blumental et al. (1978) trabajaron esta tipo de situacion con

casos de colera en la India.

Una aplicacion en las ciencias medicas fue realizada por Mattews & Appleton (1993). Estos

autores estimaron la cantidad (en unidades de epıtopes) de cierta proteına presentes en las

fibras musculares. La cantidad de proteına solo era identificable al estar etiquetada, y cada

unidad podıa tener una, varias o no tener etiquetas.

Viwatwongkasem (2016) con informacion del numero de veces que ingresa cada adicto de

heroına a tratamiento de rehabilitacion utiliza la distribucion Poisson Truncada en cero para

estimar el numero adictos total. En este caso el truncamiento se da porque no hay informacion

del numero de adictos que no han recibido tratamiento.

Otro caso, se puede dar cuando se tiene registro del numero de veces que han habido recaıdas

por una enfermedad (incluyendo el momento en el que se detecto dicha enfermedad). A partir

de este registro se puede conocer el numero de personas que nunca han presentado sıntomas

pero que padecen dicha enfermedad.

En este trabajo, se presentan los estimadores de maxima verosimilitud y bayesianos para para el

parametro λ de esta distribucion. A continuacion se muestra la distribucion Poisson Truncada, se

describen los estimadores de maxima verosimilitud, bayesianos y al final se concluye.

2. DISTRIBUCION POISSON TRUNCADA EN CERO

La funcion de maxima verosimilitud para una variable aleatoria Poisson esta dada por:

L1 (λ|Datos) ∝ λ

k∑x=1

xnx

exp (−n0 + n)λ (1)

donde:

nx: Es el numero de x observadas en la muestra.

k: Es el maximo valor que puede tomar la variable aleatoria X.

n : Es el tamano de la muestra truncada en cero

Cuando las realizaciones de esta variable no son observables en cero, se dice que se tiene una

distribucion Poisson Truncada en cero. En este caso la funcion verosimilitud esta dada por:

L (λ|Datos) ∝ λ

k∑x=1

xnx

exp (−nλ)

(1− exp (−λ))n(2)

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 82: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

82

TITULO DEL ARTICULO EN ESPANOL

Diferentes autores se han preocupado por la estimacion del parametro λ cuando las realizaciones de

la variable aleatoria no son observables en cero. Entre estos autores se tienen a David & Johnson

(1952), Irwin (1959), Plackett (1953), Rider (1953), Tate (1958), Cohen (1960), Viwatwongkasem

(2016) y Obando2019 (2019). A continuacion se presentaran los estimadores de maxima verosimi-

litud y bayesianos.

2.1. ESTIMADOR DE MAXIMA VEROSIMILITUD

David & Johnson (1952), Irwin (1959) y Viwatwongkasem (2016) se enfocaron en encontrar los

estimadores de maxima verosimilitud. Particularmente Viwatwongkasem (2016) utiliza el algoritmo

EM y encuentra que los estimadores de maxima verosimilitud se obtiene resolviendo el sistema de

ecuaciones:

n0 =e−λ

1− e−λ(3)

λM =

k∑z=1

znz

n0 + n(4)

2.2. ESTIMADOR BAYESIANO

Obando2019 (2019) asume una distribucion Gamma (α, β) a priori para el parametro λ y una

distribucion Binomial negativa para n0:

ε (λ) ∝ λα−1 exp (−βλ) (5)

ε (n0|λ, Datos) ∝(n− 1 + n0

n0

)(1− exp (−λ))n exp (−λ)n0 para n0 = 0, 1, . . . (6)

La distribucion condicional de λ dados n0, α, β y los datos, esta dada por:

ε (λ|n0, α, β Datos) ∝ λ

k∑x=1

xnx+α−1exp (− (n0 + n+ β)λ) (7)

Note que para calcular la expresion anterior se utilizo la ecuacion 1 en lugar de la 2. Para obtener

los estimadores de n0 y λ se generan muestras aleatorias a partir de la distribucion aposteriori

ε (λ, n0|Datos). Para generar dicha muestra aleatoria no es necesario conocer una expresion para

ε (λ, n0|Datos), basta con utilizar el muestreador de Gibbs utilizando las ecuaciones 7 y 6. En este

caso particular el muestreador de Gibbs se obtiene mediante los siguientes pasos:

1. Se parte de un vector con valores arbitrarios de λ y n0.

2. Se reemplaza el n0 definido inicialmente en la ecuacion 7 y se genera un valor aleatorio para

λ. Este valor reemplaza al dado inicialmente para λ.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 83: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

83

AUTOR1, AUTOR2, AUTOR3, AUTOR4, AUTOR5

3. El valor de λ obtenido en el paso anterior se reemplaza en la ecuacion 6 y se genera un valor

aleatorio para n0. Este valor reemplaza al dado inicialmente para n0.

4. Los valores obtenidos en los pasos 1 y 3 para λ y n0 constituyen el vector aleatorio generado.

Repitiendo los pasos 2 y 3 se pueden generar tantos vectores aleatorios como se desee.

5. Es necesario eliminar los primeros vectores aleatorios generados, pues estos estan contamina-

dos”por los valores iniciales.

El muestreador de Gibbs hace parte de un conjunto mas amplio de metodos para generar numeros

aleatorios conocidos como MCMC. Para una descripcion general de estos metodos consulte Rizzo

(2007)[Cap. 9] y . Los estimadores para λ y n0 estan dados por la media y la varianza de la muestra

generada. A partir de estas ecuaciones tambien es posible utilizar el algorigmo EM para obtener el

estimador maximo a posteriori para el parametro λ. Otro estimador desde el enfoque bayesiano es

Mir (2011)

3. CONCLUSIONES

En este trabajo se mencionaron diferentes aplicaciones en las que es posible utilizar la distribucion

Poisson Truncada en cero, ademas se presentaron los estimadores bayesiana y maxima verosimi-

litud para el parametro λ. La mayorıa de las aplicaciones de la distribucion Poisson Truncada

mencionadas se dan en Medicina.

Referencias

Blumental, Saul ; Dahiya, Ram C. ; Gross, J. Alan (1978), Estimating the Complete Size from an

Incomplete Sample. Journal of the American Statistical Associatio, 73, 182-187.

Cohen, A. Clifford (1960), Estimating the Parameter in a Condicional Poisson Distribution.

Biometrics, 16, 203-211.

Dahiya, Ram C. ; Gross, J. Alan (1973), Estimating the Zero Class from a Truncated Poisson

Sample. Journal of the American Statistical Association, 68, 731-733.

David, F. N. ; Johnson, N. L. (1952), The Truncated Poisson. Biometrics, 8, 275-285.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 84: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

84

TITULO DEL ARTICULO EN ESPANOL

Irwin, J. O. (1959), Note: On the Estimation of the Mean of a Poisson Distribution from a Sample

with the Zero Class Missing. Biometrics, 15, 324-326.

Mattews, J. N. S. ; Appleton, D. R. (1993), An Application of the Truncated Poisson Distribution

to Immunogold Assay. Biometrics, 49, 617-621.

Mir, K. A. (2011), Estimation in Truncated Poisson Distribution.Mathematica Slovaca, 61, 289-296.

Obando, C. D. (2019), Estimacion del parametro λ y el numero de ceros n0 de la distribucion Pois-

son Truncada en cero (Tesis de maestrıa). Universidad Nacional de Colombia. Sede Medellın.

Forthcoming

Plackett, R. L. (1953), The Truncated Poisson Distribution. Biometrics, 9, 485-488.

Rider, Paul R. (1953), Truncated Poisson Distributions. Journal of the American Statistical

Association, 48, 826-830.

Rizzo, Maria L. (2007), Statistical computing with R. Second Edition . Chapman & Hall / CRC.

Ross, Sheldon M. (2007), Simulation. Fourth Edition . Elsevier Academic Press.

Tate, R. F. ; Goen, R. L. (1958), Minimum Variance Unbiased Estimation for the Truncated

Poisson Distribution. The Annals of Mathematical Statistics, 29, 755-765.

Viwatwongkasem, Chukiat (2016), EM Algorithm for Truncated and Censored Poisson Likelihoods.

Procedia Computer Science, 86, 240-243.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 85: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

85

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 5

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Aplicacion shiny para la interpretacion de senales en la carta T 2

de Hotelling para monitoreo con observaciones individuales a

Shiny application for interpretation of signals in Hotelling’s T 2

chart for monitoring with individual observations

Brahian Cano U. b Daniel A. Betancur R. b c, Yeison Y. Ocampo N. b Nelfi G. Gonzalez. c, Isabel

C. Ramırez G. c

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: En el control estadıstico multivariado de la calidad se han desarrollado varios metodos para

la deteccion de alertas durante la llamada fase II de control (fase de monitoreo), entre ellas, la carta de

control basada en el uso del estadıstico T 2 de Hotelling, con la cual se determina si una observacion o grupos

de observaciones obtenidas en el esquema de monitoreo del proceso se encuentran en control estadıstico, es

decir, si el estadıstico observado permanece dentro de los lımites que definen el rango de variacion estable

del proceso. En caso contrario, se implementan metodologıas como The Mason, Young, Tracy decomposition

method (MYT), The Doganaksoy, Faltin, and Tucker out-of-control variable selection algorithm (DFT), The

Maravelakis and Bersimis out-of-control algorithm, The Murphy out-of-control algorithm y otros, las cuales

pretenden identificar las variables responsables de que el proceso se encuentre fuera de control. Sin embargo,

estas metodologıas son difıciles de implementar computacionalmente, en especial cuando el numero de va-

riables en estudio es grande. Por lo tanto, para facilitar el uso de estas herramientas, se ha desarrollado una

aplicacion web tipo shiny, construida en el software R, que permite la identificacion de observaciones fuera

de control y su diagnostico. La aplicacion esta disenada de modo que el usuario ingresa el conjunto de datos

historicos con los que se determinan los lımites control y permite, ademas, el registro de nuevas observacio-

nes, para evaluar el estado de control del proceso en estudio y la identificacion de las posibles variables que

causan una senal fuera de control, usando las distintas metodologıas previamente mencionadas.

PALABRAS CLAVE: shiny, control de calidad, algoritmos, analisis multivariado.

ABSTRACT: The multivariate statistical control of quality, several methods have been developed for the

detection of alerts during the so-called phase II control (monitoring phase), including the control chart based

on the use of the Hotelling statistic, with which it should be determined if an observation or groups of

observations obtained in the process monitoring scheme are in statistical control, i.e. whether the observed

aCano U., B.; Betancur R., D; Ocampo N., Y. Y.; Golzalez A., N. G. & Ramirez G., I. C. (2019). Aplicacion shiny

para la interpretacion de senales en la carta T 2 de Hotelling para monitoreo con observaciones individuales. Revista

de la Facultad de Ciencias, 6 (1), 1–5. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante de Estadıstica, Escuela de Estadıstica Universidad Nacional de Colombia Sede Medellın.cProfesora Asociada, Escuela de Estadıstica Universidad Nacional de Colombia Sede Medellın.

1

Page 86: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

86

Brahian Cano U, Daniel Betancur R., Yeison Y. Ocampo N, Nelfi G. Gonzalez, Isabel C. Ramırez G

statistic remains within the limits that define the stable range of variation. Otherwise, methodologies such as

The Mason, Young, Tracy decomposition method (MYT), The Doganaksoy, Faltin, and Tucker out-of-control

variable selection algorithm (DFT), The Maravelakis and Bersimis out-of-control algorithm, The Murphy

out-of-control algorithm and others, which aim to identify the variables responsible for the process being

out of control. However, these methodologies are difficult to implement computationally, especially when

the number of variables under study is large. Therefore, to facilitate the use of these tools, a shiny-like web

application, built in the R software, has been developed, which allows the identification of out-of-control

observations and their diagnosis. The application is designed so that the user enters the set of historical data

with which control limits are determined and also allows the recording of new observations, to evaluate the

control status of the process under study and the identification of possible variables that cause an out-of-

control signal, using the various methodologies mentioned above.

KEYWORDS: shiny, quality control, algorithms, multivariate analysis.

1. INTRODUCCION

De acuerdo a Bermisis et al. (2017) , el monitoreo estadıstico de procesos multivariados (MSPC)

consiste de tecnicas avanzadas para monitorear y controlar el desempeno de un proceso. En general,

el problema del MSPC considera un proceso con p caracterısticas de calidad (variables aleatorias

correlacionadas) X1, . . . , Xp. Estas caracterısticas se monitorean para asegurar que el proceso fun-

ciona de manera estable y satisfactoria.

El MSPC se divide en dos fases: Fase I y Fase II. La primera es un analisis retrospectivo para

determinar si el proceso esta en control y cumplido esto, se estiman los parametros del proceso y

se calculan los lımites de control. En la Fase II las graficas de control se usan para verificar si el

proceso permanece en control con muestras futuras.

En este trabajo, se asume superada la Fase I de control y la disponibilidad del conjunto de datos que

resultaron en esta fase (el HDS). Se implementan algunas metodologıas para interpretar senales en

la carta T 2 con observaciones individuales, durante la Fase II, para ello, se desarrolla una aplicacion

web que permite evaluar estas metodologıas de una manera facil para cualquier usuario.

2. METODOLOGIAS IMPLEMENTADAS

El control multivariado se fundamenta en la idea de cuantificar la distancia de una observacion

(univariada o multivariada) a un patron normal de comportamiento, teniendo ası que grandes

distancia se verıan reflejadas en un comportamiento inusual del proceso, lo cual conducirıa a una

alarma. Los metodos implementados en el control de calidad multivariado usualmente se basan en

el estadıstico T 2 de Hotelling el cual esta dato por:

T 2 = n(X − µ)′Σ−1(X − µ) (1)

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 87: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

87

Aplicacion shiny para la interpretacion de senales en la carta T2 de Hotelling para monitoreo con observaciones individuales

este permite medir la distancia estadıstica, que contempla la matriz de varianzas y covarianzas,

de una observacion multivariada respecto a su vector de promedios para luego determinar si es

suficientemente grande o no para concluir que el proceso se encuentra fuera de control.

2.1. The Murphy (MUR) out of control algorithm.

Propuesto por Murphy (1987) consiste en un metodo iterativo con el cual se pueden identificar

las variables responsables de la alarma en la observacion, esto en base a un analisis discriminante

para hacer la descomposicion de la senal encontrada, de esta manera se pretende identificar las

variables que esten aportando en gran medida al distanciamiento de la observacion con respecto al

comportamiento normal del proceso.

2.2. The The Doganaksoy, Faltin and Tucker out of control variable selection

algorithm (DFT).

Propuesto por Doganaksoy et al. (1991) consiste en un metodo que aplica el procedimiento uni-

variado t-ranking con la implementacion de limites de confianza bonferroni para comparaciones

multiples. A diferencia de los anteriores metodos este no tiene en cuenta la estructura de correla-

ciones dentro de las variables del proceso.

2.3. The Mason, Young and Tracy descomposition method (MYT)

Propuesto por Mason et al. (1995) consiste en un metodo iterativo el cual trata de descomponer la

alarma encontrada con la T 2 de Hotelling en componentes ortogonales, donde cada uno refleja la

contribucion de cada variable y de esta manera se puede hallar las causantes de la alarma. En este

metodo se toma en cuenta la correlacion que existe entre las variables del proceso, siendo un factor

importante a la hora de definir el metodo implementado.

2.4. The Maravelakis and Bersimis out-of-control algorithm (MAB).

Propuesto por Maravelakis (2009) utiliza las curvas de Andrews para resolver el problema de inter-

pretar variables fuera de control. La idea principal del algoritmo es que las variables responsables

de la senal fuera de control daran uno o mas subdominios especıficos de (−π, π) fuera de los lımites

de control considerados por esta metodologıa.

3. SHINY

Shiny es una de las principales librerıas de R Core Team (2019), desarrollada por Chang et al. (2019),

que permite la construccion de aplicaciones web utilizando codigo HTML a traves de comandos de

R, impulsando la visualizacion de metodologıas complejas mediante graficos, tablas de resumen e

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 88: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

88

Brahian Cano U, Daniel Betancur R., Yeison Y. Ocampo N, Nelfi G. Gonzalez, Isabel C. Ramırez G

informes, que permiten utilizar de manera didactica y rapida resultados de procesos complejos, sin

necesidad de conocimiento en programacion, permitiendo la integracion de personas de distintas

areas del conocimiento.

4. RESULTADOS

El resultado de este trabajo es una aplicacion web T 2 Chart que permite incorporar el conjunto

HDS obtenido en la Fase I, el cual se asume en control estadıstico, aunque la aplicacion ofrece la

opcion de verificar esto ultimo. Con estos datos estima el vector de medias y la matriz de varianzas

y covarianzas y los usa para calcular los lımites de control de la Fase II. Adicionalmente, permite

ingresar nuevas observaciones para evaluar el estado del proceso y para los puntos que generan

senal, elegir los metodos de diagnostico previamente descritos para identificar las posibles variables

responsables de dichas senales. Estos resultados estan orientados a presentar una interfaz interactiva

que facilite la toma de decisiones de una manera rapida y efectiva, ofreciendo, ademas, la facilidad

de usarse desde dispositivos moviles con todo el soporte de los metodos estadısticos.

Figura 1: Ejemplo de la interfaz de la aplicacion con una de las metodologıas implementadas

5. CONCLUSIONES

Se consolida la aplicacion con las distintas metodologıas que se mencionaron, con el fin de

verificar que un proceso esta en control para nuevas observaciones de una manera rapida,

eficiente y verificada con el soporte estadıstico suficiente.

Se integra el desarrollo de aplicaciones web y las metodologıas estadısticas permitiendo que

aquellas personas que requieran usar esta herramienta no necesiten el uso de codigo o un

equipo con el software R para su implementacion.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 89: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

89

Aplicacion shiny para la interpretacion de senales en la carta T2 de Hotelling para monitoreo con observaciones individuales

La brecha que separaba la estadıstica con distintas areas del conocimiento se reduce gracias

al avance tecnologico que permite el facil acceso a datos y aplicaciones, ası como el uso de

dispositivos moviles, promoviendo el uso de herramientas que permitan dar resultados certeros

a los problemas. Para este trabajo especıficamente, el caso es de una herramienta de control

de calidad.

Referencias

Bermisis, S.; Sgora, A.; Psarakis, S (2017). Methods for interpreting the out-of-control signal of

multivariate control charts: A comparison study. Quality and Reliability Engineering Interna-

tional. 33(8): 2295-2326.

Chang, W.; Cheng, J.; Allaire, JJ.; Xie, Y.; McPherson, J.(2019). shiny: Web Application

Framework for R. R package version 1.3.2. https://CRAN.R-project.org/package=shiny

https://www.R-project.org/.

Doganaksoy, N.; Faltin, F. W.; Tucker, W. T. (1991). Identification of out of control quality charac-

teristics in a multivariate manufacturing environment. Communications in Statistics-Theory

and Methods. 20(9): 2775-2790.

Mason, R. L.; Tracy, N. D.; Young, J. C. (1995). Decomposition of T 2 for multivariate control

chart interpretation. Journal of quality technology. 27(2): 99-108.

Maravelakis, P. E.; Bersimis, S. (2009). The use of Andrews curves for detecting the out-of-control

variables when a multivariate control chart signals. Statistical Papers. 50(1): 51-65.

Murphy, B. J. (1987). Selecting out of control variables with the T2 multivariate quality control

procedure. Journal of the Royal Statistical Society: Series D (The Statistician). 36(5): 571-581.

R Core Team. (2019). R: A language and environment for statistical computing. R Foundation for

Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 90: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

90

1 Pontificia Universidad Javeriana – Bogotá. Departamento de Ingeniería Industrial. 2 Pontificia Universidad Javeriana – Bogotá. Departamento de Ingeniería Industrial. * Autor para correspondência:: [email protected]

CARACTERIZACIÓN DE LA PROPORCIÓN DE ESTUDIANTES DESERTORES EN DIFERENTES IES A

PARTIR DEL AJUSTE DE UNA DISTRIBUCIÓN DE PROBABILIDAD

DROPOUT RATES ANALYSIS ON UNIVERSITIES TROUGH FITTING A PROBABILITY DISTRIBUTION

BOLÍVAR STEVENSON1*, OTERO-CAICEDO RICARDO1, 2 RESUMEN: La deserción universitaria es una de las principales problemáticas que se presentan en la educación superior. En este artículo se propone una metodología para analizar el comportamiento de la proporción de estudiantes desertores a través de la construcción de una distribución de probabilidad que permitiera modelar qué tan probable es que un estudiante deserte después de haber cursado una cantidad definida de semestres. Los parámetros de la distribución se estimaron a partir de máxima verosimilitud. Se comprueba el buen ajuste de la distribución para las curvas de deserción reportadas por las universidades. Finalmente, a partir de un algoritmo de K-medias, se agruparon las IES según los parámetros estimados de la distribución. El resultado de la agrupación permite diferenciar el comportamiento y las características de cada una de las áreas que contienen tradicionalmente mayores tasas de deserción como ciencias básicas e ingeniería y da sugerencias generales de cómo perfilar las universidades. PALABRAS CLAVE: Deserción; máxima verosimilitud; clúster. ABSTRACT: University dropout is one of the main problems that arise in higher education. This article proposes a methodology to analyze the behavior of the proportion of dropout students through the construction of a probability distribution that allow modeling how likely it is that a student will drop out after having completed a defined number of semesters. The distribution parameters were estimated from maximum likelihood. The estimated distribution showed good adjustment for the dropout curves reported by the universities. Finally, based on a K-means algorithm, universities were grouped according to the estimated parameters of the distribution. The result of the grouping makes it possible to differentiate the behavior and characteristics of each of the areas that traditionally contain higher dropout rates such as basic sciences and engineering and gives general suggestions on how to profile universities. KEYWORDS: Dropout; maximun likelihood, cluster. 1 INTRODUCCIÓN La deserción universitaria es una de las principales problemáticas que se presentan en la educación superior (Rodríguez, Espinoza, Ramirez, & Ganga, 2018). Una persona que sale del sistema educativo está limitando sus oportunidades de ser partícipes de la discusión libre del conocimiento y de obtener competencias que le permitan participar de forma efectiva

Page 91: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

91

dentro de la sociedad. Es por esto por lo que cada una de las Instituciones de Educación Superior (IES) buscan de manera constante alternativas para mitigar este fenómeno. Por esta razón se han diseñado para diferentes IES en particular, sistemas de predicción que permiten escalar a toda la institución la generación de alertas tempranas (Mingjie & Peiji , 2017). Estos sistemas se apoyan en algoritmos de clasificación, los cuales usan los factores que se consideran determinantes para estimar la probabilidad de que un estudiante deserte en un futuro (Araque, Roldán, & Salguero, 2009). No obstante, debido a la diferencia en las metodologías e información disponible, no resulta práctico comparar los diferentes modelos de predicción para comprender las diferencias en el comportamiento de la deserción en las diferentes IES y programas académicos. En Colombia, El Sistema para la Prevención de la Deserción en las Instituciones de Educación Superior SPADIES recopila la información sobre la permanencia de los estudiantes en cada uno de los programas académicos de cada una de las IES (Ministerio de Educación de Colombia, 2014). En este sistema, se cataloga a un estudiante como desertor si este pierde contacto con la institución por dos años. Actualmente, este sistema recopila la cantidad de estudiantes que desertaron en cada periodo académico para cada una de las cohortes de las IES en Colombia. De esta forma, en este estudio se propone emplear el comportamiento de la deserción estudiantil a lo largo de la carrera como medida que resume dichos factores y características de las diferentes IES y sus programas académicos, con el propósito de agrupar las instituciones que se asemejan en este aspecto y definir un conjunto de comportamientos típicos en esta problemática dada. Para describir el comportamiento de cada IES y programa académico, se propone una distribución de probabilidad que cuenta con tres parámetros, el primero (𝑎𝑎) está relacionado a un efecto que es independiente del número de semestres cursados (constante), el segundo (𝑏𝑏) a un efecto que decrece a medida que aumenta el número de semestres cursados y el último, (𝑐𝑐) es un factor que acelera el decrecimiento del efecto (𝑏𝑏) antes mencionado 2 METODOLOGÍA En SPADIES para cada uno de los programas académicos de las diferentes IES se presenta la información de la deserción acumulada por periodo académico para cada una de sus cohortes. La siguiente tabla presenta un ejemplo de lo reportado para la institución 1101.

Tabla 1. Frecuencias de deserción para la cohorte 2010-1 de la IES 1101 Código Universidad 1101 Código Área del conocimiento

10

Periodo S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 Número de Estudiantes

57 77 94 107 118 126 132 147 152 156 159 164 169 190

Proporción Estudiantes

.14 .19 .23 .26 .29 .31 .33 .36 .37 .38 .39 .41 .42 .47

Usando como referencia la información de 30 universidades en Colombia y sus 10 áreas de conocimiento, las cuales abarcan temas desde ciencias básicas, ingeniería, hasta artes y salud, se

Page 92: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

92

estimó una distribución de probabilidad que permitiera modelar qué tan probable es que un estudiante deserte después de haber cursado una cantidad definida de semestres. Con el propósito de comparar los diferentes comportamientos de deserción para cada una de las IES, se aplicó un algoritmo de k-medias. 3 ESTIMACIÓN DE LA DISTRIBUCIÓN DE PROBABILIDAD La distribución geométrica representa la distribución de probabilidad de la cantidad k de ensayos de Bernoulli necesarios para obtener un éxito.

𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = (1 − 𝑝𝑝)𝑘𝑘𝑝𝑝, 𝑥𝑥 ≥ 1 Esta distribución podría utilizarse para modelar la deserción universitaria, de tal forma que 𝑘𝑘 representa el periodo académico en el cual un estudiante deserta y 𝑝𝑝 la probabilidad de desertar en el semestre que está cursando. No obstante, en esta distribución la probabilidad de éxito (𝑝𝑝) se mantiene constante a lo largo de cada ensayo y además no tiene memoria. Esto implica que la probabilidad de que un estudiante deserte no se ve afectada por su tiempo de permanencia en el programa académico, lo cual no refleja que, entre mayor sea el avance en el programa, el estudiante habrá realizado una mayor inversión de tiempo y recursos que limitarán su deseo de desertar. Si ahora consideramos que tenemos múltiples ensayos de Bernoulli, cada uno con una probabilidad diferente de éxito 𝑝𝑝𝑘𝑘, probabilidad de desertar en el semestre 𝑘𝑘 dado que ha cursado 𝑘𝑘 − 1 semestres. Entonces, siendo 𝑋𝑋 en número de semestres inscritos hasta que el estudiante deserta, la distribución de probabilidad de la cantidad 𝑋𝑋 de ensayos Bernoulli hasta obtener un éxito será:

𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = 𝑝𝑝𝑘𝑘 ∏ (1 − 𝑝𝑝𝑖𝑖)𝑖𝑖=𝑘𝑘−1

𝑖𝑖=1, 𝑥𝑥 ≥ 1

Debido a que se conoce que la probabilidad de que un estudiante deserte se hace menor a medida que k aumenta, se propone representar el valor de la probabilidad a partir de la siguiente función.

𝑝𝑝(𝑘𝑘) = 𝑎𝑎 + 𝑏𝑏𝑘𝑘 + 𝑐𝑐 , 𝑘𝑘 ≥ 1

Remplazando esta función en la ecuación anterior obtenemos.

𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = (𝑎𝑎 + 𝑏𝑏𝑘𝑘 + 𝑐𝑐) ∏ (1 − (𝑎𝑎 + 𝑏𝑏

𝑖𝑖 + 𝑐𝑐))𝑖𝑖=𝑘𝑘−1

𝑖𝑖=1, 𝑥𝑥 ≥ 1

La anterior expresión permite obtener la probabilidad de que un estudiante que apenas va a ingresar al programa académico deserte en el periodo académico 𝑘𝑘. Esta distribución ahora sí tiene memoria, por lo que el avance en el programa académico sí influye directamente en la probabilidad de que el estudiante deserte. Los parámetros de la distribución de

Page 93: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

93

probabilidad se estimaron a partir de máxima verosimilitud utilizando gradiente descendiente.

3.1 Calidad del ajuste En las siguientes gráficas se compara el ajuste de la distribución de probabilidad para dos diferentes IES.

Figura 1. Ajuste de la distribución de probabilidad estimada para cuatro diferentes IES

A partir de las gráficas se observa que la distribución de probabilidad ajustada se adapta de manera adecuada a los valores reportados por SPADIES. 3 CLUSTERING A partir de los parámetros estimados para cada una de las IES y sus programas académicos, se usó el algoritmo de k-medias con 10 grupos. Los resultados se presentan a continuación.

Figura 2. Gráficos de nube de puntos según los parámetros estimados

Page 94: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

94

4 CONCLUSIONES A través de la caracterización de las curvas de deserción es posible analizar las diferentes en el comportamiento de la deserción por cohorte entre las diferentes IES y sus programas académicos. A partir de los resultados se observa que el componente de deserción que se mantiene constante y está representado por el parámetro 𝑎𝑎 es muy similar, lo que indica, que, al menos con esta relación funcional, el componente constante es despreciable. Por otra parte, el componente variable 𝑏𝑏 tiene valores inferiores en las universidades que están mejor posicionadas en los rankigs nacionales. Como trabajos futuros se recomienda probar otro tipo de relaciones funcionales entre de 𝑝𝑝(𝑘𝑘). De igual forma, usar otro tipo de herramientas de caracterización de las curvas de deserción como datos funcionales.

REFERENCIAS Mingjie , T., & Peiji , S. (2017). Prediction of Student Dropout in E-Learning Program Through the

Use of Machine Learning Method. International Journal of Emerging Technologies in Learning, 10(1), 11-17. doi:http://dx.doi.org/10.3991/ijet.v10i1.4189

Ministerio de Educación de Colombia. (2014). Informe Determinantes de la deserción. Bogotá. Obtenido de https://www.mineducacion.gov.co/sistemasdeinformacion/1735/articles-254702_Informe_determinantes_desercion.pdf

Rodríguez, A. B., Espinoza, J., Ramirez, L., & Ganga, A. (2018). Deserción Universitaria: Nuevo Análisis Metodológico. Formación universitaria, 11(6), 107-118. doi: https://dx.doi.org/10.4067/S0718-50062018000600107

Page 95: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

95

1 INTRODUCCIONRevista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

• Memorias Xll Coloquio Nacional de Estadıstica

SIMULACION DE VECTORES BINARIOS

CORRELACIONADOS EN DIAGNOSTICO CLINICOa

SIMULATION OF CORRELATED BINARY VECTORS IN

CLINICAL DIAGNOSIS

LIZETH SUAREZ b, KATHERIN QUINONES c , RAFAEL TOVAR d

Artıculo Investigacion

RESUMEN: El estudio tuvo como objetivo la realizacion de un estudio simulacion para evaluar la validez

de criterio de cuatro algoritmos bajo diferentes escenarios de prevalencia de dengue en campo, para dicho

proceso se generaron de distintos archivos de datos a partir de la simulacion de vectores binarios correlacio-

nados, algoritmo propuesto por Park. Ademas del uso de Bootstrap para la validacion por simulacion de los

algoritmos clasificadores, para el hallazgo y analisis de convergencia de medidas de desempeno como Sensi-

bilidad, Especificidad, Area bajo la curva, valores predictivos positivos y negativos de cada prototipo. Este

estudio se observo que los prototipos de clasificacion son variantes de acuerdo a sus propias caracterısticas.

PALABRAS CLAVE: Dengue, Simulacion de vectores binarios correlacionados, Diagnostico, Convergen-

cia.

ABSTRACT: The objective of the study was to carry out a simulation study to evaluate the validity of the

criteria of four algorithms under different scenarios of dengue prevalence in the field, for this process different

data files were generated from the simulation of correlated binary vectors, algorithm proposed by Park. In

addition to the use of Bootstrap for the simulation validation of the classifying algorithms, for the finding

and convergence analysis of performance measures such as Sensitivity, Specificity, Area under the curve,

positive and negative predictive values of each prototype. This study found that classification prototypes are

variants according to their own characteristics.

KEYWORDS: Dengue, Simulation of correlated binary vectors, Diagnosis, Convergence.

1. INTRODUCCION

Uno de los principales problemas que se enfrentan generalmente los estudios enfocados al analisis

de enfermedades, es la dificultad de contar con datos reales. Autores como Bewley & O’neil (2013),

aSuarez, Lizeth 1. & Quinones, Katherin 2. & Tovar, Rafael 3. (2019). Simulacion de vectores binarios correlacio-

nados en diagnostico clınico. Revista de la Facultad de CienciasbEstadıstica, Escuela de Estadıstica, Universidad del Valle, [email protected]ıstica, Escuela de Estadıstica, Universidad del Valle, [email protected]., Profesor Titular, Escuela de Estadıstica, Universidad del Valle, [email protected]

• Artıculo de Investigacion 1

Page 96: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

96

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın• Memorias Xll Coloquio Nacional de Estadıstica

afirman que una opcion es hacer uso de simulacion, aun mas, cuando se desea proporcionar ex-

periencias que no son posibles o imaginables en el entorno real. La simulacion estadıstica puede

convertirse en una herramienta efectiva cuando se desea llevar acabo la validez externa de pruebas

diagnosticas, dado que para dicho proceso se necesita contar con muestras grandes.

Esta investigacion es la continuacion de un estudio previo (trabajo realizado por Mendez (2017))

en el que se desarrollaron cuatro prototipos para clasificar individuos con dengue a partir de las

combinaciones de signos y sıntomas expresado por el paciente en la consulta clınica. Una vez creados

los algoritmos, surgio la necesidad de evaluar su posible uso en zonas que se consideran distintas,

es decir, surgieron interrogantes acerca de su efectividad en la deteccion de individuos con dengue

tanto en zonas endemicas como en zonas no endemicas. Es por esto que se tuvo como objetivo

desarrollar una metodologıa estadıstica que permitiera evaluar la validez de criterio y la eficiencia

en campo de una prueba diagnostica en la que se tiene una prueba de referencia o patron de oro.

2. METODOLOGıA

En este estudio se consideraron doce signos y sıntomas de la enfermedad, entre los que se encuentran

la cefalea, el escalofrio, hiporexia, odinofagia, exantema, prurito, vomito, rinorrea, entre otras. Estas

variables cualitativas poseen una escala nominal, donde sus valores corresponde a la presencia o

ausencia de la misma. Se trabajo con diferentes archivos de datos, los cuales fueron obtenidos

mediante la simulacion de vectores binarios correlacionados haciendo uso del metodo propuesto por

Park et. al., 1996. Se simularon dos tipos de archivos, uno para el comportamiento de los signos y

sıntomas resumido en ocho categorıas y el otro donde se trabajaron con doce sıntomas significativos

para el diagnostico.

2.1. Estudio de simulacion

Para llevar a cabo la validacion de los algoritmos clasificadores, se plantearon seis escenarios de simu-

lacion, los cuales fueron sugeridos por medicos expertos en la enfermedad del dengue. Inicialmente,

se simulo una base de datos de 10.000 individuos, y haciendo uso de remuestreo con reemplazo

(Bootstrap) se tomo una muestra mas pequena de 5.000 individuos y se le aplico los algoritmos

clasificadores; con los resultados obtenidos se calcularon las respectivas medidas de desempeno para

dichos algoritmos y este proceso se realizo un total de 1.000 veces con el fin de analizar la conver-

gencia de las medidas de desempeno en cada uno de los prototipos, por ultimo se calcularon los

estimadores por remuestreo y sus respectivos intervalos de confianza.

Los prototipos a los cuales se les realizo la validacion generan probabilidades predictivas mediante

el uso del Teorema de Bayes tanto en su caso discreto como en el caso continuo. En el caso dis-

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 97: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

97

3 RESULTADOSRevista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

• Memorias Xll Coloquio Nacional de Estadıstica

creto, las medidas de desempeno de los prototipos se generaron a partir del valor esperado de la

distribucion los parametros de desempeno medios, ya para el caso continuo donde se asume que los

parametros de desempeno siguen una distribucion continua, los parametros de dichas distribuciones

se pueden ser actualizados a medidas de que se tiene nueva informacion, es por esto que los valores

de desempenos calculados correspondieron a las medidas alcanzadas en un punto de convergencia,

es decir, en un punto donde ya no se tuvieron cambios significativos entre el valor anterior y el actual.

Para el calculo de medidas como el valor predictivo positivo y valor predictivo negativo, VPP

y VPN, respectivamente; se utilizaron los valores medios de sensibilidades y especificidades encon-

tradas en 10000 bases de datos simuladas para cada algoritmo clasificador. Inicialmente se asignaron

valores uniformes entre 0 y 1, para la simulacion de diferentes prevalencias de la enfermedad. Pos-

teriormente se calculo el valor predictivo asociado a cada una de las prevalencias anteriormente

encontradas, ademas de la representacion grafica de las respectivas curvas de distribucion de los

valores de prediccion anteriormente hallados.

3. RESULTADOS

Se encontro que cuando no se tiene la informacion del cuadro hematico del paciente, el prototio IV,

el cual consiste en el calculo de las probabilidades de Bayes en el caso continuo con solo doce signos

y sintomas, presentan una mayor capacidad predictiva con un AUC del 92.14%. Cuando ya se tiene

la informacion del hemograma del paciente dicha capacidad predictiva disminuye al 83.28%. En

cuanto a los prototipos con bayes discreto, con la informacion del hemograma aumenta la capacidad

predictiva.

Sin hemograma

Prototipo Sensibilidad Especificidad AUC RVP RVN

I0.6602 0.7387 0.7348

2.5266 0.4391(0.0016) (0.00157) (0.00063)

II0.6909 0.7387 0.7348

2.5266 0.4391(0.0016) (0.00157) (0.00063)

III 0.7216 0.7197 0.7701 2.5744 0.3868

IV 0.7761 0.8854 0.9214 6.7723 0.2599

Tabla 1: Medidas de desempeno para los prototipos sin hemograma

Con hemograma

Prototipo Sensibilidad Especificidad AUC RVP RVN

I0.6259 0.7933 0.7578

0.2067 0.4716(0.00171) (0.00152) (0.00065)

II0.5126 0.8734 0.7379

4.0484 0.5581(0.00931) (0.00791) (0.00143)

III 0.6935 0.7671 0.7780 2.9778 0.3996

IV 0.6030 0.8914 0.8328 3.5763 0.4454

Tabla 2: Medidas de desempeno para los prototipos con hemograma

Siendo RVP y RVN las razones de verosimilitud positiva y negativa, respectivamente.

• Artıculo de Investigacion 3

Page 98: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

98

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın• Memorias Xll Coloquio Nacional de Estadıstica

En cuanto al comportamiento de los valores predictivos de los algoritmos, se puede observar que el

prototipo IV es el que mejor discrimina a los verdaderos enfermos y el prototipo III a los verdaderos

no enfermos. Aunque en terminos generales los cuatro prototipos presenta un comportamiento

similar.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Negativo

Con hemogramaPrevalencia

VPN

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Negativo

Con hemogramaPrevalencia

VPN

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Negativo

Con hemogramaPrevalencia

VPN

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Negativo

Con hemogramaPrevalencia

VPN

Prototipo IPrototipo IIPrototipo IIIPrototipo IV

(a) Comportamiento del valor predictivo negativo con he-

mograma

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Positivo

Con hemogramaPrevalencia

VPP

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Positivo

Con hemogramaPrevalencia

VPP

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Positivo

Con hemogramaPrevalencia

VPP

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

Valor Predictivo Positivo

Con hemogramaPrevalencia

VPP

Prototipo IPrototipo IIPrototipo IIIPrototipo IV

(b) Comportamiento del valor predictivo positivo con he-

mograma

Figura 1: Valores Predictivos con Hemograma

4. Conclusiones

Se observo que los prototipos clasificadores que generan sus probabilidades predictivas haciendo

uso del Teorema de Bayes continuo (prototipo III Y IV), presentan mejores resultados a la hora de

clasificar los individuos. En cuanto a la validacion de los prototipos, se encontro que el prototipo II

y IV no tuvieron buenos resultados para la sensibilidad de la prueba en los escenarios de simulacion

estudiados. Dichos prototipos poseen una mayor probabilidad de identificar a pacientes que no

tienen dengue cuando hay una prevalencia alta de pacientes con odinofagia.En cuanto a la adicion

del hemograma a los prototipos clasificadores, se pudo observar que en todos los prototipos se

evidencio una disminucion en la sensibilidad y un aumento en la especificidad del algoritmo.

Referencias

Mendez, C. (2017) Propuesta metodologica para construir reglas de clasificacion: Caso de aplicacion

dengue. Trabajo de Grado, Escuela de Estadıstica, Universidad del Valle.

Bewley, W. L. ; O’neil, H. F. (2013), Evaluation of medical simulations. Military medicine,178,

64-75.

Park, C.; Park, T.; Shin, D. W. (1996), A simple method for generating correlated binary variates.

The American Statistician, 50, 306-310.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 99: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

99

Aust. N. Z. J. Stat. 2018 doi: 10.1111/j.1467-842X.XXX

Focused estimation for noisy and small data sets: A Bayesian minimum1

expected loss estimator approach2

Andres Ramırez-Hassan1 and Manuel Correa-Giraldo23

Department of Economics, School of Economics and Finance, Universidad EAFIT,4

Medellın, Colombia.5

Summary

Central to many inferential situations is the estimation of rational functions of parameters.The mainstream in statistics and econometrics estimates these quantities based on the plug-inapproach without consideration of the main objective of the inferential situation. We proposethe Bayesian Minimum Expected Loss (MELO) approach focusing explicitly on the functionof interest, and calculating its frequentist variability. Asymptotic properties of the MELOestimator are similar to the plug-in approach. Nevertheless, simulation exercises show thatour proposal is better in situations characterized by small sample sizes and/or noisy data sets.In addition, we observe in the applications that our approach gives lower standard errors thanfrequently used alternatives when data sets are not very informative.

6

Key words: Bayesian estimator; frequentist variability; functions of parameters7

1. Introduction8

Central to many statistical and econometric inferential situations is the estimation of9

rational functions of the parameters. In particular, odds ratios, inverse Mills ratios, optimal10

quantities under specific objective functions, structural equations or Yule-Walker equations11

in autoregressive processes, among others. The mainstream in statistics and econometrics12

estimates these quantities based on a plug-in approach, where parameter estimates are just13

plugged in to the objective expressions without consideration of the main objective of the14

inferential situation. The popularity of this approach is based on the asymptotic properties15

of the delta method. However, this approach suffers from shortcomings, such as infinite16

moments and unbounded risks, when based on common considerations such as Gaussian17

likelihoods, and quadratic loss functions.18

19

1 Department of Economics, School of Economics and Finance, Universidad EAFIT, Medellın, Colombia.Email: [email protected] of Econometrics and Business Statistics, Monash University, Melbourne, Australia.2 School of Economics and Finance, Universidad EAFIT, Medellın, Colombia

Email: [email protected]

c© 2018 Australian Statistical Publishing Association Inc. Published by Wiley Publishing Asia Pty Ltd.

Prepared using anzsauth.cls [Version: 2018/01/30 Version 8]

Page 100: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

100

2 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Models have a purpose, so we should optimally design a model’s estimation framework20

for its purpose. This article is concerned with the estimation of some common rational21

functions of parameters in statistics and econometrics, but deviates from the mainstream in22

that we focus the estimation process directly on the estimand of interest. This idea has been23

used by Claeskens & Hjort (2003) and Hansen (2005) for model selection, and DiTraglia24

(2016) for selecting moment conditions in the generalized method of moments (GMM).25

26

Our main contribution in this paper is to extend the Bayesian Minimum Expected27

Loss (MELO) approach introduced by Zellner (1978), for which the main theoretical28

developments and applications were confined to structural econometric models, to other29

common situations in statistics and econometrics where the main concerns of the inference30

are rational functions of the parameters such as odds ratios, inverse Mills ratios, and optimal31

estimands under specific objective functions. To the best of our knowledge, such functions32

have not been considered previously in the literature. In particular, we follow a decision33

theoretic framework where the posterior expected value of a generalized quadratic loss34

function that depends explicitly on the function of interest is minimized.35

36

In addition, we consider the MELO as a function of the data despite its Bayesian37

nature, and compute its frequentist variability extending the idea of Efron (2012, 2015) to38

more complicated settings. The Bayesian Minimum Expected Loss approach gives point39

estimates, so the obvious and common answer to define their degree of variability would be40

to use the posterior density of the function of interest. This is a correct answer, if the prior41

distribution is based on true subjective construction or genuine objective arguments (Efron42

2015). However, we can see that in many applications prior distributions are selected based43

on mathematical and computational convenience. Then, there is no reason to trust what is44

after all a convenient choice of priors for determining MELO’s variability. Instead, we can45

see the MELO as an estimator, and estimate the frequentist variability of Bayesian estimates46

under these considerations. In addition, this approach avoids sensitivity analysis of the choice47

of prior or hierarchical prior structures, and as a consequence their extra computational48

burden.49

50

We find that the asymptotic properties of the MELO estimators are similar to those51

of the plug-in approach. However, simulation exercises suggest that our proposal obtains52

better outcomes than competing alternatives, especially in settings characterized by small53

sample sizes and noisy data sets. A noisy data set is characterized by the interaction between54

data and model; the signal-to-noise ratio is defined as Var(f(y|x,θ))/Var(µ), such that55

y = f(x,θ) + µ, f(x,θ) is the model (signal), and µ is the stochastic error (noise) (Hastie,56

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 101: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

101

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 3

Tibshirani & Friedman 2009). We also apply our proposal to real data sets, finding that57

MELO is more efficient than other alternatives.58

59

The MELO approach has its foundation in statistical decision theory (Wald 1945,60

1947), which initially was advocated in econometrics by Marschak (1960) and Dreze61

(1974). It was introduced in econometrics by Zellner (1978), who analyzed reciprocals62

and ratios of parameters, and structural parameters in econometric models. He showed for63

these cases that the MELO estimator has, at least, finite first and second moments, and64

as a consequence finite risk with respect to a generalized quadratic loss function. On the65

other hand, common estimators like indirect least squares (ILS), two stage least squares66

(2SLS), limited information maximum likelihood (LIML), three stage least squares (3SLS)67

and full information maximum likelihood (FIML) have infinite moments and infinite risks68

using quadratic loss functions. Further, Zellner & Park (1979) approximated the small69

sample moments and risk functions of the MELO estimators, and compared them with other70

estimators. Zellner & Park (1980) found that coefficient estimates of structural parameters71

using MELO are matrix weighted averages of direct least squares (DLS) and 2SLS. Park72

(1982) showed through simulation exercises that for structural parameters, the MELO73

estimates have more bias than 2SLS. However, MELO outperforms 2SLS in criteria such74

as mean squared error (MSE) and mean absolute error (MAE). Swamy & Mehta (1983)75

analyzed the requirements of prior distributions for reduced form parameters associated with76

the MELO estimator in undersized sample conditions, that is, situations where the number77

of exogenous variables in simultaneous equations models exceeds the sample size. They78

found that the conditions for existence of the FIML estimator are more demanding than the79

conditions to obtain the MELO estimator. Diebold & Lamb (1997) used the MELO approach80

in an interesting application related to the response of agricultural supply to movements in81

expected price. They argued that the large variability of previous estimates associated with82

this phenomenon is due to the infinite moments and multimodal distributions of common83

frequentist estimators. In contrast, the MELO estimator has at least finite first and second84

moments; however, it also may have a multimodal distribution. Finally, Zellner (1998)85

introduced the Bayesian Method of Moments, and related it to the MELO, extending the86

approach to cases where we have only moment conditions for our inferential problem. He87

presented the results of simulation exercises which show that Bayesian estimators perform88

better than popular frequentist estimators.89

90

This paper is structured as follows. The next section develops the theoretical framework.91

Section 3 exhibits the outcomes of the simulation exercises. Section 4 presents the main92

findings in our applications. Finally, we make some concluding remarks.93

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 102: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

102

4 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

2. Theoretic framework94

Suppose that the main concern of the econometric inference is ω = g(θ) : Θ ⊆RL → RK , K ≤ L, that is, ω = (ω1, ω2, . . . ωK) = (g1(θ), g2(θ), . . . , gK(θ)), gk(θ) =

lk(θ)/mk(θ) : Θ ⊆ RL → R, k = 1, 2, . . . ,K, and lk(θ) and mk(θ) = 0 are polynomial

functions in θ.

Then,

γ = τ(θ) : Θ ⊆ RL −→ RL

θ −→ (g(θ), q(θ))

is a one-to-one continuously differentiable transformation for some nuisance transformation95

ψ = q(θ) : Θ ⊆ RL → RL−K .96

97

Our view is that such an inferential problem should be tackled directly focusing on the

functions of interest. So, we propose for this inferential problem the posterior Bayesian action

that minimizes the posterior expected value of a generalized quadratic loss function focused

on g(θ), that is,

argminω∈RK

Eπ(θ|y) L(g(θ), ω) = argminω∈RK

Θ

L(g(θ), ω)π(θ|y)dθ

where L(g(θ), ω) = (g(θ)− ω)Q(θ)(g(θ)− ω), Q(θ) = diag hk(θ), where hk(θ)98

are case specific weighting functions. Observe that a sensible way to define Q(θ) is99

setting L(gk(θ), ωk) = ε2k, where εk = ωkmk(θ)− lk(θ) is an estimation error, such that100

ωk = gk(θ) implies εk = 0, then hk(θ) = mk(θ)2.101

102

Proposition 1. The posterior Bayesian action, that is, the Minimum Expected Loss estimate,

associated with L(g(θ), ω) is

ω∗(y) =[Eπ(θ|y)Q(θ)

]−1 Eπ(θ|y) [Q(θ)g(θ)] (1)

=

[∫

Θ

Q(θ)π(θ|y)dθ]−1 [∫

Θ

Q(θ)g(θ)π(θ|y)dθ]

where π(θ|y) = π(θ)f(y|θ)∫Θ

π(θ)f(y|θ)dθ , given appropriate assumptions on Q(θ) and g(θ) (see103

supplementary material, Assumptions E and F), and integration and differentiation can be104

interchanged.105

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 103: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

103

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 5

See the supplementary material for the proof.106

107

Observe that the MELO estimate is a weighted average of g(θ), whose108

weights are given by[∫

ΘQ(θ)π(θ|y)dθ

]−1Q(θ). In particular, ω∗

k(y) =109 ∫Θ

mk(θ)

2/∫Θmk(θ)

2π(θ|y)dθgk(θ)π(θ|y)dθ, that is, the MELO is a weighted110

average such that puts less weight near singularity points (mk(θ) = 0, observe that this111

implies that gk(θ) is not integrable), and regions of θ’s of low posterior probability. This is a112

good advantage compared to the plug-in estimator(ωplugk = lk(θ)/mk(θ)

)and the “naive”113

Bayesian “estimator”(ωNBk (y) = Eπ(θ|y) lk(θ)/mk(θ)

), where hk(θ) does not depend on114

θ or mk(θ). These two rules suffer from severe instability due to near singularity points (in115

our applications, the “naive” Bayesian “estimator” had infinite moments due to singularity116

issues). Casella & Robert (1998) show that weighted average estimators may perform better117

than unweighted average estimators, when evaluated under squared error loss functions.118

119

Our proposal has the same spirit as the Chernozhukov & Hong (2003) approach of120

Laplace type estimators. Chernozhukov & Hong (2003) focused their estimation effort on121

parameter estimates given moment conditions that are complex to optimize, whereas ours is122

focused on rational functions of parameters, that is, the main target is the function, rather123

than the parameters.124

125

A major advantage of the MELO estimates is that they can be easily calculated from the126

draws of the posterior distributions, θs ∼ π(θ|y), and given S → ∞, (1/S)∑S

s=1 Q(θs)p−→127

Eπ(θ|y)Q(θ) and (1/S)∑S

s=1 Q(θs)g(θs)p−→ Eπ(θ|y) [Q(θ)g(θ)] by the law of the large128

numbers, then129

ω∗S(y) =

[1

S

S∑s=1

Q(θs)

]−1 [1

S

S∑s=1

Q(θs)g(θs)

](2)

converges in probability to ω∗ by Slutsky’s theorem.130

131

Proposition 2. If A to F assumptions hold (see supplementary material Assumptions), and

ω∗k =

Eπ(θ|y)[gk(θ)hk(θ)]

Eπ(θ|y)[hk(θ)]

=

Θ

gk(θ)hk(θ)∫

Θhk(θ)π(θ|y)dθ

π(θ|y)dθ,

then, √N(ω∗

k − gk(θ0))d−→ N(0,∇gk(θ0)

[I(θ0)]−1gk(θ0)),

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 104: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

104

6 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

where θ0 is the true θ.132

133

So that ω∗k is consistent and asymptotically efficient.134

See the supplementary material for the proof.135

136

Proposition 2 establishes that asymptotically, the MELO estimator has similar137

characteristics to the maximum likelihood estimator. However, it seems from our experiments138

that in noisy finite samples the MELO has better properties.139

140

If priors are not based on true subjective construction or genuine objective arguments,141

it seems convenient to estimate the frequentist variability of the MELO estimator (Efron142

2012, 2015). In addition, this approach avoids sensitivity analysis of the choice of priors, or143

hierarchical Bayesian models, both imposing an extra computational burden, at the cost of144

requiring sufficient statistics.145

146

To estimate the frequentist variability we have the following result.147

Proposition 3. If θ(y) ∈ RP is a sufficient statistic for fY (y|θ), then

ω∗(y) = ω∗(θ(y)) (3)

where ω∗(θ(y)) =[Eπ(θ|θ(y))Q(θ)

]−1

Eπ(θ|θ(y)) [Q(θ)g(θ)].148

See the supplementary material for the proof.149

150

Equality 3 shows that the MELO estimate can be obtained from the posterior151

distribution associated with the data or its sufficient statistic. The resulting data reduction152

helps to estimate the frequentist variability of the MELO.153

154

Setting155

αθ(y)(θ) = ∇θ(y) log f(θ(y)|θ) =

(∂

∂θ(y)1log f(θ(y)|θ), · · · , ∂

∂θ(y)Plog f(θ(y)|θ)

)

(4)

Lemma 1. Given Q(θ) and g(θ), the gradient of ω∗(θ(y)) is156

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 105: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

105

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 7

∇θ(y)ω∗(θ(y)) =

Eπ(θ(y))[Q(θ)]

−1

(5)

×Eπ(θ(y))[(Q(θ)g(θ))⊗αθ(y)(θ)]−

[Eπ(θ(y))[Q(θ)⊗αθ(y)(θ)]

][ω ⊗ IP ]

where I is the identity matrix of order P , and the operator ⊗ denotes the Kronecker product.157

See the supplementary material for the proof.158

159

Corollary 1. When Q(θ) and g(θ) are in R, then160

∇θ(y)ω∗(θ(y)) =

Eπ(θ|θ(y))[Q(θ)g(θ)αθ(y)(θ)|θ(y)]

Eπ(θ|θ(y))[Q(θ)|θ(y)](6)

−Eπ(θ|θ(y))[Q(θ)g(θ)|θ(y)]Eπ(θ|θ(y))[Q(θ)αθ(y)(θ)|θ(y)]

(Eπ(θ|θ(y))[Q(θ)|θ(y)])2

See the supplementary material for the proof.161

162

Lemma 1 enables calculation of the frequentist variability of the MELO estimate (1)163

through the delta method.164

165

Proposition 4. Setting the sufficient statistic θ(y) ∼ (µθ,Σθ), where Σθ is a L× L166

matrix, the frequentist covariance matrix of ω∗(y) is167

Var(ω∗(y)) = Var(ω∗(θ(y))) ≈ ∇θω∗(θ)Σθ∇θω

∗(θ) (7)

provided that N → ∞, θp−→ θ0. Take into account that the objective functions are almost168

surely continuously differentiable in all our examples. Delta method extensions where the169

derivative of the objective function is not continuous at θ0, but the objective function is170

directionally differentiable at θ0, were developed by Fang & Santos (2015).171

See the supplementary material for the proof.172

173

The setting of our formulation establishes Proposition 1 as an optimal point estimate174

for functions of parameters. In the case that an analytical solution does not exist, we can175

use draws of the posterior distributions to obtain the estimates (Equation 2). Proposition 4176

enables calculation of the frequentist variance of our Bayesian estimate, given a sufficient177

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 106: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

106

8 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

statistic.178

179

In the case that sufficient statistics are not available, we suggest calculation of the180

frequentist variability of the optimal Bayesian point estimate through a parametric bootstrap181

(Efron 2012). This comes at the cost of an extra computational burden, but it improves the182

inferential framework taking into account biases, asymmetries, and support restrictions (Fang183

& Santos (2015) described technical requirements that g(θ) should satisfy in order for the184

parametric bootstrap to be consistent).185

Algorithm A1 Parametric Bootstrap

1: Draw y∗s , s = 1, 2, . . . , S from fY (y|θ)

2: For each y∗s calculate ω∗

s (y∗s )

3: Use ω∗1 , ω

∗2 , . . . , ω

∗S to perform a statistical inference, such as means and standard

deviations.

3. Simulation exercises186

3.1. Optimal input187

We consider a very simple problem where a firm is interested in finding the level

of input (x) that maximizes its profit, where the production function is quadratic, that is,

y = β1x+ β2x2. The problem is

argminx∈R+

Π(x) = argminx∈R+

[TI(x)− TC(x)] = argminx∈R+

[p(β1x+ β2x

2)− CF − wx]

where Π is the profit, TI is the total income, TC is the total cost, p is the product price, CF188

represents the fixed costs, and w is the input price.189

190

Then the optimal input is given by191

xOpt =1

2β2

[w

p− β1

]. (8)

Suppose that the decision problem is to find the optimal level of input (Equation 8), that192

is, g(θ) = ω(β1, β2) = xOpt. We propose to formulate the mean deviation model associated193

with the production function to obtain the parameter estimates β = [β1 β2]. In particular,194

yi − y = β1(xi − x) + β2(x2i − x2) + ui, where y = (1/N)

∑Ni=1 yi, x = (1/N)

∑Ni=1 xi,195

x2 = (1/N)∑N

i=1 x2i and ui ∼ N(0, σ2), i = 1, 2, . . . , N .196

197

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 107: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

107

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 9

The likelihood function of this model is

f(β, σ|y,X) ∝ σ−N exp

−[vs2 +

(β − β

)XX

(β − β

)]/2σ2

where X is the design matrix, q = dimβ, v = N − q, β = (XX)−1Xy and vs2 =198

(y −Xβ)(y −Xβ). Take into account that β and s2 are sufficient independent statistics,199

such that β ∼ Nq(β, σ2(XX)−1) and s2 ∼

(σ2

N−q

)χ2N−q . This implies200

Σβ,s2 =

[σ2(XX)−1 0

0 2σ4/(N − q)

](9)

and201

αβ,s2 =[(1/σ2)(β − β)(XX) − v/(2σ2)

](10)

The plug-in estimator for the optimal input would be202

ωplug =1

2β2

(w

p− β1

)(11)

In addition, the application of the delta method to estimate the variance would give as a203

result204

Var(ωplug) =1

4β22

[Var(β1) + 4(ωplug)2Var(β2) + 4ωplug Cov(β1, β2)

](12)

On the other hand we can obtain the MELO estimate focusing directly on the inferential205

problem. We set ε =(

wp − β1

)− 2β2ω as the estimation error. Observe that if ω is equal to206

xOpt, the estimation error is equal to 0.207

208

The generalized loss function for this problem is given by

L(g(θ), ω) = ε2 =

[(w

p− β1

)− 2β2ω

]2

= 4β22(ω − ω)2

where ω = g(θ) = 12β2

(wp − β1

)and Q(θ) = 4β2

2 .209

210

Proposition 1 implies that the MELO estimate is

ω∗ =(w/p)E(β2)− E(β1β2)

2E(β22)

(13)

= ωplug[1− (1/(w/p− E(β1))) (Cov(β1, β2)/E(β2))

(1 + Var(β2)/E(β2)2)

]

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 108: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

108

10 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Using the diffuse prior p(β, σ) ∝ 1/σ, 0 < σ < ∞ and −∞ < βl < ∞, l = 1, 2,

then the marginal posterior pdf for β has the form of a multivariate Student’s t (Zellner 1996):

p(β|y,X) ∝vs2 +

(β − β

)XX

(β − β

)−(v+q)/2

which implies that the mean of β is β and its covariance matrix is (XX)−1vs2/(v − 2),211

v > 2.212

213

In our simulation exercises and applications we used Jeffreys improper priors and vague214

normal priors. Despite the fact that Jeffreys prior is based on invariance principles, it also215

violates the strong version of the likelihood principle. However, this prior is very convenient216

as it allows standard conditional posterior distributions in many applications. We suspect217

its use is based on mathematical and computational convenience, rather than truly objective218

arguments.219

220

We can use the previous expressions to calculate the MELO proposal (Equation 13),221

and Equations 9 and 10 to obtain the frequentist variance of the MELO estimate.222

223

We set the mean deviation problem, yi − y = 1.5(xi − x)− 0.002(x2i − x2) + ui,224

where xi ∼ N(187.5, 702) and ui ∼ N(0, σ2u) such that σ2

u generates different degrees of225

signal to noise models 0.1, 1, 5, 20. In addition, we set the input and output prices equal to226

$3,000 and $4,000, respectively. This implies xOpt = 187.5.227

228

We performed 1,000 simulation exercises using different sample sizes (20, 50 and229

500), and calculate the Mean Squared Error (MSE) and the Mean Absolute Error (MAE)230

for the plug-in approach, and the MELO using the analytical solution (Equation 1), which231

is available in this setting, and the computational strategy of drawing from the posterior232

distribution (Equation 2 using 10,000 iterations from a Student’s t distribution).233

234

Table 1 about here235

We see from Table 1 that the MELO outperforms the plug-in approach in point estimates236

of the optimal input; especially in the presence of noisy and small sample sizes. In addition,237

we observe that there is no meaningful difference between the analytical and computational238

solutions.239

240

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 109: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

109

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 11

In particular, there is no clear pattern in the MSE and MAE in very noisy data sets241

as the sample size increases. However, we do observe that the MELO estimates outperform242

the plug-in approach in this situation. As the signal of the model improves, the MSE and243

MAE decrease as the sample size increases. The MSE and MAE from the MELO estimates244

(analytical and computational) are never worse than the plug-in estimates. However, for large245

sample sized the outcomes are basically the same. This is due to from the previously noted246

asymptotic properties.247

3.2. Odds ratio problem248

Setting yi as a dichotomous variable 0, 1 which is distributed as a Bernoulli process249

with parameter p, and assuming that the main interest is the odds ratio, it follows that250

g(θ) = ω(p) =p

1− p

where p = P (Y = 1).251

The binary probit model can be used to tackle this situation, such that252

p = Pr(Yi = 1) = Φ(xi β), where Φ(z) is the cumulative distribution function of the253

standard normal distribution evaluated at z.254

255

This model can be written with latent variables as follows:256

y∗i = xi β + ui, ui ∼ N(0, 1) (14)

yi =

0, if y∗i ≤ 0

1, y∗i > 0(15)

The likelihood function is

f(β|y, x) =N∏i=1

(Φ(x

i β)yi(1− Φ(x

i β))(1−yi)

)

Observe that in this setting there are no sufficient statistics (Nelder & Wedderburn 1972).257

258

The plug-in estimator for the odds ratio is ωplug = Φ(xi β)/(1− Φ(x

i β)), and its259

variance, calculated by the delta method, is260

Var(ωplug) =Φ(x

i β)

N[1− Φ(x

i β)]3 . (16)

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 110: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

110

12 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

The loss function is given by

L(g(θ), ω) = ε2 =[(1− Φ(x

i β))ω − Φ(xi β)

]2

where ω = g(θ) =Φ(x

i β)

1−Φ(xi β)

and Q(θ) = (1− Φ(xi β))

2.261

262

Proposition 1 implies that the MELO estimate is263

ω∗ =E[(1− Φ(x

i β))Φ(xi β)

]

E(1− Φ(xi β))

2

Note that if p → 1, then 1− p → 0, and so ωplug → ∞, while ω∗ can take indeterminate264

values of the form 0/0.265

266

Observe that this setting is very similar to the inverse Mills ratio setting267

(φ(xi β)/Φ(x

i β)), which is often used in selection models. In this case,268

ω∗ =E[(Φ(x

i β))φ(xi β)]

E(Φ(xi β))2

. We do not develop this case due to space limitations. However,269

simulation exercises are also available upon request.270

271

According to Greenberg (2012), using the latent variables y∗i , we can write the likelihood272

function as273

f(yi|y∗i ,β) = [1(yi = 0)1(y∗i ≤ 0) + 1(yi = 1)1(y∗i > 0)]NN (y∗|Xβ, I)

= [1(yi = 0)1(y∗i ≤ 0) + 1(yi = 1)1(y∗i > 0)]

× exp

−1

2

[vs2 +

(β − β

)XX

(β − β

)]

where q = dimβ, v = N − q, β = (XX)−1Xy∗ and vs2 = (y∗ −Xβ)(y∗ −274

Xβ). This implies that augmenting the observed binary data y with the latent variable y∗, β275

and vs2 are sufficient statistics, so that276

Σβ,s2 =

[σ2(XX)−1 0

0 2(N − q)

](17)

and277

αβ,s2 =[(β − β)(XX) − v/2

](18)

Assuming a normally distributed prior for β, the posterior distribution of β and y∗ is278

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 111: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

111

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 13

π(β,y∗|y) ∝N∏i=1

1(yi = 0)1(y∗i ≤ 0) + 1(yi = 1)1(y∗i > 0)NN (y∗|Xβ, I)Nq(β|β0,B0)

(19)

Algorithm A2 illustrates how to estimate the Bayesian probit model.279

Algorithm A2 Bayesian Probit model

1: Choose a starting value β(0)

2: At the gth iteration, draw

y∗i ∼

T N(−∞,0)(xi β

(g−1), 1), yi = 0

T N(0,∞)(xi β

(g−1), 1), yi = 1

3: β(g) ∼ Nq(β(g),B1), where B1 = (XX +B−1

0 ) and β(g) = B1(Xy∗(g) +

B−10 β0).

Consider the following setting,280

y∗i = 0.5 + 0.8xi,1 − 1.2xi,2 + µi (20)

We simulated the data set x1, x2 and the stochastic errors from standard normal281

distributions, and performed 1,000 simulation exercises using four different sample sizes:282

20, 50, 500 and 1,000.283

284

Table 2 about here285

Tables 2 and 3 show the mean errors of our simulation exercises. In particular, we286

performed two different evaluations for the odds ratio, x = (1, 1, 1) and x = (1, 0, 0)287

using Algorithm A2 while setting B0 = 10, 000× diag 1, 1, 1 and β0 = [0, 0, 0] with288

25,000 iterations and a burn-in equal to 5,000. We see from these tables that the range of289

variability of the different measures of the MELO approach is lower than for the plug-in290

approach. We observe that when the sample size is small, the differences are remarkable,291

especially when x = (1, 1, 1), that is, when the data is less informative (noisy) due to292

regressors not being located at their population means (x = (1, 0, 0)). Observe that huge293

errors using small sample sizes in the plug-in approach are due to probabilities near 1 in some294

particular realizations. Small sample sizes imply huge estimation errors that can generate295

near singularity points. We do not see this pattern in the MELO estimates due to the MELO296

approach being a weighted average with much less weight for draws near singularity points.297

We obtain similar results for both approaches as the sample sizes increases.298

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 112: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

112

14 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Table 3 about here299

3.3. Portfolio selection300

One strategy for active portfolio management looks for finding the asset weights that301

maximize the Sharpe ratio, that is, the mean portfolio return per unit of risk.302

argmaxw∈RL

wµT+τ

(wΣT+τw)1/2such that w1L = 1

where µT+τ is the mean vector of the assets’ excess returns at T + τ where τ is the length of303

the investment period, ΣT+τ is its covariance matrix at T + τ , and 1L is an L dimensional304

vector of ones.305

306

The solution of the previous problem gives the well known tangent portfolio, that is,307

wOpt =Σ−1

T+τµT+τ

1LΣ

−1T+τµT+τ

(21)

As we can see from Equation 21, the final aim of the inferential problem is a rational308

function of the parameters of the assets’ excess returns. Note that given Ad×d invertible,309

then there exists a polynomial function p, such that A−1 = p(A).310

311

The standard financial literature assumes that the assets’ excess returns are jointly312

normally distributed, i.e., rt ∼ NL(µ,Σ) for t = 1, 2, . . . , T , where the excess returns are313

serially independent.314

315

Now put R = (r1, r2, . . . , rL) a T × L matrix of observations on L assets’ excess316

returns. Then we can write the following model for the excess returns:317

R = 1Tµ + e

where e = (e1, e2, . . . , eL) is an T × L matrix of unobserved random disturbances, and318

1T is a T dimensional vector of ones. The rows of e are independently distributed, which319

precludes any auto or serial correlation of disturbance terms, each with an L-dimensional320

normal distribution with zero mean vector and positive definite L× L covariance matrix Σ.321

322

The likelihood of this model is323

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 113: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

113

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 15

f(µ,Σ|R) ∝ |Σ|−T/2 exp

−1

2tr(SΣ−1)− T

2tr((µ− µ)(µ− µ)Σ−1)

where µ is the sample mean vector and S = (R− 1T µ)(R− 1T µ

). µ and S are324

sufficient statistics, such that µ ∼ NL(µ,Σ) and S ∼ WL(T − 1,Σ), where WL denotes325

the Wishart distribution with degrees of freedom T − 1 (T > L), and scale matrix Σ. Note326

that µ and Σ = S/(T − 1) are consistent estimators for µ and Σ. Then,327

αµ,S =

[T (µ− µ)Σ−1 vec

(−1

2Σ−1

)]

(22)

Σθ =

[Σ 0

0 ΣS

](23)

where the components of ΣS are given by Var(Sij) = (T − 1)(σ2ij + σiiσjj) and328

Cov(Sij , Skl) = (T − 1)(σikσjl + σilσjk).329

330

The plug-in estimator for the tangent portfolio is331

wplug =Σ−1µ

1L Σ

−1µ(24)

On the other hand we can obtain the MELO estimate focusing directly on the inferential332

problem. We set ε = (1Σ−1µ)ω −Σ−1µ as the estimation error. Observe that if ω is333

equal to wOpt, the estimation error is equal to 0.334

335

Given g(θ) = Σ−1µ1Σ−1µ

, the generalized loss function for this problem is given by336

L(g(θ), ω) = εε, E(L) = Eπ(µ,Σ|R)εε, and Q(θ) = (1Σ−1µ)2. Despite the fact that337

the expected value should be based on information up to T + τ , we only have information338

up to T , so the expected value is conditional on R. However, informative priors can be based339

on experts’ views of the investment period.340

341

Proposition 1 implies that the MELO estimate is

ω∗ =Eπ(µ,Σ|R)((1

Σ−1µ)Σ−1µ)

Eπ(µ,Σ|R)(1Σ−1µ)2(25)

Using the Jeffreys prior π(µ,Σ) = π(µ)π(Σ) ∝ |Σ|−(L+1)/2, the conditional posterior342

distribution for the mean vector of asset excess returns is µ|Σ,R ∼ NL(µ,Σ/T ), and343

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 114: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

114

16 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

the marginal distribution for the covariance matrix is Σ|R ∼ IWL(T − 1,S), where IW344

denotes the inverse Wishart distribution (Zellner 1996). Therefore, we can use a Gibbs345

sampling algorithm to obtain a computational solution for the MELO estimate.346

347

Observe that following the conventional Bayesian portfolio selection, which is based348

on the predictive distribution of the excess returns in the investment period, we have349

E(µ|Σ,R) = µ and E(Σ|R) =c−11 (T−1)

(T+τ−L−3)Σ, c1 = T (T+τ)(T+τ−1)−(τ−1)(T−τ+1)T (T+τ)2 . The350

term c−11 (T − 1)/(T + τ − L− 3) cancels out in Equation 25.351

352

We set µl ∼ U(−0.2, 0.2), l = 1, 2, . . . , L, and Σ = diag 1. We also generated353

processes such that there is correlation between assets’ excess return, available upon request.354

We set four different baseline scenarios of portfolio selection: L = 10, 25, 50, 100 assets,355

and two sample sizes: T = 120, 240 periods. We performed 100 simulations for each of356

the 8 settings, so that R ∼ N(µ,Σ).357

358

Table 4 about here359

We estimated the sample mean and covariance matrix to calculate the optimal weights360

using the plug-in approach (Equation 24), and the Gibbs sampling algorithm with 1,000361

iterations to calculate the MELO proposal (Equation 25). Then we obtained the MSE362 (1S

∑Ss=1

∑Ll=1(w

Optl − w

(s)l )2

)and MAE

(1S

∑Ss=1

∑Ll=1 |w

Optl − w

(s)l |

)using the363

population parameters (Equation 21), and the two estimators. We can see in Tables 4 and364

5 the outcomes of our simulation exercises. In general, the mean of the MSE and MAE365

associated with the MELO is always lower than the plug-in approach.366

367

Table 5 about here368

We examined robustness regarding the assumption of normality (we also performed369

robustness checks regarding the assumption of no serial correlation, available upon request).370

In particular, we simulated excess’ returns from a multivariate Student’s t distribution with371

3 degrees of freedom, but erroneously assumed a Gaussian family in our estimations. We372

can see mean squared and absolute errors in Tables 6 and 7. In this misspecified setting we373

obtained the same as under a well specified model, that is, on average MELO errors are374

lower than plug-in estimates. As expected, on average errors in this setting are greater than375

in the well specified setting.376

377

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 115: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

115

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 17

Table 6 about here378

Table 7 about here379

Finally, we checked the performance of the MELO proposal when L ≥ T , which380

is a very common situation due to expansion of stock markets around the world.381

This implies Σ is singular (remember that RankΣ≤ T − 1), as a consequence,382

the plug-in estimator for the tangent portfolio(Σ−1µ/1

L Σ−1µ

)is not well383

defined. Therefore, we compared the “traditional” Bayesian approach to portfolio384

selection (Rachev et al. 2008) with the MELO proposal. In particular, we assume385

µ|Σ ∼ NL(µ0,Σ/τ) and Σ ∼ IWL(Σ0, v). The conditional posterior distributions are386

µ|Σ,R ∼ NL(µ, (τ + T )−1Σ) and Σ|R ∼ IWL(Σ, v + T ), where µ = Tτ+T µ+ τ

τ+T µ0387

and Σ = Σ0 + (T − 1)Σ+ TτT+τ (µ− µ0)(µ− µ0)

. We set µ0 and Σ0 equal to their388

population values, τ = T and v = L. This choice should be irrelevant as both estimators are389

using the same prior information.390

391

The predictive distribution of the next period’s excess returns is multivariate Student’s t392

with mean equal to µ and covariance ((T + 1)/T (v + L− 1))Σ (Rachev et al. 2008). These393

values are used to calculate the optimal tangency portfolio (equation 21) in the “traditional”394

Bayesian optimal portfolio setting.395

396

The mean (median) squared errors for the “traditional” Bayesian tangent portfolio397

approach, and the MELO using T = 120 and L = 120 are 0.295 (0.040) and 0.034 (0.025),398

respectively. These figures are 0.862 (0.026) and 0.014 (0.009) when using T = 120 and399

L = 240. It seems from these simulation exercises than the MELO approach generates lower400

squared and absolute errors than the “traditional” Bayesian tangent portfolio approach.401

4. Applications402

4.1. Experimental broiler input-output403

This is the broiler input-output example presented by Judge et al. (1988). In particular,404

the average weight of an experimental lot of broilers and their corresponding levels of405

average feed consumption was tabulated over the time period in which they changed from406

baby chickens to mature broilers ready for market.407

408

Given the setting of the optimal input problem in Subsection 3.1, the data set in Table409

5.3 from Judge et al. (1988), and taking into account that broilers are 30 cents per pound and410

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 116: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

116

18 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

feed is 6 cents per pound, the optimal level of feed input is 13.74 with a standard deviation411

equal to 1.89 using the plug-in approach (11 and 12), whereas the optimal input point estimate412

using the MELO approach, both analytical (Equation 13) and computational ((2) using 10,000413

iterations), is 13.14, and with the parametric bootstrap is 13.19 (Algorithm A1 using 1,000414

as the number of bootstraps). The standard deviations are 1.46, and 1.52, respectively, that is,415

reductions of 22% and 19.5%. These figures are calculated using (10) with Corollary 1, and416

(9), with Proposition 4 in the case of the analytical and computational approaches. Despite the417

fact that the coefficient of determination in this example is very high (R2 = 0.98), we observe418

differences between the optimal weight estimates. In addition, the frequentist variability of419

the optimal weight using the MELO estimates is lower than when using the plug-in approach.420

4.2. Space shuttle Challenger421

In 1986, the space shuttle Challenger exploded during take off, killing the seven422

astronauts aboard. The explosion was the result of an O-ring failure, a splitting of a ring of423

rubber that seals the parts of the ship together, due to the unusually cold weather (31F, i.e.,424

0C) at the time of launch (Dalal, Fowlkes & Hoadley 1989).425

426

We calculated the odds ratio at 31F and 69.56F (mean sample temperature) for a427

sample of 23 observations provided by Robert & Casella (2004) taking into account the428

theoretical structure of subsection 3.2. Using the plug-in approach, the probability of failure429

is 0.999 at 31F, therefore the odds ratio estimate is 444,639.9 with a standard deviation430

of 61,822,954. The odds ratio using MELO is 1.907 in the case of the computational431

approach (Algorithm A2 setting B0 = 10, 000 diag 1, 1, 1 and β0 = [0, 0, 0] with 25,000432

iterations and a burn-in equal to 5,000), and is 8.757 using parametric bootstrap (Algorithm433

A2 with 100 as the number of bootstraps and setting fY ∗i(y∗i |βML) = N(x

i βML, 1), see434

(14) and (15)). Observe that the implicit probabilities of the odds ratio in the MELO435

approach are 0.656 and 0.897, respectively. However, if the main objective of the statistical436

inference is the probability, that is, g(θ) = Φ(xβ), which implies Q(θ) = 1, and437

ω∗ = E(Φ(xi β)), we have point estimates equal to 0.987 using the computational MELO,438

and 0.979 using the parametric bootstrap. This highlights a remarkable characteristic of439

our approach; the estimate depends drastically on the main objective of the inferential440

situation. Observe that this does not imply violation of the likelihood principle due to all441

information regarding population parameters being in the likelihood function. However,442

once we have all our posterior estimates, we applied the rules defined by the MELO proposal.443

444

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 117: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

117

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 19

Regarding the frequentist variability of the MELO, we obtained 1.533 using the445

computational approach. Observe that in this case, the components associated with Corollary446

1 depend on the iteration g, so we calculated the mean values over all these components to447

obtain this figure. We obtained 48.717 using the parametric bootstrap. Observe that there is a448

huge difference using the delta method (61,822,954).449

450

The failure probability is 0.266 at 69.56F using the plug-in approach. This implies451

an odds ratio equal to 0.363 with standard deviation equal to 0.171. The odds ratio using452

the computational MELO is 0.345 with a standard deviation equal to 0.258, whereas using453

the parametric bootstrap these figures are 0.333 and 0.215, respectively. We get similar454

point estimates using the central point in the distribution of regressors. In this case, the455

standard deviation of the plug-in is lower than for the MELO approaches (33% and 0.20%,456

respectively).457

458

The message here is that in the case of evaluating a point in the extreme of the459

distribution of the regressors, that is, when the sample information is not precise (noisy),460

it is much better to use the MELO approach. On the other hand, it makes sense to use the461

plug-in approach.462

4.3. Colonial origins of development463

In order to illustrate the MELO ideas, and its frequentist variability in structural models,

we replicate Acemoglu, Johnson & Robinson (1993), who analyzed the effect of property

rights on economic growth. They exploit the variability in European settlers’ mortality rates

during the time of colonization to find the causal effect of protection against expropriation on

economic performance. They used 2SLS to accomplish this task. We can write their setting

in the following structural system,

log(pcGDP)i =β0 + β1PAERi + µ1i

PAERi =α0 + α1 log(pcGDP)i + α2 log(Mort)i + µ2i

where pcGDP, PAER and Mort are the per capita GDP in 1995, the average index of

protection against expropriation between 1985 and 1995, and settler mortality rate during the

time of colonization (see Acemoglu, Johnson & Robinson (1993) for details), respectively.

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 118: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

118

20 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

The reduced form model is

log(pcGDP)i =π0 + π1 log(Mort)i + e1i

PAERi =γ0 + γ1 log(Mort)i + e2i

The first structural equation is exactly identified provided that α2 = 0, whereas the464

second structural equation is sub-identified.465

466

We define the estimation error as ε = γ1(ω − β1), where β1 = π1/γ1, then Q(θ) = γ21 ,467

and find the MELO estimates, and their frequentist variability, using the ideas of Subsection468

3.3. The outcomes can be seen in Table 8, where we reproduce the outcomes from Acemoglu,469

Johnson & Robinson (1993), Table IV (p. 1386), columns 1, 3, 5 and 9.470

471

We can see from Table 8 that the standard errors of our approach are always less than the472

standard errors from 2SLS. We obtain more efficiency gains in noisier models, for instance473

column (3), where the coefficient of determination is the lowest (R2 = 0.13). In general, the474

MELO estimates of the effects of property rights on economic performance are lower than475

the 2SLS estimates.476

Table 8 about here477

5. Concluding remarks478

Many times the main concern of statistical or econometric inference is associated with479

rational functions of parameters. Our approach tackles directly this issue based on a Bayesian480

decision theory framework, which allows thinking about the whole inferential situation, not481

just in rules based on good properties for parameter estimators. The crucial characteristic482

of the MELO proposal is that it puts less weight near singularity points, that is why this483

approach gives more stable parameter estimates than conventional alternatives (plug-in and484

“naive” Bayes). Models apply to noisy and/or small datasets may be characterized by near485

singularity points due to extreme values or non significant parameters. Thus we recommend486

to use of the MELO proposal when facing these situations.487

488

In a Bayesian estimation framework many times the choice of prior distributions489

is based on mathematical and/or computational convenience, not on genuine objective490

arguments or true subjective construction. Therefore, there is no reason to trust what is491

after all a convenient choice of priors for determining estimators’ variability. In addition,492

we should take into account that the given data is just a realization of a random field. So,493

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 119: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

119

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 21

estimation of uncertainty associated with data may be a good idea in a Bayesian setting. That494

is why we propose the frequentist variability of the MELO “estimator”.495

496

Our proposal seems to improve the inference in situations characterized by noisy497

and/or small sample sizes. So, the MELO proposal can be used in situations where498

getting observations can be a difficult task due to data limitations, for instance, expensive499

experimental designs or availability restrictions, and/or situations where the data set is very500

noisy, for instance, very weak instruments. But with a moderate sample size and/or the501

very informative models, the MELO, the plug-in and the “naive” Bayesian approaches have502

similar properties.503

504

We acknowledge that our approach is based on differentiable functions gk(θ) and hk(θ).505

Future research should explore relaxation of this assumption.506

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 120: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

120

22 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

References507

ACEMOGLU, D., JOHNSON, S. & ROBINSON, J. (1993). The colonial origins of comparative development:508

An empirical investigation. The American Economic Review 91, 1369–1401.509

CASELLA, G. & ROBERT, C.P. (1998). Post–processing accept–reject samples: Recycling and rescaling.510

Journal of Computational and Graphical Statistics 7, 139–157.511

CHERNOZHUKOV, V. & HONG, H. (2003). An MCMC approach to classical estimation. Journal of512

Econometrics 115, 293–346.513

CLAESKENS, G. & HJORT, N.L. (2003). The focused information criterion. Journal of the American514

Statistical Association 98, 900–916.515

DALAL, S.R., FOWLKES, E.B. & HOADLEY, B. (1989). Risk analysis of the space shuttle: Pre-Challenger516

prediction of failure. Journal of the American Statistical Association 84, 945–957.517

DIEBOLD, F.X. & LAMB, R.L. (1997). Why are estimates of agricultural supply response so variable?518

Journal of Econometrics 76, 357–373.519

DITRAGLIA, F.J. (2016). Using invalid instruments on purpose: Focused moment selection and averaging520

for GMM. Journal of Econometrics 195, 187–208.521

DREZE, J. (1974). Econometrics and decision theory. In Studies in Bayesian Econometrics and Statistics,522

eds. S.E. Fienberg & A. Zellner. Amsterdam: North-Holland, pp. 17–38.523

EFRON, B. (2012). Bayesian inference and parametric bootstrap. The Annals of Applied Statistics 6, 1971–524

1997.525

EFRON, B. (2015). Frequentist accuracy of Bayesian estimates. Journal of the Royal Statistical Society:526

Series B 77, 617–646.527

FANG, Z. & SANTOS, A. (2015). Inference on directionally differentiable functions. Technical report, Kansas528

State University. ArXiv:1404.3763v2.529

GREENBERG, E. (2012). Introduction to Bayesian Econometrics. New York: Cambridge University Press.530

HANSEN, B.E. (2005). Challenges for econometric model selection. Econometric Theory 21, 60–68.531

HASTIE, T., TIBSHIRANI, R. & FRIEDMAN, J.H. (2009). The Elements of Statistical Learning: Data532

Mining, Inference, and Prediction, 2nd Edition. Springer series in statistics, Springer. URL http:533

//www.worldcat.org/oclc/300478243.534

JUDGE, G., CARTER, R., GRIFFITHS, W., LUTKEPLOH, H. & LEE, T.C. (1988). Introduction to the Theory535

and Practice of Econometrics. New York: John Wiley & Sons, Inc., 2nd edn.536

MARSCHAK, J. (1960). Economic measurements for policy and prediction. In Planning Production,537

Inventories and Workforce, eds. C.C. Holt, F. Modigliani, J.F. Muth & H.A. Simon. Englewood Cliffs,538

NJ: Prentice-Hall, pp. 1–26.539

NELDER, J.A. & WEDDERBURN, R.W.M. (1972). Linear generalized models. Journal of the Royal540

Statistical Society. Series A (General) 135, 370–384.541

PARK, S.B. (1982). Some sampling properties of minimum expected loss (MELO) estimators of structural542

coefficients. Journal of Econometrics 18, 295–311.543

RACHEV, S., HSU, J., BAGASHEVA, B. & FABOZZI, F. (2008). Bayesian Methods in Finance. John Wiley544

& Sons, Inc.545

ROBERT, C.P. & CASELLA, G. (2004). Monte Carlo Statistical Methods. New York: Springer-Verlag, 2nd546

edn.547

SWAMY, P.A.V.B. & MEHTA, J.S. (1983). Further results on Zellner’s minimum expected loss and full548

information maximum likelihood estimators for undersized samples. Journal of Business & Economic549

Statistics 1, 154–162.550

WALD, A. (1945). Generalization of a theorem by v. Neumann concerning zero sum two-person games.551

Annals of Mathematics 46, 281–286.552

WALD, A. (1947). Foundations of a general theory of sequential decision functions. Econometrica 15,553

279–313.554

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 121: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

121

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 23

ZELLNER, A. (1978). Estimation of functions of population means and regression coefficients including555

structural coefficients. Journal of econometrics 8, 127–158.556

ZELLNER, A. (1996). An Introduction to Bayesian Inference in Econometrics. New York: Wiley.557

ZELLNER, A. (1998). The finite sample properties of simultaneous equations’ estimates and estimators558

Bayesian and non-Bayesian approaches. Journal of Econometrics 83, 185–212.559

ZELLNER, A. & PARK, S.B. (1979). Minimum expected loss (MELO) estimators for functions of parameters560

and structural coefficients of econometric models. Journal of the American Statistical Association 74,561

185–193.562

ZELLNER, A. & PARK, S.B. (1980). A note on the relationship of minimum expected loss (MELO) and563

other structural coefficient estimates. The Review of Economics and Statistics 62, 482–484.564

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 122: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

122

24 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Appendix565

Table 1. Optimal input: Mean errors.

Signal/Noise Method Sample size MSE MAE

0.1

Plug-in 20 1.94E+06 188.63

Analytical MELO 20 1,155.06 13.25

Computational MELO 20 1,153.36 13.24

Plug-in 50 1.38E+06 197.18

Analytical MELO 50 5,610.28 15.70

Computational MELO 50 5,571.76 15.67

Plug-in 500 3.06E+7 337.20

Analytical MELO 500 3,808.44 16.84

Computational MELO 500 3,807.83 16.85

1

Plug-in 20 4.26E+05 146.97

Analytical MELO 20 323.90 12.74

Computational MELO 20 323.80 12.75

Plug-in 50 1.38E+04 40.31

Analytical MELO 50 346.66 13.83

Computational MELO 50 346.26 13.82

Plug-in 500 124.33 7.46

Analytical MELO 500 116.58 7.17

Computational MELO 500 116.64 7.17

5

Plug-in 20 189.93 9.33

Analytical MELO 20 112.92 8.21

Computational MELO 20 112.88 8.21

Plug-in 50 26.75 4.03

Analytical MELO 50 26.05 3.97

Computational MELO 50 26.05 3.97

Plug-in 500 4.55 1.44

Analytical MELO 500 4.54 1.43

Computational MELO 500 4.54 1.43

20

Plug-in 20 7.06 2.10

Analytical MELO 20 7.00 2.09

Computational MELO 20 7.00 2.09

Plug-in 50 1.61 0.99

Analytical MELO 50 1.61 0.99

Computational MELO 50 1.61 0.99

Plug-in 500 0.28 0.36

Analytical MELO 500 0.28 0.36

Computational MELO 500 0.28 0.36

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 123: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

123

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 25

Table 2. Odds ratio problem: Errors at x = (1, 1, 1).

Squared errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.000 0.248 0.782 3.758E+17 1.884 1.733E+20 1.733E+20MELO** 20 0.000 0.168 0.596 0.986 1.101 29.727 29.727Plug-in 50 0.000 0.049 0.247 74.584 0.675 7.32E+04 7.322E+04MELO 50 0.000 0.053 0.212 0.577 0.539 78.848 78.848Plug-in 500 0.000 0.004 0.022 0.059 0.070 1.468 1.468MELO 500 0.000 0.004 0.021 0.055 0.066 1.296 1.296Plug-in 1,000 0.000 0.002 0.013 0.030 0.035 0.535 0.535MELO 1,000 0.000 0.003 0.013 0.029 0.035 0.488 0.488

Absolute errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.003 0.498 0.884 3.662E+07 1.372 1.316E+10 1.316E+10MELO** 20 0.001 0.410 0.772 0.790 1.049 5.452 5.451Plug-in 50 0.001 0.221 0.497 1.000 0.822 270.596 270.596MELO 50 0.001 0.231 0.461 0.552 0.734 8.879 8.878Plug-in 500 0.001 0.065 0.149 0.187 0.265 1.211 1.211MELO 500 0.001 0.069 0.147 0.182 0.257 1.138 1.138Plug-in 1,000 0.001 0.054 0.115 0.137 0.188 0.731 0.731MELO 1,000 0.001 0.057 0.116 0.134 0.188 0.698 0.698

Absolute percentage errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.003 0.424 0.754 3.129E+07 1.170 1.123E+10 1.122E+10MELO** 20 0.001 0.349 0.658 0.673 0.894 4.647 4.647Plug-in 50 0.001 0.189 0.424 0.853 0.700 230.668 230.667MELO 50 0.001 0.197 0.392 0.471 0.626 7.569 7.568Plug-in 500 0.001 0.056 0.127 0.159 0.226 1.033 1.032MELO 500 0.001 0.059 0.125 0.155 0.219 0.970 0.970Plug-in 1,000 0.001 0.046 0.098 0.116 0.160 0.623 0.623MELO 1,000 0.001 0.049 0.099 0.114 0.160 0.595 0.595

* We discard the “∞” values ** We discard the “NA” values.

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 124: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

124

26 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Table 3. Odds ratio problem: Errors at x = (1, 0, 0).

Squared errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.000 0.286 1.248 1.218E+15 5.087 2.869E+17 2.869E+17MELO** 20 0.000 0.152 1.030 2.865 2.802 112.768 112.768Plug-in 50 0.000 0.120 0.433 5.986E+06 1.333 5.608E+09 5.608E+009MELO 50 0.000 0.105 0.373 3.081 1.137 471.570 471.570Plug-in 500 0.000 0.006 0.037 0.097 0.115 2.758 2.758MELO 500 0.000 0.006 0.037 0.093 0.112 2.516 2.516Plug-in 1,000 0.000 0.004 0.020 0.043 0.052 0.534 0.535MELO 1,000 0.000 0.004 0.020 0.042 0.053 0.510 0.510

Absolute errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.001 0.535 1.117 2.622E+06 2.255 5.356E+08 5.356E+08MELO** 20 0.005 0.390 1.015 1.225 1.674 10.619 10.614Plug-in 50 0.000 0.346 0.658 100.532 1.154 7.49E+04 7.49E+04MELO 50 0.000 0.324 0.611 0.935 1.066 21.715 21.715Plug-in 500 0.000 0.082 0.193 0.238 0.339 1.660 1.660MELO 500 0.000 0.083 0.194 0.234 0.334 1.586 1.586Plug-in 1,000 0.000 0.069 0.143 0.167 0.229 0.731 0.730MELO 1,000 0.000 0.068 0.142 0.165 0.232 0.714 0.713

Absolute percentage errors

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in* 20 0.000 0.238 0.498 1.170E+06 1.006 2.390E+08 2.390E+08MELO** 20 0.002 0.174 0.453 0.546 0.747 4.738 4.736Plug-in 50 0.000 0.154 0.293 44.858 0.515 3.34E+04 3.34E+04MELO 50 0.000 0.144 0.272 0.417 0.475 9.689 9.689Plug-in 500 0.000 0.036 0.086 0.106 0.151 0.741 0.741MELO 500 0.000 0.037 0.086 0.104 0.149 0.707 0.707Plug-in 1,000 0.000 0.030 0.063 0.074 0.102 0.326 0.326MELO 1,000 0.000 0.030 0.063 0.073 0.103 0.318 0.318

* We discard the “∞” values **We discard the “NA” values.

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 125: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

125

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 27

Table 4. Well specified tangency portfolio with Jeffreys prior: squared error.

Assets = 10

Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in 120 0.015 0.102 0.183 24.856 2.210 676.881 676.865MELO 120 0.038 0.103 0.137 0.178 0.202 0.614 0.575Plug-in 240 0.018 0.053 0.082 8.847 0.501 445.881 445.862MELO 240 0.032 0.054 0.079 0.111 0.100 0.552 0.519

Assets=25Plug-in 120 0.002 0.005 0.008 4.875 0.020 469.956 469.954MELO 120 0.002 0.004 0.006 0.007 0.008 0.035 0.033Plug-in 240 0.001 0.003 0.004 0.011 0.008 0.207 0.205MELO 240 0.001 0.002 0.003 0.005 0.005 0.020 0.018

Assets=50Plug-in 120 0.057 0.075 0.160 1.115 0.383 48.392 48.335MELO 120 0.068 0.078 0.085 0.105 0.139 0.1877 0.119Plug-in 240 0.029 0.051 0.098 6.907 0.281 209.462 209.433MELO 240 0.052 0.062 0.069 0.097 0.156 0.200 0.147

Assets=100Plug-in 120 0.021 0.027 0.044 0.554 0.085 28.019 27.998MELO 120 0.019 0.024 0.029 0.033 0.040 0.065 0.045Plug-in 240 0.012 0.016 0.055 3.258 0.215 121.351 121.339MELO 240 0.013 0.016 0.017 0.025 0.031 0.060 0.046

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 126: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

126

28 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Table 5. Well specified tangency portfolio with Jeffreys prior: Absolute error.

Assets=10Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in 120 0.097 0.263 0.350 1.708 1.240 21.078 20.981MELO 120 0.146 0.272 0.312 0.341 0.382 0.675 0.528Plug-in 240 0.087 0.195 0.243 0.983 0.558 18.201 18.113MELO 240 0.141 0.192 0.234 0.262 0.272 0.654 0.512

Assets=25Plug-in 120 0.037 0.056 0.077 0.339 0.117 16.876 16.839MELO 120 0.037 0.053 0.064 0.066 0.073 0.154 0.116Plug-in 240 0.033 0.043 0.051 0.068 0.071 0.352 0.318MELO 240 0.033 0.042 0.047 0.054 0.061 0.116 0.083

Assets=50Plug-in 120 0.194 0.224 0.319 0.514 0.499 5.762 5.567MELO 120 0.213 0.226 0.236 0.260 0.304 0.346 0.133Plug-in 240 0.137 0.182 0.249 0.778 0.433 11.718 11.580MELO 240 0.178 0.203 0.214 0.246 0.317 0.365 0.187

Assets=100Plug-in 120 0.116 0.136 0.170 0.321 0.229 4.199 4.083MELO 120 0.114 0.128 0.140 0.147 0.165 0.207 0.092Plug-in 240 0.090 0.105 0.182 0.587 0.381 8.591 8.500MELO 240 0.094 0.104 0.110 0.128 0.147 0.202 0.108

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 29

Table 6. Misspecified tangency portfolio with Jeffreys prior: Squared error.

Assets=10Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in 120 0.045 0.084 0.230 53.329 1.578 2.82E+03 2.82E+03MELO 120 0.036 0.063 0.085 0.120 0.114 0.488 0.451Plug-in 240 0.029 0.076 0.162 11.443 1.004 687.932 687.902MELO 240 0.022 0.055 0.070 0.105 0.096 0.539 0.516

Assets=25Plug-in 120 0.003 0.008 0.011 0.154 0.023 7.495 7.491MELO 120 0.003 0.007 0.009 0.012 0.015 0.049 0.045Plug-in 240 0.003 0.006 0.009 1.397 0.013 138.610 138.607MELO 240 0.002 0.006 0.008 0.009 0.011 0.048 0.045

Assets=50Plug-in 120 0.037 0.070 0.133 4.786 0.384 259.653 259.616MELO 120 0.035 0.044 0.060 0.059 0.072 0.101 0.066Plug-in 240 0.035 0.089 0.132 22.038 0.260 1.22E+03 1.22E+03MELO 240 0.035 0.038 0.074 0.066 0.086 0.110 0.080

Assets=100Plug-in 120 0.014 0.020 0.045 56.793 0.157 5.6E+03 5.6E+03MELO 120 0.013 0.017 0.021 0.025 0.032 0.070 0.057Plug-in 240 0.013 0.022 0.035 14.835 0.119 1,347.387 1,347.373MELO 240 0.012 0.015 0.018 0.018 0.021 0.027 0.014

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 127: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

127

30 FOCUSED ESTIMATION FOR NOISY AND SMALL DATA SETS

Table 7. Misspecified tangency portfolio with Jeffreys prior: Absolute error.

Assets=10Method Sample size Min 1st Qu. Median Mean 3rd Qu. Max RangePlug-in 120 0.156 0.218 0.407 1.814 1.095 41.071 40.915MELO 120 0.136 0.223 0.342 1.036 0.871 21.186 21.050Plug-in 240 0.146 0.192 0.222 0.263 0.272 0.590 0.444MELO 240 0.122 0.184 0.211 0.244 0.253 0.631 0.508

Assets=25Plug-in 120 0.046 0.072 0.084 0.156 0.122 2.214 2.167MELO 120 0.046 0.070 0.079 0.086 0.098 0.188 0.141Plug-in 240 0.041 0.062 0.075 0.179 0.093 9.884 9.842MELO 240 0.038 0.061 0.072 0.074 0.085 0.172 0.133

Assets=50Plug-in 120 0.123 0.187 0.269 0.688 0.486 13.494 13.370MELO 120 0.113 0.139 0.167 0.165 0.188 0.233 0.119Plug-in 240 0.109 0.220 0.273 1.019 0.406 27.341 27.231MELO 240 0.110 0.136 0.190 0.178 0.209 0.243 0.133

Assets=100Plug-in 120 0.089 0.109 0.168 0.977 0.309 62.308 62.219MELO 120 0.083 0.099 0.114 0.122 0.143 0.214 0.130Plug-in 240 0.086 0.114 0.146 0.723 0.275 30.015 29.928MELO 240 0.079 0.095 0.104 0.103 0.113 0.137 0.057

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

A RAMIREZ-HASSAN AND M CORREA-GIRALDO 31

Table 8. Colonial origins of development.

Method Column (1)1 Column (3)2 Column (5)3 Column (9)4

MELO (Computational)50.91 1.17 0.57 0.95

(0.14) (0.27) (0.09) (0.15)

MELO (Bootstrap)60.94 1.21 0.58 0.97

(0.15) (0.27) (0.10) (0.17)

2SLS0.94 1.28 0.58 0.98

(0.16) (0.36) (0.10) (0.17)

Sample size 64 60 37 61

R2 First stage 0.27 0.13 0.47 0.28

1Base sample. 2Base sample without Neo-Europes. 3Base sample without Africa.4Base sample, dependent variable is log output per worker. Standard error in parentheses.5Using 10,000 iterations. 6Using 10,000 iterations and 1,000 bootstraps.

c© 2018 Australian Statistical Publishing Association Inc.Prepared using anzsauth.cls

Page 128: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

128

ANÁLISIS DE LA ACTIVIDAD ECONÓMICA DEPARTAMENTAL EN COLOMBIA:

UNA APLICACIÓN DE LA METODOLOGÍA STATIS

ANALYSIS OF REGIONAL ECONOMIC ACTIVITY IN COLOMBIA: AN APPLICATION OF THE STATIS

METHODOLOGY

HECTOR ROMERO 1*, EDDY JOHANNA FAJARDO ORTIZ 2, GUILLERMO RAMIREZ3 Y MAURA VASQUEZ3

Recibido para revisar M-D-A, aceptado M-D-A, versión final M-D-A.

RESUMEN: El presente estudio realiza un análisis sobre el comportamiento de la economía regional en Colombia para el periodo 2002 hasta 2018. Como metodología de análisis se emplea el STATIS (Structuration des Tableaux a Trois Indices de la Statistique). Los datos se extrajeron del Departamento Nacional de Estadística enfocadas en variables económicas como sociales: desempleo, Producto Interno Bruto (PIB) per cápita, tasa de pobreza y niveles de desigualdad del ingreso para veintitrés (23) departamentos del país. Se encontró, en una primera etapa, que a partir del año 2002 se observó una mejoría en términos de reducción de la desigualdad, desempleo, PIB per cápita y pobreza. También es importante destacar el hecho de que a pesar que en el 2018 los resultados son positivos, hubo una desmejora respecto a los años 2010 y 2014. Además, se encontró que los 5 periodos estudiados (bloques) están relacionados en dos grupos: un período entre 2002 y 2006 y el periodo entre 2010 y 2018. En una segunda etapa de la investigación, se encontró que los departamentos (individuos) que obtuvieron mejoras en las variables estudiadas fueron Antioquia, Valle, Santander, Cundinamarca, Meta y la capital del país Bogotá. Mientras que los departamentos que han aumentado en pobreza, desigualdad y desempleo en estos dieciséis (16) años son Chocó, Caquetá, Córdoba, Nariño, Sucre y Magdalena. En este sentido, es necesario desarrollar acciones de política económica que garanticen un desarrollo armónico de la nación. PALABRAS CLAVE: Colombia; STATIS; disparidades regionales. ABSTRACT: The present study analyzes the behavior of the regional economy in Colombia for the period 2002 to 2018. The STATIS (Structuration des Tableaux a Trois Indices de la Statistique) is used as a methodology. The data was extracted from the National Statistics Department and it was focused on economic and social variables: unemployment, GDP per capita, poverty rate and income inequality levels for twenty-three (23) departments of the country. It was found, in a first stage, that since 2002 an improvement was observed in terms of reducing inequality, unemployment, GDP per capita and poverty. It is also important to highlight the fact that although in 2018 the results are positive, there was a deterioration compared to the years 2010 and 2014. In addition, it was found that of the 5 periods studied (blocks) are associated in two groups: one period between 2002 and 2006 and the period between 2010 and 2018. In a second stage of the study, it was found that the departments (individuals) that had improvements in the variables studied were Antioquia, Valle, Santander, Cundinamarca, Meta and the

1 Escuela de Economía y Administración, Universidad Industrial de Santander (UIS), Carrera 27 con calle 9, Bucaramanga-Colombia. 2 Departamento de Matemáticas y Ciencias Naturales, Universidad Autónoma de Bucaramanga (UNAB), Avenida 42 No. 48 – 11, Bucaramanga-Colombia. 3 Programa Integrado de Postgrado en Estadística y Ciencias Actuariales, Universidad Central de Venezuela (UCV), Ciudad Universitaria, Los Chaguaramos, Caracas-Venezuela. * Autor de correspondencia: Héctor Romero. Correo electrónico: [email protected]

Page 129: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

129

capital of the country Bogotá. While the departments that had increased in poverty, inequality and unemployment, in these sixteen (16) years of the research, are Chocó, Caquetá, Córdoba, Nariño, Sucre and Magdalena. In this sense, it is necessary to develop economic policy actions that guarantee a harmonious development of the nation. KEYWORDS: Colombia; STATIS; regional disparities.

1 INTRODUCCIÓN De la teoría del crecimiento económico neoclásico (Solow, 1956 y Swan, 1956) quizás uno de los elementos más discutidos tiene que ver con la conclusión teórica de que los países y regiones con menores niveles de Producto Interno Bruto (PIB) per cápita deben crecer a tasas superiores que los países y/o regiones con un PIB per cápita más elevado. La razón para esta simple conclusión es clara y simple: Las regiones con niveles de capital más bajo deben tener rendimientos marginales más elevados, y por lo tanto, deben crecer a tasas superiores hasta alcanzar los estándares de vida de los territorios con mayor nivel de ingreso. En el caso de las economías en desarrollo, Johnson y Papageorgiou (2019), encuentran que, como grupo, no se ha observado una disminución de la brecha de ingreso entre estos países. En el mejor de los casos, se ha hecho evidente dentro de esta revisión de la literatura que existen fases de considerable reducción de las diferencias de los niveles de ingreso que posteriormente vienen acompañadas de significativos retrocesos. Ante esta realidad, surge la necesidad de adelantar la presente investigación que pretende revisar si en el caso particular de Colombia, existe convergencia de sus departamentos hacia un mayor nivel de vida. Para alcanzar este objetivo, el estudio se subdivide la siguiente forma: En la presente sección, titulada introducción, se ofrece el planteamiento del problema de investigación. En la sección 2, antecedentes, se revisan los estudios previos, tanto internacionales como nacionales, que abordan la problemática de la convergencia de las economías regionales. La sección 3, titulada metodología, permite ubicar el tipo de investigación, alcance, técnica estadística y fuente de información. La sección 4 presenta los principales resultados del estudio. Por último, en la sección 5, se presentan las conclusiones. 2 METODOLOGÍA En cuanto a la metodología, se emplea el STATIS (Structuration des Tableaux a TroisIndices de la Statistique), introducida por Escoufier (1976) y L’Hermier (1976) y desarrollada por Lavit (1988), es una técnica exploratoria de análisis multivariante de datos que se ha desarrollado para situaciones en las que se cuenta con un conjunto de matrices de datos obtenidas al caracterizarlos mismos individuos mediante un mismo o diferente conjunto de p variables cuantitativas en diferentes ocasiones (Fajardo, 2019). El objetivo principal es la obtención de información relevante contenida en varias matrices de datos, que permita analizar las proximidades y diferencias entre ellas. La metodología STATIS se desarrolla, en general, de acuerdo a tres etapas: interestructura, compromiso e intraestructura. La definición matemática básica del STATIS, siguiendo a Thioulouse et al (2018), asume que el concepto de referencia bajo esta metodología es el denominado estudio. Un estudio definido para una ocasión k viene

representado por una tripleta donde: es una tabla de datos (individuos x variables cuantitativas), es una matriz en la que se describen ponderaciones para las variables, y se utiliza para definir distancias entre individuos. Por último, es una matriz diagonal de pesos que se asignan a los individuos. Cada estudio en el STATIS está representado por un objeto, denotado por

:

Este objeto contiene la información requerida para efectuar el análisis de distancias entre individuos que es el que se conoce como el compromiso. Según Dazy y Le Barzic (1996) el análisis de la interestructura

Page 130: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

130

efectúa una comparación global de la estructura de los k bloques de datos. Esas distancias son obtenidas en función del producto escalar de Hilbert-Schmidt entre objetos. El análisis de la intraestructura, realizado sobre el espacio compromiso, permite construir una imagen euclídea de las interdistancias compromiso (promedio) entre los individuos en los k bloques. Sobre la representación euclídea del compromiso es posible trazar suplementariamente, para cada individuo, su trayectoria a lo largo de los k bloques. Los datos empleados en la presente investigación provienen del DANE (2019). Se cuenta con información para veintitrés (23) departamentos en cuanto a variables sociales como económicas. Estas son: niveles de pobreza, tasa de desempleo, niveles de ingreso y grado de desigualdad (medido a través del coeficiente de Gini). Para el procesamiento de los datos, se hace uso del software estadístico R. 3 RESULTADOS El cuadro 1, presenta la matriz del coeficiente de correlación vectorial (RV). Entre los años 2010 y 2014, es igual a 0.9861, el más elevado, indicando estabilidad en la distribución de los departamentos de un periodo a otro. Es decir, los cambios observados en las relaciones entre las variables no son tan diferenciadas entre estos periodos. Por otro lado, los años 2002 y 2014 presentan el RV más bajo, igual a 0.7816, reflejando que existe un mayor cambio de los departamentos entre esos periodos. Por eso, ambos puntos son los más alejados entre sí, en el gráfico de la interestructura (figura 1).

Cuadro 1. Matriz RV Año 2002 Año 2006 Año 2010 Año 2014 Año 2018 Año 2002 1.0000 0.9698 0.8012 0.7316 0.8445 Año 2006 0.9698 1.0000 0.8563 0.7913 0.8881 Año 2010 0.8012 0.8563 1.0000 0.9861 0.9531 Año 2014 0.7316 0.7913 0.9861 1.0000 0.9400 Año 2018 0.8445 0.8881 0.9531 0.9400 1.0000

En la matriz que contiene las distancias entre los objetos que representan a los años estudiados, (ver cuadro 2), se observa que los años 2002 y 2014 son los periodos que más difieren en su situación económica, debido, entre otras cosas al auge del precio de las materias primas, en la primera parte del periodo, y a la recuperación de la economía de Colombia luego de la crisis financiera mundial. También se observa que el objeto que representa al año 2006 presenta una distancia amplia con el año 2010 (0.5360), esto quiere decir que el cambio en la situación económica de los departamentos fue positiva durante este periodo. Por su parte, las evoluciones de las variables socioeconómicas entre los años 2010 y 2014 evidencian que la mejoría de la economía fue relativamente baja, al observar la distancia entre los respectivos objetos, que es igual a 0.1667.

Cuadro 2. Matriz de distancias entre los objetos Año 2002 Año 2006 Año 2010 Año 2014 Año 2018 Año 2002 0.0000 0.2457 0.6305 0.6609 0.5576 Año 2006 0.2457 0.0000 0.5360 0.6460 0.4730 Año 2010 0.6305 0.5360 0.0000 0.1667 0.3062 Año 2014 0.6609 0.6460 0.1667 0.0000 0.3464 Año 2018 0.5576 0.4730 0.3062 0.3464 0.0000

La figura 1 es la representación euclídea de la interestructura que capta el 90.14% de la inercia total de los periodos estudiados (primer eje). Se muestra una evolución limitada entre los periodos 2002 y 2006 y entre los periodos 2010 y 2014. Se puede notar como entre los años 2006 y 2014 hubo una mejoría socioeconómica en el país. No obstante, para el 2018, se observa una leve desaceleración económica.

Page 131: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

131

Figura 1. Plano de la interestructura

Figura 2. Gráfica de los departamentos en los dos primeros componentes (Análisis del compromiso)

En el plano compromiso (figura 2) se puede observar que los departamentos se dividen en dos grupos según el eje X. De esta manera es posible diferencias los departamentos con un PIB elevado y niveles de pobreza bajo. En este sentido, es posible mencionar que Meta, Santander y la capital del país, Bogotá, son los departamentos con mejor calidad de vida, contrario a departamentos como Chocó, Nariño, Caquetá y Córdoba, que son departamentos con más desigualdad, menores niveles de ingreso y elevada tasa de pobreza. 4 CONCLUSIONES Se puede concluir que en los últimos años el nivel de vida de los colombianos ha mejorado notablemente, pasando de niveles de desempleo, pobreza y desigualdad elevados a unos mejores niveles de ingreso y con

Page 132: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

132

incrementos significativos en términos de la calidad de vida. No obstante, al revisar con detalle la información regional, es posible hacer unas diferencias importantes. Por ejemplo, los departamentos como Nariño, Caquetá, Chocó y Córdoba, aún persisten significativas deficiencias en variables socioeconómicas como desempleo, desigualdad y pobreza. . Los años donde se ha visto mayormente este cambio es a partir de 2010, donde hubo una recuperación económica en el país, esto debido a las políticas económicas inclusivas y de expansión de la infraestructura. Los departamentos en donde se observa un incremento significativo en relación al ingreso fueron: Santander, Meta, Antioquia, Cundinamarca y la capital del país, Bogotá. Estos resultados, aunque deben ser vistos como preliminares, permiten identificar aquellas regiones que pueden beneficiarse de acciones de políticas públicas que permitan cerrar las brechas económicas y sociales. REFERENCIAS BIBLIOGRÁFICAS Departamento Administrativo Nacional de Estadística (2019). Sistema Estadístico Nacional.

Recuperado https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen Dazy, F. & Le Barzic, J. (1996). L’Analyse des données évolutives: Méthodes et applications.

Technip. Paris: France. 227 p. Escoufier, Y. (1976). Opérateur associé à un tableau de données. Annales de l'inséé, (22-23). 167-

179. Fajardo, E. (2019). Propuesta para el análisis de Correspondencias Binarias en Múltiples

ocasiones: una adaptación de la metodología STATIS. Tesis Doctoral. Universidad Central de Venezuela. 121 p.

Johnson, P. & Papageorgiou, C. (2019). What Remains of Cross-Country Convergence? Journal

of Economic Literature, [en prensa]. Lavit, C. (1988). Analyse conjointe de tableaux quantitatifs. Editions Masson. Paris: France.

251 p. L’Hermier, H. (1976). Structuration Des Tableaux a Trois Indices De La Statistique: Theorie et

Application D'une Methode D'analyse Conjointe. These, Academie De Montpellier, 98 p. Solow, R. (1956). A contribution to the theory of economic growth. The Quarterly Journal of

Economics, 70(1), 65-94. Swan, T. (1956). Economic growth and capital accumulation. Economic Record, 32(2), 334-361. Thioulouse, J. Dray, S., Dufour, A., Siberchicot, A., Jombart, T. & Pavoine, S. (2018).

Multivariate analysis of ecological data with ade4. Springer Nature. New York, United States. 329 p.

Page 133: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

133

XII Coloquio de Estadıstica:“Metodos Estadısticos en le Generacion de Conocimientos”Escuela de Estadıstica, Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 Noviembre de 2019

UN MODELO LINEAL MIXTO CON INTERCEPTO

ALEATORIO ASIMETRICO PARA DATOS CENSURADOSa

A LINEAR MIXED MODEL WITH ASYMMETRIC RANDOM

INTERCEPT FOR CENSORED DATA

ROGER TOVAR-FALONb*, HELENO BOLFARINEc GUILLERMO MARTINEZ-FLOREZd,

RESUMEN: En este trabajo se introduce un modelo lineal mixto para modelar datos agrupados o anida-

dos cuando las respuestas observadas para los individuos presentan censura a izquierda o a derecha (o

ambos). Para la distribucion de los efectos aleatorios y del termino del error se consideran las distribuciones

power-normal (Durrans, 1992) y skew-normal (Azzalini, 1985). El supuesto de distribuion power-normal o

skew-normal da flexibilidad para ajustar formas asimetricas a la izquierda y a la derecha, tanto para los

efectos aleatorios como para el termino del error. Coeficiente de curtosis mayor o menor que la del modelo

normal tambien puede ser ajustado. Se derivan los dos primeros momentos a partir de la distribucion mar-

ginal y la estimacion de los parametros es implementada usando el metodo de maxima verosimilitud con

integracion numerica. Finalmente se presenta un ejemplo de aplicacion del modelo propuesto usando datos

reales.

PALABRAS CLAVE: Modelo lineal mixto, Distribucion power-normal, Distribucion skew-normal, Datos

censurados, Estimacion por maxima verosimilitud.

ABSTRACT: This paper introduces a mixed linear model to model clustered or nested data when the

observed responses for individuals present censorship to the left or right (or both). For the distribution of

random effects and the error term, the power-normal by Durrans (1992) and skew-normal of Azzalini (1985)

distributions are considered. The distribution assumption power-normal or skew-normal gives flexibility to

fit asymmetric shapes to the left and right, for both, the random effects and for the error term. Curtosis

coefficient greater or less than that of the normal model can also be fitted.The first two moments are de-

rived from the marginal distribution and the parameter estimation is implemented by using the maximum

likelihood method with numerical integration. Finally, an example of the application of the proposed model

using real data is presented.

KEYWORDS: Linear mixed model, Power-normal distribution, Skew-normal distribution, Censored Data,

Maximum likelihood estimation.

aTovar-Falon, R. Bolfarine, H. & Martınez-Florez, G. (2019). Un modelo lineal mixto con intercepto aleatorio

asimetrico para datos censurados.bPhD en Estadıstica. Profesor Titular. Departamento de Matematicas y Estadıstica. Universidad de Cordoba*Autor para correspondencia: [email protected] en Estadıstica. Departamento de Estatıstica, IME, Universidad de Sao PaulodPhD en Estadıstica. Profesor Titular. Departamento de Matematicas y Estadıstica. Universidad de Cordoba

1

Page 134: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

134

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

1. INTRODUCCION

Los modelos lineales mixtos son muy populares y constituyen una herramienta frecuentemente uti-

lizada en el analisis de datos de medidas repetidas continuas y de datos agrupados o anidados

(clustered data) a partir de una muestra de individuos. Estos modelos tienen aplicaciones en dife-

rentes areas del conocimiento, tales como ciencias biologicas, sociales, economicas, entre otras. vease

por ejemplo, Diggle et al. (2004), McCulloch et al. (2008) y Verbeke & Molenberghs (2009). Usual-

mente, estos modelos admiten que ambos, tanto los efectos aleatorios como el termino del error

siguen una distribucion normal o simetrica, sin embargo, este supuesto no siempre es adecuado y

puede conducir a consecuencias perjudiciales en el proceso de inferencia.

Para algunos autores, aunque la inferencia en efectos fijos puede ser robusta a la no normalidad

de los efectos aleatorios, se podrıa estar interesado en la eficiencia y validez de la inferencia sobre

los efectos individuales vease por ejemplo Butler & Louis (1992) y Verbeke & Lasaffre (1997). Una

complicacion adicional en el uso de modelos lineales mixtos para modelar de datos longitudinales

surge cuando la variable de respuesta estudiada es limitada o censurada. Por ejemplo, en ensayos

clınicos, la respuesta de los individuos puede tomar valores lımite para una parte de los datos; estos

valores son denominados lımite de deteccion mınimo (LDm) cuando se tiene truncamiento de la

variable a la izquierda (como se considera en Martınez-Florez et al. (2013)) y lımite de deteccion

maximo (LDM) cuando se tiene truncamiento a la derecha. Algunos trabajos desarrollados en este

contexto son: Hughes (1999), Jacqmin-Gadda et al. (2000), Pan & Louis (2000) y Wu (2010) entre

otros).

A pesar de que una gran variedad de metodos ha sido propustos para flexibilizar el supuesto

de normalidad de los efectos aleatorios en modelos lineales mixtos (Verbeke & Lasaffre, 1997;

Aitkin, 1999; Chen et al., 2002; Lee & Thompson , 2008), existe poca literatura en la que estos

metodos han sido implementados para datos longitudinales limitados o censurados. Una propuesta

de estudio interesante es considerar distribuciones mas flexibles para efectos aleatorios tales como

la familia de distribuciones power-normal (PN) (Gupta & Gupta, 2008) y skew-normal, los cuales

han demostrado ser capaces de modelar diferentes niveles de asimetrıa y curtosis mayor o menor

que la del modelo normal usual en un conjunto de datos.

La familia de densidades skew-normal (SN), fue introducida inicialmente por Azzalini (1985) como

una alternativa razonable al modelo normal clasico, siendo muy util en la practica por la robustez del

modelo frente a las desviaciones del supuesto de normalidad de los datos bajo estudio. Una variable

aleatoria X se dice que tiene una distribucion SN, si su funcion de densidad de probabilidad (fdp)

es de la forma

fSN (x | ξ, η, λ) = 2

ηφ

(x− ξ

η

(x− ξ

η

)), x ∈ R. (1)

para ξ, λ ∈ R y η > 0. Las funciones φ(·) y Φ(·) denotan la fdp y la funcion de distribucion acu-

mulada (fda) de la distribucion normal estandar, respectivamente. La distribucion SN es denotada

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 135: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

135

Un modelo lineal mixto con intercepto aleatorio asimetrico para datos censurados

por X ∼ SN(ξ, η, λ).

El principal problema de la densidad de SN es que, bajo la hipotesis de simetrıa de datos, es decir,

λ = 0, la matriz de informacion de Fisher es sigular, por lo tanto, las condiciones de regularidad

no se satisfacen para la inferencia vıa maxima verosimilitud, lo que limita el uso del estimador de

maxima verosimilitud en la construccion de pruebas de hipotesis basadas en las estadısticas de razon

de verosimilitud. Una alternativa viable al problema de singularidad de la matriz de informacion del

modelo SN es considerar la familia de distribuciones power-normal (PN), introducida por Durrans

(1992), y estudiada en detalles por Gupta & Gupta (2004), Gupta & Gupta (2008) y Pewsey et al.

(2012). La fdp de una variable aleatoria X con distribucion PN es dada por

fPN (x; ξ, η, α) =α

ηφ

(x− ξ

η

(x− ξ

η

)α−1

, x ∈ R, α ∈ R+, (2)

y es denotada por X ∼ PN(ξ, η, α). Aunque el modelo PN tiene un rango de asimetrıa mas corto

que el modelo SN, el modelo PN puede ajustar los datos con un coeficiente de curtosis mas alto

que el modelo SN, ademas, posee una matriz de informacion no singular, (Pewsey et al., 2012).

Basado en las bondades de los modelos SN y PN de ajustar datos con altos grados de asimetrıa,

con curtosis mayor o menor que la del modelo normal, en este trabajo, se introduce un modelo de

regresion lineal mixto para datos que presentan censura, y los efectos aleatorios y el termino del

error tienen distribucion asimetrica.

2. Modelo de Regresion Mixto Doblemente Censurado

Considere el modelo de regresion lineal mixto dado por

Yij = xijβ + γi + εij , (3)

donde Yij es el valor de la j-esima variable respuesta para la i-esima unidad muestral (sujeto), para

i = 1, . . . , n, y j = 1, . . . ,mi; xij = (xij1, . . . , xijp) es un vector conocido de dimension p×1 de va-

riables explicativas asociadas a los efectos fijos, para i = 1, . . . , n y j = 1, . . . ,mi; β = (β1, . . . , βp)

es un vector de parametros desconocido de dimension p × 1; los γi son variables aleatorias inde-

pendientes e igualmente distribuidas fγ(γi;θγ), asociadas a la i-esima unidad muestral; y los εij

son tambien variables aleatorias independientes e igualmente distribuidas fε(εij ;θε), (independien-

tes de γi). Supongase que para una muestra aleatoria de vectores Y1, . . . ,Yn de tamano n donde

Yi = (Yi1, . . . , Yimi), parte de los Yij estan entre las constantes c0ij y c2ij con c0ij < c2ij . Se tiene

que para valores Yij ≤ c0ij solamente el valor c0ij es registrado, mientras que para valores Yij ≥ c2ij

solamente el valor c2ij es registrado. Los valores observados Y oij , pueden ser escritos como

Y oij =

c0ij , se Yij ≤ c0ij ,

Yij , se c0ij < Yij < c2ij ,

c2ij , se Yij ≥ c2ij .

3

Page 136: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

136

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

para i = 1, . . . , n, y j = 1, . . . ,mi. La muestra resultante se dice que es una muestra doblemente

censurada. La contribucion a la funcion de verosimilitud para las observaciones Y oij = c0ij es

P(Y oij = c0ij) = P(Yij ≤ c0ij) = p0ij

mientras que para Y oij = c2ij , se tiene que

P(Y oij = c2ij) = P(Yij ≥ c2ij) = p2ij

Para respuestas c0ij < Yij < c2ij se define P(c0ij < Yij < c2ij) = p1ij . Notese que las probabilidades

p0ij , p1ij y p2ij dependen de las distribuciones de las variables aleatorias γi y εij . La ij-esima

respuesta observada puede ser escrita como

Y oij = D0ijc0ij +D2ijc2ij + (1−D0ij −D2ij)Yij , (4)

donde D0ij = I(Yij ≤ c0ij), D2ij = I(Yij ≥ c2ij), Yij = xijβ+γi+εij y se asume que γi

iid∼ fγ(γi;θγ)

y εijiid∼ fε(εij ;θε), para i = 1, . . . , n, y j = 1, . . . ,mi. La fdp marginal del vector aleatorio observado

Yoi = (Y o

i1, . . . , Yoimi

) es dado por

f(yoi ;θ) =

R

mi∏j=1

[P(Y o

ij = c0ij)]d0ij[P(Y o

ij = c2ij)]d2ij[fY (yij | γi;β,θε)

]1−d0ij−d2ij

fγ(γi;θγ)dγi,

(5)

donde

d0ij =

1 si Y o

ij = c0ij ,

0 en otro caso.d2ij =

1 si Y o

ij = c2ij ,

0 en otro caso.

La fdp marginal (5) es compuesta por la contribucion de tres partes, dos correspondientes a los

valores donde la variable aleatoria Yij es censurada, y una parte donde la variable aleatoria Yij puede

ser observada. El modelo descrito arriba, es llamado modelo de regresion doblemente censurado

(RDC.)

Los momentos en el modelo RDC pueden ser calculados siguiendo el mismo procedimiento, usado

el enfoque marginal del modelo lineal normal con efectos mixtos.

2.1. Momentos

Definiendo ε0ij = c0ij − xijβ − γi y ε2ij = c2ij − x

ijβ − γi, se sigue que la media de la observacion

Y oij es

E[Y oij ] = c0ijp0ij + c2ijp2ij +

(xijβ + E[γi] + E[εij | ε0ij < εij < ε2ij ]

)p1ij . (6)

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 137: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

137

Un modelo lineal mixto con intercepto aleatorio asimetrico para datos censurados

La varianza de la observacion Y oij puede ser calculada como

Var[Y oij ] = c20ijp0ij(1− p0ij) + c22ijp2ij(1− p2ij)− 2c0ijc2ijp0ijp2ij

+

Var[γi] + Var[εij | ε0ij < εij < ε2ij ]

+ (1− p1ij)(xijβ + E[γi] + E [εij | ε0ij < εij < ε2ij ]

)2

− 2(c0ijp0ij + c2ijp2ij)(xijβ + E[γi] + E[εij | ε0ij < εij < ε2ij ]

)p1ij . (7)

Asumiendo independencia condicional entre los Y oij , se tiene que la covarianza entre Y o

ij y Y oij′ , dos

observaciones en los momentos j y j′ (j = j′) del i-esimo sujeto es

Cov[Y oij , Y

oij′ ] = E[YijYij′ | c0ij < Yij < c2ij ; c0ij′ < Yij′ < c2ij′ ]p1ijp1ij′

− E[Yij | c0ij < Yij < c2ij ]E[Yij′ | c0ij′ < Yij′ < c2ij′ ]p1ijp1ij′

= p1ijp1ij′Var[γi]. (8)

Se tiene de (7) y (8) que la correlacion entre las observaciones Yij y Yij′ en los momentos j y j′

(j = j′) para el i-esimo sujetos es dada por

Corr[Y oij , Y

oij′ ] =

p1ijp1ij′Var[γi]√Var[Y o

ij ]√Var[Y o

ij′ ](9)

2.2. Estimacion

La inferencia estadıstica en el modelo RDC se puede realizar usando el metodo de maxima verosi-

militud. El vector de parametros de interes es θ = (β,θγ ,θ

ε )

, donde θγ es de dimension p1, y θε

es de dimension p2, son los correspondientes vectores de parametros asociados a las distribuciones

fγ y fε, respectivamente. Ası, el espacio parametrico es

Θ =(θ ∈ Rq | β ∈ Rp,θγ ∈ Rp1 ,θε ∈ Rp2

)

con q = p+p1+p2. La funcion de verosimilitud basada en la muestra observadaYo = (Yo1, . . . ,Y

on)

puede ser escrita como

L(θ;Yo) =n∏

i=1

R

mi∏j=1

[P(Y o

ij = c0ij)]d0ij[P(Y o

ij = c2ij)]d2ij

×[fY |γ(yij | γi;β,θε)

]1−d0ij−d2ij

fγ(γi;θγ)dγi, (10)

Ası la fdp marginal (5) y la funcion de verosimilitud (10) no tienen expresiones analıticas cerradas y

la evaluacion de las integrales es hecha usando el metodo de integracion numerica de Gauss-Hermite

unidimensional.

5

Page 138: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

138

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

2.2.1. Modelo de Regresion Mixto Doblemente Censurado con Efectos y Errores PN

Si se supone que en el modelo (3) las variables aleatorias γi y εij tienen distribucio PN, esto es,

γiiid∼ PN(0, ηg, αg) y εij

iid∼ PN(0, ηe, αe). En este caso θγ = (ηg, αg) y θε = (ηe, αe)

. El modelo

es llamado modelo de regresion mixto doblemente censurado con efectos y errores power-normal

(RDCPN). La media y la varianza de Y oij toman la forma

E[Y oij ] = c0ijp0ij + c2ijp2ij + ηe

(xijβ + µγ

ηe+m

(1)ij

)p1ij (11)

y

Var[Y oij ] = c20ijp0ij(1− p0ij) + c22ijp2ij(1− p2ij)− 2c0ijc2ijp0ijp2ij

+ η2e

σ2γ

η2e+

(m

(2)ij −

[m

(1)ij

]2)+ (1− p1ij)

(xijβ + µγ

ηe+m

(1)ij

)2

− 2

ηe(c0ijp0ij + c2ijp2ij)

(xijβ + µγ

ηe+m

(1)ij

)p1ij , (12)

respectivamente; donde µγ = ηgm1, y σ2γ = η2g(m2 −m2

1) con

ms =

∫ 1

0αg

[Φ−1(v)

]rvαg−1dv, s = 1, 2.

m(r)ij =

(Φ(z∗2ij)

αe −Φ(z∗0ij)

αe)−1

∫ Φ(z∗2ij)

Φ(z∗0ij)αe

[Φ−1(u)

]ruαe−1du, r = 1, 2.

para r = 1, 2, p0ij =Φ(z∗0ij

)αe , p1ij =Φ(z∗2ij

)αe −Φ(z∗0ij

)αe y p2ij = 1 −Φ(z∗2ij

)αe .

La covariaza y la correlacion entre dos observaciones Y oij y Y o

ij′ , en los momentos j y j′ (j = j′)

del i-esimo sujeto son dados por Cov[Y oij , Y

oij′ ] = p1ijp1ij′σ

2γ y Corr[Y o

ij , Yoij′ ] =

p1ijp1ij′σ2γ√

Var[Y oij ]

√Var[Y o

ij′ ],

respectivamente.

2.2.2. Modelo de Regresion Mixto Doblemente Censurado con Efectos y Errores SN

Una alternativa al modelo RDCPN resulta de considerar que las variables aleatorias γi y εij en el

modelo (3) tienen distribucion SN, es decir, γiiid∼ SN(0, ηg, λg) e εij

iid∼ SN(0, ηe, λe), y es este caso

se tiene θε = (ηe, λe) y θγ = (ηg, λg)

. El modelo que se obtiene es llamado modelo de regresion

mixto doblemente censurado con efectos aleatorios y errores skew-normal (RDCSN).

Definiendo z∗0ij = (c0ij − xijβ − γi)/ηe y z∗2ij = (c2ij − x

ijβ − γi)/ηe, las probabilidades p0ij , p1ij

y p2ij quedan dadas por: p0ij = FSN

(z∗0ij

), p1ij = FSN

(z∗2ij

)− FSN

(z∗0ij

)y p2ij = 1 − FSN

(z∗2ij

),

donde FSN (·) es la fda de la distribucion SN con parametro de asimetrıa λe, SN(λe).

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 139: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

139

Un modelo lineal mixto con intercepto aleatorio asimetrico para datos censurados

La media y la varianza de la observacion Y oijen el modelo RDCSN estan dadas por

E[Y oij ] = c0ijp0ij + c2ijp2ij + ηe

xijβ + µγ

ηe+ µ

(1)ij

p1ij

Var[Y oij ] = c20ijp0ij

(1− p0ij

)+ c22ijp2ij

(1− p2ij

)− 2c0ijc2ijp0ijp2ij

+ η2e

σ2γ

η2e+

(µ(2)ij −

[µ(1)ij

]2)+

(1− p1ij

)(xijβ + µγ

ηe+ µ

(1)ij

)2

− 2

ηe

(c0ijp0ij + c2ijp2ij

)(xijβ + µγ

ηe+m

(1)ij

)p1ij

con

µγ = ηg

√2

π

λg√1 + λ2

g

y σ2γ = η2g

(1− 2

π

λ2g

1 + λ2g

), (13)

µ(1)ij =

√2

π

λe√1 + λ2

e

Φ(λ∗ez

∗2ij)− Φ(λ∗

ez∗0ij)

FSN (z∗2ij)− FSN (z∗0ij)−

fSN (z∗2ij)− fSN (z∗0ij)

FSN (z∗2ij)− FSN (z∗0ij),

µ(2)ij = 1−

√2

π

λe

1 + λ2e

φ(λ∗ez

∗2ij)− φ(λ∗

ez∗0ij)

FSN (z∗2ij)− FSN (z∗0ij)−

z∗2ijfSN (z∗2ij)− z∗0ijfSN (z∗0ij)

FSN (z∗2ij)− FSN (z∗0ij),

donde λ∗e =

√1 + λ2

e. La covarianza y la correlacion entre las observaciones Y oij y Y o

ij′ son dadas por

Cov[Y oij , Y

oij′ ] = p1ijp1ij′σ

2γ , (14)

y

Corr[Y oij , Y

oij′ ] =

p1ijp1ij′σ2γ√

Var[Y oij ]√Var[Y o

ij′ ], (15)

respectivamente, donde σ2γ es dado en (13).

2.3. Seleccion de Modelos

Se propone evaluar los modelos ajustados inspeccionando los siguientres criterios: Criterio de in-

formacion de Akaike Marginal, mAIC = −2(θ | Y) + 2pN/(N − p− 1), donde p es el numero de

parametros estimados en el modelo considerado, y N =∑n

i=1mi, (Vaida & Blanchard, 2005);

Criterio de informacion bayesiano de Schwarz, BICh = −2(θ | Y) + pr log(n) + pf log(N),

donde pr es el numero de parametros correspondientes al componente aleatorio, pf es el nume-

ro de parametros correspondientes al componente fijo (Delandre et al., 2014). Tambien propo-

nemos utilizar el Criterio de informacion de Akaike modificado, generalmente llamado AIC con-

sistente, CAIC = −2(θ | Y) + p(1 + log(N)), y el Criterio de informacion de Hannan-Quinn,

HQIC = −2(θ | Y) + p log(log(N)), donde p es el numero de parametros estimados en el modelo

en consideracion. El mejor modelo es el que tiene el mAIC mas pequeno (o BICh o CAIC o HQIC).

7

Page 140: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

140

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

3. Aplicacion

El proposito de esta aplicacion es ilustrar el uso de modelos RDCPN y RDCSN previamente desa-

rrollados. El conjunto de datos utilizado en esta aplicacion esta relacionado con un estudio clınico

de periodontologıa y fue analizado previamente por Galvis et al. (2014) usando un modelo beta

mixto.

El nivel de insercion clınica (CIN), un marcador clınico de enfermedad periodontal (EP), se registro

en 6 partes diferentes del diente para 28 dientes. (se exluyeron los 4 terceros molares) para 290

sujetos, el interes fue cuantificar el alcance y la gravedad de la EP para los tipos de dientes (4

caninos y 8 incisivos, premolares y molares). La variable de respuesta fue: “Proporcion de partes de

dientes enfermos para cada uno de los cuatro tipos de dientes (con NIC ≥ 3 mm)”. Esto da lugar a

una estructura de datos agrupados en la que cada sujeto registra 4 observaciones correspondientes

a los 4 tipos de dientes. Los dientes faltantes se consideraron “perdidos debido a la EP”, donde

todas las partes

para este diente contribuyeron a la categorıa de enfermos. Las covariables consideradas en este

conjunto de datos incluyen genero (0 = femenino; 1 = masculino), edad del sujeto al momento

del examen (en anos, que van de 26 a 87 anos), indicador de estado de hemoglobina glucosilada,

HbA1c (0 = controlado, < 7%; 1 = no controlado ≥ 7%) e indicador de estatus de fumador (0 =

no fumador, 1 = fumador). La categorıa de fumadores esta compuesta por fumadores actuales y

pasados.

Para este analisis, consideramos los tipos de incisivos, premolares y molares para tener un conjunto

de datos con una estructura de asimetrıa. El tipo de diente incisivo se considero basal. Se adopto

el siguiente modelo lineal con intercepto aleatorio:

Yij = β0 + β1sexoi + β2idadei + β3hba1c.d + β4premolarij + β5molarij + γi + εij , (16)

donde Yij es la proporcion de partes del diente enfermos para cada uno de los tres tipos de dientes

considerados evaluados en el j-esimo de diente (j = 1, 2, 3) para el sujeto i (i = 1, . . . , 290). y tij es

(tiempo− 5)/10, con tiempo medido en anos.

Se analizaron los siguientes modelos estadısticos, los cuales difieren en la distribucion de los errores

y los efectos aleatorios.

Modelo 1: εijiid∼ N(0, η2e) y γi

iid∼ PN(0, ηg, αg); y que denotaremos (modelo DCN-PN),

Modelo 2: εijiid∼ PN(0, ηe, αe) y γi

iid∼ N(0, η2g); y que denotaremos (modelo DCPN-N),

Modelo 3: εijiid∼ N(0, η2e) y γi

iid∼ SN(0, ηg, λg); y que denotaremos (modelo DCN-SN),

Modelo 4: εijiid∼ SN(0, ηe, λe) e γi

iid∼ N(0, η2g); y que denotaremos (modelo DCSN-N),

Modelo 5: εijiid∼ N(0, η2e) e γi

iid∼ N(0, η2g); y que denotaremos (modelo DCN-N).

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 141: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

141

Un modelo lineal mixto con intercepto aleatorio asimetrico para datos censurados

Tabla 1: Estimaciones de MV (errores estandar). Datos de Enfermedad Periodontal.

DCN-PN DCPN-N DCN-SN DCSN-N DCN-N

β0 -0.4651(0.0708) -0.1272(0.2501) -0.2995(0.0632) -0.0254(0.0990) 0.1087(0.0990)

β1 -0.1060(0.0271) -0.1465(0.0430) -0.1072(0.0257) -0.1466(0.0431) -0.1425(0.0424)

β2 0.0105(0.0010) 0.0086(0.0017) 0.0101(0.0010) 0.0086(0.0017) 0.0088(0.0017)

β3 -0.2269(0.0146) -0.2204(0.0156) -0.2262(0.0145) -0.2201(0.0154) -0.2279(0.0146)

β4 -0.1539(0.0144) -0.1517(0.0144) -0.1532(0.0142) -0.1515(0.0144) -0.1544(0.0144)

ηg 0.3841(0.0137) 0.2863(0.0140) 0.4276(0.0150) 0.2862(0.0140) 0.2859(0.0138)

ηe 0.1683(0.0052) 0.2379(0.0628) 0.1668(0.0051) 0.2197(0.0221) 0.1679(0.0055)

αg 4.8033(0.3827) – – – – – – – –

αe – – 3.9732(4.8030) – – – – – –

λg – – – – 2.8578(0.5775) – – – –

λe – – – – – – 1.4003(0.5439) – –

Las estimaciones de los parametros (solo para variables significativas en el modelo) se obtuvieron

utilizando la funcion optim en R (R Development Core Team, 2018), y se muestran en la Tabla 1.

Para ajustar los modelos, se utilizaron 21 puntos de la cuadratura Gauss-Hermite.

Elegimos este numero de puntos en cuadratura porque el aumento en los puntos contribuyo poco a la

aproximacion del logaritmo de la funcion de verosimilitud, es decir, las estimaciones se mantuvieron

en el mismo valor a medida que aumentamos el numero de puntos en cuadratura.

La Tabla 2 muestra los criterios de comparacion de los modelos ajustados. Segun la tabla, todos

los criterios (mAIC, BICh, CAIC y HQIC) indican que el modelo 4 (modelo DCN-SN) parece

proporcionar un mejor ajuste a los datos de la enfermedad periodontal en comparacion con otros

modelos apoyando la afirmacion de asimetrıa del efecto aleatorio.

El supuesto de distribucion PN para los interceptos aleatorios se pueba con las hipotesis

H01 : αg = 1 versus H11 : αg = 1,

usando la estadıstica de razon de verosimilitud (RV)

Λ1 =LDCN−N (θ)

LDCN−PN (θ),

que segun los datos considerados conduce a −2 log(Λ1) = −2(DCN−N (θ)−DCN−PN (θ)

)= 12,091,

com p-value = 0,0005, con suficiente evidencia en contra de la hipotesis nula. Del mismo modo, el

supuesto de distribucion PN para efectos aleatorios y normalidad de error, se prueba utilizando la

hipotesis

H02 : αe = 1 versus H12 : αe = 1,

9

Page 142: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

142

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

Tabla 2: Criterios de seleccion de los modelos ajustados a los datos de enfermedad periodontal.

Criterio DCN-PN DCPN-N DCN-SN DCSN-N DCN-N

(θ) -139.9031 -145.1074 -132.8446 -145.1626 -145.9486

mAIC 295.9734 306.3820 281.8564 306.4924 306.0271

BICh 331.7569 343.2641 317.6399 343.3745 338.1780

CAIC 341.9541 352.3627 327.8371 352.4731 346.2767

HQIC 333.9541 344.3627 319.8371 344.4731 339.2767

usando a estadıstica de RV

Λ2 =LDCN−N (θ)

LDCPN−N (θ),

que para los datos en estudio conduce a −2 log(Λ2) = −2(DCN−N (θ) − DCPN−N (θ)

)= 1,6824,

con p-value = 0,1946059, y, por lo tanto, rechazamos la hipotesis nula de que los errores siguen una

distribucion de PN. Las hipotesis anteriores nos permiten concluir que los efectos aleatorios siguen

una distribucion asimetrica, por lo que el modelo 1 parece ser un modelo que se ajusta bien a los

datos en relacion con el modelo normal.

4. Conclusiones

En este trabajo se presenta un modelo de regresion lineal mixto que permite modelar datos que

presentan censura (a la izquierda o derecha o ambas), o datos que estan estan limitados en un

rango de valores y presentan ındices de asimetrıa y curtosis mas altos o bajos de lo que pueden ser

modelado por el modelo normal. En particular, proponemos las distribuciones PN y SN para dar

flexibilidad al termino de error y al efecto aleatorio en un modelo lineal mixto.

Se derivan los dos primeros momentos de la variable de respuesta y se propone un metodo para

estimar los parametros del modelo. Las estimaciones de estos parametros se obtienen utilizando

el enfoque de maxima verosimilitud con metodos de integracion numerica (cuadratura de Gauss-

Hermite). Con casos particulares de los modelos considerados tenemos los modelos tobit de efectos

aleatorios PN, y el modelo tobit de efectos aleatorios SN. Se presenta tambien un ejemplo para

ilustrar nuestra propuesta y concluimos que pueden ser alternativas utiles a otros metodos en la

literatura.

Referencias

Aitkin, M. (1999), A general maximum likelihood analysis of variance components in generalized

linear models. Biometric, 55, 117-128.

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 143: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

143

Un modelo lineal mixto con intercepto aleatorio asimetrico para datos censurados

Azzalini, A. (1985), A Class of Distributions which Includes the Normal Ones. Scandinavian Journal

of Statistics, 12(2), 171-178.

Butler, S. M.; Louis, T. A. (1992), Random effects models with non parametrics priors. Statistics

in Medicine, 111, 1981-2000

Chen, J.; Zhang, D; Davidian, M. (2002), A monte carlo em algorithm for generalized linear mixed

models with flexible random effects distributions. Bioestatistics, 55, 117-128.

Delandre, M.; Lavielle, M.; Poursat, M.A. (2014), A note on BIC in mixed effects models. Electronic

Journal of Statistics,, 8(1) 456-475.

Diggle, P. J.; Heagerty, P.; Liang K. Y.; Zeger, S. L. (2004), Analysis of Longitudinal Data. Oxford

University Press. Oxford.

Durrans, S. R. (2008), Distributions of fractional order statistics in hydrology. Water. Resources

Research,, 28 1649-1655.

Galvis, D. M.; Bandyopadhyay, D.; Lachos, V. H. (2005), Augmented mixed beta regression models

for periodontal proportion data. Statistics in Medicine, 33(21) 3759-3771.

Gupta, R. C.; Gupta, R. D. (2008), Generalized skew normal model. Sociedad de Estadıstica e

Investigacion Operativa,, 13(2), 501-524.

Gupta, R. D.; Gupta, R. C. (2008), Analyzing skewed data by power normal model. Test, 17(1),

197-210.

Hughes, J. P. (1999), Mixed effects models with censored data with application to hiv rna levels.

Biometric, 55, 625-629.

Jacqmin-Gadda, H.; Thiebaut, R.; Chene, G.; Commenges, D. (1999), Analysis of left-censored

longitudinal data with application to viral load in HIV infection. Bioestatistics, 1(4), 397-412

Lee, K. J.; Thompson, S. G. (2002), Flexible parametric models for random effects distributions.

Statistics in Medicine, 27, 418-434.

Martınez-Florez, G.; Bolfarine, H.; Gomez.H. (2013), The alpha-power tobit model. Communica-

tions in Statistics - Theory and Methods, 42(4), 633-643.

McCulloch, C. E.; Searle, S. R.; Neuhaus, J. M. (2008), Generalized, Linear, and Mixed Models.

John Wiley and Sons. New York. Second ed.

Pan, W.; Louis, T. A. (2000), Mixed-effects model for multivariate censored data. Biometric, 56(1),

160-166.

11

Page 144: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

144

Roger Tovar-Falon, Heleno Bolfarine, Guillermo Martınez-Florez

Pewsey, A.; Gomez, H. W.; Bolfarine, H. (2008), A Likelihood-based inference for power distribu-

tions. Test, 21(4), 1775-789.

R Development Core Team. (2018), R: A language and environment for statistical computing.

R Foundation for Statistical Computing, Vienna. URL http://www.R-project.org. ISBN 3-

900051-07-0

Vaida, F.; Blanchard, S. (2005), Conditional akaike information for mixed effects models. Biome-

trika, 92 351-370.

Verbeke, G.; Molenberghs, G. (2009), Linear Mixed Models for Longitudinal Data. Springer Verlag,

New York,. Second ed.

Verbeke, G.; Lasaffre, E. (1997), The effects of misspecifying the randomeffects distribution in

linear mixed models for longitudinal data. Computational Statistics and Data Analysis, 111,

1981-2000

Wu, L. (2002), Mixed Effects Models for Complex Data. Chapman and Hall/CRC, Florida.

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 145: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

145

Aplicación de Web Scraping para la Estimación de los Determinantes de los Precios de Vivienda en la Ciudad de Cali

RESUMEN:

PALABRAS CLAVE

1 INTRODUCCIÓN

Page 146: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

146

2 RESULTADOS INICIALES

Page 147: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

147

Figura 1.

Figura 2.

0.000 0.010 0.020 0.030

0.00

00.

001

0.00

20.

003

0.00

40.

005

0.00

60.

007

Kest(Casas)

r

K(r

)

Kbord(r)

Kpois(r)

0.000 0.010 0.020 0.030

0.00

00.

002

0.00

40.

006

Kest(Apartamento)

r

K(r

)

Kbord(r)

Kpois(r)

3.35

3.40

3.45

3.50

−76.58 −76.56 −76.54 −76.52 −76.50 −76.48

Casa Apartamento

0.0

0.2

0.4

0.6

0.8

1.0

Page 148: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

148

Tabla 1.

3 REFERENCIAS

Page 149: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

149

Page 150: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

150

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınISSN-e 2357-5749 • Artıculo de Investigacion • Paginas 1 a 10

CLASIFICACION SUPERVISADA LDA: UN ENFOQUE

ROBUSTO Y NO PARAMETRICOa

LDA SUPERVISED CLASSIFICATION: A ROBUST AND

NON-PARAMETRIC APPROACH

JUAN F. ARIAS b *, JUAN P. RESTREPO c SANTIAGO ORTIZ d , HENRY LANIADO e

Artıculo de Investigacion

RESUMEN: La media y la matriz covarianza son parametros considerados en el metodo de clasificacion

supervisado Analisis Discrimınate Lineal conocido como LDA por sus siglas en ingles. En este estudio se

exploran metodos robustos y no parametricos para estimarlos. La principal contribucion es la estimacion

de la estructura de covarianza a traves del producto entre una estimacion no parametrica de la correlacion

y una estimacion robusta de las desviaciones estandar. El desempeno de la propuesta es valorado en datos

sinteticos con predictores simulados y etiquetas conocidas, incorporando contaminacion en la simulacion.

La nueva version LDA introducida, es comparada con la version clasica y en todos los escenarios evaluados

presenta un mejor desempeno respecto a la tasa de falsos positivos, exactitud, sensitividad y curva ROC.

PALABRAS CLAVE: Atıpicos; Clasificacion; Correlacion; Robustez.

ABSTRACT: The mean and the covariance matrix are parameters considered by the supervised classi-

fication method Lineal Discriminant Analysis, also known as LDA. This study explores a robust and non-

parametric approach to estimate them. The main contribution is the estimation of the variability structure

as the product between a non-parametric estimation of the correlation matrix and a robust estimator of the

standard deviations. The performance of the proposed method was evaluated with synthetic data, simulated

predictors and previously known labels while incorporating outlier-like datapoints. The novel LDA version

introduced, is compared against the classic and in every scenario presented a better performance in terms of

false positive rate, accuracy, sensitivity and ROC curve.

KEYWORDS: Outliers; Classification; Correlation; Robustness.

aArias, J., Restrepo, J., Ortiz, S., Laniado, H. (2019). Clasificacion supervisada LDA: Un enfoque robusto y no

parametrico. Revista de la Facultad de Ciencias.bDepartamento de Ingenierıa de Procesos. Universidad EAFIT.*Autor para correspondencia: [email protected] de Ingenierıa de Procesos. Universidad EAFIT.dDepartamento de Ciencias Matematicas. Universidad EAFIT.eDepartamento de Ciencias Matematicas. Universidad EAFIT.

1

Page 151: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

151

JUAN F. ARIAS, JUAN P. RESTREPO, SANTIAGO ORTIZ, HENRY LANIADO

1. INTRODUCCION

El Analisis Discriminante Lineal o LDA, es una tecnica de clasificacion supervisada en la que a partir de

informacion de poblaciones conocidas, se clasifican otras observaciones en relacion a sus propiedades o carac-

terısticas (James et al. , 2013). LDA utiliza la distancia de Mahalanobis para asignar un individuo en una de

las poblaciones consideradas (J. Olive, 2017; Pena, 2002). A su vez, LDA tiene sus orıgenes en los trabajos

de R.A Fisher (1936), quien llego al analisis discriminante buscando proyecciones lineales que maximizaran

la varianza entre datos de diferentes clases en relacion a la varianza para datos de la misma clase (Witten,

et al, 2017).

La tecnica LDA ha sido ampliamente utilizada en la practica, por ejemplo, en Dudoit et al. (2002) y Huang

et al. (2009) emplearon LDA y otros metodos para clasificar cancer y tumores en funcion de datos de ex-

presion genica respectivamente. Li & Yuan (2005) emplearon LDA para el desarrollo de un nuevo algoritmo

que permite extraer y seleccionar caracterısticas de imagenes, lo cual podrıa ser apropiado para el perfec-

cionamiento de herramientas de reconocimiento facial. Por otra parte, Esteki et al. (2018) recopilaron como

diferentes tecnicas de analisis quımico instrumental (e.g. espectroscopias UV-Vis, espectroscopıa de resonan-

cia magnetica nuclear, etcetera) acopladas con LDA permiten clasificar productos alimenticios y detectar y

cuantificar contaminantes presentes en ellos. Recientemente, Tantin et al. (2020) desarrollaron un algorit-

mo de aprendizaje automatico basado en LDA que permite pronosticar la miccion en ratones, su metodo

podrıa emplearse, entre otros, para mejorar implantes que miden la presion de las vejigas en tiempo real.

Las cinco investigaciones anteriores, refuerzan la idea de que dicha herramienta no distingue campo de accion.

No obstante, LDA es vulnerable a datos atıpicos, en particular, cuando los parametros considerados son

estimados por maxima verosimilitud (Rousseeuw & Van Zomeren, 1990). La falta de robustez de este tipo

de estimadores es una desventaja que ha llevado a muchos autores a desarrollar metodos mas eficientes que

permitan tratar la presencia de datos atıpicos, es decir, minimizando los problemas que estos causan (Pires &

Branco, 2010). En ese mismo sentido, en este artıculo se presenta una alternativa robusta y no parametrica

del LDA. La propuesta se centra en dos mejoras, la primera en estimar la estructura de covarianza como el

producto entre una estimacion no parametrica de la correlacion y una estimacion robusta de las desviaciones

estandar y la segunda en evaluar de forma robusta las medidas de tendencia central.

El presente manuscrito esta organizado de la siguiente manera. En la Seccion 2 se describe el desarrollo ma-

tematico del metodo propuesto; en la Seccion 3 se presentan los resultados y los analisis de cada experimento

realizado que permitieron evaluar el metodo propuesto frente al tradicional y en la Seccion 4 se exponen

algunas conclusiones derivadas de esta investigacion.

2. METODO PROPUESTO

Sean P1 y P2 dos poblaciones donde se tiene definida una variable aleatoria vectorial, x p-variante. Supongase

que x es continua y que las funciones de densidad de cada poblacion P1 y P2 son conocidas y estan dadas

por f1 y f2 respectivamente. Se tiene el problema de clasificar un individuo p-dimensional conocido x0 en

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 152: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

152

CLASIFICACION SUPERVISADA LDA: UN ENFOQUE ROBUSTO Y NO PARAMETRICO

una de las poblaciones.

Si se conocen las probabilidades a priori π1 y π2, tal que π1+π2=1, de que el elemento pertenezca a cada una

de las dos poblaciones P1 y P2, su distribucion de probabilidad sera la siguiente combinacion lineal convexa

(Pena, 2002):

f(x) = π1 ∗ f1 (x) + π2 ∗ f2 (x) (1)

Una vez x0 haya sido observado podran calcularse las probabilidades a posteriori de que el elemento perte-

nezca a cada una de las dos poblaciones P1 y P2,P (1|x0) y P (2|x0); haciendo uso del teorema de Bayes se tiene:

P (1|x0) =f1(x0) ∗ π1

f1(x0) ∗ π1 + f2(x0) ∗ π2(2)

P (2|x0) =f2(x0) ∗ π2

f1(x0) ∗ π1 + f2(x0) ∗ π2(3)

Ası, se clasificara a x0 en la poblacion mas probable a posteriori. Como los denominadores son equivalentes,

se clasificara x0 en P1 si (Devroye, et al. , 1996):

f1(x0)π1 > f2(x0)π2 (4)

O bien, se clasificara x0 en P2 si la condicion anterior no se cumple. Ahora, si las probabilidades a priori

son iguales el problema de clasificar se reduce a determinar si f1(x0) es mayor o no a f2(x0).

Si las consecuencias de un error de clasificacion pueden cuantificarse, estas pueden incluirse en la solucion

del problema formulandolo como un problema bayesiano de decision. Supongase que:

1. Las consecuencias asociadas a los errores de clasificacion son c(2|1) y c(1|2), donde c(i|j) es el costo

de clasificar en Pi un elemento que en realidad pertenece a Pj .

2. Se desea maximizar la funcion de utilidad y esto es equivalente a minimizar el costo esperado.

Bajo las dos consideraciones anteriores, la mejor clasificacion sera aquella que minimiza los costos esperados.

En otras palabras, si se clasifica al elemento x0 en P2 las consecuencias son:

1. Acertar, con probabilidad P (2|x0), por lo que no habrıa costo de penalizacion.

2. Fallar, con probabilidad P (1|x0), donde el costo esta dado por c(2|1).

Al incluir los costos de penalizacion en el criterio de decision se concluye que se clasificara x0 en P1 si

(Pena, 2002):

f1(x0)π1

c(1|2)>

f2(x0)π2

c(2|1)(5)

Ahora, para dar paso al LDA, si se asume que f1 y f2 son distribuciones normales multivariantes que poseen

vector de medias µ1 y µ2, respectivamente, con la misma estructura de variabilidad, es decir, igual matriz

ISSN-e 2357-5749 • Artıculo de Investigacion 3

Page 153: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

153

JUAN F. ARIAS, JUAN P. RESTREPO, SANTIAGO ORTIZ, HENRY LANIADO

de covarianza Σ, entonces, para un elemento x ∈ P1 ∨ P2, las funciones de densidad de probabilidad estan

dadas por:

f1(x) =1

(2π)p/2 ∗ |Σ|1/2∗ e− 1

2 (x−µ1)TΣ−1(x−µ1) (6)

f2(x) =1

(2π)p/2 ∗ |Σ|1/2∗ e− 1

2 (x−µ2)TΣ−1(x−µ2) (7)

Sustituyendo (6) y (7) en (5) y aplicando logaritmos se llega a:

−1

2(x− µ1)

TΣ−1(x− µ1) + Ln( π1

c(1|2))> −1

2(x− µ2)

TΣ−1(x− µ2) + Ln( π2

c(2|1))

(8)

Asumiendo que los costos de penalizacion y las probabilidades a priori son iguales entre sı, (8) se reduce a:

−1

2(x− µ1)

TΣ−1(x− µ1) > −1

2(x− µ2)

TΣ−1(x− µ2) (9)

Los dos lados de la expresion (9) corresponden al cuadrado de la distancia de Mahalanobis, DM21 y DM2

2,

del elemento x a las poblaciones P1 y P2 respectivamente, de lo cual se concluye que para clasificar x en P1

se debe cumplir que:

DM21 < DM2

2 (10)

Para el LDA tradicional el vector de medias µi de cada poblacion esta dado por el promedio aritmetico de

cada variable que describe a la poblacion i, y la matriz de covarianza Σ corresponde a una matriz simetrica y

cuadrada donde un elemento ubicado en la fila α y columna β corresponde a la covarianza entre las variables

α y β que describen a la poblacion i.

En este estudio se propone estimar µi como el vector de medianas de cada variable, ya que la mediana

es una estimacion robusta de la tendencia central (J. Olive, 2017) y Σ como el producto entre la matriz

de correlacion de Kendall y los estimadores robustos de escala todas las p-variables de las poblaciones de

estudio, Sn, propuesto por Rousseeuw & Croux (1993).

La matriz de correlacion de Kendall esta compuesta por los coeficientes de correlacion de cada par de

variables; es una alternativa no parametrica a la matriz correlacion de Pearson, y se basa en el patron de

concordancia y discordancia de cada par de observaciones de una poblacion. Ası pues, se define que dos

observaciones, φ y ω que pertenecen al plano (x,y), son concordantes si φx<ωx y φy<ωy, de forma similar,

se dice que φ y ω son discordantes si φx<ωy y φy>ωy , o viceversa. Ahora, si δ y θ es el numero total de

parejas concordantes y discordantes respectivamente, el coeficiente de correlacion de Kendall, τK , esta dado

por:

τK =δ − θ

δ + θ(11)

A su vez, Sn, es una alternativa, eficiente en presencia de datos atıpicos, a la desviacion estandar σ (J.

Olive, 2017). Dicho estimador, hace parte de una familia de estadısticos similares a la MAD, el cual tambien

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 154: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

154

CLASIFICACION SUPERVISADA LDA: UN ENFOQUE ROBUSTO Y NO PARAMETRICO

es una alternativa robusta y popular a σ, su forma de calculo para una variable aleatoria X esta dada por

la siguiente expresion (Falk, 1997):

MAD(X) = med(|X −med(X)|) (12)

No obstante, Sn tiene una ventaja particular frente a la MAD y es que no esta sesgado a distribuciones

simetricas. Su calculo se determina con la siguiente expresion (Rousseeuw & Croux, 1993):

Sn = c ∗medimedj |xi − xj |

(13)

En (13), i y j corresponden a los n elementos que componen las p-variables que explican a las poblaciones

de estudio y c es un parametro de consistencia que por defecto es 1.1926 pero que se asumira igual a 1.

3. RESULTADOS

A continuacion, se presentan los resultados de cinco experimentos que permitieron evaluar el tradicional LDA

(LDA-Estandar) contra el LDA robusto y no parametrico (LDA-R&NP) propuesto.Los tres primeros expe-

rimentos son similares entre sı, en estos, se ubicaron dos poblaciones normales bivariadas, A ∼ N 2(µA,Σ)

y B ∼ N 2(µB ,Σ), que contienen 800 y 1000 individuos respectivamente. Dentro de B se fijo una contami-

nacion que equivale al 30% de la poblacion total de dicho grupo. Luego, se procedio a entrenar los modelos

LDA-Estandar y LDA-R&NP para ası posteriormente realizar la comparacion del rendimiento de cada uno.

La Tabla 1 resume las condiciones de estos experimentos en terminos de la media de cada poblacion y la

estructura de variabilidad de cada poblacion.

Tabla 1: Condiciones de los primeros tres experimentos.

ExperimentoMedia (µ) Estructura de variacion (Σ)

A B Contaminacion de B A B Contaminacion de B

1 [75, 220] [90, 200] [20, 400] Esferica Esferica Esferica

2 [60, 250] [75, 220] [20, 400] Esferica Elıptica Esferica

3 [65, 250] [75, 220] [60, 280] Elıptica Elıptica Esferica

La Figura 1 contiene los resultados de los tres primeros experimentos, cada uno evaluado en terminos de

matrices de confusion, curvas ROC y 15-fold cross validation. La Figura 1 (a, b, c) muestra diferencias im-

portantes entre el LDA-Estandar y el LDA-R&NP, tal como puede observarse al comparar las antidiagonales

de las matrices de confusion, no obstante, el area bajo la curva de las ROC es muy similar en ambos casos.

Es interesante hacer notar que en el cross validation el errora se mantuvo contante e igual a cero.

La Figura 1 (d, e, f, g, h, i) no solo muestra diferencias importantes y de mayor magnitud entre el LDA-

Estandar y el LDA-R&NP frente a la antidiagonal de la matriz de confusion, sino que presenta desviaciones

significativas entre el area bajo la curva ROC de ambos metodos, lo cual permite inferir que el desempeno

aPara todos los 15-fold cross validation realizados, el error de clasificacion se definio como la proporcion de

predicciones erradas respecto a la poblacion total.

ISSN-e 2357-5749 • Artıculo de Investigacion 5

Page 155: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

155

JUAN F. ARIAS, JUAN P. RESTREPO, SANTIAGO ORTIZ, HENRY LANIADO

del LDA-R&NP es superior al del LDA-Estandar. A su vez, como el segundo y el tercer experimento son

mas exigentes, el error de clasificacion en el cross validation no se mantuvo contante, pero sı muy pequeno

e independiente del numero de particiones.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Curva ROC − LDA−R&NP

Tasa de falsos positivos

Ta

sa

de

ve

rda

de

ros p

ositiv

os

Curva ROC LDA−Estándar

Tasa de falsos positivos

Ta

sa

de

ve

rda

de

ros p

ositiv

os

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(a)

Predicción: 0

Refe

rencia

: 0

Predicción: 1

Refe

rencia

: 1

247

3

0

197

Matriz de confusión LDA−R&NP

Predicción: 0

Refe

rencia

: 0

Predicción: 1

Refe

rencia

: 1

249

1

16

181

Matriz de confusión LDA−Estándar

(b)

2 4 6 8 10 12 14

0.0

00.0

50.1

00.1

50.2

00.2

50.3

00.3

5

Error de Clasificación k−fold

k−folds

Err

or

LDA−R&NP

(c)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Curva ROC − LDA−R&NP

Tasa de falsos positivos

Tasa d

e v

erd

adero

s p

ositiv

os

Curva ROC LDA−Estándar

Tasa de falsos positivos

Tasa d

e v

erd

adero

s p

ositiv

os

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(d)

Predicción: 0

Refe

rencia

: 0

Predicción: 1

Refe

rencia

: 1

209

10

0

225

Matriz de confusión LDA−R&NP

Predicción: 0R

efe

rencia

: 0

Predicción: 1R

efe

rencia

: 1

175

44

82

143

Matriz de confusión LDA−Estándar

(e)

2 4 6 8 10 12 14

0.0

00.0

50.1

00.1

50.2

00.2

50.3

00.3

5

Error de Clasificación k−fold

k−foldsE

rror

LDA−R&NP

(f)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Curva ROC − LDA−R&NP

Tasa de falsos positivos

Tasa d

e v

erd

adero

s p

ositiv

os

Curva ROC LDA−Estándar

Tasa de falsos positivos

Tasa d

e v

erd

adero

s p

ositiv

os

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(g)

Predicción: 0

Refe

rencia

: 0

Predicción: 1

Refe

rencia

: 1

235

3

0

217

Matriz de confusión LDA−R&NP

Predicción: 0

Refe

rencia

: 0

Predicción: 1

Refe

rencia

: 1

151

87

8

209

Matriz de confusión LDA−Estándar

(h)

2 4 6 8 10 12 14

0.0

00.0

50.1

00.1

50.2

00.2

50.3

00.3

5

Error de Clasificación k−fold

k−folds

Err

or

LDA−R&NP

(i)

Figura 1: Resultados de los tres primeros experimentos: (a)-(c) Primer experimento, (d)-(f) Segundo experimento,

(g)-(i) Tercer experimento.

En el cuarto experimento, con el interes de evaluar la consistencia del metodo LDA-R&NP con el desplaza-

miento de la contaminacion de B, se dispuso a variar su posicion y cantidad relativa de forma aleatoria (pero

no mayor al 40% ni menor al 10%), manteniendo fijas las posiciones, cantidades y estructuras de correlacion

de A y B en el estado en el que se encontraban en el primer experimento.

La Figura 2 presenta una sıntesis de los desempenos obtenidos a traves de histogramas de los resultados de

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 156: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

156

CLASIFICACION SUPERVISADA LDA: UN ENFOQUE ROBUSTO Y NO PARAMETRICO

la exactitudb , la tasa de falsos positivos y la sensitividadc de los modelos LDA-Estandar y LDA-R&NP.

Dichos valores se obtienen de las correspondientes matrices de confusion y los graficos son claros en mostrar

que LDA-R&NP tuvo un rendimiento superior, ya que en ninguno de los quince movimientos tuvo falsos

positivos y siempre su exactitud y sensitividad fue del 100%. Finalmente, se realizo un quinto experimento

LD

A−

Está

nd

ar

LD

A−

R&

NP

0.6 0.7 0.8 0.9 1.0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Exactitud

Conte

o Clasificador

LDA−Estándar

LDA−R&NP

(a)

LD

A−

Está

nd

ar

LD

A−

R&

NP

0.85 0.90 0.95 1.00

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Sensitividad

Conte

o Clasificador

LDA−Estándar

LDA−R&NP

(b)

LD

A−

Está

nd

ar

LD

A−

R&

NP

0 10 20 30 40

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Tasa_de_falsos_positivos

Co

nte

o Clasificador

LDA−Estándar

LDA−R&NP

(c)

Figura 2: (a) Exactitud, (b) Sensitividad y (c) Falsos Positivos de los LDA con movimientos aleatorios de la

contaminacion.

bCociente de la suma de los verdaderos positivos y los verdaderos negativos entre la suma de los positivos y los

negativos reales.cCociente entre verdaderos positivos y los positivos reales.

ISSN-e 2357-5749 • Artıculo de Investigacion 7

Page 157: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

157

JUAN F. ARIAS, JUAN P. RESTREPO, SANTIAGO ORTIZ, HENRY LANIADO

bajo las mismas condiciones para A y B del cuarto experimento, pero sin variar la proporcion de la conta-

minacion de B y fijando su valor en un 30%. En este se realizaron 1000 movimientos a la contaminacion

de B, siempre alejandola de A y B. Los resultados de la exactitud de los metodos respecto a la distancia

euclıdea del vector de medias de la contaminacion y el de la poblacion B esta expuesto en la Figura 3, de

esta es posible observar que mientras el LDA-R&NP se mantiene constante e igual a uno a lo largo de los

movimientos, el LDA-Estandar oscila y es siempre inferior al LDA-R&NP, ademas de que tiene un punto de

quiebre donde empeora aun mas.

0.5

0.6

0.7

0.8

0.9

1.0

0e+00 5e+04 1e+05

Distancia

Exactitu

d Clasificador

LDA−Estándar

LDA−R&NP

Figura 3: Comportamiento de la exactitud con la distancia de la contaminacion.

4. CONCLUSIONES

En el presente trabajo se ha presentado una mejora al LDA-Estandar a partir de emplear estimadores ro-

bustos y no parametricos en el calculo de las estructuras de variabilidad y de tendencia central.

A partir de los resultados de las cinco simulaciones es posible afirmar que el LDA-R&NP propuesto presenta

un desempeno superior al del LDA-Estandar, por lo que representa una alternativa mas eficiente de clasifi-

cacion. Adicionalmente, es importante hacer notar que el LDA-R&NP fue consistente ante variaciones de la

ubicacion y la cantidad contaminacion, cualidad que no posee su contraparte estandar.

Es pertinente senalar que al ser un metodo en desarrollo los autores proponen realizar mas validaciones, eva-

luando en mas de dos dimensiones y empleando datos no-sinteticos, para ası poder determinar las limitaciones

reales del clasificador.

8 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 158: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

158

CLASIFICACION SUPERVISADA LDA: UN ENFOQUE ROBUSTO Y NO PARAMETRICO

Referencias

Devroye, L., Gyorfi, L., & Lugosi, G. (1996). A Probabilistic Theory of Pattern Recognition (Vol. 31). New

York, NY: Springer New York.

Dudoit, S., Fridlyand, J.,& Speed, T. P. (2002). Comparison of Discrimination Methods for the Classification

of Tumors Using Gene Expression Data. Journal of the American Statistical Association, 97(457), 77-87.

Esteki, M., Shahsavari, Z., & Simal-Gandara, J. (2018). Use of spectroscopic methods in combination with

linear discriminant analysis for authentication of food products. Food Control, 91, 100-112.

Falk, M. (1997). On Mad and Comedians. Annals of the Institute of Statistical Mathematics, 49(4), 615-644.

Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2),

179-188.

Huang, D., Quan, Y., He, M., & Zhou, B. (2009). Comparison of linear discriminant analysis methods for

the classification of cancer based on gene expression data. Journal of Experimental & Clinical Cancer

Research, 28(1), 149.

J. Olive, D. (2017). Robust Multivariate Analysis. Robust Multivariate Analysis. Cham: Springer Interna-

tional Publishing.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). Classification. En G. James, D. Witten, T. Hastie,

& R. Tibshirani (Eds.), An Introduction to Statistical Learning: with Applications in R (pp. 127-173).

New York, NY: Springer Science + Business Media.

Li, M., & Yuan, B. (2005). 2D-LDA: A statistical linear discriminant analysis for image matrix. Pattern

Recognition Letters, 26(5), 527-532.

Pena, D. (2002). Analisis de Datos Multivariantes. McGraw-Hill.

Pires, A. M., & Branco, J. A. (2010). Projection-pursuit approach to robust linear discriminant analysis.

Journal of Multivariate Analysis, 101(10), 2464-2485.

Rousseeuw, P. J., & Croux, C. (1993). Alternatives to the Median Absolute Deviation. Journal of the Ame-

rican Statistical Association, 88(424), 1273-1283.

Rousseeuw, P. J., & van Zomeren, B. C. (1990). Unmasking Multivariate Outliers and Leverage Points.

Journal of the American Statistical Association, 85(411), 633-639.

Tantin, A., Bou Assi, E., van Asselt, E., Hached, S., & Sawan, M. (2020). Predicting urinary bladder voiding

by means of a linear discriminant analysis: Validation in rats. Biomedical Signal Processing and Control,

55, 101667.

Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data transformations. En Data Mining (4.a ed.,

pp. 285-334). Elsevier.

ISSN-e 2357-5749 • Artıculo de Investigacion 9

Page 159: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

159

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

APRENDIZAJE AUTOMÁTICO PARA EL ANÁLISIS DE TEXTO

Karen Andrea Amaya 1a, Laura Camila Agudelo 2b Luisa María Acosta 3c , Estefania Echeverry 4d ,

Camila Ospina 5e, Heber Esteban Bermúdez 6f

Email: [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

Resumen El objetivo de este trabajo es el desarrollo de una aplicación que facilite a los usuarios la lectura y el análisis de textos por medio de resúmenes abstractivos y gráficos descriptivos, obtenidos mediante análisis de minería de texto, procesamiento de lenguaje natural, aprendizaje profundo y métodos de clusterización. Palabras clave: Minería de texto, aprendizaje profundo, PLN, resumen de texto .

MACHINE LEARNING FOR TEXT ANALYSIS

Karen Andrea Amaya 1a, Laura Camila Agudelo 2b Luisa María Acosta 3c , Estefania Echeverry 4d ,

Camila Ospina 5e, Heber Esteban Bermúdez 6f

Email: [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

Abstract The objective of this work is the development of an application that facilitates to the users the reading and the analysis of texts by means of abstract summaries and descriptive graphs, obtained by means of analysis of text mining, natural language processing, deep learning and methods of clustering Key words: Text mining, deep learning, NLP, summarizer.

Page 160: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

160

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

Introducción

Los textos son un tipo de dato no estructurado, que contiene información que nos interesa extraer de manera eficaz y conservando su significado general para la toma de decisiones. Debido a la gran cantidad de datos producidos en la era digital, nace la necesidad de desarrollar metodologías que nos permitan resumir automáticamente estos grandes volúmenes de texto y brindarnos una visualización que facilite su análisis, reduzca el tiempo del mismo y nos permita generar conocimiento de manera rápida, eficaz y oportuna.

Más del 80% de los datos no estructurados que se encuentran en internet son de tipo texto, los datos generados en las redes sociales, revistas, artículos, noticias y demás permite a las organizaciones mejorar la toma de decisiones, hacer seguimiento a sus productos, perfilar clientes, observar tendencias y generar información crucial para las empresas lo cual se traduce en una ventaja competitiva en la nueva era digital.

Metodología

Para el desarrollo de esta aplicación hacemos uso del lenguaje de programación Python y en específico de la librería Spacy y kivy. En dicha aplicación se integran las siguientes etapas:

1. Pre-procesamiento:

Primero obtenemos un texto, ya sea desde una url, utilizando la técnica de web scraping sobre formatos HTML, con ayuda de la librería beautifulsoup, o directamente de un fichero txt.

Una vez obtenida esta información en formato de cadenas de texto procedemos con la limpieza de las mismas, comenzamos removiendo de palabras de parada (stopwords) y caracteres especiales que no aportan información relevante, como bien lo son los números, signos de puntuación, pronombres, artículos, preposiciones, etc. Esto haciendo uso tanto de la librería Spacy como de nltk y otras como re. Limpias las cadenas de texto se define un formato de texto ordenado como una tabla, con el texto dividido en unidades, las unidades pueden ser palabras o frases, denominadas como tokens.

2. Resumen extractivo y abstractivo:

Hay principalmente dos tipos de resumen: El primero es el extractivo, que toma las frases más relevantes del documento de entrada por medio de una ponderación y luego, sin alterarlas, las concatena. El segundo es el abstractivo que interpreta y examina el texto para generar uno más corto.

Para el resumen abstractivo utilizamos el modelado seq2seq, esto requiere un entrenamiento con una base de datos de dos columnas: una con un texto original y otra con el resumen de dicho texto. Utilizamos un 90% de los datos para entrenar el modelo y

Page 161: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

161

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

un 10% de validación con ayuda del paquete sklearn.model_selection. Para realizar este resumen hacemos uso de la librería keras y Tensor Flow, con 50 épocas de entrenamiento.

3. Gráficos descriptivos:

Una vez limpias las cadenas de texto puede resultar de particular interés observar gráficamente cuales son las palabras con mayor frecuencia dentro de toda la información recopilada. La función count() del paquete collections, nos permite contar la frecuencia de las palabras en el texto tokenizado. Esto facilita proceder a realizar algunos gráficos, en este caso podemos observar una nube de palabras, creada con los paquetes matplotlib y wordcloud:

Figura 1: Nube de palabras de los 50 términos con mayor frecuencia. También resulta de particular interés observar la frecuencia de pares de palabras en el texto de interés, tanto para token de una palabra (unigrama) como de dos (bigrama), a continuación se muestra el gráfico de frecuencias para pares de palabras por término consultado (bigrama).

Figura 2: Frecuencias de pares de palabras por término o tema consultado

Page 162: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

162

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

Otra manera de visualizar los bigramas es a través de un gráfico de redes, el cual nos permite interpretar la relación lógica directa entre los diferentes pares de palabras más relevantes del texto:

Figura 3: Gráfico de redes

Los tipos de gráficos mostrados ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados.

4. Aplicación:

Esencialmente hacemos uso de kivy, cuya librería es de acceso abierto para desarrollo rápido de aplicaciones, que hace uso de interfaces innovativas como las aplicaciones multitouch, haciéndola más amigable y fácil de usar para el usuario. Además, funciona en diferentes plataformas, como lo son Windows, Linux, OS X, Raspberry Pi, Android y iOS.

Los pasos clave dentro de la aplicación son nombrar diferentes clases, las cuales contienen diversas funciones dentro de ellas. Estas reciben como parámetro una URL o directamente un texto al que el usuario le interese analizar, luego se puede elegir crear un resumen extractivo o abstractivo y distintos tipos gráficos como nubes de palabras, bigramas, redes. Siempre en orden lógico, las clases nos permiten dar una secuencia de

Page 163: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

163

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

lo que queremos que haga la aplicación. Es así como kivy nos permite integrar diferentes funcionalidades interactivas con el usuario.

Conclusiones

La minería de texto reduce recursos y tiempo empleados para analizar textos extensos, facilitando el acceso a conocimiento por medio de métodos automáticos, extrayendo patrones e ideas generales para la generación de conocimiento basado en análisis textual, es por esto que esta metodología representa una de las mejores opciones para para extraer analizar este tipo de dato no estructurado que permitirá a la organizaciones mejorar la toma de decisiones.

Referencias

[1] Comprehensive Guide to Text Summarization using Deep Learning in Python tomado de: https://www.analyticsvidhya.com/blog/2019/06/comprehensive-guide-text-summ arization-using-deep-learning-python/ [2]Analyze Co-occurrence and Networks of Words Using Twitter Data and Tweepy in Python https://www.earthdatascience.org/courses/earth-analytics-python/using-apis-natural-language-processing-twitter/calculate-tweet-word-bigrams-networks-in-python/

Page 164: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

164

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 6

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Modelo estructural de riesgo de credito con intensidad estocastica

de covariables observables y un factor de fragilidad determinado a

partir de un proceso de saltosa

Structural credit risk model with stochastic covariates intensity

default including a frailty processes with jumps

Luis Bernal b *, Cesar Gomez c,

Recibido 30-10-2019, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: En este trabajo se estiman los parametros para la intensidad de default de covariables ob-

servables en presencia de un factor de fragilidad no observable. La informacion observable corresponde a la

evolucion de algunas variables macroeconomicas en el tiempo, ası como la informacion caracterıstica de indi-

viduos de un segmento de credito en una entidad financiera colombiana; se realiza una pequena modificacion

al proceso de Cox propuesto para la intensidad en Duffie et al. (2009), con el fin de incluir una componente

de saltos por medio del cual se busca describir los agrupamientos espontaneos de defaults, finalmente se

implementa un programa para estimar los parametros asociados al proceso para la intensidad por medio del

algoritmo EM y el muestreador de Gibbs.

PALABRAS CLAVE: Intensidad de default, Proceso de Cox, Fragilidad, Algoritmo EM, Muestreador de

Gibbs

ABSTRACT: In this work, the parameters for the default intensity of observable covariates in the presence

of an unobservable fragility factor are estimated. The observable information corresponds to the evolution

of some macroeconomic variables over time, as well as the characteristic information of the individuals of a

credit segment in a Colombian financial entity; a small modification to the Cox process proposed for inten-

sity is made in Duffie et al. (2009), in order to include a jump component by means of which it is sought

to describe the spontaneous clusters defaults, a program is finally implemented to estimate the parameters

associated to the process for intensity by means of the EM algorithm and the Gibbs sampler.

KEYWORDS: Default Intensity, Cox Process, Fragility, EM Algorithm, Gibbs Sampler

aBernal Berrio, L.A. & Gomez Velez, C.A. (2019). Modelo estructural de riesgo de credito con intensidad estocastica

de covariables observables y un factor de fragilidad determinado a partir de un proceso de saltos. Revista de la Facultad

de Ciencias, 6 (1), 1–6. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante Maestrıa en estadıstica. Facultad de Ciencias. Universidad Nacional*Autor para correspondencia: [email protected] en Matematicas. Profesor asistente. Facultad de Ciencias. Universidad Nacional

1

Page 165: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

165

Luis Bernal, Cesar Gomez

1. INTRODUCCION

En este trabajo se aborda el modelo estructural de riesgo crediticio propuesto en la literatura por

(Duffie & et al., 2009), en el cual se estiman los parametros asociados a la intensidad con la cual

se presentan incumplimientos crediticios, el modelo planteado por los autores esta compuesto por

factores de riesgo observables y un factor de riesgo latente (no observable) denominado fragilidad,

comun al conjunto de prestamos. Se buscara modificar ligeramente la media del proceso asociado

al factor de fragilidad mediante un proceso de saltos, con el fin de determinar la replicabilidad

del modelo para la estimacion y ajuste de la intensidad con la que se presentan los eventos de

incumplimiento crediticio en una entidad financiera colombiana, ademas se implementa un programa

para estimar los parametros del proceso por medio del algoritmo EM y el muestreador de

GIBBS el cual es modificado con el fin de incluir una componente de saltos. Luego de obtener

criterio experto de diferentes entidades financieras se establecen las covariables observables en el

modelo para la intensidad teniendo en cuenta el contexto de los individuos considerados en la lınea

de credito del analisis, (Duffie & et al., 2009).

2. Especificacion del modelo

El instante de incumplimiento del i-esimo individuo en una cohorte de m prestamistas es modelado

como el instante del primer salto o evento de un proceso de Poisson Ni(t) con tasa λi,t que a su vez

constituye un proceso de Markov, especificado de la siguiente manera:

λi,t = exp (β0 + β1Vt + β2Ui,t + ηYt) . (1)

Aca

Vt es un factor comun (macroeconomico) a todos los individuos.

Ui,t Es un factor especıfico del i-esimo individuo.

Yt Representa un factor no observable o latente, comun a todo individuo.

Dicho de otra forma, condicional en las trayectorias de los procesos (Vt, Ui,t, Yt), el proceso de Pois-

son Ni(t) es un Proceso de Poisson no homogeneo con tasa λi,t.

A un proceso de Poisson con una intensidad estocastica como en (1) tambien se le denomina

“Proceso de Poisson doblemente estocastico”o“Proceso de Cox”, (Linderman, et al., 2014).

Los procesos Vt y Ui,t son modelados como procesos autorregresivos de orden 1 gaussianos, con

un vector de parametros γ que determina su dinamica, y para adaptarlos en tiempo continuo, sim-

plemente se interpola entre los periodos, por lo que conservan la estructura de Markov.

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 166: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

166

Modelo estructural de riesgo de credito con intensidad estocastica de covariables observables y un factor de fragilidad determinado a partir de un

proceso de saltos

Se pretende realizar una adaptacion de la metodologıa propuesta por los autores en (Duffie & et

al., 2009), para incluir una componente de saltos en el proceso (OU). Ası en lugar de considerar el

proceso Yt OU como factor de riesgo en (1), se considerara el siguiente proceso:

dYt = −κYt + dBt + dJt− ,

Jt =

Nt∑i=1

ξi. (2)

En (2) el proceso Nt representa un proceso de Poisson simple con intesidad constante λ, ξi es

una sucesion iidd de variables normales N(0, ν2) independientes del Movimiento Browniano Bt y

dJt− denota el proceso:

dJt− = Jt − Jt− =

0 si Nt −Nt− = 0

ξi si Nt −Nt− = 1

(3)

Dicho de otra forma Jt es un proceso de Poisson compuesto y la distribucion de los saltos es normal

N(0, ν2). La idea en (2) es que el nivel del proceso OU es perturbado en tiempos exponencialmente

distribuıdos por pulsos ξi normalmente distribuıdos.

3. Resultados

3.1. Descripcion y tratamiento de los datos

Se tomaron los datos mensuales (35 meses) de individuos pertenecientes al segmento de cartera ma-

siva, la base de datos utilizada contiene informacion idiosincratica o personal sobre la evolucion de

la situacion financiera de cada prestatario. Las variables que hacen parte de la informacion primaria

son: Nivel de activos, endeudamiento con el sector real, endeudamiento con entidades financieras y

el vector de altura de mora de 1 a 12 meses.

Las variables macroeconomicas a partir de las cuales se ajusto el modelo para la intensidad de

covariables, corresponden a informacion de indicadores macroeconomicos como las tasas de interes

y el crecimiento de la economıa. Estos datos estan dados en una resolucion mensual entre agosto

de 2016 y junio de 2019, (Banco de la Republica, 2019).

dindependientes e identicamente distribuıdas

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 167: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

167

Luis Bernal, Cesar Gomez

Figura 1: Numero de Defaults entre agosto de 2016 y junio de 2019

3.2. Estimacion de ML para el modelo con fragilidad

Se abordo la estimacion de los parametros mediante el algoritmo EM y el muestreador de Gibbs,

obteniendo los resultados de la tabla 1.

Tabla 1: Estimadores de maxima verosimilitud para la intensidad con el factor de fragilidad

Covariable Coeficiente

Constante α -1.97

Tasas de interes r -0.2282

PIB g 1.9542

Distancia Defaultβ 0.6615

Fragilidad η 0.36

Salto ξ -0.0150

Varianza salto ν2 -0.35

Para determinar la calidad del ajuste de la funcion de intensidad sobre los datos, se superpuso el

modelo ajustado para la intensidad de default, sobre la intensidad estimada en el periodo observado,

la intensidad historica u observada fue estimada como ˆλhist = defaultsδt

(numero de eventos por

unidad de tiempo). En la figura 2, se presenta el ajuste correspondiente, en el eje de las abscisas se

relaciona el tiempo, mientras que el eje vertical corresponde al numero de eventos por unidad de

tiempo, la lınea azul discontinua presenta la intensidad del modelo ajustado, entre tanto, la lınea

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 168: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

168

Modelo estructural de riesgo de credito con intensidad estocastica de covariables observables y un factor de fragilidad determinado a partir de un

proceso de saltos

negra corresponde a lo realmente observado entre agosto de 2016 y junio de 2019.

Figura 2: Ajuste estimacion tasa de intensidad con fragilidad. Elaboracion propia.

4. CONCLUSIONES

Un fenomeno que motiva el estudio de la dinamica de la intensidad del default consiste en los

clusteres o agrupamientos espontaneos en los cuales se presentan estos incumplimientos, es

decir, los incrementos subitos de la frecuencia o numero de incumplimientos en cierto periodo

de tiempo, a este fenomeno se le conoce como fragilidad.

Se realizo una modificacion al modelo propuesto en (Duffie & et al., 2009), donde el proceso de

fragilidad asociado al proceso de Cox para la intensidad es un proceso OU donde se incluyo

una componente de saltos con el fin de capturar el incremento subito en el numero de defaults

con el fin de mejorar la calidad en el ajuste sobre el proceso de intensidad.

Mientras existan fallas en la gestion de la informacion y asimetrıa en el conocimiento del

perfil del cliente por parte de una entidad financiera, a pesar que la componente de fragilidad

pueda ser mitigada con mejoras en los procesos correspondientes, pueden originarse nuevas

formas de presentarse un incremento comun en las intensidades de default lo que justifica el

hecho de seguir considerando una fuente de ruido comun no observable.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 169: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

169

Luis Bernal, Cesar Gomez

Referencias

Darrell Duffie and Leandro Saita and Ke Wang, Multi-period corporate default prediction with

stochastic covariates, 9, 2094-2126.

Linderman, Scott W; and Adams, Ryan P. (2014), Random-effects regression analysis of correlated

group-time survival data. Random Point Processes in Time and Space, 9, 1413-1421.

Stekhoven, Daniel J; and Buhlmann, Peter. (2011), Random-effects regression analysis of correlated

group-time survival data. MissForest?non-parametric missing value imputation for mixed-type

data, 9, 112-118.

Banco de la Republica. Tasas de interes y sector financiero. (Colombia) [Datos mensuales IPC y

PIB agosto 2016 junio 2019 ].

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 170: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

170

ANÁLISIS DE SUPERVIVENCIA CON INTERACCIÓN DE DIABETES E ÍNDICE DE MASA CORPORAL EN

PACIENTES EN DIÁLISIS PERITONEAL. SURVIVAL ANALYSIS WITH INTERACTION BETWEEN DIABETES AND BODY MASS INDEX IN PERITONEAL

DIALYSIS PATIENTS.

BORGES, RAFAEL1*, TORRES, HUGO2, GÓNZALEZ, ANDREA3

RESUMEN: Se presenta un análisis de supervivencia para analizar los tiempos de seguimiento de 246 pacientes atendidos en el Servicio de Diálisis Peritoneal del Hospital Clínico Universitario de Caracas, seguidos entre los años 1980 y 1997, utilizando la muerte como evento de interés. El análisis de supervivencia fue efectuado de la manera clásica, incluyendo: (i) estimaciones de las funciones de supervivencia mediante el estimador de Kaplan–Meier para explorar el efecto en los tiempos de vida de los pacientes según el estado de diabetes y el índice de masa corporal (IMC) de los pacientes, (ii) determinación de las diferencias de las funciones de supervivencias mediante el test de logaritmos de los rangos (Log-Rank test), (iii) ajuste de dos modelos semiparamétricos de riesgos proporcionales (modelos de Cox) incluyendo la interacción entre diabetes e IMC, (iv) Selección del mejor modelo, según el criterio de información de Akaike y, (v) verificación de los supuestos del modelo seleccionado. El modelo definitivo resultó estadísticamente significativo (p-valor = 0,000177), no se violan los supuestos del mismo, y las covariables incluidas en este modelo son edad, IMC y la interacción entre diabetes e IMC, con p-valores iguales a 0,0015; 0,0072 y 0,0391, respectivamente, y los riesgos de muerte, estimados mediante el exponencial de su coeficientes fueron respectivamente 1,03138; 0,90166 y 1,02817. La interpretación de la interacción entre diabetes e IMC permitió ajustar un submodelo de Cox para pacientes no diabéticos en los cuales los exponenciales de los coeficientes para edad e IMC fueron 1,0371 y 0,8632, respectivamente.. PALABRAS CLAVE: Análisis de supervivencia, estimador de Kaplan y Meier, modelo de Cox, diálisis peritoneal, diabetes, índice de masa corporal (IMC). ABSTRACT: A survival analysis is presented to analyze the follow-up time of 246 patients of the Peritoneal Dialysis Service of the University Clinic Hospital of Caracas, followed between 1980 an 1997, using death as event of interest. The survival analysis was performed in a classical way, including: (i) estimations of the survival function using the Kaplan-Meier estimator to explore the effect of diabetes and body mass index (BMI) over the lifetime of the patients, (ii) determination of the differences of the survival functions using the Log-Rank test, (iii) the fitting of two proportional hazard semiparametric models (Cox models) including the interaction between diabetes and BMI, (iv) selection of the best model using the Akaike information criteria, and (v) the verification of the assumption of the selected model. The final model was statistical significant (p-value = 0.000177), there is no evidence of the violation of the assumption, and the covariables included were age, BMI, and the interaction between diabetes and BMI, with p-values 0.0015, 0.0072, and 0.0391, respectively, with a death hazard, estimated by the exponential of their

1 Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. 2 Universidad de Santander, Bucaramanga. 3 Universidad Jorge Tadeo Lozano, Bogotá * Autor para correspondencia: [email protected] y [email protected]

Page 171: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

171

coefficients 1.03138, 0.90166, and 1.02817, respectively. The interpretation of the interaction plot allowed to adjust a Cox submodel for the non-diabetic patient, and the exponential of the coefficients of this submodel were 1.0371, and 0.8632 for age, and BMI, respectively. KEYWORDS: Survival analysis, Kaplan-Meier estimator, Cox model, peritoneal dialysis, diabetes, body mass index (BMI).

1 INTRODUCCIÓN El índice de masa corporal (IMC) está asociado a un número importante de patologías y afecta la mortalidad de las mismas, tal y como lo sugieren algunos trabajos especializados como el de Aune, et al. (2017). Esta asociación no es ajena en pacientes que reciben diálisis peritoneal, tal y como lo señalan diversos trabajos como el de Liu, et al. (2017). La asociación entre el IMC y la diabetes (diabetes mellitus) también ha sido reportada en muchos trabajos, incluyendo algunos llevados a cabo en pacientes que reciben tratamiento a través de diálisis peritoneal, abordados desde la óptica de una simple asociación como los trabajos de Kiran, et al. (2014), Lo (2016), o Nessim (2014), o a través de la modificación de patrones de mortalidad o supervivencia de los pacientes como los presentados en los trabajos de Mehrotra, et al. (2016), Sakaci, et al. (2016), Szeto, et al. (2014), Salim, et al. (2016) o Xiong, et al. (2015). Motivado por los últimos trabajos citados en el párrafo anterior, y por la interacción entre el IMC y la diabetes en la supervivencia reportada en el trabajo de Borges (2005), se procedió a hacer un análisis de supervivencia para los pacientes incluidos en la tesis de maestría de Borges (2002), y analizados nuevamente en el trabajo de Borges (2005), incluyendo en este caso la clasificación del IMC según los criterios establecidos por la Organización Mundial de la Salud (OMS) (World Health Organization, 1995). 2 MATERIALES Y MÉTODOS. Los datos analizados corresponden a 246 pacientes que acudieron al Servicio de Diálisis Peritoneal del Hospital Clínico Universitario de Caracas entre 1980 y 1997. Estos datos ya fueros analizados en trabajos previos, como por ejemplo Borges (2002) y Borges (2005). La base de datos está conformada por las variables: meses (tiempo) de seguimiento desde el comienzo del ingreso al servicio hasta la ocurrencia del evento de interés, que en este caso es la muerte por causas asociadas a la diálisis peritoneal. La no ocurrencia del evento de interés es considerada como un dato censurado. Adicionalmente se incluyen las covariables: edad, diabetes e índice de masa corporal (IMC) (quetelet). Para efectos de este análisis, se creó una variable auxiliar considerando la clasificación de individuos según lo establecido por la Organización Mundial de la Salud [14]. En este sentido se crearon cuatro grupos de pacientes: pacientes de Peso Bajo: Corresponde a los individuos con

Page 172: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

172

IMC menor a 18,5, pacientes con Peso Normal: Corresponde a los Individuos con IMC mayor o igual a 18,5 y menor a 25, pacientes preobesos: Corresponde a los individuos con IMC mayor o igual a 25 y menor a 30 y pacientes obesos: Corresponde a los individuos con IMC mayor o igual a 30. El análisis estadístico se llevó a cabo mediante un análisis de supervivencia al estilo clásico, similar al planteado en los libros sobre el tema, como por ejemplo, el de Klein y Moescberger (2003) o el de Kleinbaum y Klein (2011), estimando primero las funciones de supervivencia para varias combinaciones de diabetes e IMC, a través del uso del estimado de Kaplan y Meier, se valuó la diferencia de las funciones de supervivencia mediante el test de los logaritmos de los rangos. Posteriormente, se procedió a ajustar diversos modelos de riesgos proporcionales (modelos de Cox), incluyendo la interacción entre diabetes e IMC, y se seleccionó el mejor de los mismos mediante el uso del criterio de información de Akaike. A este modelo, se le evaluó su significación estadística, tanto para el modelo como para los coeficientes estimados. Incluyendo, el análisis de residuos para verificar los supuestos del modelo. Posterior a estos análisis se procedió a interpretar los exponenciales de los coeficientes estimados como estimadores de riesgos (hazard). El nivel de significación en todos los procedimientos se fijó en 5%. Los datos fueron analizados utilizando funciones versión 2.38 de la librería survival [26] del lenguaje de programación R en su versión 3.5.0 [27] usando el ambiente gráfico RStudio en su versión 1.1.447. 3 RESULTADOS. Luego de verificar diferencias gráficas en las funciones de supervivencia para diabéticos y no diabéticos, según el estado nutricional, se procedió a ajustar varios modelos de Cox, todos ellos de la forma:

(1)

Donde: t es el tiempo asociado a la ocurrencia del evento de interés o a la censura (no observación del evento). Z es el vector de covariables incluidas en el modelo. β es el vector de parámetros asociados a las covariables. λ(t,Z,β) es la función de riesgo instantáneo. λ0(t) es la función de riesgo base. exp(Zβ) es una función que depende de la covariables y los parámetros del modelo. Primer modelo de Cox: Para fines comparativos se efectuó el ajuste del mismo modelo de Cox presentado en el artículo de Borges (2005), donde:

β1edad+ β2diábetes+ β3IMC (2)

Page 173: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

173

Segundo modelo de Cox: Esta es una variante del modelo anterior, al cual se le ha agregado el término de interacción entre diabetes e IMC, es decir:

β1edad+ β2diábetes+ β3IMC+ β4diabetes:IMC (3)

Tercer modelo de Cox (modelo de Cox definitivo): En el modelo anterior, la covariable diabetes resultó no significativa (p-valor = 0,1085), m por lo que se decidió ajustar un modelo sin esta covariable, en el cual:

β1edad+ β2 IMC + β3(diábetes:IMC) (4)

Comparación de modelos: La comparación de los modelos se hizo mediante el criterio de información de Akaike (AIC). Para los modelos considerados los AIC fueron 250,10; 248,21 y 249,52; y los insumos para la comparación de los modelos se presentan en la Tabla 1.

TABLA 1

Comparación de los criterios de información de Akaike del modelo de Cox definitivo. Modelos comparados Chi

cuadrado Grados

de libertad

P valor

Modelo 1 y Modelo 2 3,7888 1 0,0516

Modelo 1 y Modelo 3 1,1678 0 2,2x10-16

Modelo 2 y Modelo 3 2,621 1 0,1055

De acuerdo a la información de la Tabla 1, se recomienda seleccionar el tercer modelo de Cox. Significación del modelo seleccionado: Para este modelo el test de razón de verosimilitud arrojó un valor de 19,9 con 3 grados de libertad y un p valor igual a 0,000177, con lo que concluimos que el modelo es estadísticamente significativo. Significación del modelo seleccionado: Para este modelo el test de razón de verosimilitud arrojó un valor de 19,9 con 3 grados de libertad y un p valor igual a 0,000177, con lo que concluimos que el modelo es estadísticamente significativo. Significación de las covariables incluídas en el modelo de Cox definitivo: La Tabla 2 muestra los insumos para la verificación de las covariables incluidas en el modelo seleccionado. En la misma se observa que la inclusión de la edad, el IMC y la interacción entre diabetes e IMC, son significativas, evidenciadas a través de sus p valores: 0,0015, 0,0072 y 0,0391, respectivamente. Análisis de residuos: Para la verificación de los supuestos fundamentales del modelo: Supuestos de riesgos proporcionales, ausencia de individuos incluyentes en el ajuste del modelo, ausencia

Page 174: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

174

de individuos influyentes en la estimación de los parámetros asociados a cada covariable y adecuacidad de la forma funcional de las covariables continuas se usó la metodología propuesta por Therneau y Grambsch (2000).

TABLA 2

Medidas resumen del ajuste del modelo de Cox definitivo. Covariable Coeficiente

(Coef)

exp(Coef) p valor

Edad 0,03089 1,03138 0,0015

IMC -0,10352 0,90166 0,0072

Interacción

(diabetes:IMC)

0,02778 1,02817 0,0391

(En esta tabla se omiten los errores estándar de estimación y los valores del estadístico Z).

Verificación del supuesto de riesgos proporcionales del modelo de Cox definitivo: El supuesto de riesgos proporcionales es el principal supuesto de un modelo de Cox y el mismo puede ser verificado a través de un contraste de hipótesis con una hipótesis nula equivalente a la verificación del supuesto, y cuyos resultados se muestran en la Tabla 3, con la cual se concluye que el supuesto de riesgo proporcional del modelo no es violado por ninguna de las covariables, tanto de manera aislada como de forma conjunta.

TABLA 3

Verificación del supuesto de riesgos proporcionales del modelo de Cox definitivo. Covariable Rho Chi

cuadrado p valor

Edad 0,1114 0,976 0,323

IMC -0,0521 0,198 0,656

Interacción

(diabetes:IMC)

0,0619 0,250 0,617

GLOBAL 1,582 0,664

Este supuesto también puede ser verificado gráficamente, a través de los gráficos de los Betas de Schoenfeld contra el tiempo de seguimiento, tal y como se presentan en la Fig. 1., en los cuales se corrobora el cumplimiento del supuesto de riesgos proporcionales.

Page 175: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

175

Fig. 1. Gráficos de los Betas de Schoenfeld versus el tiempo de seguimiento del modelo de Cox definitivo

Individuos influyentes sobre el ajuste del modelo: La Fig. 2 muestra el gráfico de los residuos tipo deviance o desvíos versus los individuos participantes en el estudio, y en el mismo no se observa la presencia de valores influyentes sobre el ajuste del modelo de Cox definitivo.

Fig. 2. Residuos tipo deviance versus individuos en el estudio del modelo de Cox definitivo.

Individuos influyentes sobre la estimación de los parámetros de las covariables: La Fig. 3 muestra los residuos tipo score (puntajes) versus los valores de las covariables. En los mismos se puede observar que solo existe un valor influyente sobre la estimación del coeficiente asociado al IMC, pero al analizar los datos para esta variable, indica que es un valor que no parece alejarse de la población de los datos.

Page 176: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

176

Fig. 3. Residuos tipo score versus valores de las covariables del modelo de Cox definitivo.

Adecuacidad de la forma funcional de las covariables: La Fig. 4 muestra los residuos tipo martingala versus los valores de las covariables, en ellos se observa que la forma funcional en los cuales están siendo expresados en el modelo son adecuadas para todas las covariables.

Fig. 4. Residuos tipo martingala versus valores de las covariables del modelo de Cox definitivo.

Interpretación de los coeficientes de las covariables del modelo de Cox definitivo: Luego de verificar la significación del modelo, la significación de cada una de la covariables, y de efectuar el análisis de residuos y verificar la no violación de los supuestos, se procede a la interpretar los resultados. Para llevar a cabo esta interpretación, se utiliza el exponencial de los coeficientes presentados en la segunda columna de la Tabla 2. Interpretación del coeficiente para la edad: El exponencial del coeficiente correspondiente a la edad, 0,03138 indica que al aumentar en un año la edad de los pacientes en diálisis peritoneal, el riesgo de muerte por causas asociadas a la misma, aumenta en un 3,14%.

Page 177: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

177

Interpretación del coeficiente para el IMC: El exponencial del coeficiente para el IMC, 0,90166 nos indica que al aumentar el IMC en una unidad, el riesgo de morir por causas asociadas a la diálisis peritoneal disminuye en 9,83%. Interpretación del término asociado a la interacción entre diabetes e IMC: El exponencial del coeficiente para la interacción entre la diabetes y el IMC, 1,02817, nos indica que el riesgo de morir por causas asociadas a la diálisis peritoneal, aumentan en un 2,82% cuando se comparan los individuos diabéticos con los sanos y de una unidad del IMC menor. Esta interpretación se hace en el estilo del sugerido por Buis (2010). Adicionalmente, Buis (2012) sugiere que la interpretación del coeficiente asociada a la interacción entre dos covariables, siendo una de ellas categóricas, debe complementarse con el análisis de submodelos para cada valor de la covariable categórica, en este sentido se ajustan un modelo de Cox con las covariables edad e IMC en pacientes diabéticos, y otro modelos con las mismas covariables para pacientes sanos. Submodelo de Cox para pacientes diabéticos: Al ajustar el submodelo de Cox para pacientes diabéticos, incluyendo a edad e IMC como covariables, se observó que el modelo no fue estadísticamente significativo (p-valor = 0,449), razón por la cual no se sigue analizando el mismo. Submodelo de Cox para pacientes no diabéticos: Al efectuar el ajuste del submodelo de Cox para pacientes no diábeticos incluyendo la edad e IMC como covariables, se observó que este modelo fue estadísticamente significativo (p = 0,000494), y la inclusión de las covariables también resultó significativas (p = 0,0010 y p = 0,0019, respectivamente. Para este modelo, se verificaron todos sus supuestos, pero las salidas e interpretaciones se omiten en este trabajo.

3 CONCLUSIONES En esta investigación se verificó que la interacción entre diábetes e IMC es significativa para explicar los tiempos de vida de los pacientes que acudieron al Servicio de diálisis peritoneal del Hospital Clínico Universitario de Caracas entre los años 1980 y 1997, y permitió estimar los riesgos de morir por causas asociadas a la diábetes en función de su edad e IMC, corrigiendo el efecto de la interacción entre diábetes e IMC. Es importante destacar, la inclusión de la interacción en los modelos estadísticos es importante porque permiten controlar el efecto de dos o más covariables en la estimación del modelo, y permite la corrección de los efectos de las covariables principales incluidas en el modelo, y ella se puede incluir en una gran cantidad de modelos, incluyendo los principales modelos de análisis de supervivencia (Cox, 1985). Sin embargo, en el caso del análisis de supervivencia, la interpretación de la interacción no es sencilla, y se recomienda utilizar otros tipos de modelos, como por ejemplo el modelo de riesgo aditivos, pero su incorporación en el modelo de Cox es útil para la identificación grupos diferenciados según el riesgo (Rod et al. 2012). En este sentido, se concluye que: la interacción entre diabetes e índice de masa corporal es significativa (p-valor = 0,0391), y su incorporación en el modelo permite corregir las estimación de los parámetros del modelo propuesto por Borges (2005), y con el mismo, se concluye que al

Page 178: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

178

aumentar en un año la edad, el riesgo de muerte por causas asociadas a la diálisis peritoneal, aumenta en un 3,14%, y al aumentar en una unidas el IMC, el riesgo de morir por causas asociadas a la diálisis peritoneal disminuye en 9,83%, siendo estas covariables significativas, al ser sus p-valores, 0,0015 y 0,0072, respectivamente, encontrándose además que en el modelo planteado, se verifican todos los supuestos del modelo de Cox, y permite además plantear otros submodelos, en este caso para pacientes diabéticos y no diabéticos, encontrándose riesgos diferentes para edad e índice de masa corporal, en cada uno de los modelos ajustados. REFERENCIAS Aune D, Sen A, Prasad M, Norat T, Janszky I, Tonstad, et al. (2016). BMI and all cause mortality:

systematic review and non-linear dose-response meta-analysis of 230 cohort studies with 3.74 million deaths among 30.3 million participants. BMJ, 353, i2156

Borges R.E. (2002) Análisis de supervivencia aplicado a un caso de diálisis renal: Diálisis peritoneal en

el Hospital Clínico Universitario de Caracas y hemodiálisis en el Hospital de Clínicas Caracas, 1980-2000 [Trabajo de grado de maestría]. Instituto de Estadística Aplicada y Computación, Facultad de Ciencias Económicas y Sociales, Universidad de Los Andes.

Borges R.E. (2005). Análisis de supervivencia de pacientes con diálisis peritoneal. Revista Colombiana de

Estadística, 28(2), 243–259. Buis M.L. (2010). Stata tip 87: Interpretation of interactions in nonlinear models. The Stata Journal,

10(2), 305–308. Buis M.L. (2010). Stata tip 87: Interpretation of interactions in nonlinear models. The Stata Journal,

10(2), 305–308. Buis M.L.(2012). Stata tip 106: With or without reference. The Stata Journal, 12(1), 162–164. Cox, D.R. (1985). Interaction. International Statistical Review, 53(1), 1-24. Kiran V.R., Zhu T.Y., Yip T., Lui S.L., Lo W.K..(2014). Body mass index and mortality risk in Asian

peritoneal dialysis patients in Hong Kong – Impact of diabetes and cardiovascular disease status. Peritoneal Dialysis International, 34, 390–398.

Klein J.P., Moeschberger M.L. (2003). Survival analysis: Techniques for censored and truncated data.

2da ed. Nueva York: Springer. Kleinbaum D.G., Klein M. (2011). Survival analysis: A self-learning text. 3ra ed. Nueva York.: Springer. Liu J., Zeng X., Hong H.G., Li Y., Fu P. (2017). The association between body mass index and mortality

among Asian peritoneal dialysis patients: A meta-analysis. PLoS ONE, 12(2), e0172369. Lo W.K. (2016). Metabolic syndrome and obesity in peritoneal dialysis. Kidney Res Clin Pract., 35,

10e14.

Page 179: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

179

Mehrotra R., Devuyst O., Davies S.J., Johnson D.W. (2016). The current state of peritoneal dialysis. J Am Soc Nephrol., 27, 3238–3252.

Nessim S.J. (2014) Extremes of body mass index and mortality among Asian peritoneal dialysis patients.

Peritoneal Dialysis International, 34: 338–341. R Core Team. (2018). R: A language and environment for statistical computing. Vienna, Austria: R

Foundation for Statistical Computing,. URL: https://www.R-project.org/. Rod, N.H., Lange, T., Andersen, I., Marrott, J.L., Diderichsen, F. (2012). Additive Interaction in Survival

Analysis: Use of the Additive Hazards Model. Epidemiology, 23(5):733-737. RStudio Team. (2016). RStudio: Integrated Development for R. Boston, MA: RStudio, Inc.. URL:

http://www.rstudio.com/. Salim S.A., Akula Y., Kandhuri S., Afshan S., Zsom L., Dixit M.P., et al. (2016). Successful peritoneal

dialysis in large-weight subjects: Clinical features and comparisons with normal-weight subjects. Advances in Peritoneal Dialysis, 32, 61-67.

Sakaci T., Ahbap E., Basturk T., Kara Y.K.E., Sevinc M., Ucar, Z. et al. (2016). Does body mass index

affect survival and technique failure in patients undergoing peritoneal dialysis?. Minerva Urologica e Nefrologica, 68(3), 302-310.

Szeto C.C., Kwan B.C.H., Chow K.M., Leung C.B., Cheng M.S., Law M.C. et al. (2014). Metabolic

syndrome in peritoneal dialysis patients: Choice of diagnostic criteria and prognostic implications. Clin J Am Soc Nephrol., 9, 779–787.

Therneau T. _(2015). A Package for Survival Analysis in S_. version 2.38. URL: https://CRAN.R-

project.org/package=survival. Therneau T.M., Grambsch, P.M. (2000). Modeling survival data: Extending the Cox model. Nueva York.

Springer. World Health Organization. (1995). Physical Status: the Use and Interpretation of Anthropometry.

Ginebra, Suiza: WHO Technical Report Series 854. Xiong L., Cao S., Xu F., Zhou Q., Fan L., Xu Q. et al. (2015). Association of body mass index and body

mass index change with mortality in incident peritoneal dialysis patients. Nutrients, 7, 8444–8455.

Page 180: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

180

Modelacion de disenos experimentales en pre-sencia de correlacion espacial aplicado a expe-rimentos agrıcolas

J. L. Cabreraa, M. Andrade Bejaranoa and C. Grenierb

aUniversidad del Valle, bCIRAD

Estacion. El efecto de la heterogeneidad espacial entre parcelas tiene graninfluencia en la estimacion de observaciones realizadas en experimentos encampo. Con el objetivo de disminuir este problema se utiliza la aleatorizacionde los experimentos. Pero en algunos casos esta es insuficiente para neutra-lizar los efectos de correlacion entre parcelas adyacentes. Una manera paracontrolar este problema es modelar la estructura de correlacion espacial atraves de la matriz de varianzas y covarianzas. El presente trabajo tiene co-mo objetivo evaluar y determinar el efecto de la correlacion espacial sobre laestimacion en la modelacion del diseno experimental. Para esto se realiza lamodelacion de algunos ensayos realizados por el programa de mejoramientode arroz de CIAT. Ademas, se analizan experimentos simulados, a partir deun diseno de bloques completamente al azar, con y sin presencia de corre-lacion espacial bajo funciones Esfericas, Exponencial y Gaussiana. Para lamodelacion se usaron modelos lineales mixtos ya que se consideraron efectosfijos y aleatorios en los tratamientos y la estructura del diseno. Finalmentese puede concluir que la modelacion de la matriz de varianzas y covarianzascuando se consideran errores correlacionados espacialmente presento mejoresestimaciones en comparacion con el modelo que asume independencia en loserrores.

Palabras Claves:Modelacion, diseno experimental, correlacion espacial.

1

XII Coloquio de Estadística: Métodos Estadísticos en la Generación de Conocimiento Escuela de Estadística, Universidad Nacional de Colombia, Sede Medellín

Page 181: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

181

XII Coloquio de EstadısticaMetodos Estadısticos en la Generacion de Conocimiento • Paginas 1 a 6

Medellın, Colombia, Nov 19-22, 2019

Caracterizacion estadıstica de la desigualdad de ingreso en los

departamentos de Colombiaa

Statistical characterization of income inequality in Colombia’s

departments

Juan Camilo Cardenas Marquez b *, Juan Carlos Salazar-Uribe c *

RESUMEN: La desigualdad de ingresos comprende la diferencia entre la distribucion del ingreso de los

individuos en una determinada poblacion. Las variaciones de este fenomeno en el tiempo obedecen a un

conjunto de factores de ındole social, economico y polıtico. Un elemento que presenta un efecto potencial en

la desigualdad de ingresos, es el gasto publico social, el cual debe estar enfocado al sector de la poblacion con

menores recursos monetarios. Los estudios en Colombia sobre la evolucion de estas variables en el tiempo

se han enfocado principalmente a nivel nacional, pero se ha abordado de manera limitada para entidades

territoriales; en este trabajo se busca analizar el efecto del gasto publico social en la desigualdad de ingresos

a nivel territorial, para lo cual se propone un modelo lineal mixto generalizado para datos de un conjunto

de departamentos de Colombia, tomando como medida de desigualdad de ingreso, el coeficiente de Gini por

departamento y el gasto publico social realizado en los departamentos en las areas de educacion, salud y

otras variables de caracter social.

PALABRAS CLAVE: Desigualdad de ingresos, Gasto publico social, modelo lineal mixto, Departamentos

de Colombia, Estadıstica, Coeficiente de Gini.

ABSTRACT: Income inequality encompass the difference between the distribution of income of indivi-

duals in a given population. The variations of this phenomenon over time are due to a set of social, economic

and political issues. An aspect that has a potential effect on income inequality is social public spending,

which should be focused on the population sector with lower monetary resources. Studies in Colombia on

the evolution of these variables over time have focused mainly on a national level, but have been approached

in a limited way for territorial entities. This paper analyze the effect of social public spending on income

inequality at the territorial level, for which a generalized mixed linear model for a group of Colombian’s

departments is proposed, taking as a measure of income inequality, the Gini’s coefficient by departments and

public social expenditure made in the departments in the areas of education, health and other social variables.

KEYWORDS: Income inequality, Social public spending, Linear mixed model, Colombian’s departments,

Statistics, Gini coefficient.

aCardenas., JC. (2019). Caracterizacion estadıstica de la desigualdad de ingreso en los departamentos de Colombia

XII Coloquio de Estadıstica, 6 (1), 1–6. Metodos Estadısticos en la Generacion de ConocimientobEstudiante de Maestrıa en Ciencias Estadısticas. Escuela de estadıstica. Universidad Nacional de Colombia*Autor para correspondencia: [email protected] Asociado. Escuela de estadıstica. Universidad Nacional de Colombia*Autor para correspondencia: [email protected]

1

Page 182: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

182

Juan Camilo Cardenas Marquez

1. INTRODUCCION

El grado de desigualdad de ingresos en Colombia es considerado alto entre los paıses Latinoa-

mericanos Sanchez-Torres (2017), las causas de las variaciones de este fenomeno en el paıs, son

consecuencia de diferentes aspectos, asociados a variables macroeconomicas. Un elemento que tiene

incidencia en la dinamica de la desigualdad de ingreso es el gasto publico social realizado por las

diferentes entidades publicas; enfocado a los sectores mas pobres de la poblacion, que contribuya a

la redistribucion del ingreso de la poblacion.

Se plantea un modelo para datos de un conjunto de departamentos de Colombia y la ciudad de

Bogota, tomando el coeficiente de Gini como la variable respuesta del estudio, el cual es un indica-

dor del grado de desigualdad en un territorio, con dominio entre [0, 1] y las covariables son el gasto

publico social realizado en cada departamento de forma anual y adicionalmente se considera el PIB

per captial, para el perıodo comprendido entre 2008 y 2018.

Dado que la variable respuesta se encuentra en el intervalo unida, se empleara un modelo lineal

mixto generalizado basado en una regresion beta. Este tipo de modelos permiten una mayor flexi-

bilidad, ya que combinan elementos de los modelos lineal mixto y el modelo marginal, permitiendo

la inclusion de efectos especıficos a cada individuo tomando en cuenta la asociacion longitudinal

intra-sujeto.

2. Modelo Lineal Mixto Generalizado

Los modelos lineales mixtos generalizados son una combinacion natural de los modelos lineales

mixtos y los modelos lineales generalizados; se pueden considerar como un modelo lineal genera-

lizado que incluyen efectos aleatorios en el predictor lineal. Recogen elementos del modelo lineal

mixto, donde se parte de la existencia de heterogeneidad entre los individuos para la poblacion

de estudio, siendo esta modelada en un subconjunto de parametros, los cuales se asumen que va-

rıan entre individuos, de acuerdo a un tipo de distribucion (Garcıa & Dıaz , 2011). Los efectos

aleatorios, puede representar la heterogeneidad natural entre individuos, debido a los factores que

no son medibles, siendo habitual asumir una distribucion normal multivariada por conveniencias

matematicas y computacionales (Fitzmaurice, Laird & Ware, 2012). Por lo tanto, condicionados a

los efectos aleatorios, se asume que la variable respuesta para cualquier individuo esta conformada

por observaciones independientes provenientes de una distribucion de la familia exponencial.

2 XII Coloquio de Estadıstica Universidad Nacional de Colombia, Sede Medellın

Page 183: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

183

Caracterizacion estadıstica de la desigualdad de ingreso en los departamentos de Colombia

2.1. Regresion Beta

Cuando las proporciones, tasas e ındices se miden en el intervalo [0, 1], son utilizadas como varia-

ble respuesta, el analisis mediante el modelo clasico de regresion lineal es inapropiado, porque los

valores observados y pronosticados no estan relacionados con el dominio de la unidad y no pueden

capturar asimetrıas (Bonat et al. , 2015).

Los modelos lineales mixtos generalizados que utilizan una regresion beta, son una buena op-

cion cuando la variable respuesta se encuentra en el intervalo [0, 1], donde la correlacion asociada

a la variable respuesta puede ser representada mediante efectos aleatorios que son asignados a las

observaciones intra-sujeto. Los elementos que provienen del modelo mixto permiten una mayor

flexibilidad, al ajustar la estructuras de datos, que suelen poseer mayor variabilidad, siendo los

efectos aleatorios una manera de modelar la estructura de covarianza, permitiendo dependencia y

sobredispercion en los datos (Bonat et al. , 2015) mediante la inclusion de efectos aleatorios, los

cuales se suponen que estan normalmente distribuidos.

El modelo de regresion beta, se define a partir de la distribucion Beta con media µ y precision

φ (Ferrari & Cribari-Neto, 2004), la densidad esta dada por:

f(y|µ, φ) = Γ(φ)

Γ(µφ)Γ((1− µ)φ))yµφ−1(1− y)(1−µ)φ−1, 0 < y < 1 (1)

Donde 0 < µ < 1, φ > 0, y Γ(·) es la funcion Gamma, denotamos Y ∼ B(µ, φ), E(Y ) = µ,

V (Y ) = µ(1−µ)(1+φ) y φ es el parametro de precisiond.

Para una muestra aleatoria Y ∼ B(µ, φ), asumiendo que φ es una constante, el modelo de re-

gresion Beta se especifica:

g(µ) = xβ = η (2)

Con un vector de k parametros desconocidos β = (β1, β2, . . . , βk) y un vector de k covariables

conocidas x = (x1, x2, . . . xk), siendo η un predictor lineal. La especificacion del modelo se lleva a

cabo, mediante la eleccion de un funcion de vınculo g(·) : (0, 1) → R, siendo una posible opcion, la

funcion logit g(µ) = log(µ/(1− µ)).

Este modelo no considera posible dependencias, que son inducidas por multiples mediciones en

la misma unidad de observacion, que pueden ser producidas en el tiempo o en estructuras espacia-

les. La inclusion de efectos aleatorios en la estructura de datos es una estrategia parsimoniosa en

comparacion con la adicion de parametros a la parte fija del modelo, sin dejar de tener en cuenta

los efectos de las perturbaciones (Bonat et al. , 2015).

dUn mayor valor de φ representa una menor varianza de Y

Metodos Estadısticos en la Generacion de Conocimiento • Artıculo Investigacion • Medellın, Colombia, Nov 19-22, 2019 3

Page 184: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

184

Juan Camilo Cardenas Marquez

Sea yit una observacion para los tiempos t = 1, 2, . . . , Ni dentro de los sujetos i = 1, 2, . . . N y

yi denota un vector Ni dimensional de medidas para el i-esimo sujeto. Sea bi un vector N dimen-

sional de efectos aleatorios y se asumen que las respuestas yi son condicionalmente independientes

y poseen densidad:

fi(yi|bi, β, φ) =Γ(φ)

Γ(µiφ)Γ((1− µi)φ))yµiφ−1i (1− yi)

(1−µi)φ−1 (3)

Con una funcion de vinculo g(µi) = Xiβ + Zibi, siendo Xi y Zi un matrices de covariables cono-

cidas, β es un vector p dimensional de parametros poblacionales desconocidos y φ es el parametro

de precision, y los efectos aleatorios se asumen normales bi ∼ N(0,D).

La estimacion de los parametros puede ser obtenida maximizando la verosimilitud marginal ob-

tenida al integrar la distribucion conjunta de yi y b sobre los efectos aleatorios. La verosimilitud

para los sujetos esta dada por:

fi(yi|β,D, φ) =

∫ t=Ni∏t=1

fi(yi|bi, β, φ)fi(bi)dbi (4)

Asumiendo independencia entre los N individuos, la verosimilitud es:

L(β,D, φ) =N∏i=1

fi(yi|β,D, φ) (5)

La ecuacion (5) requiere resolver la integral N veces. Para el modelo mas simple con un solo efecto

aleatorio, las integrales son unidimensionales. La dimension es igual al numero de efectos aleatorios

en el modelo lo cual impone lımites practicos a los metodos numericos y aproximaciones requeridas

para evaluar la verosimilitud (Bonat et al. , 2015). El procedimiento GLIMMIX del programa SAS

studio, permite la estimacion de (5), mediante diferentes tecnicas: cuasi-verosımiles penalizadas,

aproximaciones de Laplace y Cuadratura Gaussiana.

3. Aplicaciones

La muestra consiste de 23 Departamentos y la ciudad de Bogota D.C. La informacion sobre de-

sigualdad de ingreso se obtuvo de la Mision para el Empalme de las Series de Empleo, Pobreza

y Desigualdad. Consiste en una base de datos sobre los ingresos de la poblacion segmentada por

departamentos de forma anual desde 2008 a 2018, que resume la informacion obtenida de la gran

encuesta de Hogares del DANE y posteriormente se calculo el coeficiente de Gini, mediante el pa-

quete de R DescTools (R version 3.6.0).

4 XII Coloquio de Estadıstica Universidad Nacional de Colombia, Sede Medellın

Page 185: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

185

Caracterizacion estadıstica de la desigualdad de ingreso en los departamentos de Colombia

La informacion sobre el gasto publico social, fue solicitada a la Contadurıa General de la Nacion.

Los datos suministrados fueron sobre la situacion financiera de los Departamentos de Colombia

para el periodo 2008-2018 esta informacion contable es reportada por todas las entidades publicas

que hacen parte del departamento; la gobernacion y las alcaldıas con sus respectivos entes descen-

tralizados.

El modelo beta se define como :

yit|bi ∼ Beta(µit, φ) (6)

g(µit) = β0 + bi1 + β1PIBpercapitalit +Xiβ (7)

bi1 ∼ N(0, σ2) (8)

Es un modelo con intercepto aleatorio, donde yit es el Coeficiente de Gini para i-esimo departamen-

to en el ano t y Xi son las variables de Gasto Publico social, las cuales siguiendo la linea de Ospina

(2014) y Niehues (2010) se expresan como proporcion del Producto interno del Departamento en el

ano correspondiente y ademas se busca explorar la relacion con el PIB per capital y como funcion

de vınculo g(µit) se utiliza la funcion logit.

Tabla 1: Categorıa Gasto publico social

Variable

Educacion

Salud

Agua Potable y Saneamiento Basico

Vivienda

Recreacion y Deporte

Cultura

Desarrollo Comunitario y Bienestar Social

Medio Ambiente

Subsidios Asignados

Metodos Estadısticos en la Generacion de Conocimiento • Artıculo Investigacion • Medellın, Colombia, Nov 19-22, 2019 5

Page 186: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

186

Juan Camilo Cardenas Marquez

2008 2010 2012 2014 2016 2018

0.45

0.50

0.55

0.60

Año

Gin

i

15.0 15.5 16.0 16.5 17.0 17.5

0.45

0.50

0.55

0.60

Log(Pibpercapital)

Gin

i

Figura 1: Evolucion promedio del Coeficiente de Gini y su relacion con el logaritmo del PIB per capita

4. CONCLUSIONES

Las conclusiones se presentaran en el XII Coloquio de Estadıstica, que se realizara en la Universidad

Nacional de Colombia, sede Medellın.

Referencias

Bonat, W. H., Ribeiro Jr, P. J., & Zeviani, W. M. (2015). Likelihood analysis for a class of beta

mixed models. Journal of Applied Statistics, 42(2), 252-266.

Ferrari, S., & Cribari-Neto, F. (2004). Beta regression for modelling rates and proportions. Journal

of applied statistics, 31(7), 799-815.

Fitzmaurice, G. M., Laird, N. M., & Ware, J. H. (2012). Applied longitudinal analysis (Vol. 998).

John Wiley & Sons.

Garcıa F. y Dıaz M. (2011). Modelos mixtos generalizados para el estudio del desempleo en los gran-

des aglomerados urbanos de Argentina. Revista de Economıa y Estadıstica, Cuarta Epoca,Vol.

49,No. 1, pp. 79- 98.

Niehues, J. (2010). Social spending generosity and income inequality: A dynamic panel approach.

SOEPpapers, 336, Recuperado de http://dx.doi.org/10.2139/ssrn.1724733.

Ospina, M. P. (2014). El efecto del gasto social en la distribucion del ingreso: un analisis para

economıas latinoamericanas. Revista Ciencias Estrategicas, 22(32), 309-329.

Sanchez-Torres, R. M. (2017). Desigualdad del ingreso en Colombia: un estudio por departamentos.

Cuadernos de economıa, 36(72), 139-178.

6 XII Coloquio de Estadıstica Universidad Nacional de Colombia, Sede Medellın

Page 187: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

187

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE

TIERRAS BALDIAS EN COLOMBIA INTERVENTION

ANALYSIS OF BARREN LAND ALLOCATION IN COLOMBIA

LINA MARCELA DIAZ a *, ROGER FIGUEROA b, CARLOS DUARTE c

RESUMEN: En Colombia las dinamicas de adjudicacion de tierras baldıas han estado determinadas por

diferentes acontecimientos historicos que han ocasionado que tenga multiples variaciones en la cantidad ad-

judicada. Desde el ano 1901 hasta el ano 2018 han existido diversos marcos normativos, los cuales tienen

una gran incidencia en la polıtica de reforma agraria, ası como hechos de tipo coyuntural como decretos,

movilizaciones, programas piloto, entre otros aspectos, que han incidido positiva o negativamente en el nu-

mero de hectareas adjudicadas. Se identificaron dos fenomenos de intervencion, los cuales fueron cambios

estructurales y coyunturales, que permiten que los datos puedan tener un adecuado ajuste al involucrarse

en un modelo ARIMA variables de intervencion, midiendo el impacto de las legislaciones y realizando un

pronostico de mediano plazo.

PALABRAS CLAVE: Adjudicacion; baldıos; legislaciones; modelos ARIMA; intervencion.

ABSTRACT: The dynamics of barren lands allocation in Colombia have been determined by various his-

torical events, which have given rise to multiples variations in the amount allocated. From 1901 to 2018 have

existed four regulatory frameworks, which have had a big incidence in the agrarian reform policy, as well as

short-term facts such as decrees, mobilizations, pilot programs, among other things, which have influenced

positively or negatively in the amount of allocated hectares. Two intervention phenomena were identified,

that were structural and short-term changes, allowing to the data to have a proper fit by involving in ARIMA

model intervention variables, measuring the impact of regulations and doing a medium-term forecast.

KEYWORDS: Allocation; barren land; regulations; ARIMA models; intervention.

aProfesional instituto de estudios interculturales. Instituto de Estudios Interculturales. Pontificia Universidad

Javeriana Cali*Autor para correspondencia: [email protected] de investigacion. Escuela de Ingenierıa Electronica. Pontificia Universidad Javeriana CalicCoordinador de la lınea de Desarrollo y Ordenamiento Territorial. Instituto de Estudios Interculturales. Pontificia

Universidad Javeriana Cali

1

1

Page 188: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

188

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

1. INTRODUCCION

En Colombia han sido formuladas diversas reformas al sector agrario a lo largo de la historia siendo

un tema recurrente en espacios de discusion, Machado y Vivas (2009) afirman: “La cuestion agra-

ria en Colombia ha estado marcada historicamente por el problema de acceso a la propiedad por

parte de pequenos o medianos productores”. En cierto sentido el panorama de desigualdad en la

distribucion de tierras a lo largo del siglo XX, ha promovido el desarrollo de diversas leyes para

dar solucion a las demandas campesinas de tierras y al problema de la concentracion, con las leyes

senaladas se ha buscado generar mayores niveles de equidad en el acceso y uso de la propiedad

rural. Sin embargo, esta polıtica no siempre ha estado enfocada en los que mas necesitan la tierra,

privilegiando los grandes poseedores de tierra desde la colonia.

Como se menciona el Instituto Latinoamericano para una Sociedad y un Derecho Alternativos (IL-

SA) (2015), un analisis de largo aliento deja ver que durante el periodo de 1962 a 2011 la polıtica

de tierras se oriento a la titulacion de baldıos. Un baldıo adjudicable es un terreno rural situado

dentro de los lımites del territorio nacional cuya titularidad esta a cargo del Estado, su propiedad

se puede trasladar a un ocupante siempre y cuando este dentro del terreno y el baldıo tenga aptitud

agropecuaria.

En el paıs se han realizado diferentes estudios los cuales han abordado el contexto historico de la

dinamica de adjudicacion de baldıos desde una perspectiva analıtica. Dentro de estos estudios se

encuentra el de Villaveces y Sanchez (2014), cuyo objetivo fue describir las dinamicas de adjudi-

cacion de baldıos a personas naturales y describir el contexto legal que dio origen a la cantidad

de adjudicaciones suscritas. La informacion de asignacion de baldıos que allı se presenta fue sumi-

nistrada por el INCODER desde 1901 hasta 2012, en el trabajo se realizo una descripcion de la

dinamica de la reforma agraria en Colombia a la luz de la legislacion.

Con el fin de planificar la polıtica agraria del paıs de una manera inteligente, se hace necesario crear

herramientas que permitan pronosticar el comportamiento futuro de la dinamica de adjudicacion

de tierras bajo una legislacion y ası tomar correctivos en caso de comportamientos no deseados.

Ademas, este tipo de herramientas cobran importancia en el posconflicto puesto que permiten te-

ner un estimado del tiempo que tomara adjudicar las mas de 3.000.000 de hectareas del “Fondo

de Tierras para la Reforma Rural Integral” de acuerdo a lo pactado en los acuerdos de la Habana

(Mesa Conversaciones, 2016). Para tener una aproximacion de la cantidad de tierras a adjudicar,

se cuenta con un gran abanico de aproximaciones estadısticas que permiten realizar pronosticos en

series temporales, en este trabajo se evaluo un modelo ARIMA con variables de intervencion, el

cual es ampliamente usado en situaciones donde la dinamica natural de los datos se ve afectada

por variables externas de una naturaleza determinista.

2

Page 189: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

189

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE TIERRAS BALDIAS EN COLOMBIA

De acuerdo con Rios (2008) existen modelos con variables de intervencion en los cuales las series

economicas son afectadas por fenomenos externos, tales como: cambios tecnologicos, huelgas, cam-

bios en medidas de polıtica o economicas, cambios en la legislacion o escala de algun impuesto,

cambios metodologicos en la medicion de las estadısticas, etc. La no incorporacion de variables ar-

tificiales conduce a sesgos en las estimaciones de los parametros, a elevar el error estandar residual

y en ocasiones a errores en la especificacion del modelo ARIMA.

Las bases de datos usadas para el ejercicio estan relacionadas con procesos agrarios y fueron entrega-

das por la Agencia Nacional de Tierras en el marco del convenio 519-2017 suscrito con la Pontificia

Universidad Javeriana Cali. Adicionalmente, se uso informacion contextual correspondiente a los

diferentes marcos normativos y fenomenos coyunturales presentados entre los anos 1901 y 2018.

El presente trabajo tiene como proposito evaluar un modelo estadıstico que permita estimar la

cantidad de hectareas a adjudicar para una temporalidad de 5 anos, teniendo en cuenta el impacto

de cada legislacion y cambios coyunturales como movilizaciones, paros, entre otros.

2. Series de tiempo con variables de intervencion

Con frecuencia la serie de tiempo de un fenomeno real se ve afectada por sucesos puntuales conocidos

como intervenciones, por ejemplo, una huelga, un cambio de legislacion, un cambio de gobierno,

entre otros, en este tipo de casos los datos pueden ser modelados mediante un modelo ARIMA

con variables de intervencion (Box y Jenkins,1994). Este modelo asume que la dinamica intrınseca

de los datos es estacional y que han sido afectados, ademas de factores integrativos, por variables

externas para las cuales se conoce su temporalidad, matematicamente puede representarse por la

siguiente ecuacion (Kongcharoen y Kruangpradit, 2013).

Φt(L)(1− L)dYt = θ(L)εt +Θ(L)Xt (1)

Donde L es el operador retardo, d corresponde a las d diferencias que son necesarias para convertir

la serie original en estacionaria, Φt(L) es el polinomio autorregresivo, Θ(L)Xt es la variable de

intervencion multiplicada por su funcion de transferencia, y θ(L) es el polinomio de media movil.

La Ecuacion (1) puede escribirse tambien como sigue:

∆dYt =

p∑i=1

ΦiLi∆dYt +

q∑i=1

θiLiεt + εt +Θ(L)Xt (2)

Donde p y q corresponden al grado del polinomio autorregresivo y de media movil respectivamente.

3

Page 190: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

190

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

2.1. Variables de impulso y de escalon

Los fenomenos llamados intervenciones interfieren en el comportamiento original de la serie, por lo

tanto, se debe evaluar su efecto e incorporarlo al modelo ARIMA a traves de variables artificiales

binarias. Las variables que describen la componente de intervencion en la Ecuacion (2) son usual-

mente variables ficticias que se incluyen en la ecuacion para representar los sucesos cualitativos que

se presentan en la serie temporal y son de dos tipos: variables impulso y variables escalon.

2.1.1. Variables tipo impulso

Las funciones tipo impulso son variables ficticias que se introducen en la serie y que por lo general

recogen el efecto de fenomenos que intervienen en la serie en un unico momento. Para representar el

instante de ocurrencia de este suceso se define un variable impulso dada por la siguiente Ecuacion:

Iht =

0 t = h

1 t = h

(3)

Como menciona Pena (2010), la Ecuacion (2) puede reescribirse al incluir el efecto del suceso Iht en

la serie observada zt, que sigue el modelo:

Zt = W0Iht + yt (4)

2.1.2. Variables tipo escalon

Este tipo de variables recogen el efecto de un cambio de nivel en la serie, es decir que se incluye

una funcion tipo escalon la cual toma el valor de cero antes de la funcion y uno posteriormente. La

ecuacion matematica de esta funcion se muestra a continuacion:

Sht =

0 t < h

1 t ≥ h

(5)

Donde h corresponde al tiempo t en el cual sucede la intervencion.

3. Modelamiento de la serie temporal

Para el ajuste de la serie temporal que mas se adecuo a la informacion de adjudicacion, se identifi-

caron los fenomenos mas relevantes que intervienen en la dinamica de los datos. Para este ejercicio

se identificaron 3 grandes fenomenos a los cuales se les daba una explicacion historica de acuerdo

a como se habıa dado el proceso de adjudicacion de tierras baldıas, estos son: la dinamica intrınse-

ca, los cambios estructurales y los cambios coyunturales. El siguiente esquema muestra la relacion

existente entre el modelo y cada uno de estos 3 fenomenos:

4

Page 191: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

191

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE TIERRAS BALDIAS EN COLOMBIA

Dinamica intrınseca: Es el comportamiento que tendrıan los datos en ausencia de todo tipo de

intervencion. Esta dinamica depende solamente del comportamiento historico de los datos. Cam-

bios estructurales: Son fenomenos que afectan los datos por un largo periodo de tiempo, subiendo

o bajando el numero promedio de adjudicaciones. En este ejercicio se asume que los cambios es-

tructurales se deben a los cambios de legislacion.

Cambios coyunturales: Son fenomenos de ındole temporal no mayores a 5 anos en los que la

dinamica de los datos se ve afectada ya sea positiva o negativamente, pero que una vez desaparecen,

el ritmo de las observaciones vuelve a variar entorno al valor promedio previo a la intervencion.

Para el caso de este ejercicio estos fenomenos corresponden a decretos, movilizaciones, programas

pilotos, entre otros.

Para introducir las intervenciones tipo escalon en el modelo ARIMA, se identificaron los periodos

correspondientes a los cambios de legislacion que provocaron un cambio en el nivel de la serie tem-

poral, en total se identificaron 3 marcos normativos los cuales fueron en su orden: Ley 34 de 1936,

Ley 135 de 1961 y Ley 160 de 1994. Posteriormente, se indentificaron unos fenomenos coyunturales

de acuerdo los puntos de mayor amplitud en la serie y que tuvieran una correspondencia historica

con los fenomenos mas importantes que han incidido en la adjudicacion, y de esta manera catalo-

garlos como fenomenos de coyuntura que afectaron la cantidad de baldıos adjudicados en el paıs,

adicionalmente mediante el ajuste del modelo se corroboro que los parametros asociados a estos

puntos tuvieran significancia estadıstica. Estos sucesos se muestran en la Tabla 1.

Antes de identificar el modelo se estabilizo la varianza de la serie debido a que no era constante y

por tanto la serie no presentaba estacionariedad, de esta manera se procedio a estabilizar la varianza

mediante la transformacion de BoxCox (Box y Cox (1964)). El siguiente paso, consistio en deter-

minar un modelo autorregresivo e integrado de media movil ARIMA (p, d, q) (con p parametros

autorregresivos, d veces diferenciada y con q parametros de media movil), que se ajustara a la serie

en estudio. De esta manera se graficaron las funciones de autocorrelacion FAC y autocorrelacion

parcial FACP para la serie estacionaria, con la finalidad de determinar el orden q en la componente

de media movil y/o el orden p en la parte autorregresiva respectivamente. Una vez identificados

el numero de parametros se ajusto un modelo ARIMA que incluyera las variables de intervencion.

el criterio de informacion de Akaike (AIC) Akaike (1974) permitio seleccionar el modelo con una

adecuada combinacion de parametros. Para el ajuste del modelo se uso el software R-Gui y las

librerıas TSA, forecast y ggplot2.

La inclusion de las variables se hace de acuerdo al siguiente procedimiento: primero se utilizaron

las fechas de los picos de la tercera columna de la Tabla 1 y el modelo de la funcion tipo impulso

5

Page 192: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

192

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

Tabla 1: Correspondencia de fechas entre los fenomenos coyunturales identificados y los respectivos picos en el

historico de hectareas de tierra baldıa adjudicadas a personas naturales

Fecha Coyuntura Fecha del pico en los datos

1953-1957 Gobierno Militar adjudico mas de 1 millon de has 1957

1962-1967 Enfasis en adecuacion de tierras, extincion de dominio de

1.83 millones has adjudicadas como baldıos Reservados

1962 y 1967

1968-1971 Asignacion de tierras bajo la modalidad de “Unidades

Agrıcolas Familiares”

1971

1988-1989 Introduccion del enfoque de desarrollo empresarial, en un

lapso corto de vigencia se titularon cerca de 3.5 millones

de has de baldıos. Comienza el incremento de titulaciones

en la Altillanura.

1991

1998 Transicion entre la aplicacion de la Ley 30 de 1988 y la

resolucion 041. Se siguio titulando hasta 1998 y 1999 los

limites excepcionales de 3000 has En Meta, Casanare,

Arauca y Vichada.

1998

2002 Se dectaron varios casos de corrupcion en titulacion de

baldıos en varias regionales del INCORA.

2002

2006 Se detectaron grave casos de corrupcion en titulacion de

baldıos en el Vichada.

2006

2012 Se habilita nuevamente la UAF maxima en el Vichada

para cumplir metas de gobierno de Juan Manuel Santos.

2012

2016 Firma de los acuerdos de paz. 2016

2018 Ultimo periodo presidencial de Juan Manuel Santos. 2018

mostrado en la Ecuacion (3), luego, se modelo la intervencion debida a los distintos fenomenos

coyunturales identificados segun la Ecuacion (6):

XC = b1I1957t + b2I

1962t + b3I

1967t + b4I

1971t + b5I

1991t + b6I

2002t + b7I

2006t + b8I

2012t + b9I

2016t

+ b10I2018t

(6)

Donde b1, b2, b3, b4, b5 , b6, b7, b8, b9 y b10 son las constantes que modulan los efectos de cada

intervencion. Segundo, se uso la funcion tipo escalon mostrado en la Ecuacion (5), y se anadio la

intervencion debida a los cambios de legislacion como sigue:

XL = a1S1936t + a2S

1961t + a3S

1995t (7)

Donde a1, a2, a3 y a4 son las constantes que modulan la magnitud de cada fenomeno cuyuntural.

Las contanstantes de la Ecuacion (6) y la Ecuacion (7) se calcularon con ayuda del software R-Gui.

El modelo de la Ecuacion (2) fue simplificado al eliminar la ecuacion de transferencia que multiplica

a las variables de intervencion, resultando el siguiente modelo:

6

Page 193: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

193

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE TIERRAS BALDIAS EN COLOMBIA

∆dYt = c+

p∑i=1

ΦiLi∆dYt +

q∑i=1

θiLiεt + εt +XL +XC (8)

Donde XL y XC corresponden a las variables de intervencion descritas en la Ecuacion(6) y la

Ecuacion (7) respectivamente. Adicionalmente, se validaron los supuestos de los residuales del

modelo tales como:

1. Los residuales del modelo at tienen media cero

2. Los residuales del modelo at tienen varianza constante y no hay observaciones atıpicas

3. Los residuales at no estan correlacionados

4. Los residuales tienen un comportamiento normal para todo t

5. Verificar que el modelo es parsimonioso (parametros significativos en el modelo)

Posteriormente se midio el impacto debido a una legislacion de acuerdo a la siguiente expresion:

IML = IL( periodo )− IL( periodo anterior ) (9)

Y el impacto debido a un fenomeno coyuntural como:

IMC = IC (periodo anterior) (10)

Finalmente, se realizo el pronostico para los 5 anos posteriores con el modelo propuesto con los

respectivos intervalos de confianza al 95% de confianza.

4. RESULTADOS

En esta seccion se ajusto el modelo ARIMA con variables de intervencion, se muestran los resultados

obtenidos del impacto de la legislacion y el pronostico del numero de hectareas adjudicadas para

los proximos 5 anos.

4.1. Identificacion del proceso generador de la serie

El valor de lambda donde se obtiene la mayor verosimilitud es λ = 0,015, de esta manera se

realizo la transformacion potencia de la serie mediante Zt = Z0,015t para estabilizar la varianza.

Paralelamente, se identifico si la serie era una estable en nivel, es decir verificar la hipotesis de si

la serie necesitaba al menos una diferenciacion, de acuerdo a la Figura 1, al realizar una inspeccion

visual de la FAC se observa que las correlaciones muestrales decrecen muy lentamente a cero,

senalando que la serie necesita al menos una diferenciacion para ser estable en nivel.

7

Page 194: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

194

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

Figura 1: Funcion de auto correlacion parcial

Del mismo modo, observando la FAC y FACP, se tiene que las primeras correlaciones muestrales son

significativas, lo cual sugirio que se necesitan al menos un parametro de media movil y un parametro

autorregresivo. Posteriormente, se incluyeron las variables de intervencion, para encontrar el orden

del modelo ARIMAX y se probaron distintas combinaciones p, d y q. Se uso el criterio de informacion

de Akaike (AIC), RSME, MAPE y significancia de los parametros autorregresivos y de media movil,

para seleccionar los modelos mas opcionados para realizar el pronostico. Los 3 modelos probados

con un menor valor de estos indicadores se muestran en la Tabla 2.

Tabla 2: Modelos ARIMAX probados junto con su respectivo AIC

ARIMAX(p,d,q) MAPE RSME AIC

(3,1,1) 95.86 80,935.80 2,981.01

(2,1,1) 104.66 82,037.84 2,982.03

(1,1,1) 84.70 88,297.09 2,996.40

De todos los modelos probados el de menor AIC y MAPE fue el ARIMA(1,1,1), al inspeccionar

la significancia tanto el parametro de media movil como de media movil resultaron significativos.

Posteriormente, con el modelo propuesto se validaron los supuestos de los residuales: el supuesto

normalidad evidentemente no se cumplio para ninguno de los modelos propuestos. Sin embargo, los

supuestos restantes si se cumplieron; por ejemplo, al realizar la prueba de Ljung y Box la cual es

una prueba de significacion conjunta de K auto correlacione simultaneas, no se rechazo la hipotesis

nula de independencia de los errores at, a un nivel de significancia del 5% dando ası cumplimiento

a este supuesto para el modelo ARIMA (1, 1, 1). Lo anterior tambien se traduce en que el ajuste

del modelo a los datos reales es bastante cercano como se aprecia en la Figura 2.

En la Tabla 3 y en la Tabla 4 se muestran los resultados obtenidos de calcular el IML y el IMC ,

8

Page 195: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

195

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE TIERRAS BALDIAS EN COLOMBIA

Figura 2: Ajuste del modelo ARIMA (1,1,1) con las variables de intervencion

desarrollados en la Ecuacion (10) y Ecuacion (11) respectivamente.

Tabla 3: Impacto en la dinamica de hectareas adjudicadas debido a cada legislacion

Periodo legislacion IL(periodo) IL(periodo anterior) IML

1901-1935 0.00 0.00 0.00

1936-1960 74,679.00 0.00 74,679.00

1961-1994 294,820.10 74.679.93 220,140.00

1995-2018 481,362.00 294,820.10 186,542.00

Tabla 4: Impacto en la dinamica de hectareas adjudicadas debido a cada fenomeno coyuntural

Fecha IMC

1,957.00 68,576.00

1,962.00 -115,688.00

1,971.00 467,249.00

1,991.00 109,654.00

2,002.00 1,112,322.00

2,006.00 390,144.00

2,012.00 471,840.00

2,016.00 -31,118.00

2,018.00 107,817.00

9

Page 196: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

196

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

Como se aprecia en la Tabla 3, el impacto IML puede interpretarse como la cantidad promedio de

hectareas de tierra baldıa adjudicadas que la legislacion ayudo a aumentar o disminuir en el periodo

de aplicacion. Ası, por ejemplo, la legislacion comprendida en el periodo 1961-1994 fue una de las

que mas aumento el promedio de hectareas adjudicadas (IML = 220, 140), por el contrario, la que

mas disminuyo el promedio fue la del periodo 1901-1935 (IML = 0) y 1936-1960 (IML = 74, 679).

En la Tabla 4 el impacto IMC puede interpretarse como la cantidad de hectareas de tierra baldıa

adjudicadas que el fenomeno coyuntural aumento o disminuyo con respecto al promedio de ad-

judicaciones, ası, por ejemplo, 2 de los fenomenos coyunturales que mas aumentaron el ritmo de

hectareas adjudicadas con respecto a la legislacion fueron la asignacion de tierras bajo la moda-

lidad de “Unidades Agrıcolas familiares” entre el ano 1968-1971 (IMC = 467, 249), los diferentes

hechos de corrupcion presentados entre 1999 -2008 (IMC = 1, 112, 322 y IMC = 390, 144) y haber

habilitado nuevamente la UAF maxima en el Vichada en el ano 2012 (IMC = 471, 840).

El pronostico del numero de hectareas de tierra baldıa adjudicadas en los proximos 5 anos se mues-

tra en la Figura 3. La lınea azul de la Figura 3 representa el valor esperado del pronostico y el area

sombreada son los intervalos de confianza inferior y superior del 95%.

Figura 3: Pronostico ARIMA (1,1,1) con variables de intervencion

La tabla a continuacion muestra el valor esperado del pronostico y su acumulado:

10

Page 197: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

197

ANALISIS DE INTERVENCION EN LA ADJUDICACION DE TIERRAS BALDIAS EN COLOMBIA

Tabla 5: Pronostico de hectareas adjudicadas para los proximos 12 anos

Ano Pronostico miles ha Acumulacion miles ha

2019 516,654 516,654

2020 486,333 1002,988

2021 478,462 1,48,1450

2022 476,419 1,957,869

2023 475,888 2,433,758

Los valores mostrados en la Tabla 5 dejan ver que de acuerdo al valor esperado y los eventos de

intervencion identificados, en los proximos 5 anos se espera un ritmo promedio de 486,751 hectareas

por ano.

5. CONCLUSIONES

El ejercicio planteo un pronostico a mediano plazo sin que estos valores pretendan ser fijos, pues se

entiende que bajo otra modelacion y la inclusion de nuevas legislaciones o coyunturas la prediccion

pueda fluctuar. En el ajuste de la serie temporal se verifico que la combinacion de parametros

fuera significativa, acompanando los analisis con algunos indicadores de ajuste del modelo como el

AIC, RSME y MAPE. Por otro lado, se verifico el supuesto de estacionariedad encontrando que

la serie no era estacionaria y necesitaba al menos una diferenciacion, pese a esto, el supuesto de

la normalidad de los residuales no se cumple debido a la fuerte fluctuacion de la serie posterior al

ano 2000. De la misma manera, se trato de dar solucion mediante la estabilizacion en varianza, sin

embargo, pese a que se mejoro en cuanto a una varianza constante en los residuales, no fue posible

lograr la normalidad de los errores.

No obstante, aunque los errores de prediccion fueron mayores conforme el horizonte temporal in-

cremento, se espera que el ritmo promedio de adjudicacion sea de 486,751 hectareas por ano. Por

lo tanto, dado este ritmo de adjudicacion se preve que para el ano 2025 el gobierno nacional logre

adjudicar mas de 3,000,000 de hectareas (3,407,258 ha aproximadamente) del “Fondo de Tierras

para la Reforma Rural Integral” pactadas en los acuerdos de la habana. Adicionalmente, medir el

impacto de las legislaciones permitio corroborar, tanto los periodos en los cuales la adjudicacion

de tierras fue mayor, como la importancia de incluir estos anos en el modelamiento de la serie

temporal.

Finalmente, el modelo propuesto es una aproximacion estadıstica de la cantidad de hectareas de

baldıos adjudicadas en el paıs, se resalta que en el proceso de modelacion de la serie temporal se

tuvieron en cuenta fenomenos coyunturales y estructurales identificados de acuerdo a la literatura

relacionada que permitıa darles una explicacion historica a estos cambios, y que es probable que

futuros pronosticos pueden cambiar debido al dinamismo de las polıticas de tierras en el paıs.

Adicionalmente, como menciona Machado y Vivas (2009) el ritmo de adjudicacion puede variar

11

Page 198: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

198

LINA MARCELA DIAZ, ROGER FIGUEROA, CARLOS DUARTE

en una region especifica sujeta a factores tales como: la diversidad geografica, de desarrollo vial,

razones polıticas y de cambio en las polıticas publicas, la diferenciacion de estructuras agrarias

regionales y los ritmos de poblamiento y desarrollo de la agricultura.

Referencias

Akaike, H. (1974, December). A new look at the statistical model identification. IEEE Transactions

on Automatic Control , 19 (6), 716-723. doi: 10.1109/TAC.1974.1100705

Box, G. E., y Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical

Society: Series B (Methodological), 26 (2), 211–243.

Box, G. E., y Jenkins, G. (1994). Intervention analysis models and outlier detection. En Time

series analysis: Forecasting and control (3rd ed., cap. 13). Upper Saddle River, NJ, USA:

Prentice Hall PTR.

Instituto Latinoamericano para una Sociedad y un Derecho Alternativos (ILSA). (2015). La

participacion polıtica de las comunidades rurales: Eje de construccion de los nuevos territorios

de paz.

Kongcharoen, C., y Kruangpradit, T. (2013). Autoregressive integrated moving average with

explanatory variable (arimax) model for thailand export. En 33rd international symposium

on forecasting, south korea (pp. 1–8).

Machado, A., y Vivas, J. (2009). Ensayos para la historia de la polıtica de tierras en colombia. De

la colonia a la creacion del Frente Nacional. Bogota: Editorial Gente Nueva.

Mesa de Conversaciones. (2016). Acuerdo final para la terminacion del conflicto y una paz estable

y duradera.

Pena, D. (2010). Analisis de series temporales. Alianza Editorial. Descargado de

https://books.google.com.co/books?id=0VD5tgAACAAJ

Rios, G. (2008). Series de tiempo. Universidad De Chile, Facultad De Ciencias Fısicas y Matema-

ticas.

Villaveces, J., y Sanchez, F. (2014). Tendencias historicas y regionales de la adjudicacion de baldıos

en colombia (Inf. Tec.). Universidad de los Andes-CEDE.

12

Page 199: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

199

ANÁLISIS DE LA CALIDAD DEL AGUA DEL ÁREA METROPOLITANA DE BUCARAMANGA UTILIZANDO LA

METODOLOGÍA STATIS

WATER QUALITY ANALYSIS OF THE METROPOLITAN AREA OF BUCARAMANGA USING THE STATIS METHODOLOGY

EDDY JOHANNA FAJARDO ORTIZ1*, HÉCTOR ROMERO2 Y LIANA PRAKRITY MORENO3

Recibido para revisar M-D-A, aceptado M-D-A, versión final M-D-A.

RESUMEN: En la presente investigación se tiene como finalidad estudiar la calidad del agua en el Área Metropolitana de Bucaramanga (AMB) para el 2018 a través de la metodología STATIS. Teniendo en cuenta que en este tipo de análisis se debe contar con distintos bloques, pero los mismos individuos, se tomó a cada una de las ciudades (Bucaramanga, Girón y Floridablanca) como los bloques y los meses del año como los individuos. Los resultados muestran que Bucaramanga y Girón tienen una calidad de agua similar a diferencia de Floridablanca, que, de las tres poblaciones, es la que mejor calidad posee. También se pudo observar que los meses del año donde se presenta la temporada de lluvias, ésta tiene una mayor turbiedad y nivel de cloruro, pero una menor alcalinidad y PH, en comparación con los meses secos. Esto quiere decir, que en los períodos de invierno la calidad del agua disminuye y en los meses de verano los habitantes del (AMB) consumen un líquido de mayor calidad. PALABRAS CLAVE: Calidad del agua, STATIS, Área Metropolitana de Bucaramanga. ABSTRACT: The purpose of this research is to study the water quality in the Bucaramanga Metropolitan Area (AMB) for 2018 through the STATIS methodology. Bearing in mind that in this type of analysis there must be different blocks but the same individuals, each of the cities (Bucaramanga, Giron and Floridablanca) were taken as the blocks and the months of the year as individuals. The results show that Bucaramanga and Giron have a similar water quality unlike Floridablanca, which, of the three areas, has the best tap water quality. It was also observed that the months of the year where the rainy season occurs, it has a higher turbidity and chloride levels, but a lower alkalinity and PH, compared to the dry months. This means that in the winter periods the water quality decreases and in the summer months the inhabitants of the (AMB) consumes a higher tap water quality. KEYWORDS: Water quality, STATIS, Metropolitan Area of Bucaramanga.

1 INTRODUCCIÓN La calidad de las aguas superficiales de las que se abastece la ciudad de Bucaramanga y su área metropolitana, son de gran importancia para la salud y desarrollo de la región. De acuerdo con el estudio elaborado por la Red de Ciudades Cómo Vamos (2015) tres (3) de cada diez (10) ciudadanos del área metropolitana de Bucaramanga les preocupa la contaminación de las fuentes de agua que son empleadas

1 Departamento de Matemáticas y Ciencias Naturales, Universidad Autónoma de Bucaramanga (UNAB), Avenida 42 No. 48 – 11, Bucaramanga-Colombia. 2Escuela de Economía y Administración, Universidad Industrial de Santander (UIS), Carrera 27 con calle 9, Bucaramanga-Colombia. 3 Universidad de Santander (UDES), Campus Universitario Lagos del Cacique, calle 70 No 55-210 Bucaramanga-Colombia. * Autor de correspondencia: Eddy Johanna Fajardo Ortiz. Correo electrónico: [email protected]

Page 200: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

200

para el consumo humano. Esta realidad hace necesaria el desarrollo de estudios que permitan identificar la dinámica de la calidad del agua en la región. Para Samboni, Carvajal y Escobar (2007) la medición de parámetros físico-químicos es una actividad común que se adelanta en los diferentes municipios de Colombia, sin embargo, se considera clave poder profundizar en la comprensión de estos indicadores para poder adelantar así una revisión a profundidad de una problemática que permanece presente en la colectividad del área metropolitana de Bucaramanga. En este sentido, para el caso específico de la región de Santander, Gómez, Gutiérrez y Torres (2011) analizaron la fragilidad del agua que se encuentra en los depósitos aluviales de la región de Bucaramanga, Santander, así como de su área metropolitana. En particular, se estudió la hidrogeología y las posibles fuentes contaminantes. Haciendo uso de sistemas de información se encontró que las posibles amenazas a las fuentes hídricas se ubican en un rango alto a bajo y, en peligro de una posible contaminación, entre extremo y bajo. Esta situación, hace relevante la necesidad de profundizar en estudios asociados a determinar el comportamiento de la calidad de agua que consumen los habitantes de esta importante región del país. 2 METODOLOGÍA El STATIS (Structuration des Tableaux a TroisIndices de la Statistique) es una técnica exploratoria de análisis de datos multivariantes orientada a situaciones en que se cuenta con un conjunto de matrices de datos cuantitativos. En STATIS se establecen tres índices: uno para cada matriz (ocasiones), uno para los individuos y otro para las variables (Escoufier, 2006). De tal forma, que con esta técnica se pueden analizar datos de tres modos: conjuntos múltiples y datos de tres vías. El objetivo principal es la obtención de información relevante contenida en varias matrices de datos, que permita analizar las proximidades y diferencias entre ellas. Se emplean los reportes de calidad físico-química y microbiológico promedio del agua tratada en la red de distribución de Bucaramanga, Girón y Piedecuesta. Estos datos se encuentran con una periodicidad mensual desde 2008:M1 hasta 2018:M12 y se encuentran disponibles en el Acueducto Metropolitano de Bucaramanga (2019). Para el análisis de los datos se hará uso del software especializado R. 3 RESULTADOS Para realizar el análisis de la interestructura es necesario obtener las matrices RV, la matriz de distancias y la matriz S de coordenadas con el objetivo de comparar los bloques (Municipios) en el plano euclidiano y averiguar la existencia o no de una eventual estructura común, que, en el caso de la calidad de agua, lo que se obtendría es si los municipios tienen una calidad de agua similar o diferente. En el cuadro 1 se muestra el coeficiente RV entre los tres municipios estudiados. Bucaramanga y Girón tienen una calidad de agua similar debido que entre estos dos bloques el coeficiente es el más alto. Es decir, los cambios observados en las relaciones entre las variables fisicoquímicas (turbiedad, PH, alcalinidad y turbiedad) estudiados son parecidos entre estos estos municipios. Respecto a la calidad del agua de Floridablanca es diferente en relación a Girón y Bucaramanga debido que presentan el RV más bajo, igual a 0.2157 con Bucaramanga y 0.2844 con Girón.

Cuadro 1. Matriz RV de los bloques Bucaramanga Floridablanca Girón Bucaramanga 1.0000 0.2157 0.6441 Floridablanca 0.2157 1.0000 0.2844

Girón 0.6441 0.2844 1.0000

Page 201: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

201

El cuadro 2 muestra la matriz que contiene las distancias entre los objetos (municipios), se observa que Floridablanca y Bucaramanga son los municipios que más difieren en su calidad de agua, debido a que el agua de Florida es la de mejor calidad. Las variables fisicoquímicas de los municipios de Girón y Bucaramanga presentan comportamientos similares, esto se puede concluir debido que la distancia entre los respectivos objetos es igual a 0.1171. Por lo tanto, Girón también difiere respecto a la calidad de agua con Floridablanca.

Cuadro 2. Matriz Distancias entre los municipios Bucaramanga Floridablanca Girón Bucaramanga 0.0000 1.2524 0.1171 Floridablanca 1.2524 0.0000 1.1963

Girón 0.1171 1.1963 0.0000 La representación euclídea de la interestructura (figura 1) capta el 60% de la inercia total de los municipios estudiados. Muestra que entre Bucaramanga y Girón tienen una calidad de agua similar a diferencia de Floridablanca, que, de las tres poblaciones, es la que mejor calidad posee.

Figura 1. Plano de la Interestructura

Figura 2. Análisis del compromiso: Gráfica de los meses del año en los dos primeros componentes

Page 202: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

202

En el plano compromiso (figura 2) se observa que los meses del año donde se presenta la temporada de lluvias, el agua tiene una mayor turbiedad y mayores niveles de cloruro, pero una menor alcalinidad y PH, en comparación con los meses secos. Esto quiere decir, que en los períodos de invierno la calidad del agua disminuye y en los meses de verano los habitantes del (AMB) consumen un líquido de mayor calidad 4 CONCLUSIONES El análisis de la interestructura permitió observar que los municipios de Girón y Bucaramanga tienen una calidad de agua similar y Floridablanca posee una calidad de agua diferente a estos dos lugares. Además, el análisis del compromiso muestra que las épocas de verano e invierno en la región afectan los componentes fisicoquímicos estudiados, dejando ver que en los meses de lluvia el agua es menos clara y tiene niveles de cloruro más altos en comparación con los meses secos en los cuales los niveles de alcalinidad y PH aumentan. REFERENCIAS BIBLIOGRÁFICAS Acueducto Metropolitano de Bucaramanga (2019). Informes de calidad del agua. Recuperado de:

http://www.amb.com.co:8081/wp_calidadagua/2017/11/01/calidad-del-agua/ Escoufier, Y. (2006). Operator related to a data matrix: a survey. En A. Rizzi y M. Vichi (Comps.),

COMPSTAT 2006. Proceedings in computational statistics (pp. 285-297). Roma: Physica-Verlag. Gómez, S., Gutiérrez, F. & Torres, C. (2011). Vulnerabilidad, amenaza y peligro a la contaminación de

las aguas subterráneas en la región de Bucaramanga. Revista UIS Ingenierías, 10(1), 51-62. Red de Ciudades Cómo Vamos (2015). Percepción Ciudadana: Red de Ciudades Cómo Vamos.

Recuperado de: https://www.camaradirecta.com/media/6f4a9157097633fd4b25285f808150f84290d280.pdf

Samboni, N., Carvajal, Y. & Escobar, J. (2007). Revisión de parámetros fisicoquímicos como indicadores

de calidad y contaminación del agua. Revista Ingeniería e Investigación, 27(3), 172-181.

Page 203: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

203

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 6

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos

Machine Learninga

Predictive Model of Customer Leakage Using Machine Learning

Algorithms

Jose A. Fuentes b *, Diego A. Pinto c,

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: Las empresas de telecomunicaciones contribuyen al desarrollo economico y tecnologico del

paıs, ya que son necesarias para mantener el flujo de informacion entre diversos canales. Actualmente, en

Colombia, hay varias empresas que prestan servicios moviles y la alta penetracion de las mismas en el mer-

cado ha generado se incremente la competencia por los usuarios. Por consecuente, dichas empresas tienen el

gran reto de mantener la satisfaccion y fidelizacion de los mismos. Para lograr mantener dicha fidelizacion

se hace pertinente analizar y entender el comportamiento de los clientes antes de que se fuguen a otra em-

presa, para anticiparse a este comportamiento se desarrollara en el presente artıculo la descripcion, analisis

y modelamiento por medio de tecnicas de Machine Learning y se escogera la que mejor se ajuste a los com-

portamientos de los usuarios.

PALABRAS CLAVE: Fidelizacion, Fuga de Clientes,Machine Learning, Prediccion..

ABSTRACT: The companies providing telecommunications services contribute to the economic and tech-

nological development of the country, as they are necessary to maintain the flow of information between

various channels. Now, in Colombia, several companies provide mobile services, and the high penetration of

this market has generated that they train in competition for users. Means that companies have the great

challenge of maintaining the satisfaction and loyalty of their users. In order to achieve user loyalty, it is

necessary to understand and understand the behaviour of users before they request portability or flight to

another company, in order to anticipate this behaviour, the analysis and modelling will be developed in this

work through Machine Learning techniques and the choice of what best suits user behaviours.

KEYWORDS: Loyalty, Customer Leak, Machine Learning, Prediction.

aFuentes, J. A & Pinto, D. A (2019). Modelo Predictivo de Fuga de Clientes Utilizando Algoritmos Machine

Learning. Revista de la Facultad de Ciencias, 6 (1), 1–6. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bM.Sc en Estadıstica. Docente. Facultad de Ciencias. Universidad ECCI*Autor para correspondencia: [email protected] en Estadıstica. Cargo Estudiante. Facultad de Ciencias. Universidad ECCI

1

Page 204: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

204

Fuentes, J. A, Pinto, D. A

1. INTRODUCCION

Los usuarios de la red de Internet se han duplicado sustancialmente en poco mas de una decada,

que ya alcanzaban el 50,1% de la poblacion en 2014; hoy en dıa, se calculan un poco mas de 700

millones de conexiones a telefonıa movil, con mas de 320 millones de usuarios Acosta (2019).

El numero de lıneas moviles para el tercer trimestre del ano 2018 fue mas de sesenta y tres millones,

segun el Mintic (2018) d, la cual si se compara con la estimacion preliminar de habitantes segun

estadısticas entregadas por el DANE (2018) en el censo nacional de poblacion y vivienda del ano

2018 es superior en numero.

Desde una perspectiva de inteligencia de negocios, el proceso de gestion de fuga de clientes se

considera una de las tareas mas importantes y se focaliza en dos actividades: la primera, en predecir

una potencial fuga, y la segunda, aplicar medidas preventivas para evitar que esta se produzca. El

correcto tratamiento y analisis de la de informacion recolectada por las empresas juega un papel

de vital importancia para dicho proposito.

En este artıculo se pretende encontrar un modelo que prediga el comportamiento de fuga de clientes

prepago en una empresa prestadora de servicios de telecomunicaciones moviles.

El artıculo se organiza en 2 partes: en una primera parte se realiza un breve acercamiento a la

definicion de Machine Learning (ML). En la segunda parte se exponen algunos resultados obtenidos

como consecuencia de los algoritmos implementados en ML, alcances y las conclusiones a partir de

la metodologıa utilizada.

2. Machine Learning

El ML es una disciplina que subyace en la inteligencia artificial, la cual consiste en el auto-

aprendizaje y realizacion de predicciones partiendo de grandes volumenes de informacion, en otras

palabras, aprenden a identificar ciertos patrones que existen en el conjunto de datos y ası ser capaces

de predecir comportamientos futuros basandose en aquello que aprendio previamente Feigenbaum

(1990).

El ML se divide en dos partes principalmente: aprendizaje supervisado y aprendizaje no supervisado,

como son utilizados dos algoritmos de aprendizaje supervisado solo sera nombrado este ultimo.

2.1. Aprendizaje supervisado

El aprendizaje supervisado se suele usar en problemas de clasificacion: identificacion numerica,

problemas de regresion, prediccion de algun fenomeno y/o comportamiento. Este tipo de aprendizaje

por lo general se diferencia por el tipo de variable respuesta o variable objetivo, la cual es categorica

dMinisterio de las Tecnologıas y las Comunicaciones

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 205: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

205

TITULO DEL ARTICULO EN ESPANOL

o numerica (previamente etiquetada). Los algoritmos de aprendizaje supervisado utilizados estan

dado a continuacion.

2.1.1. Gradient Boosting Machine (GBM)

El GBM construye secuencialmente arboles de regresion en todas las caracterısticas del conjunto

de datos de una manera totalmente distribuida, debido a que cada arbol de decision se construye

en paralelo Drucker (1993).

2.1.2. Distributed Random Forest (DRF)

DRF es una combinacion de arboles de prediccion [6], tal que cada arbol depende de los valores

de un vector de muestreo de variables aleatorias independientemente e igualmente distribuidas y

hace referencia a un algoritmo de inteligencia artificial para problemas de clasificacion y regresion,

el cual, genera un modelo predictivo que implementa arboles de decision que se construyen en el

modelo de forma escalonada y generalizada, permitiendo la optimizacion arbitraria de una funcion

de perdida [7].

2.2. Construccion del Modelo

El modelo se construye sigueindo la metodologia CRISP-DM en Azevedo (2008). Se parte de una

muestra aleatoria del conjunto de datos, conformada por seis meses de registros historicos de los

usuarios con lıneas prepago, en la cual se evidencio el comportamiento de los clientes que se han

fugado y los que siguen activos. Se crean las etiquetas las cuales puede tener varios niveles o clases y

son a las cuales se les debe dar respuesta. En este caso se conto con una etiqueta de interes en la que

existen dos clases, ”1” para referenciar al cliente que se fugo y ”0” para el que no (Cliente activo).

En la exploracion del conjunto de datos se logro determinar que la etiqueta objetivo tiene un alto

grado de desbalance. Debido a que los algoritmos ML son deficientes en presencia de desbalance,

por esta razon es pertinente balancear las clases existentes en la misma realizando Undersampling

y Oversampling para este cometido Estabrooks (2004).

Se implementaron los algoritmos GBM y DRF ya que el rendimiento de ambos algoritmos en

algunos escenarios aleatorios de balanceo fue similar. Se tuvo en cuenta el criterio AUC (Area Bajo

la Curva ”RO”) Davis (2006). Para medir que tan buena clasificacion de las clases existentes tuvo el

modelo. Ademas de eso se utilizo un metodo comun para encontrar un buen modelo por medio de

la validacion cruzada, en la cual se establece n numero de subdivisiones en las que se fragmentara

los datos y los cuales se iran puntuando en la validacion del mismo. Para la eleccion del mejor

modelo se siguio el siguiente proceso:

Se establece la matriz de parametros (secuencias) que se evaluaran.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 206: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

206

Fuentes, J. A, Pinto, D. A

Se establece el numero de subdivisiones de los datos, el estado aleatorio, criterios de parada

del algoritmo, maximo numero de modelos que se planean se entrenen por el algoritmo o

consecuentemente un tiempo lımite de entrenamiento.

Algunas curvas AUC obtenidas para GBM y DRF con diferentes balanceos se muestran en las

figuras 1 y 2 Analizando la prediccion en estos dos algoritmos se obtiene las figuras 3 y 4

Figura 1: Curvas ROC GBM.

Figura 2: Curvas ROC DRF.

Figura 3: Analisis de Precision DRF.

3. CONCLUSIONES

El criterio de seleccion del mejor escenario se realiza analizando las curvas AUC, donde se establecio

que el modelo que tuviera mayor AUC fuera seleccionado ver 5. se realizo el analisis ”lift” el cual es

una medida de la efectividad de un modelo predictivo calculado como la relacion entre los resultados

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 207: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

207

TITULO DEL ARTICULO EN ESPANOL

Figura 4: Analisis de Precision DRF.

obtenidos con y sin el modelo predictivo, donde se evidencio que el modelo con el algoritmo GBM

tuvo el mejor desempeno y por ende fue el seleccionado.

Figura 5: Ganancia del Modelo.

Referencias

Acevedo, A. and Santos, M. KDD, SEMMA and CRISP-DM: a parallel overview. IADS-DM

Acosta, C. P. (2019). Diagnosis on the use of Mobile Technology to support the activities of medium-

sized service companies. Revista Iberoamericana de Produccion Academica. 6: 11

DANE.(2018) [En linea]. ¿Cuantos somos?. [Consultado el 29 de agosto de 2019]. Disponible en:

https://www.dane.gov.co/index.php/estadisticas-por-tema/demografia-y-poblacion/censo-

nacional-de-poblacion-y-vivenda-2018/cuantos-somos

Davis, J., y Goadrich, M.. The relationship between Precision-Recall and ROC curves. In Procee-

dings of the 23rd international conference on Machine learning. pp:233-240. 2006.

Drucker, H., Robert S. and Patrice S.(1993). Boosting performance in neural networks. Advances

in Pattern Recognition Systems using Neural Network Technologies. pp: 61-75

Estabrooks, A., Jo, T. and Japkowicz, N. (2004). A multiple resampling method for learning from

imbalanced data sets. Computational intelligence, 20(1): 18-36

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 208: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

208

Fuentes, J. A, Pinto, D. A

McCarthy, J. and Feigenbaum,E. A. ?In Memoriam: Arthur Samuel. (1990). Pioneer in Machine

Learning. AIMag 11: 10.

Mintic.(2019) [En linea]. Colombia alcanzo los 62,2 millones de lıneas de celular habilitadas. [Consul-

tado el 23 de abril de 2018]. Disponible en: https://www.mintic.gov.co/portal/604/w3-article-

72964.html.

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 209: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

209

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a ??

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

EVALUACION POR SIMULACION DEL EFECTO DE

ESPECIFICAR INCORRECTAMENTE LA MATRIZ DE

VARIANZAS-COVARIANZAS INTRA-INDIVIDUAL EN

MODELOS DE EFECTOS MIXTOS NO LINEALESa

EVALUATION BY SIMULATION OF THE EFFECT OF

MISSPECIFYING THE INTRA-INDIVIDUAL

VARIANCE-COVARIANCE IN NONLINEAR MIXED

EFFECTS MODELS

YENNY VANESA GARCIA B. b *, MARIA EUGENIA CASTANEDA L. c

Recibido dd-mm-yyyy, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: En este trabajo se evalua el efecto de especificar incorrectamente la matriz de varianzas-

covarianzas intra-individual en modelos de efectos mixtos no lineales. Con un modelo mixto no lineal parti-

cular se realizan diferentes escenarios de simulacion para evaluar el efecto en la estimacion de los parametros

del modelo. Tambien se evalua el impacto de otros factores como tamano de la muestra, numero de tiempos

de medicion y magnitud de los efectos fijos.

PALABRAS CLAVE: Estimacion en modelos mixtos, Matriz de covarianza intra-individual, Modelos

mixtos no lineales.

ABSTRACT: In this work, we evaluate the effect of misspecifying the intra-individual variance-covariance

matrix in nonlinear mixed effects models. With a particular nonlinear mixed model, we consider different

simulation scenarios to assess the effect on the estimation of the model parameters. We also evaluate the

impact of other factors such as sample size, number of measurement times and magnitude of the fixed effects.

KEYWORDS: Intra-individual covariance matrix, Mixed models estimation, Nonlinear mixed models.

aGarcıa, Y. V. & Castaneda, M. E. (2019). Evaluacion por simulacion del efecto de especificar incorrectamente la

matriz de varianzas-covarianzas intra-individual en modelos de efectos mixtos no lineales. Revista de la Facultad de

Ciencias, 6 (1), 1–??. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante de Matematicas. Instituto de Matematicas. Universidad de Antioquia*[email protected] en Ciencias Estadıstica. Profesora Asociada. Instituto de Matematicas. Universidad de Antioquia

1

Page 210: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

210

XII Coloquio de Estadística“Métodos Estadísticos en la Generación de Conocimiento"

Universidad Nacional de Colombia - Sede MedellínMedellín, 19 al 22 de Noviembre de 2019

Comparación entre dos pruebas dehipótesis para el vector de medias

Valentina García Velásquez 1a, Jean Paul Piedrahita García 2a,FreddyHernández Barajas 3a,

aUniversidad Nacional de Colombia sede Medellín

Email: [email protected], [email protected], [email protected]

Resumen

En este artículo se muestran los resultados de un estudio de comparación mediante simu-lación Monte Carlo entre dos pruebas de hipótesis para el vector de medias, considerandoel caso de dos problaciones normales bivariadas; las pruebas observadas fueron el test deJames (1954) y el test de krishnamoorthy y Jianqi Yu (2004). Estas pruebas implementan elproblema multivariado de Behrens-Fisher, el cual asume matrices de varianzas y covarianzasdesconocidas y diferentes. El desempeño de las pruebas se midió usando el porcentaje derechazos para la hipótesis nula H0 : µ1 = µ2, empleando diferentes tamaños de muestra,distancias entre los vectores de medias y valores de correlación. Se encontró que ambas prue-bas presentan un comportamiento similar; para el caso de algunos valores de correlación altosy distancias mayores entre vectores de medias, las dos pruebas presentaron un porcentajede rechazos con valores muy cercanos a uno cuando la hipótesis nula era falsa, y cercanos alnivel de confianza cuando la hipótesis nula era verdadera.

Palabras Clave: simulación, problema de Behrens-Fisher, pruebas de hipótesis, análisis multivariado.

1. IntroducciónEn la literatura estadística, se han propuesto varios métodos para probar la igualdad de dosvectores de medias para el caso de dos poblaciones normales p variadas. Debido a las deficien-cias presentadas por el test de Hotelling cuando las matrices de varianzas y covarianzas sondesconocidas y diferentes, se crearon diversas propuestas con el fin de obtener una pruebade hipótesis con resultados más consistentes y eficientes; el caso mencionado anteriormentees también conocido en la literatura como "Problema de Behrens-Fisher".

Entre las propuestas más destacadas para comparar vectores de medias con matrices devarianzas y covarianzas diferentes, encontramos las pruebas de James (1954), Yao (1965),Johansen (1980), Nel y Van Der Merwe (1984), Kim (1992) y Krishnamoorthy y Jianqi Yu(2004).

Actualmente, el software R aún no cuenta con la implementación de las propuestas anterior-mente mencionadas. El paquete stests de R actualmente cuenta con funciones para realizarpruebas de hipótesis multivariadas, además de que considera reunir y organizar todas estaspropuestas para comparar dos vectores de medias.

1

Page 211: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

211

XII Coloquio de Estadística“Métodos Estadísticos en la Generación de Conocimiento"

Universidad Nacional de Colombia - Sede MedellínMedellín, 19 al 22 de Noviembre de 2019

2. Sección técnicaPara probar el porcentaje de rechazo de ambas pruebas de hipótesis se consideró el siguienteconjunto de hipótesis:

H0 : µ1 = µ2 vs H1 : µ1 = µ2

Ambas pruebas de hipótesis presentan el siguiente estadístico:

T 2 =(X1 −X2

)S−1

(X1 −X2

)

S = S1 + S2 =S1

n1+

S2

n2

Test de James (1954)

James realizó una generalización o extensión al método de Welch para la comparación entredos medias, esta vez para el caso multivariado.

Distribución del estadístico:

T 2 ∼ δ(χ2p

)donde δ = A+B(χ2

1−α, p)

A = 1 +1

2p

2∑i=1

[tr

(S−1 Si

)]2

ni − 1

B =1

p (p+ 2)

2∑i=1

tr

[(S−1 Si

)2]

ni − 1+

1

2

2∑i=1

[tr

(S−1 Si

)]2

ni − 1

Test de Krishnamoorty y Jianqi Yu (2004)

Esta prueba es invariante y consiste en la modificación al test de Nel y Van Der Merwe en1986.

Distribución del estadístico:

T 2 ∼(

v p

v − p+ 1

)Fp, v−p+1

v =p+ p2

1

n1

tr

[(S1 S−1

)2]+[tr

(S1 S−1

)]2+

1

n2

tr

[(S2 S−1

)2]+[tr

(S2 S−1

)]2

2

Page 212: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

212

XII Coloquio de Estadística“Métodos Estadísticos en la Generación de Conocimiento"

Universidad Nacional de Colombia - Sede MedellínMedellín, 19 al 22 de Noviembre de 2019

3. Estudio de simulaciónLa comparación de la prueba de hipótesis de James (1954) con la de Krishnamoorthy y JianqiYu (2004) se llevó a cabo por medio de simulación Monte Carlo con 1000 repeticiones, en lacual se consideraron dos escenarios y teniendo en cuenta poblaciones normales bivariadas,valores de correlación y distancias euclideanas entre los dos vectores de medias. Los tamañosmuestrales utilizados fueron: n = 10, 20, 50, 100.

Los escenarios fueron las siguientes:

Escenario 1: dos grupos normales bivariados (denotados por 1 y 2), matrices de cova-rianzas iguales con valores de correlación ρ de 0.1, 0.3, 0.5 y 0.8. Se consideraron seissituaciones de alejamiento gradual para los grupos; el grupo 1 siempre fue el de refe-rencia y estuvo ubicado en el origen del plano cartesiano mientras que las ubicacionesdel otro grupo cambió sobre los ejes. A representa la situación más cercana de vectoresde medias y F la más lejana.

• Situación A: µ1 = (0, 0), µ2 = (0, 0)

• Situación B: µ1 = (0, 0), µ2 = (1, 0)

• Situación C: µ1 = (0, 0), µ2 = (0, 1)

• Situación D: µ1 = (0, 0), µ2 = (1, 1)

• Situación E: µ1 = (0, 0), µ2 = (2, 0)

• Situación F: µ1 = (0, 0), µ2 = (2, 2)

Escenario 2: este escenario es similar al anterior con respecto a las situaciones de losvectores de media para cada grupo y tamaños muestrales; la diferencia está en que seconsideraron matrices de covarianzas diferentes para cada grupo de la siguiente manera:

• Σ1 = 2Σ2

• Σ1 = 3Σ2

4. ResultadosEl comportamiento de ambas pruebas fue similar en todos los casos considerados. Las si-guientes gráficas donde se toman únicamente tres casos, para ilustrar la influencia de ρ, n yk

ρ = 0, Σ1 = 2Σ2

Figura 1:

3

Page 213: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

213

XII Coloquio de Estadística“Métodos Estadísticos en la Generación de Conocimiento"

Universidad Nacional de Colombia - Sede MedellínMedellín, 19 al 22 de Noviembre de 2019

ρ = 0,8, Σ1 = 2Σ2

Figura 2:

ρ = 0,8, Σ1 = 1Σ2

Figura 3:

5. ConclusionesEl comportamiento de ambas pruebas fue muy similar, tanto que en ninguno de losescenarios alguna de las pruebas logró un comportamiento diferente, por tal razón seevidencia como se traslapan.

Ambas pruebas tuvieron un comportamiento en el cual la potencia iba aumentandoconforme la distancia euclideana entre los vectores aumentaba.

La correlación también fue un parámetro que influyó en el comportamiento del por-centaje de rechazos, a medida que aumentaba la correlación la potencia de la pruebatambién lo hacía.

4

Page 214: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

214

XII Coloquio de Estadística“Métodos Estadísticos en la Generación de Conocimiento"

Universidad Nacional de Colombia - Sede MedellínMedellín, 19 al 22 de Noviembre de 2019

Los tamaños de muestra fueron también un factor determinante ya que a menor tamañode muestra en amabas pruebas se dificultó en algunas situaciones detectar la diferenciaen los vectores de medias.

5

Page 215: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

215

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 6

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

CALIBRACION DE TASAS DE UN MODELO DE MARKOV

PARA LIBRO DE ORDENES DINAMICOa

CALIBRATION OF FEES OF A MARKOV MODEL FOR

DYNAMIC ORDER BOOK

Andres Gil b *, Cesar Gomez c,

Recibido 30-10-2019, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: El libro de ordenes es una herramienta ampliamente usada para las negociaciones en los mer-

cados de valores internacionales, donde compradores y vendedores mediante ordenes pueden comerciar con

gran facilidad activos financieros en cualquier nivel de precios y a un volumen determinado. De acuerdo a lo

anterior, se hace necesario comprender la dinamica y el funcionamiento del mismo, desde un punto de vista

tanto de mercado como tecnico que facilitara las decisiones y estrategias de inversion para los participantes.

Se estudiara un proceso estocastico que permite el analisis de las tasas de llegada de las ordenes lımite,

ordenes de mercado y cancelacion con datos reales de una jornada de negociacion y se simulara el libro de

ordenes para estimar trayectorias del precio.

PALABRAS CLAVE: Libro de ordenes, ordenes, volumen, tasas, procesos.

ABSTRACT: The order book is a widely used tool for trading in international stock markets, where bu-

yers and sellers through orders can easily trade financial assets at any price level and at a given volume.

According to the above, it is necessary to understand its dynamics and operation, from both a market and

technical point of view that will facilitate investment decisions and strategies for participants. A stochastic

process that allows the analysis of the arrival rates of limit orders, market orders and cancellation with real

data of a trading day will be studied and finally the order book will be simulated to estimate price trajectories.

KEYWORDS: Limit order book, orders, volume, rates, processes.

aGil Puerta, A.S. & Gomez Velez, C.A. (2019). Calibracion de Tasas de un Modelo de Markov Para Libro de Orde-

nes Dinamico. Revista de la Facultad de Ciencias, 6 (1), 1–6. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstudiante Maestrıa en Estadıstica. Facultad de Ciencias. Universidad Nacional*Autor para correspondencia: [email protected] en Matematicas. Profesor asistente. Facultad de Ciencias. Universidad Nacional

1

Page 216: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

216

Andres Gil, Cesar Gomez

1. INTRODUCCION

Un administrador de fondos supervisa el capital de cara a los riesgos economicos a los que se en-

frenta, por tanto la decision del momento mas oportuno para someter una orden en los sistemas

de transaccion electronicos a un determinado valor y volumen del contrato tiene gran incidencia en

los resultados y en una gestion eficiente del capital, esta tiene que ver con el respaldo o provision

establecida para manejar la fluctuaciones del mercado. De acuerdo a lo anterior, entender las fre-

cuencias a la cual llegan dichas ordenes se hace de vital importancia para la debida ejecucion del

plan de inversion, gestion del riesgo y crear estrategias rentables.

Se realizara un backtesting sobre una muestra de datos con la accion de Amazon (AMZN) para un

dıa de negociacion, en el cual de simulara la dinamica del libro de ordenes, con el fin de probar que

el modelo propuesto por Cont et al. (2010) tiene replicabilidad y mejora la gestion monetaria del

riesgo.

2. Descripcion de un Modelo Estocastico Para el libro de ordenes

Siguiendo la presentacion del modelo propuesto por (Cont et al., 2010). Se considera un mercado

en el que las ordenes lımite se pueden colocar en una malla de precios 1,....,n representando

multiplos de un tick de precio. Se modela el estado del libro de ordenes por medio de un proceso

de Markov en tiempo continuo, tal que:

X(t) ≡ (X1(t), ..., Xn(t))(t≥0) (1)

Donde |Xp (t)| es el numero de ordenes lımite pendientes al precio p, 1 ≤ p ≤ n. Si Xp(t) < 0,

entonces hay −Xp(t) ordenes de compra al precio p, si Xp(t) > 0, en tonces hay Xp(t) ordenes de

oferta al precio p.

La evolucion del libro es guiada por el flujo de ordenes de mercado, ordenes lımite y cancelaciones

en cada nivel de precios, cada uno de los cuales se puede representar como un proceso de conteo

Cont et al. (2010). De acuerdo a Bouchaud et al. (2002) se observa que la entrada de ordenes llegan

con mas frecuencia en las proximidades de los precios de compra/venta y la tasa de llegada de

estas ordenes depende de la distancia a dichos precios. Estos acontecimientos se modelan mediante

procesos de Poisson independientes. Mas precisamente, se asume que, para i ≥ 1,

- Ordenes lımite llegan de acuerdo a un proceso de Poisson con tasa λ(i),

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 217: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

217

Calibracion de Tasas de un Modelo de Markov Para Libro de Ordenes Dinamico

- Ordenes de mercado llegan de acuerdo a un proceso de Poisson con tasa µ,

- Las cancelaciones de ordenes lımite a una distancia de i tick’s se producen a una razon proporcio-

nal a la cantidad de ordenes pendientes, entonces la tasa global de cancelacion para el lote es θ(i)x.

- Los eventos antes mencionados son independientes entre sı.

2.1. Calibracion de Parametros

De acuerdo al proceso de estimacion en Cont et al. (2010), las ordenes son de tamano unitario.

Dicha unidad sera tomada como la media del tamano de las ordenes. En el conjunto de datos,

primero calculamos el tamano promedio de las ordenes de mercado Sm, de las ordenes lımite Sl y

de las ordenes canceladas Sc y elegimos la unidad como el tamano promedio de una orden lımite

Sl, es decir, se cuenta un bloque de ordenes de tamano Sl como un evento, la tasa de llegada de

ordenes lımite para 1 ≤ i ≤ 5 se puede estimar, mediante:

λ(i) =Nl(i)

T(2)

Donde Nl(i) es el numero total de ordenes lımite que llegan a una distancia i desde la mejor

cotizacion opuesta y T el tiempo total de negociacion. El estimador (2) es insesgado, ya que se

definio la tasa de llegada como la cantidad de ordenes que llegan por unidad de tiempo Hendriks

(2014). Nl(i) se obtiene contando el numero de veces que la cantidad (volumen) incrementa en

tamano a una distacia de 1 ≤ i ≤ 5 ticks desde la mejor cotizacion opuesta. Luego extrapolamos

esta tasa de llegada de ordenes lımite ajustando una funcion de potencia de la forma:

λ(i) =k

iα(3)

Para estimar los parametros anteriores k y α, se usara el metodo de ajuse de mınimos cuadrados:

mink,α

5∑i=1

(λ(i) − k

)2

(4)

Para estimar el parametro µ se procede de manera similar. Nuevamente, como definimos que se trata

de una tasa de llegada, sera la cantidad de ordenes de mercado durante una unidad de tiempo. Aun

ası, tambien debemos mantener nuestra unidad de tamano Sl, lo que da como resultado el siguiente

estimador:

µ =Nm

T

Sm

Sl(5)

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 218: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

218

Andres Gil, Cesar Gomez

Donde Nm es la cantidad total de ordenes de mercado durante el periodo de tiempo T

Dado que las tasas de cancelacion en el modelo son proporcionales a la cantidad de ordenes presentes

a un nivel de precio particular, para estimar dichas tasas primero se necesita estimar la forma

promedio libro de ordenes Qi, que es el numero medio de ordenes a un distancia de i ticks desde

la mejor cotizacion opuesta, para 1 ≤ i ≤ 5. Si M es el numero de registros a lo largo del tiempo

y SBi (j) el numero de acciones en oferta a una distancia de i ticks del precio de demanda en la

j-esima fila, para 1 ≤ j ≤ M , se tiene:

QBi =

1

Sl

1

M

M∑j=1

SBi (j) (6)

El vector QAi se obtiene de forma analoga y Qi es el promedio de QA

i y QBi . Un estimador para la

tasa de cancelacion θ(i) viene dado por:

θ(i) =Nc(i)

TQi

Sc

Slpara i ≤ 5 (7)

Nc(i) se calcula contando el numero de veces que una cotizacion disminuye en tamano a una

distancia de 1 ≤ i ≤ 5 ticks desde la mejor cotizacion opuesta.

3. Resultados

El libro del ordenes con el cual se trabajo proporciona datos para la accion de Amazon durante un

dıa de negociacion en microsegundos y contiene 269.747 registros. Este, contiene una profundidad

de 10 ticks, con sus repectivos volumenes. Las observaciones de ese dıa muestran una rueda de

negociacion con bajas ejecuciones de ordenes de mercado respecto a las ordenes lımite o de cance-

lacion, con un oscilacion en el precio entre los 220 y 230 dolares.

Para estimar los parametros λ, µ, θ y los tamanos promedio de las ordenes , primero calculamos el

tamano promedio de las ordenes de mercado Sm, de las ordenes lımite Sl y de las ordenes canceladas

Sc, donde sera la unidad de tamano y se obtienen los siguientes resultados.

Tabla 1: Promedios Sl, Sm y Sc

Medida Sl Sm Sc

Promedio 98.72 71.00 97.26

luego, se estima λ mediante la ecuacion (3), para estimar µ se aplica la ecuacion (5) y por ultimo

para estimar θ se aplica la ecuacion (7), con lo cual se obtienen los siguientes resultados:

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 219: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

219

Calibracion de Tasas de un Modelo de Markov Para Libro de Ordenes Dinamico

Tabla 2: V alores para λ, θ y µ

i 1 2 3 4 5

λ(i) 0.021 0.025 0.048 0.027 0.036

θ(i) 0.13 0.087 0.093 0.032 0.031

µ(i) 0.14

El valor de λ se puede estimar dada la funcion de ley de potencia. Entonces se utiliza la ecuacion

(4)

mink,α

5∑i=1

(λ(i) − k

)2

para encontrar los valores de k y α para la funcion de ley de potencia que se encuentra mas cerca

de la estimacion. Se tiene:

k = 0,15 α = 0,34

4. Conclusiones

- La globalizacion de los mercados financieros, lo grandes volumenes de negociacion transados, la

rapida conexion a la red, la diversidad de productos de inversion a cualquier nivel de riesgo y la

gran variedad de inversores (fondos o individuales), hacen que la dinamica del mercado sea cada

vez mas acelerada y agil. Lo anterior, hace imprescindible el conocimiento del libro de ordenes, la

tasa a la cual llegan estas y la direccion que presumiblemente pueda tomar el precio medio.

- Especıficamente, el libro de ordenes que se analizo, presento en ese dıa mas actividad en ordenes

de cancelacion que de mercado, lo que puede llevar a sobre estimar, por ejemplo, en la tasa de

cancelacion.

- En investigaciones como la de Cont et al. (2010) y Hendriks (2014) someten muestras de datos en

frecuencias en dıas y por periodos mas prolongados con resultados similares en la estimacion de las

tasas del modelo propuesto por Cont et al. (2010). En este trabajo se realizo una modificacion a

dicha estimacion, al utilizar una muestra de datos con frecuencia mas alta (microsegundos), con el

fin de verificar que la cadencia a una distancia de 1 ≤ i ≤ 5 fuera consistente con dichos estudios.

- Una limitante del analisis es la muestra con la cual se trabajo, ya que solo se contaba con un dıa de

negociacion en unidades de microsegundos. Sin embargo, se evidencia mas arrivos de ordenes lımite

en tick’s superiores a 1 y no necesariamente en la vecindad del precio actual, dado la estimacion de

los θ; caso contrario a lo evidenciado en (Cont et al., 2010).

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 220: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

220

Andres Gil, Cesar Gomez

Referencias

Cont, R.; Stoikov, S.; Talreja, R. (2010), A stochastic model for order book dynamics. Operations

research, 58,9, 549-563.

Bouchaud, J.; Mezard, M.; Potters, M.; and others (2002), Statistical properties of stock order

books: empirical results and models. Quantitative finance, 2,4, 251-256.

Hendriks, S. (2014), Building a model for the limit order book. Technische Universiteit Delft.

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 221: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

221

Redes neuronales para segmentación de imágenes médicas

Jean C. Jiménez-Giraldo Facultad de Minas

Av. 80 # 65-223 Medellín, Antioquía

Universidad Nacional de Colombia [email protected]

Andrés . Usuga-Hoyos Facultad de ciencias

Kr. 65 # 59a-110 Medellín, Antioquía

Universidad Nacional de Colombia [email protected]

Javier D . Morales-Aramburo Facultad de ciencias

Kr. 65 # 59a-110 Medellín, Antioquía

Universidad Nacional de Colombia [email protected]

RESUMEN La aumentación de datos en medicina es importante y más aún cuando se quiere trabajar con redes neuronales, ya que la disponibilidad de imágenes de uso libre es poca y por cuestiones de confidencialidad suele ser bastante restringida, esto impide muchas veces exponer los resultados abiertamente y compartir la información con otros investigadores que podrían contribuir a la búsqueda y mejoramiento de nuevas soluciones. En esta propuesta se trabaja con imágenes de una calidad baja debido a las limitaciones de hardware para entrenar la arquitectura Pix2pix, sin embargo se demuestra lo que se puede llegar a conseguir con más capacidad de cómputo, dado que dicha arquitectura puede resolver dos problemas muy importantes; primero la aumentación de imágenes a partir de simples trazos y segundo la segmentación de mamografías reales con el componente a favor de que la cantidad de imágenes requeridas para el entrenamiento no supera el millar.

Palabras Clave Aprendizaje de máquina, segmentación , red neuronal convolucional, pix2pix.

1. INTRODUCCIÓN La segmentación de mamografías es de gran interés en medicina radiológica ya que a partir de ella se puede calcular el porcentaje de granularidad que a su vez permite calcular la dosis idónea de radiación, por otro lado generar una mamografía real a partir de simples trazos es un procedimiento fácil de implementar para aumentar la cantidad de imágenes disponibles, una vez se cuente con la pix2pix ya entrenada, puesto que dibujar trazos es relativamente sencillo en contraposición con dibujar una mama realista que es una tarea complicada sino imposible para un humano común.

2. ESTADO DEL ARTE Existen una amplia gamma de algoritmos para segmentación de imágenes incluyendo las médicas, sin embargo últimamente los avances en inteligencia artificial y en específico en la parte que concierne al aprendizaje profundo han decantado la balanza hacia la preferencia por usar redes neuronales en medicina antes que algoritmos tradicionales, es por eso que de manera acelerada han ido apareciendo arquitecturas cada vez más sofisticadas como la pix2pix[3] que son muy versátiles y permiten resolver gran cantidad de problemas de forma muy eficiente. La arquitectura Pix2pix pertenece a una familia denominada las redes generativas adversarias o GAN[1] que básicamente son dos redes neuronales

que se enfrentan; una de ellas es un generador tipo Unet y la otra un discriminador tipo Path Gan, en específico el generador se suele usar también por sí solo como red para segmentar imágenes médicas pero los resultados de la práctica ha demostrado que el hecho de adicionar un discriminador ayuda en el proceso de aprendizaje y además dota al modelo de la capacidad de ir de un espacio latente a otro y vicevers sin problema, en el caso de la arquitectura Unet por si sola solo se puede ir eficientemente del espacio de las imágenes reales al de las máscaras segmentadas y no del de las máscaras segmentadas al de las imágenes reales, la pix2pix si puede hacer eso. La aumentación de mamografías es un problema que no ha sido muy atacado debido a que el descubrimiento de las arquitecturas GAN que son las que pueden resolverlo es bastante reciente y no hay mucha experiencia en ello, entre los pocos en el mundo que han intentado resolver este problema con éxito esta el Colegio Imperial de Londres[3] que con más de un millón de imágenes entrenó un modelo para generar imágenes realistas a partir de un ruido gaussiano.

3. MÉTODO La red fue programada y entrenada utilizando la biblioteca de código abierto TensorFLow version 2.0 en conjunto con el lenguaje de programación python 3 y una máquina proveída por Google a través de su servicio gratuito en nube denominado Google Colaboratory; dicha máquina contó con las siguientes especificaciones en hardware: 353 gb de memoria de disco solido, 25 gb de memoria RAM y una tarjeta gráfica Nvidia Tesla K80 de 24 GB. El entrenamiento de la red en cada sentido tardó aproximadamente 6 horas completando un total de 200 épocas por entrenamiento.. 3.1. Red Convolucional Completa El modelo Pix2pix está conformado por dos redes neuronales de las la la primera es una red tipo Unet que cuenta con ocho capas de convolución y ocho capas deconvolución, además de tener los correspondientes saltos de conexión indispensables en redes de este tipo, además del generador el discriminador es una red convolucional con 5 capas, ambas redes suman alrededor de 57 millones de parámetros entrenables. En la siguiente imagen se puede observar un esquema simplificado de la arquitectura

Page 222: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

222

Figura 1.Pix2Pix Architecture [Tomado de internet]. 3.2. Conjunto de datos Debido a la restricción de transmisión de información de centros radiológicos, solo se pudieron utilizar en total 500 imágenes de las cuales 400 se destinaron para el entrenamiento del modelo en ambas direcciones y 100 fueron destinadas para hacer la validación; estas fueron recolectadas con el motor de búsqueda de imágenes de Google y Baidú usando palabras clave como "tomosíntesis", "mamografía" o "cáncer de mama" en siete idiomas distintos: español, inglés, ruso, alemán, mandarín, japonés e hindi. Las imágenes recolectadas fueron tratadas manualmente con el fin de tener sus características morfológicas principales; este proceso, haciendo uso del software Autodesk Sketchbook. Algunas de las imágenes de prueba se escalaron además para poder ajustarlas a los requerimientos de tamaño de la red. Otros efectos propios de la imagen como la nitidez, la iluminación o las condiciones de formación se tuvieron en cuenta como factores determinantes en la variabilidad de los resultados y la posibilidad de que estos pudieran enmascarar las características deseadas a la red.

Figura 2. Imágenes reales (parte superior) y correspondientes trazos parte inferior

4. RESULTADOS Y DISCUSIÓN Los resultados obtenidos fueron bastante aproximados a las expectativas y la red aprendió tanto a segmentar commo a generar mamografías sintéticas a partir de simples trazos, en las siguientes imágenes se puede ver como con imágenes que no fueron usadas durante el entrenamiento el modelo aprendió a generalizar y es capaz de aproximarse bastante al objetivo.

Figura 3. Resultados de entrenamiento pasando de imágenes realistas a simples trazos

Figura 4. Resultados de entrenamiento pasando de simples trazos a imágenes realistas Otra experimento que se llevó a cabo para validar el modelo fue ponerlo a prueba en varias láminas pertenecientes tanto a un estudio de tomosíntesis como a otro de resonancia magnética y luego generar a partir de las mismas el modelo 3D segmentado, para este caso solo se utilizó el modelo que va de las imágenes reales a los trazos.

Page 223: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

223

Figura 5. Resultados de aplicar la red entrenada a una tomosíntesis (parte superior) y a una resonancia magnética (parte inferior).

5. REFERENCIAS [1] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley , Sherjil Ozair, Aaron Courville, Yoshua Bengio. “Generative Adversarial Nets”. Departement d’informatique et de recherche op ´ erationnelle ´Universite de Montreal. 2014. [2] Paab G, Konya I. “Image-to-Image Translation with Conditional Adversarial Networks”. Berkeley AI Research (BAIR) Laboratory, UC Berkeley. 2018. [3] Korkinof D , Rijken T, O’Neill M, Yearsley J,Harvey H, Glocker B . “High-Resolution Mammogram Synthesis using Progressive Generative Adversarial Networks”. Department of Computing, Imperial College London. 2019.

6. APÉNDICE En el siguiente repositorio de github podrán encontrar todo el código correspondiente al proyecto junto con el dataset y enlaces para descargar los modelos entrenados.

https://github.com/mandalarotation/Concurso_dotcsv_Proyecto_Mamografias

Page 224: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

224

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 9

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

Tecnicas de minerıa de datos (DM) para el diagnostico del

desempeno escolar en instituciones publicas de Medellın.a

Data mining (DM) techniques for diagnosing school performance

in public institutions in Medellın.

Diana Lucıa Londono Londono. b *, Diego Ivan Villa Chica c

Recibido 30-10-2019, aceptado dd-mm-yyyy, version final dd-mm-yyyy.

Artıculo Investigacion

RESUMEN: Uno de los elementos fundamentales de inquietud y de estudio, en el ambito de la investigacion

educativa esta relacionado con el rendimiento academico de los estudiantes. La tension reside en la manera

en que estos se desempenan al momento de realizar las pruebas de evaluacion estandarizadas o institucionales

para cada area que en definitiva determina la calidad de educacion que se imparte en los colegios. Durante

cierto perıodo del ano escolar la comunidad educativa enfoca su atencion en el vasto universo de estas pruebas,

pues el analisis de los procesos del centro educativo es necesario para perfeccionar las polıticas educativas y

las metodologıas de aprendizaje. Segun los reportes referidos desde el MEN e informes escolares un grueso

numero de estudiantes obtienen desempenos bajos, siendo Humanidades, Ciencias Naturales y especialmente,

Matematicas las areas que evidencian mayor dificultad.

Maquinas de Aprendizaje (ML - Machine Learning) y Minerıa de Datos (DM- Data Mining) son usados para

analizar el desempeno academico de los estudiantes. Ambas tecnicas son una alternativa para identificar y

visualizar las causas del bajo rendimiento en los estudiantes, en particular los del grado once de la I.E.Pbro

Antonio Jose Bernal Londono, institucion de caracter publico del municipio de Medellın. Datos familiares,

socio-demograficos y socio-economicos reales y actualizados fueron recolectados a traves un cuestionario es-

colar en la plataforma de google con preguntas abiertas, binarias y de cinco niveles que fueron de insumo

para la caracterizacion de los estudiantes y tambien seran de interes para los diferentes programas que se

disenan en el colegio. Adicionalmente, resultados academicos en las areas de matematicas, ciencias natura-

les y humanidades de los estudiantes se recopilaron mediante informes durante todo el ano. Este trabajo

presenta un metodo computarizado para la clasificacion automatica del desempeno de los estudiantes en las

areas antes mencionadas las cuales se modelaron bajo tareas de regresion y metodos supervisados para la

clasificacion (binaria y multinivel). Los resultados muestran que se puede lograr una buena precision predic-

tiva del desempeno escolar de los estudiantes al finalizar el ano academico y confirman la importancia de las

calificaciones del primer y segundo periodo escolar, ası como las ausencias, el tiempo de estudio extraeclase,

aLondono, D. L. & Villa, D. I. (2019). Revista de la Facultad de Ciencias, 6 (1), 1–9. DOI:

https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bPhD en Estadıstica. Docente en Matematicas. I. E Pbro Antonio Jose Bernal Londono S, J.*Autor para correspondencia: [email protected] en Educacion Matematica. Docente en Matematicas. I. E Pbro Antonio Jose Bernal Londono S, J.

1

Page 225: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

225

Diana Lucıa Londono, Diego Ivan Villa

la educacion de los padres, entre otras en la prediccion del desempeno. Tecnicas de la minerıa de datos

ofrecen una riqueza de analisis y evaluacion de las variables que inciden en el aprendizaje de los estudiantes

con el fin de definir acciones de mejoramiento, intervencion oportuna y de comprension del proceso de los

estudiantes.

PALABRAS CLAVE: Evaluacion, Rendimiento Academico, Analisis Estadıstico, Educacion, Minerıa de

datos

ABSTRACT: One of the fundamental elements of concern and study, in the field of educational research

is related to the academic performance of students. The tension lies in the way in which they perform at the

time of conducting the standardized or institutional evaluation tests for each area that ultimately determines

the quality of education provided in the schools. During a certain period of the school year, the educational

community focuses its attention on the vast universe of these tests, since the analysis of the processes of

the educational center is necessary to perfect educational policies and learning methodologies. According to

the reports referred from the MEN and school reports, a large number of students obtain low performance,

being Humanities, Natural Sciences and especially Mathematics the areas that show the greatest difficulty.

Machine Learning (ML) and Data Mining (DM) are used to analyze the academic performance of students.

Both techniques are an alternative to identify and visualize the causes of poor performance in students, in

particular those of the eleventh grade of I.E. Antonio Antonio Bernal Londono, a public institution in the

municipality of Medellın. Real and updated family, socio-demographic and socio-economic data were collec-

ted through a school questionnaire on the Google platform that were input for student characterization and

will also be of interest for the different programs that are designed in the school . Additionally, academic

results in the areas of mathematics, natural sciences and humanities of the students were collected through

reports throughout the year. This paper presents a computerized method for the automatic classification of

student performance in the aforementioned areas which were modeled under regression tasks and supervised

methods for classification (binary and multilevel). The results show that a good predictive accuracy of the

students’ school performance can be achieved at the end of the academic year and confirm the importance of

the grades of the first and second school period, as well as absences, extra-class study time, education of the

parents, among others in the prediction of performance. Data mining techniques offer a wealth of analysis

and evaluation of the variables that affect student learning in order to define improvement actions, timely

intervention and understanding of the student process.

KEYWORDS: Evaluation, Academic Performance, Statistical Analysis, Education, Data Mining.

1. INTRODUCCION

La investigacion pretende ingresar a una parte del cosmos de datos generados en la interaccion del

proceso ensenanza-aprendizaje, en las tres areas de Ciencias Naturales, Matematicas y Humanidades

para extraer informacion que permita descubrir e identificar patrones y relaciones entre estas, a

la vez que posibilita la prediccion efectiva del desempeno de los estudiantes al finalizar el proceso

escolar. Diferentes tecnicas de la minerıa de datos (Cortez, 2010; Perner, 2002; Breiman, 2017),

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 226: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

226

Tecnicas de minerıa de datos (DM) para el diagnostico del desempeno escolar en instituciones publicas de Medellın.

han sido utilizadas (es decir, arboles de decision, bosques aleatorios, redes neuronales y maquinas

de vectores de soporte), ademas de las herramientas del software R (Perner, 2013; Allaire, 2012),

en tanto herramienta de investigacion, ofrecen una riqueza diferente de intervencion y evaluacion

de dichos rendimientos para definir acciones cuyo fin sea el de mejorar el rendimiento y de paso la

comprension del proceso de los estudiantes durante su proceso.

La poblacion de interes son los estudiantes del grado once de la I. E Pbro Antonio Jose Bernal

Londono del municipio de Medellın, uno de los colegios de Calidad de la ciudad. Esta ubicada en

la comuna 5 (Castilla), zona norte de la ciudad, Barrio Hector Abad Gomez, frente a la estacion

Acevedo del Metro y el rıo Medellın, entre la avenida la paralela, Empresas Varias y la Plaza de

Ferias. El colegio el presente ano tiene 1938 estudiantes, es de caracter publico y ofrece educacion

formal desde el preescolar a Undecimo. Tiene 5 medias tecnicas: Sistemas, Telecomunicaciones y

pre-prensa digital para medios impresos, Musica y Deporte.

El facil acceso a la institucion educativa proporcionado por el Sistema Integrado del Metro posi-

bilita la llegada de los estudiantes de diferentes zonas de la ciudad, lo que hace que la poblacion

sea altamente heterogenea. El 80% de la poblacion estudiantil se encuentra en el estrato cero y

uno y el resto en el estrato 2. La actividad economica corresponde a labores del hogar, empleados

independientes en trabajos informales y un porcentaje bajo vinculado a empresas o al sector salud

(ver 1). La poblacion estudiantil se encuentra en riesgo de vulnerabilidad en situaciones tales co-

mo: el consumo de drogas, alcohol, la prostitucion, embarazos no deseados, la contaminacion y el

microtrafico.

Tabla 1: Tipo de empleo de los padres

Empleo Casa Educacion Empresa Independiente Otros Salud

Padre 5 2 53 35 36 0

Madre 54 5 27 26 14 5

El PEI obedece a las exigencias del MEN, el modelo pedagogico del colegio es Desarrollista Social,

su metodologıa es el aprendizaje Basado en Proyectos o ABP. El cual agrupa todas las areas del

saber en torno a dar solucion a un reto real o situacion problema del contexto y fomenta el trabajo

colaborativo y busca vincular a los padres de familia y comunidad general a traves de espacios

formativos y participativos.

Se observa diversos ritmos para aprender en los estudiantes de este nivel, hay 7 estudiantes con

barreras en el aprendizaje y la participacion. El 38% de los estudiantes tiene familia nuclear, el 28%

familia extensa y el porcentaje restante familia monoparental. Solo el 25% de los padres (padre o

madre) tiene formacion secundaria, superior universitaria o tecnica y el resto en formacion basica

primaria. Los estudiantes provienen de barrios aledanos a la institucion como Toscana, el Minuto,

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 227: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

227

Diana Lucıa Londono, Diego Ivan Villa

Zamora, Belalcazar, Andalucıa, La Francia, Santo Domingo, Hector Abad y algunos otros de barrios

mas distantes como el Popular I-II, Bello, Aranjuez y Santa Cruz (ver Fig. 1 ).

points.pdf

Figura 1: Ubicacion geografica de la I. E Pbro antonio Jose Bernal Londono

Los datos fueron obtenidos durante el ano 2019 . Aca el enfoque estadıstico del trabajo tiene como

objetivo modelar el desempeno de los estudiantes del grado once a partir de tareas de regresion y

clasificacion dependiendo de variables explicativas de interes definidas como ausencias, resultados

academicos, tipologıa familiar, metodo de ensenanza, educacion y empleo de los padres, consumo de

sustancias psicoactivas o alcohol, entre otras. La aplicacion de metodos supervisados comoDecision

Tree (DT), Support Vector Machines (SVM), Random Forest (RF), Bayes Networks

(BN) and Neural Networks (NN) confirman su alto impacto para predecir el desempeno

academico de los estudiantes.

2. MATERIALES Y METODOS

2.1. Datos de los estudiantes

De acuerdo a MEN (2018), las instituciones educativas en Colombia se rigen a partir de las direc-

trices dadas en el decreto 1290 del 2009, emanado por el Ministerio de Educacion Nacional que

plantea: Cada establecimiento educativo determinara los criterios de promocion escolar de acuerdo

con el sistema institucional de evaluacion de los estudiantes. En el sistema integral de evaluacion

de los estudiantes en la I. E Pbro Antonio Jose Bernal Londono se encuentra la escala valorativa

del desempeno ası: desempeno Superior (S) (4.6 - 5.0), desempeno Alto (A) (4.0 - 4.5), desempeno

Basico (Bs) (3.0 - 3.9) y desempeno Bajo (Bj) (1.0 - 2.9). Durante el ano academico, los estudiantes

son evaluados en tres periodos y la ultima valoracion corresponde a la nota final del grado en el

area.

En este trabajo, se va a analizar un conjunto de datos reales de los estudiantes (131) de 5 grupos

del grado once. Se analizaran algunas variables como calificaciones, numero de ausencias, y varios

atributos demograficos, sociales y familiares y academicos (por ejemplo, edad del estudiante, con-

sumo de alcohol, la educacion de la madre). El objetivo es predecir el rendimiento estudiantil y si

es posible identificar las variables clave que afectan el exito y que conllevan al fracaso escolar. Las

tres clases principales (es decir, Matematicas, Ciencias Naturales y Humanidades) seran modeladas

bajo tres objetivos de la Minerıa de Datos:

1. clasificacion binaria (gana / pierde);

2. clasificacion con cuatro niveles (A - S - Bs - Bj); y

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 228: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

228

Tecnicas de minerıa de datos (DM) para el diagnostico del desempeno escolar en instituciones publicas de Medellın.

3. regresion, con una salida numerica que oscila entre cero (0%) y cinco (100%).

Los targets o atributos M3, CN3 y H3, que corresponde a la nota final del tercer periodo en cada

area, tiene una fuerte correlacion con los atributos M1 y M2, CN1 y CN2 y H1 y H2, referidos a la

nota obtenida por el estudiante en el primer y segundo periodo, de manera correspondiente.

Los datos familiares, socio-demograficos y socio-economicos de los estudiantes fueron obtenidos a

partir de un cuestionario elaborado en google con preguntas abiertas, binarias y de cinco niveles.

Las categorıas de las variables fueron codificadas en orden a facilitar la interpretacion y manejo de

la informacion. En nuestro estudio, el analisis de estas medidas junto con los resultados academicos

de los estudiantes son usadas para caracterizar y predecir su desempeno.

2.2. Modelos de Maquina de aprendizaje

La clasificacion en el campo de la estadıstica, especialmente en el ambito de la generacion de

informacion estadıstica resulta fundamental, dado que toda variable a observar debe contar con

una clasificacion, precisa y clara, que permita captar todos los valores posibles que puede tomar la

variable por medir.

La clasificacion es una de las metas mas importantes en el analisis de un conjunto de datos. Dado que

la clasificacion estadıstica agrupa y organiza la informacion de manera significativa y sistematica,

generalmente en conjuntos completos y estructurados de clases que son definidas por un conjunto

de categorıas, especialmente por su similitud de acuerdo con un grupo de criterios. Ademas estas

son desarrolladas para apoyar y facilitar la recoleccion y organizacion de estadısticas.

En la clasificacion, los modelos son a menudo evaluados usando el porcentaje de clasificaciones

correctas (PCC). Un alto porcentaje de PCC, preferiblemente cercano al 100% sugiere que es un

buen clasificador. Esta medida metrica puede ser computada utilizando la ecuacion:

Φ(i) =

1 if yi = yi

0 if else

PCC =∑N

i=1 Φ(i)N × 100% (1)

donde yi denota el valor predictivo para el i−th ejemplo.

En este trabajo, aplicando algunas tecnicas de clasificacion, se analizara la nota final del tercer

periodo academico de un conjunto de estudiantes (131), en las areas de Matematicas, Ciencias

Naturales y Humanidades, y se analizara su dependencia con todo el conjunto de las variables

observadas, para ello se utilizara los siguientes planteamientos:

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 5

Page 229: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

229

Diana Lucıa Londono, Diego Ivan Villa

Clasificador Binario: El estudiante pasa si M3≥10, por ejemplo, en caso contrario pierde.

Se tendra 4 Niveles de clasificacion: Basado en la escala valorativa institucional.

Regresion: Por ejemplo para el valor de M3 (Salida numerica entre 0 y 5.0)

Tabla 2: Tipo de empleo de los padres

Escala Superior Alto Basico Bajo

Cualitativa S A Bs Bj

Cuantitativa 4.6 - 5.0 4.0 - 4.5 3.0 - 3.9 1.0 - 2.9

Utilizaremos un metodo de validacion cruzada de 10−fold para evaluar el rendimiento de cada

modelo (Cortez, 2010). Este metodo divide los datos en 10 subconjuntos de igual tamano mientras

mantiene la proporcionalidad de las representaciones grupales. Cada modelo se entrena en 9 sub-

conjuntos (con 90% de los datos) y utiliza el subconjunto restante para evaluar su precision. Este

proceso se repite hasta que todos los subconjuntos se hayan utilizado como conjuntos de entrena-

miento y prueba. Luego proporcionaremos la sensibilidad, la especificidad, el area bajo una curva

ROC y el PCC o la precision para cada clasificador.

Todos los analisis estadısticos informados en este documento se realizaron utilizando RMiner y

RandomForest (RF), ambas bibliotecas de codigo libre en el entorno de desarrollo integrado de

Rstudio (lenguaje de programacion ). En particular, la biblioteca utiliza los paquetes rpart (DT),

naivebayes (NB), nnet (NN) y kernlab (SVM).

3. RESULTADOS

Siempre es una buena idea representar graficamente los datos experimentales para un diagnostico

inicial. En la Figura 2 se muestran los Histogramas para el area de matematicas. Aca se realiza la

representacion grafica de la clasificacion de los estudiantes que pierden y ganan, con sus respectivas

ponderaciones en los 4 niveles de desempeno, ademas de las notas obtenidas al final del curso.

math-grades.pdf

Figura 2: Desempeno academico de los estudiantes en el area de matematicas

Adicionalmente, se realizo un analisis de la variable M3 con el resto de las variables observadas

(ver Fig 3), con el fin de determinar aquellas que tuviesen una fuerte incidencia sobre el target. Se

observa que las variables ausencias, M1, M2, EduMadre y TiempoEstudio extraclase, son las mas

representativas tanto en el curso de matematicas, por ejemplo. Para el primer curso se obtuvo el

siguiente porcentaje de importancia M1 (35%), M2 (24%), ausencias (11%), TiempoEstudio (6%)

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 230: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

230

Tecnicas de minerıa de datos (DM) para el diagnostico del desempeno escolar en instituciones publicas de Medellın.

y EduMadre (2%). Estas 5 variables presentan un impacto global del 78% en el modelo SVM, lo

que indica la importancia de combinar caracterısticas sociales y academicas de los estudiantes en

la clasificacion de su desempeno.

imp-1.pdf

Figura 3: Importancia relativa de las variables de entrada.

En las siguiente grafica se observa la relacion del target M3 con la variable M1 (Fig. 4), declarada

de fuerte incidencia en el mismo.

relation.pdf

Figura 4: IRelacion entre la nota final de matematicas y los resultados obtenidos en el primer periodo.

Los arbol de decisiones (DT) es una estructura de ramificacion que representa un conjunto de reglas

(Fig. 5), valores distintivos en forma jerarquica (Breiman, 2017). Esta representacion es analoga a

la representacion logica si − entonces, la cual es de facil de comprension y sistematizacion.

trees-1.pdf trees-2.pdf

Figura 5: Arboles de decision.

Por ultimo aplicamos RandomForest para determnar el MAE (Missed Average Estimate ) (Fig. 6),

por la experiencia podemos observar que este es estadısticamente bueno.

Tanto la sensibilidad como la especificidad de la clase perder, en la clasificacion binaria para SVM

tambien se representa mediante la curva ROC (Fig. 7). Esta curva ROC sugiere modelos predictivos

que son mucho mejores que la lınea de base del clasificador aleatorio (AUC = 0.5).

4. CONCLUSIONES

En la extensa geografıa correspondiente al Municipio de Medellın existen numerosas Instituciones

Educativas preocupadas en ofrecer un pertinente y adecuado proceso de formacion acordes a las

necesidades de su acontecer. Ya sean ellas de caracter publico o privado su razon de ser esta

orientado a encaminar modelos y estrategias que impacten, es lo que se espera, positivamente las

diferentes variables presentes en cada proceso educativo.

Comunmente, cuando se habla de procesos educativos en la escuela o en la Institucion Educativa,

es decir en instancias de la educacion basica y media, existe una tendencia a olvidar la complejidad

que subyace en dicho proceso. La exploracion y las deferencias hacia la correlacion entre las caracte-

rısticas subjetivas de los actores y la objetividad del proceso en poco o en muy poco son tenidas en

cuenta. La finalidad del proceso tiende a quedar reducida al rendimiento academico por parte de los

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 7

Page 231: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

231

Diana Lucıa Londono, Diego Ivan Villa

rf-1.pdf rf-2.pdf

Figura 6: Missed Average Estimate- MAE.

roc-2.pdf

Figura 7: ROC para la clase ”pierde.en la clasificacion binaria.

estudiantes en las pruebas estandarizadas y al ındice de calidad educativa que la Institucionalidad,

segun lo develan esos resultados, permite.

La investigacion se realizo la Institucion Educativa PRESBITERO ANTONIO JOSE BERNAL

LONDONO S.J. perteneciente al nucleo educativo 919. Ubicada en la comuna castilla, en el barrio

Toscana. Entidad de caracter publico de educacion formal que ofrece servicios educativos en los

niveles preescolares, basicos, media academica y tecnica, con una educacion de calidad, basada en

principios de solidaridad, autonomıa, emprendimiento, respeto. Participaron en la investigacion en

total 131 estudiantes del grado Undecimo. 70 de sexo femenino y 61 de sexo masculino. Con una

media de edad igual a 17,2 aproximadamente.

Referencias

Cortez, P. (2010, July). Data mining with neural networks and support vector machines using

the R/rminer tool. In Industrial Conference on Data Mining (pp. 572-583). Springer, Berlin,

Heidelberg.

Breiman, L. (2017). Classification and regression trees. Routledge.

Perner, P. (2002). Advances in Data Mining. Springer Berlin/Heidelberg.

Team, R. C. (2013). R: A language and environment for statistical computing.

https://www.R-project.org/

Allaire, J. (2012). RStudio: integrated development environment for R. Boston, MA, 770.

Educativos, M. (2018). Ministerio de Educacion Nacional.

8 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 232: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

232

Tecnicas de minerıa de datos (DM) para el diagnostico del desempeno escolar en instituciones publicas de Medellın.

Urquijo, S. (2005). Caracterısticas psicologicas y sociales asociadas al desempeno academico.

Mar del Plata, Argentina: Universidad Nacional de Mar del Plata (CONICET). Facultad de

Psicologıa.

Navarro, R. E. (2003). Factores asociados al rendimiento academico. Revista Iberoamericana de

educacion, 33(1), 1-20.

Sanchez Ruiz, A., Mınguez Ceballos, A. L., & Martın-Javato Romero, L. (1990). Hacia un modelo

causal del rendimiento academico (Vol. 43). Ministerio de Educacion.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 9

Page 233: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

233

1 Escuela de Estadística, Universidad del Valle, Cali, Colombia 2 Filiación de los autores: escuela o departamento, institución, dirección. 3 Filiación de los autores: escuela o departamento, institución, dirección. * Autor para correspondencia: e-mail.

ANÁLISIS MULTIVARIADO PARA CARACTERIZAR ESTACIONES DE MUESTREO DE AGUA DEL RÍO CAUCA

MULTIVARIATE ANALYSIS FOR CHARACTERIZING

CAUCA RIVER’S WATER SAMPLING STATIONS

(1*FREDDY GUTIERREZ, 2CATALINA MEDINA, 3ANDRES OCHOA, 4JAVIER OLAYA.)

RESUMEN: El monitoreo del río Cauca es muy importante para determinar las diferentes variaciones en sus contaminantes, pues al generar grandes matrices de datos se requieren herramientas que faciliten la interpretación de estos, para que entidades gubernamentales como la CVC puedan tomar medidas de control e informar a la sociedad. El presente estudio hace uso de diferentes métodos de análisis multivariados que facilitan la investigación del conjunto de múltiples registros de contaminantes del río Cauca, según 19 estaciones de muestreo. En él se presentan técnicas de gran utilidad para este tipo de datos, como la aplicación del Análisis Factorial Múltiple (AFM) y el Análisis de Conglomerados (AC) o Clúster para estudiar la variabilidad de los grupos de estaciones. El objetivo principal consistió en determinar una clasificación para las 19 estaciones a partir de la existencia de características similares entre ellas, durante un periodo comprendido entre 2007 a 2016. Finalmente, se encontró que existen siete clústeres en los cuales se clasifican las estaciones que presentaron homogeneidad. PALABRAS CLAVE: Análisis factorial múltiple; conglomerados; río Cauca. ABSTRACT: The monitoring of the Cauca River is very important to determine the different variations in its pollutants, because when generating large data matrices, tools that facilitate their interpretation are required, so that government entities such as the CVC can take control actions and inform society. The present study makes use of different multivariate analysis methods that facilitate the investigation of the set of multiple pollutant records of the Cauca River, according to the 19 sampling stations. It presents very useful techniques for this type of data, such as the application of Multiple Factor Analysis (MFA) and the Cluster Analysis (CA) to study the variability of the groups of stations. The main objective was to determine a classification for the 19 stations from the existence of similar characteristics between them, during a period from 2007 to 2016. Finally, it was found that there are seven clusters in which the stations that presented homogeneity are classified. KEYWORDS: Multiple factor analysis; clusters; Cauca river.

1 INTRODUCCIÓN El monitoreo de los ríos es importante para preservar la calidad de sus aguas y para conservar su flora y su fauna. Los sistemas de vigilancia están a cargo de las corporaciones autónomas regionales y de las autoridades ambientales locales de los municipios y

Page 234: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

234

consisten en una serie de estaciones en las que se toman medidas de manera periódica. De esta manera, se generan volúmenes de datos relativamente grandes y con una estructura compleja por la presencia de cambios en la periodicidad. El Río Cauca, uno de los principales ríos de Colombia, cuenta con un sistema de vigilancia en 19 estaciones de muestreo a cargo de la CVC (Corporación Autónoma regional del Cauca). Estas estaciones están distribuidas en un recorrido de 420 km desde el norte del departamento del Cauca hasta el sur del departamento de Risaralda, algunas de ellas ubicadas en condiciones geográficas de difícil acceso que impiden la realización de monitoreos y la recolección de las mediciones de variables con la frecuencia deseable. por lo que se pretende desarrollar un tema de investigación, cuyo fin sea caracterizar dichas estaciones de muestreo, a través de la aplicación de técnicas estadísticas multivariantes; según el conjunto de variables medidas en diferentes instantes de tiempo. 2 JUSTIFICACIÓN De acuerdo con la disponibilidad de las estaciones de muestreo, la CVC realiza la recolección de las mediciones de variables como el oxígeno disuelto, pH, conductividad eléctrica, coliformes, sólidos totales, entre otros. Las cuales son necesarias para el proceso adecuado en la medición de cada una de las estaciones. Por tanto, es necesario realizar un estudio para la caracterización de las estaciones a través de técnicas estadísticas como el análisis de conglomerados que permitan agrupar objetos o individuos en base a las características que poseen en común (Peña 2002), y según las clasificaciones de estaciones de muestreo se dé lugar a un análisis descriptivo y espacial de los grupos e interpretación de las características que los definan. Logrando así, que la CVC optimice sus procesos de muestreo en el río Cauca, reduciendo no sólo el número de estaciones muestrales sino también los costos en procesos de medición, envío del personal a terrenos riesgosos, además, ver la contaminación del río Cauca según los años y dependiendo de estos resultados la entidad tome los correctivos necesarios. 2 METODOLOGÍA Las técnicas utilizadas en este caso son el Análisis Factorial Múltiple (AFM) y el Análisis de Conglomerados (AC), las cuales permiten identificar un subconjunto de estaciones que puedan ser agrupadas para construir una red con menos de las 19 estaciones actuales, a partir de características similares entre ellas, a partir de datos recolectados en un periodo comprendido entre 2007 y 2016. El procesamiento de éstos se hace con las herramientas del proyecto R para el procesamiento estadístico utilizando las liberias FactoClass, Factoextra y FactoMineR. 1) Análisis exploratorio. 2) Aplicación del análisis factorial múltiple (AFM). Esta técnica estadística está

relacionada con el Análisis en Componentes Principales (ACP). Se diferencia de éste en que mientras en ACP las variables, de naturaleza cuantitativa, no están estructuradas en forma de partición, en el AFM sí existe una estructura de partición asociada a las variables en estudio.

3) Para la aplicación de esta técnica se deben realizar los siguientes pasos:

Page 235: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

235

(a) Realizar un ACP separado para cada grupo de variables de acuerdo con la estructura de partición de estas. Es decir, aplicar ACP a cada una de las subtablas correspondiente a cada grupo de variables.

(b) Realizar un ACP normado sobre la tabla global, esta tabla está formada por toda la yuxtaposición de todas las subtablas anteriormente ponderadas, según el correspondiente mayor valor propio obtenido de aplicar el ACP. Todo este proceso se realiza con el fin de trabajar con una misma escala.

(c) Estudiar simultáneamente todas las subtablas o grupos de variables, sin perder el concepto o noción de partición definida sobre ellas. Todo esto a través de representaciones gráficas que permiten realizar el estudio sobre cada una de ellas. Entre los gráficos se tiene gráfico de la nube de individuos, nube de variables en diferentes planos factoriales, y representación simultánea de las nubes asociadas a los grupos de variables.

4) Aplicación del análisis de conglomerados. Después de aplicar el AFM, se procede al uso del análisis de conglomerados acorde con los resultados obtenidos y las variables seleccionadas, con el fin de reorganizar la información en grupos homogéneos.

En el estudio se cuenta con registros recolectados por la CVC desde el año 2007 a 2016, en los cuales se destacan variables de interés, presentadas en la siguiente tabla:

Tabla 1. Variables

Nombre Unidad de medida Oxígeno disuelto pH Turbiedad Sólidos totales Demanda bioquímica de oxígeno

mg 02/Litro Unidades de pH Unidades nefelométricas de turbidez mg de sólidos totales/litro mg 02/L

3 RESULTADOS En la figura 1, se evidencia que las estaciones desde 16 hasta la 19 están agrupadas en el cuadrante I y tienden a estar cercanas entre ellas, sin embargo; la estación 15 y 16 están cerca del eje 1, por lo que pueden aportar significativamente a este eje. Por otro lado, desde la estación 11 hasta la 14 se evidencia agrupación de estas estaciones en el cuadrante IV. Para el cuadrante II se evidencia la agrupación de las estaciones 4 hasta la 8. En el cuadrante III se evidencia que la estación 1 y 2 están muy cercanas. La estación 3 se evidencia muy significativa para la construcción del eje 1. En cambio, la estación 9 expresa tener un comportamiento promedio. También se logra ver que los dos primeros ejes explican un 58,14% de variabilidad. En el gráfico 1. sólo se visualizan 10 dimensiones, sin embargo; vale mencionar que el porcentaje de varianza acumulado del 100% fue hasta la dimensión 18. Los resultados permiten identificar siete conglomerados en los cuales se podrían agrupar las 19 estaciones. A continuación, se evidencia la clasificación de las estaciones según la técnica aplicada de conglomerados.

Page 236: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

236

Figura 1. Gráfico de variables e individuos

Figura 2. Dendograma

REFERENCIAS Escofier, B., &Pagès, J. (2008). Analyses factorielles simples et multiples. Objectifs méthodes et interprétation (pp. 328-p). Dunod Lê, S., Josse, J., & Husson, F. (2008). FactoMineR: An R package for multivariate analysis. Journal of statistical software, 25(1), 1-18. Li, Y., Xu, L. & Li, S. (2009), ‘Water quality analysis of the songhua river basin using multivariate techniques’, Journal of water resource and protection 1(2), 110. Ma, X., Zuo, H., Tian, M., Zhang, L., Meng, J., Zhou, X., Min, N., Chang, X. & Liu, Y. (2016), ‘Assessment of heavy metals contamination in sediments from three adjacent regions of the yellow river using metal chemical fractions and multivariate analysis techniques’, Chemosphere 144, 264–272.

Page 237: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

237

Evaluación de la Biodiversidad a través del Enfoque de Análisis de Datos

Funcionales

Biodiversity Assessment Using Functional Data Analysis Approach

Rafael Meléndez1, Geomar Molina1, Shirley Barrios3 , Laura López3

1 Facultad de Ingeniería, Universidad de La Guajira, Riohacha, Colombia 2 Facultad de Ciencias, Universidad de La Guajira, Riohacha, Colombia

3 Estudiante, Maestría en gestión integral frente de cambio climático, Universidad de La Guajira, Colombia 3 Estudiante, Maestría en gestión integral frente de cambio climático, Universidad de La Guajira, Colombia

Resumen

En este trabajo se evaluó indicadores de biodiversidad en el contexto del análisis de datos funcionales ADF. La biodiversidad desempeña un papel importante en el funcionamiento de los ecosistemas y existen varios índices para medirla, pero no alcanzan a capturar diferentes aspectos que intervienen en el ecosistema. Por lo tanto, un inconveniente es que diferentes indicadores pueden conducir a diferentes ordenamientos entre las comunidades de acuerdo a su biodiversidad. Un posible método para evaluarla consiste en utilizar perfiles de diversidad que sean curvas según un parámetro específico. En este contexto, es posible adoptar algunos instrumentos funcionales propuestos en la literatura, como la primera y segunda derivadas, la curvatura, el radio de curvatura y la longitud del arco para su estudio. El paquete R BioFTF permite ordenar comunidades ecológicas basadas en su biodiversidad, teniendo en cuenta tanto la riqueza como la uniformidad, esta nueva herramienta funcional fue propuesta por Di Battista et al (2016). Con este fin se realizó un análisis de moluscos y crustáceos como bioindicador de calidad de agua y salud de los ecosistemas en el Riito y Valle de los Cangrejo (Riohacha-La Guajira) desde septiembre del 2014 hasta agosto de 2015 a través del enfoque funcional. Palabras clave: Biodiversidad, bioindicadores, perfiles de diversidad, análisis de datos funcionales, paquete R BioFTF.

Introducción

La biodiversidad se puede definir como la variabilidad entre organismos vivos (Patil y Taillie, 1979) y generalmente se relaciona con la distribución de cantidades de varias categorías. Se reconoce como una característica importante de los ecosistemas saludables porque está extremadamente vinculado a las funciones ambientales. Muchos estudios han demostrado que incluso pequeñas pérdidas en el número de especies pueden reducir la capacidad de los ecosistemas para realizar su función (Vackaret al., 2012; McCann, 2002). De hecho, la rápida pérdida de biodiversidad que ha ocurrido en las últimas décadas ha hecho que su conservación sea un impulsor clave de las políticas ambientales (Gordon et al., 2011; Pérez-Vega et al., 2012; Di Battista et al., 2016b; Ricotta et al., 2003; Normandera et al., 2012). En este contexto, el uso de herramientas adecuadas para medir la biodiversidad es un tema fundamental.

Los índices más comunes utilizados en la literatura son: el índice de riqueza, el índice de Shannon 2(Shannon, 1948) y el índice de Simpson (Simpson, 1949). Sin embargo, cuando buscamos una definición numérica adecuada de biodiversidad, ningún índice único puede resumir adecuadamente este concepto, que combina la riqueza (el número de especies diferentes) con la uniformidad (el grado en que las abundancias se dividen equitativamente entre las especies) (Ricotta et al., 2003).

Debido a que los perfiles de diversidad se presentan como curvas, se puede considerar que el enfoque de análisis de datos funcionales (FDA) (Ramsay y Silverman, 2005) inspecciona los comportamientos de las curvas en todo el dominio de referencia (Gattone y Di Battista, 2009; De Sanctis y DiBattista, 2012; Di Battista y Fortuna, 2013; Di Battista et al., 2014,2016a, c). En este contexto, Di Battista et al. (2016b) sugirió herramientas funcionales adicionales para mejorar la interpretación de los perfiles de la

1 Profesor titular. E-mail: [email protected] 2 profesor asociado. Email: [email protected]

Page 238: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

238

biodiversidad y lograr una solución al problema de clasificación para comunidades con curvas que se cruzan.

Se propone un nuevo paquete de R llamado BioFTF, diseñado para computar el perfil de diversidad de 𝛽𝛽 y sus herramientas funcionales de biodiversidad vinculadas. El paquete pretende hacer accesible este método a una gran comunidad y permite a los usuarios analizar la biodiversidad de una manera intuitiva. El paquete se centra en la evaluación de la diversidad estadística en un marco ecológico.

Modelo de perfil de diversidad.

Patil y Taillie (1979, 1982) propusieron una clase general de índices de diversidad al definir la diversidad como la rareza promedio de las especies dentro de una comunidad ecológica. En particular, nos referimos al perfil de diversidad beta.

el valor de beta denota la importancia relativa de la riqueza y la uniformidad, mientras que representa la abundancia relativa de la i-ésima especie con. 0 ≤ 𝑝𝑝𝑝𝑝 ≤ 1 𝑦𝑦 ∑ 𝑃𝑃𝑖𝑖 = 1.

Figura 1: perfiles de diversidad de las cinco comunidades.

Fig. 2: primeras derivadas de las cinco comunidades.

Para evaluar la biodiversidad de las comunidades se aplica la función beta(x) que retorna los valores específicos 𝛃𝛃 de los perfiles de diversidad en cada punto del dominio, que se obtienen a través del gráfico de curva (Fig. 1). Debido a que muchos perfiles se cruzan, (Figura 1) solo se puede establecer un orden parcial. De hecho, podemos afirmar que la comunidad 2,3,4 y 5 son más diversa que la comunidad 1 (Desembocadura) a nivel del número de crustáceos.

La Figura 2 muestra que en la primera parte del dominio beta, el valor absoluto de la primera derivada es muy alto para las comunidades 1 (Desembocadura) y algo de la 3 que muestran gran dominio. Mientras que, en el mismo intervalo, el valor de la segunda derivada (Fig. 3) es muy alta para la comunidad 1 (Desembocadura), lo que indica la presencia de una o más especies altamente dominantes y sugiere que hay muchas especies en la comunidad. Además, en la primera parte del dominio, los valores intermedios de la segunda derivada de la comunidad 3 indican que existe una distribución similar de las principales especies; por el contrario, los pequeños valores de la segunda derivada para la comunidad 5 (Cangrejito) sugieren que hay menos especies que las demás.

Page 239: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

239

.

Fig. 3: La segunda derivada de las cinco comunidades.

Fig. 4: la curvatura de las curvas de las cinco comunidades.

La función radio y curvatura, proporcionar los valores de la curvatura y el radio de curvatura y sus gráficas, respe efectivamente. La curvatura (Fig. 4) es muy interesante debido a la posición y al tamaño de su punto máximo. En los picos altos cercanos a beta = 0 destaca solamente la comunidad 1, los cuales se caracterizan por presentar variedad de especies vivas con una fuerte falta de equilibrio entre ellas.

El radio de curvatura proporciona la misma información, pero debe leerse de manera opuesta porque el radio es el inverso de la curvatura. Mientras que la (Fig. 5). Sin embargo, destacamos que estas herramientas resaltan el comportamiento de la curva y no permiten obtener una clasificación en el caso de perfiles que se cruzan.

Page 240: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

240

Fig. 5: radio de curvatura de las cinco comunidades.

Conclusión

En este trabajo se describe las características principales del paquete R BioFTF y presenta una aplicación con datos de crustáceos en cinco zonas de muestreo en el Valle de los Cangrejos y el Riito (Riohacha la Guajira). Inicialmente, resolvemos el problema de clasificar comunidades con perfiles que se cruzan, refiriéndose a una nueva herramienta de diversidad funcional. En segundo lugar, se muestra un paquete fácil de usar para evaluar la biodiversidad en un contexto funcional que también puede ser utilizado fácilmente por otros profesionales no estadísticos. Es muy importante anotar que el paquete BioFTF puede ser utilizado por investigadores interesados en medir la heterogeneidad de diferentes tipos de poblaciones. De hecho, este trabajo se centra en estudiar la biodiversidad, pero el método se puede aplicar a cualquier campo de investigación (por ejemplo, ecología, sociología y economía) en el que abordemos fenómenos expresado por variables categóricas. Tercero, el uso combinado de perfiles de diversidad y análisis de datos funcionales abre un rango de posibles desarrollos de investigación, que era imposible cuando adoptando los simples índices tradicionales.

Bibliografía

Di Battista, T., De Sanctis, A., Fortuna, F., 2016. Clustering functional data on convex function spaces. In: Di Battista, T., Moreno, E., Racugno, W. (Eds.), Selected Papers of the 47th Scientific meeting of the Italian Statistical Society. Springer.

Di Battista, T., Fortuna, F., 2013. Assessing biodiversity profile through FDA. Statistica 1, 69-85.

T. Di Battista, T., Fortuna, F., Maturo, 2016, BioFTF: An R package for biodiversity assessment with the functional data analysis approach , Ecological Indicators 73, 726–732.

R Core Team, 2013. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria http://www.R-project. org/.

Ramsay, J., Silverman, B., 2005. Functional Data Analysis, 2nd ed. Springer, New York.

Page 241: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

241

1, 2, 3 Escuela de Estadística, Universidad del Valle, Cali. * [email protected][email protected]

CONTRIBUCIÓN DE LA PRUEBA RÁPIDA COMBINADA NS1 E IGM / IGG AL DIAGNÓSTICO DE ALGORITMOS CLÍNICOS DE DENGUE EN PACIENTES FEBRILES DE

UNA IPS EN LA CIUDAD DE CALI EN EL AÑO 2012 (CONTRIBUTION OF THE COMBINED QUICK TEST NS1

AND IGM / IGG TO THE DENGUE CLINICAL ALGORITHM DIAGNOSIS IN FEBRILLE PATIENTS OF

AN IPS IN THE CITY OF CALI IN 2012)

CLAUDIA MONTES 1*, JUAN ANGEL 2 y JOSÉ TOVAR 3 MEMORIAS XII COLOQUIO DE ESTADÍSTICA, UNIVERSIDAD NACIONAL DE COLOMBIA, MEDELLIN.

RESUMEN: Se considera que el diagnóstico del dengue es fundamentalmente clínico; sin embargo, las pruebas rápidas basadas en la detección de IgM o NS1/IgM están siendo utilizadas en los servicios de salud. Este estudio determinó la contribución de las pruebas rápidas al diagnóstico de dengue considerando el algoritmo de la Organización mundial de la Salud (OMS) del 2009. Se realizó un diseño de corte transversal de pruebas diagnósticas realizado a partir de análisis secundario de un estudio previo en el Valle. Se compararon la sensibilidad, especificidad, valores predictivos y razones de verosimilitud del uso solo, en serie, y paralelo de los componentes, el diagnóstico clínico tiene una mayor sensibilidad que las pruebas rápidas, pero por si solo no es suficiente para confirmar o descartar dengue.

PALABRAS CLAVE: Dengue; Especificidad; Exactitud; Prueba Diagnóstica Rápida; Sensibilidad. ABSTRACT: Dengue diagnosis is considered to be primarily clinical; however, rapid tests based on the detection of IgM or NS1 / IgM are being used in health services. This study determined the contribution of rapid tests to the diagnosis of dengue considering the algorithm of the World Health Organization (WHO) of 2009. A cross-sectional design of diagnostic tests was carried out based on secondary analysis of a previous study in the Valley. The sensitivity, specificity, predictive values and likelihood ratios of the use alone, in series, and parallel of the components were compared, the clinical diagnosis has a higher sensitivity than rapid tests, but in itself it is not enough to confirm or rule out dengue .KEYWORDS: Dengue; Accuracy; Rapid Diagnostic Test, Evaluation, Sensitivity, Specificity.

1 INTRODUCCIÓN El dengue es una infección causada por cuatro serotipos del virus dengue (DEN 1 a 4), transmitida por la picadura de los mosquitos hembras del género Aedes; principalmente de las especies Aedes aegypti y A. Albopictus. Las manifestaciones generadas por la enfermedad tienen un amplio espectro que va desde infecciones asintomáticas, pasando por episodios clínicos con y sin signos de alarma, hasta cuadros graves y fatales (Guzmán et al., 2010). En Colombia en el año 2017, se notificaron 25.284 casos de dengue, de los cuales 6.689 (27,2%) fueron confirmados por laboratorio y 22 fueron fatales (Sara. E et al., 2017). Actualmente, la sospecha clínica de dengue se basa en el algoritmo propuesto por la OMS en 2009, el cual permite identificar los pacientes que se encuentran en riesgo de desarrollar la forma de dengue grave y se enfoca en el manejo de los casos de dengue. Las pruebas rápidas son usadas en el diagnóstico de dengue, permitiendo detectar simultáneamente antígenos y anticuerpos; sin embargo, estas pruebas no

Page 242: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

242

se recomiendan en el diagnóstico de rutina sino en vigilancia y casos atípicos (WHO & TDR, 2009). A pesar de esto, las pruebas rápidas de dengue se utilizan en los servicios de salud puesto que las pruebas de referencia, que incluyen ELISA para la detección de anticuerpos IgM e IgG y del antígeno NS1; reacción de cadena de la polimerasa de transcripción reversa (RT-PCR); y aislamiento del virus en cultivos celulares, no están disponibles en los servicios de salud (Peeling, RW et al., 2010). Un estudio que combinó la prueba rápida con el algoritmo de OMS 2009 para el diagnóstico de dengue obtuvo una sensibilidad del 91,2% (IC95% 85,5%-94,8%) y especificidad del 94% (IC95% 83,8%-97,9%) (Gan, VC et al., 2014); indicando que las pruebas rápidas de diagnóstico de dengue podrían ser útiles para aumentar la sensibilidad y/o especificidad del diagnóstico clínico de acuerdo con su interpretación, ya sea realizados en serie (primero el diagnóstico clínico y después la prueba) o en paralelo (simultáneamente diagnóstico clínico y prueba). Estos estudios realizados en otros países no serían necesariamente extrapolables a Colombia donde el rendimiento, tanto de la prueba rápida como del diagnóstico clínico, podría ser diferente. El presente estudio describe el desempeño de la prueba rápida NS1 e IgM solas y de su uso combinado (en paralelo y simultáneo) con el diagnóstico clínico de dengue en pacientes de un área endémica en Colombia antes de la emergencia del virus Zika.

2 METODOLOGÍA

2.1 Población de estudio El estudio se realizó a partir de la base de datos de un estudio clínico aleatorizado de la validez e impacto de pruebas diagnósticas de dengue, con sujetos que buscaron atención médica entre febrero y diciembre de 2012 en 14 instituciones de salud de una aseguradora en el Valle del Cauca, a quienes el médico tratante solicitó una prueba diagnóstica de dengue y fueron aleatorizados a prueba rápida IgM/IgG o NS1/IgM/IgG (ambas de Standard Diagnostics Inc.). Para el presente estudio se incluyeron hombres y mujeres de cualquier edad y se excluyeron a quienes tenían resultados incompletos en las pruebas estándar de oro de dengue (combinación de pruebas de dengue ELISA NS1, ELISA IgM, RT-PCR).

2.2 Análisis Estadístico Se realizó un análisis descriptivo de la distribución por edad, sexo, y serotipos de dengue. Se estimaron la sensibilidad, especificidad, valores predictivos positivo y negativo y razones de verosimilitud (Likelihood ratios) positivo y negativo con sus intervalos de confianza al 95% de la prueba rápida realizada en la institución de salud y el diagnóstico clínico dado por el médico tratante cada uno por separado y combinados en serie y en paralelo utilizando como prueba de referencia la combinación de las pruebas confirmatorias de dengue. Los resultados positivos en ELISA NS1 o RT-PCR se consideraron como dengue confirmado y los resultados positivos en IgM ELISA como dengue probables, los demás se consideraron como no dengue. Para los análisis se consideró dengue probable como dengue. La diferencia estadística en la sensibilidad y especificidad de los diagnósticos por separado y combinados se estableció con las pruebas Q de Cochran (Cochran, W.G. 1950) y McNemar para datos pareados, se consideró un valor de P<0,05 como estadísticamente significativo, se realiza a su vez el método bootstrap (Ledesma, R. 2008) para observar la convergencia de las estimaciones.

Page 243: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

243

3 RESULTADOS Y DISCUSIÓN Del total de 726 participantes incluidos en el estudio original, 632 cumplieron con los criterios de elegibilidad y fueron clasificados por las pruebas de referencia como: dengue 116 (18,3%), dengue probable 210 (33,7%) y 303 (48%) como no dengue. La mayoría de los participantes fueron hombres (355/631, 56,3%) con una edad mediana de 21,2 años (rango 0,6 a 83,5), dengue no grave (287/632, 45,4%) y predominio del serotipo DENV 2 (43/51, 84,3%).

Tabla 1 Resultados

Método Sensibilidad% Especificidad% VPN% VPP% LRP LRN

IC (95 %) IC (95 %) IC (95 %) IC (95 %) IC (95 %) IC (95 %)

Solo IgM 38 97,4 94 59,1 14,4 0,64

(32,7-43,5) (94,9-98,9) (88,5-97,4) (54,7-63,5) (7,2-21,6) (0,58-0,69)

Solo DUO 37 94,7 88,6 57,3 6,92 0,66

(29,6-44,7) (89,8-97,7) (78,7-95) (50,8-63,5) (3,43-14) (0,59-0,75)

Solo Diagnóstico Clínico 61,4 66,3 66,4 61,3 1,82 0,58

(56-66,7) (60,7-71,6) (60,8-71,7) (55,8-66,6) (1,52-2,18) (0,5-0,68)

Paralelo Clínico IgM 67,2 65 67,6 64,6 1,92 0,5

(61,8-72,2) (59,4-70,4) (62,5-72,6) (59-70) (1,62-2,28) (0,42-0,6)

Paralelo Clínico DUO 68,5 64 68 64,4 1,9 0,49

(60,8-75,4) (55,8-71,7) (60,4-75) (56,2-72,1) (1,5-2,41) (0,38-0,63)

Serie Clínico Positivo IgM 32,2 98,7 96,4 57,3 24,4 0,68

(27,2-37,6) (96,7-99,6) (91-99) (53-61,6) (9,1-65,4) (0,63-0,74)

Serie Clínico Positivo DUO 34,5 97,3 93,5 57 12,9 0,67

(27,4-42,2) (93,3-99,3) (84,3-98,2) (50,7-63,2) (4,8-34,8) (0,6-0,75)

Serie Clínico Negativo IgM 67,2 65 67,6 64,6 1,92 0,5

(61,8-72,2) (59,4-70,4) (62,2-72,6) (59-70) (1,6-2,28) (0,42-0,6)

Serie Clínico Negativo DUO

79,5 47,5 66 64,4 1,52 0,43

(74,1-84,3) (40,5-54,7) (60,5-71,3) (56,2-72,1) (1,31-1,75) (0,32-0,57)

Los VPP (valores predictivos positivos), representa la probabilidad de que un individuo tenga dengue dado que el resultado es positivo, donde el marco en paralelo y serie negativo, se obtienen altas proporciones alrededor del 64%, en contraste, los VPN (valores predictivos negativos) en los escenarios en serie positivo y solo IgM se obtienen proporciones por encima del 93% que representa la probabilidad de que un individuo no tenga dengue dado que el resultado es negativo. Por último, las razones de verosimilitud positivas indican que son procedimientos muy buenos para confirmar individuos con dengue. Las razones de verosimilitud negativas son menores a uno, lo cual indica que ninguno de los procesos de clasificación y las pruebas aplicadas por si solas resultan ineficientes para descartar individuos con dengue. El bootstrap realizado indica la convergencia de las estimaciones de los parámetros de desempeño, donde se estabilizan cuando es alcanzado un valor de 1000 repeticiones, obteniendo resultados altos en lo que corresponde a la sensibilidad del 79,47%(IC95%79,22- 79,56) en el caso de aplicar el escenario en serie clínico negativo DUO, al analizar el comportamiento de la

Page 244: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

244

especificidad, en el método serie clínico positivo con proceso de clasificación DUO e IgM se obtienen valores considerables del 98,71%(IC95%98,69-98,77) y 97,26%(IC95%97-26 ). Con el test de Cochran se encontró que a un nivel de significancia del 0.05 y considerando que el valor p obtenido fue inferior a cero indica por tanto que se tiene evidencia estadística para pensar que existe una desigualdad en al menos dos procesos clínicos. Al aplicar la prueba de McNemar se obtuvo que se encuentran diferencias entre el proceso de clasificación Paralelo clínico IgM con los procesos en Serie Clínico positivo IgM y DUO, el proceso en Paralelo clínico DUO se determinan diferencias con la pruebas en serie positiva. El proceso de Serie Clínico Positivo IgM presenta diferencia con el proceso aplicado en Serie Clínico Positivo DUO, a su vez hay diferencias estadísticamente significativas con los procesos en serie negativo IgM y DUO. 3 CONCLUSIÓN En conclusión, el diagnóstico clínico tiene una mayor sensibilidad que las pruebas rápidas, pero por si solo no es suficiente para confirmar o descartar dengue. Un resultado positivo en pruebas rápidas en pacientes con diagnóstico clínico de dengue es útil para confirmarlo, pero un resultado negativo no lo descarta. Se necesitan herramientas de diagnóstico clínico y de laboratorio de dengue que sean útiles en zonas endémicas donde son prevalentes otras enfermedades febriles importantes para brindar atención adecuada a los pacientes de dengue. REFERENCIAS Cochran, W.G. (1950). The comparasion of percentages in Matches samples. Biometrika,

37(3/4),256-266. Gan VC, Tan L-K, Lye DC, Pok K-Y, Mok S-Q, Chua RC-R, et al (2014). Diagnosing Dengue

at the Point-of-Care: Utility of a Rapid Combined Diagnostic Kit in Singapore. PLoS One. 2014;9(3):e90037.

Guzman MG, Halstead SB, Artsob H, Buchy P, Farrar J, Gubler DJ, et a (2010). Dengue: a continuing global threat. Nat Rev Microbiol. 2010;8(12 Suppl):S7-16. Disponible en: http://www.ncbi.nlm.nih.gov/pubmed/21079655 PMID:21079655

Ledesma, R. (2008). Introducción al bootstrap. desarrollo de un ejemplo acompañado de software de aplicación.Tutorials in Quantitative Methods for Psychology,4(2):51–60.

Osorio L., Ramirez M., Bonelo A., Villar L & Parra B., ( 2010). Comparison of the diagnostic accuracy of commercial NS1-based diagnostic tests for early dengue infection, 7: 361., doi.org/ 10.1186/1743-422X-7-361, [PMC free article]

Peeling RW, Artsob H, Pelegrino JL, Buchy P, Cardosa MJ, Devi S, et al. (2010). Evaluation of diagnostic tests: dengue. Nat Rev Microbiol. 2010;8(12 Suppl):S30-8. Disponible en: https://www.ncbi.nlm.nih.gov/pubmed/21548185

Sara E, Gómez R (2017), Equipo Funcional de Enfermedades Transmitidas por Vectores, Subdirección de Enfermedades Transmisibles. Instituto Nacional de Salud. Informe de evento Dengue, Colombia, 2017. Disponible en:

http://www.ins.gov.co/buscador-eventos/Informesdeevento/DENGUE2017.pdf World Health Organization (WHO), Tropical Diseases Research (TDR) (2009). Dengue

guidelines for diagnosis, treatment, prevention and control [Internet]. Geneva; Disponible en: http://www.who.int/tdr/publications/documents/dengue-diagnosis.pdf

Page 245: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

245

XII Coloquio de EstadısticaMedellın, Colombia 19 al 22 de Noviembre 2019

METODOS DE CLUSTERING PARA LA SELECCION Y

DISTRIBUCION DEL PORTAFOLIO DE PRODUCTOS EN UN

DARK STORE

CLUSTERING METHODS FOR THE SELECTION AND

DISTRIBUTION OF PRODUCTS IN A DARK STORE

Joan Mejıa a *, Stephany Nieves b**

RESUMEN: En el presente trabajo, se contextualiza el proceso de ventas Online de una marca de retail y

las particularidades de un modelo de operacion Dark Store. Ası mismo, se plantea el problema de la definicion

del portafolio ideal, en el que se deben tener en cuenta factores como la ubicacion geografica, los tiempos

de atencion, el cliente objetivo y el tipo de producto. Para el caso del Dark Store, se trata de una ubicacion

urbana y se busca minimizar el tiempo de recoleccion (picking) y despacho de productos de mercado para

clientes de canales Online. Para la definicion de portafolio, con un modelo RFM se transforma, discretiza

y escala un conjunto de variables transaccionales. Luego, se aplica un metodo de K-means Clustering pa-

ra seleccionar el grupo de productos que contengan las mejores caracterısticas. El resultado de esto es un

surtido que extiende el Pareto de ventas Online. Posteriormente, se analiza la ubicacion fısica del portafolio

seleccionado dentro del Dark Store y, entonces, se incorporan tres estrategias del negocio. Para resolver esta

cuestion, se analiza la conformacion de las canastas de compras por medio de un Clustering jerarquico, cuyo

resultado brinda una guıa de la distribucion del producto en el espacio.

PALABRAS CLAVE: Clustering jerarquico; K-means Clustering; Dark Store; RFM

ABSTRACT: This work contextualizes the Online sales process of a retail brand and the peculiarities of a

Dark Store operating model. It also presents how the problem of defining the ideal portfolio is raised, where

factors such as geographical location, attention times, target customer and type of product must be taken

into account. In this case, the Dark Store is an urban location and, as such, it seeks to minimize the picking

and dispatch time of market products for customers of Online channels. For the portfolio definition, with

a RFM model, a set of transactional variables is transformed, discretized and scaled. Then, to select the

group of products that contain the best features a K-means, a clustering method is applied. The result is

an assortment that extends the Pareto of Online sales. Subsequently, the physical location of the selected

portfolio is analyzed within the Dark Store and, afterwards, three business strategies are incorporated. To

solve this, the conformation of the shopping baskets is analyzed trough a hierarchical Clustering, whose

result provides a guide of the distribution of the product in the space.

aDireccion de Analıtica Digital, Vicepresidencia de Mercadeo e Innovacion, Grupo Exito.*Email: [email protected] de Analıtica Digital, Vicepresidencia de Mercadeo e Innovacion, Grupo Exito.

**Email: [email protected]

1

Page 246: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

246

Stephany Nieves,Joan Mejıa

KEYWORDS: Hierarchical Clustering; K-means Clustering; Dark Store; RFM

1. INTRODUCCION

El Dark Store es un nuevo modelo del negocio Online, el cual consta basicamente de un almacen

cerrado de operacion exclusiva para la preparacion y envıo de los pedidos que llegan desde la tienda

Online. Normalmente, estos se encuentran ubicados en locaciones estrategicas donde existe mayor

densidad demografica. Por otro lado, la distribucion dentro de este tipo de almacen es similar a las

tiendas tradicionales, pero la gran diferencia es que el Dark Store no tiene publicidad ni clientes

sino pickers.

Esta propuesta nace de la necesidad de optimizar la preparacion y el despacho de los alimentos que

se piden a traves de los canales E-commerce (Apps, .Com y domicilios); ya que actualmente estos

pedidos se atienden desde las tiendas tradicionales generando ineficiencia y poca productividad.

El problema se centra en la seleccion y distribucion del portafolio de productos para el Dark

Store; en la primera etapa, el portafolio ideal debe estar definido de acuerdo a las preferencias

de consumo de los clientes objetivo, que en este caso, hacen parte del canal Online. Dado que se

hace necesario un control del inventario, puesto que no existe una bodega, este sera reabastecido

periodicamente y por ende el surtido debe ser preciso. Mientras que para la segunda etapa del

estudio, que corresponde a la ubicacion de los productos ya seleccionados dentro del Dark Store,

se consideran ademas las tres premisas propuestas por el negocio: los productos con mayor venta

deben tener mayor proximidad al puesto de pago, los ıtems que se venden juntos deben ubicarse de

manera contigua y finalmente, se debe evitar la contaminacion cruzada entre tipos de mercancıas;

de esta manera, implementando el Dark Store se obtiene una reduccion en los costos, aumento de

productividad y eficiencias operativas.

2. MARCO TEORICO

En el analisis de cluster o tambien llamado conglomerado, se busca agrupar observaciones dadas sus

caracterısticas, para ası obtener dentro de estos grupos homogeneidad en los elementos y heteroge-

neidad entre los grupos. Este metodo podrıa ser utilizado para segmentar observaciones o variables,

con el fin de encontrar similitudes y de esta manera poder caracterizar e identificar estructuras

dentro de los datos. Algunas medidas de distancia o similaridad de uso mas frecuente segun Dıaz y

Morales (2007) son: distancia Euclidiana, distancia de Mahalanobis o distancia generalizada, dis-

tancia Manhattan, distancia Minkowski, coeficiente de correlacion, coeficiente de asociacion simple

y coeficiente de Jaccard.

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelln

Page 247: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

247

METODOS DE CLUSTERING PARA SELECCION Y DISTRIBUCION DEL PORTAFOLIO EN UN DARK STORE

2.1. Metodo de Clustering K-Means

Este metodo es un proceso de analisis no supervisado, en donde dado un conjunto de datos de n

individuos y p variables, se busca segmentar los individuos en K grupos de tal manera que cada

grupo contenga los elementos mas cercanos al valor medio del cluster. El algoritmo se divide en los

siguientes pasos:

Se seleccionan K puntos iniciales (centroides), esto puede realizarse asignando de forma alea-

toria los objetos a los grupos y tomando sus centros, otra manera es tomar los centros K

como los puntos mas alejados o tambien, seleccionando centros a priori.

Con la distancia calculada de cada elemento al centro de los K grupos, se asigna cada elemento

al grupo mas cercano. Esto se hace reiterativamente y se va introduciendo un nuevo elemento,

por lo cual se calcula nuevamente la media del grupo.

Se comprueba el proceso con algun criterio de optimalidad, reasignando uno a uno cada

observacion, por lo que los elementos de cada grupo y sus centroides varıan.

Se repite el paso anterior hasta que ya no exista algun cambio o mejora. [3]

2.2. Metodo de Clustering jerarquico

En este metodo se parte de la matriz de distancias o tambien llamada de similitudes, la cual se

construye dadas las metricas que se ajustan a los datos y el interes del investigador. Aquı, la

finalidad es clasificar las observaciones en una jerarquıa, de tal manera que los elementos se definan

dentro de un grupo y no puedan salir de este, es decir, la clasificacion es irrevocable. Por otro lado,

existen dos tipos de clustering jerarquico: De agrupacion, cada individuo se agrupa y de division,

un conjunto de individuos se empieza a clasificar hasta llegar a un solo individuo.

3. METODOLOGIA

Para resolver el problema de la seleccion de productos y crear el portafolio optimo y adecuado

para el canal Online, se opta por utilizar el Metodo de K-means, el cual permite dividir la base

de datos de productos que se manejan en el Retail Online en varios segmentos, esto con el fin de

encontrar el mejor de los grupos de acuerdo a tres metricas que se establecieron previamente segun

las necesidades del negocio.

Cabe destacar que, dado el algoritmo a emplear, se debe realizar previamente una estandariza-

cion de las variables. Para este caso, se decide utilizar un modelo RFM (Recencia, frecuencia y

monto de compra) el cual transforma, discretiza y escala un conjunto de variables transaccionales;

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artculo Investigacin 3

Page 248: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

248

Stephany Nieves,Joan Mejıa

usualmente, esta tecnica ordena de menor a mayor y divide en cinco grupos de tamanos balan-

ceados, donde el primer grupo va a contener los individuos con menores valores para la metrica

y el ultimo grupo sera el que esta compuesto por los elementos con mayores valores, esto con el

fin de poder caracterizar un grupo con mayor facilidad, es decir, asignar una clase de acuerdo a

los centroides de estos mismos, ya que los centroides van de 1 a 5 (siendo 1 el centroide del grupo

asociado a la variable con menores valores). En el momento de decidir cual es el numero optimo

de cluster, se realiza un grafico de segmentacion en el cual se mide la distancia dentro de los grupos.

En el siguiente caso, que corresponde a la distribucion de la mercancıa segun las estrategias del

negocio mencionadas anteriormente, se implemento la metodologıa de clustering jerarquico. Se ana-

liza la conformacion de los mercados Online, para ası poder encontrar una metrica la cual muestra

la cercanıa de productos, esto es, conocer los productos que se suelen comprarse juntos. La me-

todologıa del cluster jerarquico, arroja como resultado un dendrograma que permite visualizar la

conformacion de los mercados jerarquicamente de acuerdo a los productos. Ademas de esto, se hace

una variacion en los colores de las ramas del dendrograma, donde se le da un color mas oscuro a

los productos que se venden con mayor frecuencia.

4. RESULTADOS

Teniendo la base de datos con sus variables a utilizar ya transformadas por medio del modelo RFM,

se realiza el grafico de segmentacion, el cual ayuda a definir el numero de cluster adecuados para

segmentar los productos y encontrar el portafolio ideal como se ve en la figura 1.

Figura 1: Grafico de Segmentacion

El grafico anterior, indica que con 5 o 6 segmentos es optimo dividir el portafolio de productos. Las

figuras 2 y 3 muestran como se ven graficamente las agrupaciones de 5 y 6 cluster definiendo como

metrica la distancia euclidiana dada la estructura de los datos.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelln

Page 249: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

249

METODOS DE CLUSTERING PARA SELECCION Y DISTRIBUCION DEL PORTAFOLIO EN UN DARK STORE

Figura 2: (a) 6 Cluster (b) 5 Clases

Figura 3: (a) 5 Cluster (b) 5 Clases

Es facil ver que en la figura 2.a, hay una interseccion clara entre los segmentos, lo cual sugiere

reducir el numero de cluster. Ademas de esto, el numero asociado a las clases es de 5 (figura 2.b),

esto se debe a que dos grupos son de la misma clase. Mientras que la figura 3.a, se ve una separacion

de cluster mas definida, de esta forma, al asignar la clase a cada individuo (punto) se puede apreciar

que cada grupo pertenece a una clase (figura 3.b). En cuanto a las clases, se asignan siguiendo los

parametros optimos, es decir 5 cluster.

Para la asignacion de las clases se tiene en cuenta el promedio de los centroides que corresponden

a cada grupo, y de esta manera, se pueden seleccionar los productos que conforman la clase 5, en

este caso es el grupo 5 que son los que tienen los mejores valores en los centroides.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artculo Investigacin 5

Page 250: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

250

Stephany Nieves,Joan Mejıa

Tabla 1: Asignacion de Clases

Cluster Tamano Cluster Centroide X1 Centroide X2 Centroide X3 Clase Promedio

1 2643 1.63 3.47 3.1 3

2 2630 3.49 1.74 2.15 2

3 3320 3.71 3.49 3.55 4

4 3709 1.43 1.48 1.36 1

5 3457 4.68 4.76 4.8 5

Tabla 2: Distribucion de las metricas en los grupos

Clase Pareto # Productos X1 X2 X3

1 No pareto 3,709 0 1 - 1

2 No pareto 2,630 4 3 2

3 No pareto 2,643 1 4 - 1

4 No pareto 3,320 9 17 5

5 No pareto 1,407 7 15 8

5 Pareto 2,050 52 92 53

Total 15,759 73 132 67

De la Tabla 2, se puede decir que la clase 5 (pareto y no pareto) es la que contiene los mejores pro-

ductos en cuanto a las metricas totales de los grupos, donde ademas se evidencia con los productos

pareto del canal E-commerce.

Continuando con el desarrollo del estudio, referente a la parte de la ubicacion de los productos

seleccionados (clase 5), se analiza la conformacion de los mercados, esto se realiza por medio de

cluster jerarquico de agrupacion. La estructura de la base de datos esta dada por los productos

como individuos y las transacciones como variables; por lo tanto las variables son binarias, donde

1 corresponde a que el producto aparece en la transaccion y 0 lo contrario. A partir de esto, se

determina la distancia a utilizar, para el caso pertinente se refiere a la distancia binaria donde

ademas de esto, se debe definir el criterio de enlace. Para evaluar si estos parametros reflejan la

estructura de los datos, una forma de hacerlo es utilizando el coeficiente de correlacion entre las

distancias Cophenetic el cual indica que entre mas cercano a 1, mejor refleja la similitud dentro de

los individuos. Usualmente, valores por encima a 0.75 se consideran buenos. [5]

La figura 4 muestra el resultado del clustering de alimentos secos, esto se realizo de acuerdo a los

tipos de productos definidos por el negocio, dentro del dendrograma los alimentos mas vendidos

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelln

Page 251: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

251

METODOS DE CLUSTERING PARA SELECCION Y DISTRIBUCION DEL PORTAFOLIO EN UN DARK STORE

se encuentran con colores mas oscuros. Igualmente, para este caso se encontro que con el enlace

“average” se representa con mejor simulitud los datos; este enlace calcula todas las distancias de

todos los pares entre un grupo y otro, y la distancia entre los grupos sera la distancia promedio.

Figura 4: Clustering Jerarquico (alimentos secos)

De esta manera, se puede observar en la figura 4, que los tipos de productos mas vendidos son los

refrescos dado el color de la rama, pero los productos que mas se venden en conjunto, es decir,

estan mas cercanos son los Horneados 1 con los Horneados 2, esto sugiere ubicarlos mas cerca a

los puestos de pago para ası generar mas eficiencia y productividad a la hora de recoger un pedido,

caso contrario sucede con dulces de leche y pasabocas 2, los cuales tienen un color mas claro y,

ademas se encuentran mas alejados entre sı.

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artculo Investigacin 7

Page 252: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

252

Stephany Nieves,Joan Mejıa

5. CONCLUSIONES

Se puede concluir que por medio de estos metodos de Clustering se puede definir el portafolio indi-

cado para Dark Store dada las definiciones del negocio, este procedimiento permite rentabilizar el

portafolio ya que se seleccionan los productos con las mejores metricas; de esta forma se reducen

los excesos de artıculos que no se venden o se venden con poca frecuencia. Ademas, con el estudio

realizado, se conocio el comportamiento de las compras del e-commerce, ya que estas difieren del

mercado tradicional. Por otro lado, se comprendio la conformacion de los diferentes mercados online

con la ayuda del Clustering jerarquico, el cual muestra la cercanıa de los tipos de productos en

forma de arbol lo cual ayuda a la definicion de la ubicacion optima segun el tipo de producto. Esta

forma en que se agrupan los productos se validan con el negocio y muestra resultados satisfactorios

y coherentes a la luz del E-commerce.

Cabe destacar, que para este tipo de estudios es importante determinar el numero adecuado de

cluster, puesto que una eleccion diferente y no optima puede generar una variacion significativa,

la cual implica tener individuos o productos en grupos no indicados. Para este caso, cuando se

seleccionaron seis cluster, se pudo visualizar que los cluster se intersectaban generando en diferentes

ejecuciones grupos distintos, lo cual implica que no es una solucion unica. Seguidamente, hay que

establecer una apropiada medida de distancia o similitud y un tipo de enlace; estos van a influir en

la composicion de los cluster reflejando ası la estructura propicia de los datos.

Referencias

[1] Richard Arnold Johnson, Dean W Wichern, et al. Applied multivariate statistical analysis,

volume 5. Prentice hall Upper Saddle River, NJ, 2002.

[2] L.G.D. Monroy. Estadıstica multivariada: inferencia y metodos. Coleccion Textos. Departa-

mento de Estadıstica, Facultad de Ciencias, Universidad Nacional de Colombia, 2007.

[3] Daniel Pena. Analisis de datos multivariantes. 2002.

[4] Alvin C Rencher. A review of “methods of multivariate analysis, ”, 2005.

[5] Joaquın Amat Rodrigo. Clustering y heatmaps: aprendizaje no supervisado, 2017.

https://rpubs.com/Joaquin AR/310338.

8 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medelln

Page 253: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

253

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • Artıculo Investigacion • Paginas 1 a 4

DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684

AVANCES EN LA IMPUTACION DE DATOS FALTANTES DE

PM2.5a

ADVANCEMENTS ON IMPUTATION OF PM2.5 MISSING

DATA

ALEJANDRA OTERO LEYTON b, MAICOL PRESIGA GAMBOA c, JAVIER OLAYA

OCHOA d,

RESUMEN: Los analisis de partıculas finas suspendidas en el aire (PM2.5) enfrentan una dificultad mayor

debida a la presencia casi inevitable de datos faltantes. Esta es una dificultad propia de la operacion de los

sistemas de vigilancia de la calidad del aire. La opcion analıtica mas comun es utilizar metodos de impu-

tacion. En este trabajo se acude al hecho de que las concentraciones de PM2.5 siguen una distribucion normal

cuando se estudian los datos de la hora i, i=1,..., 24, del dıa j, j= 1,..., 7. Ası, si se logra una estimacion

adecuada de la media y la varianza de las mediciones en la hora i del dıa j, es posible usar esta distribucion

para imputar los datos faltantes. Para la estimacion de los parametros de cada distribucion Normal se hace

uso de la metodologıa del analisis de datos funcionales para construir las curvas de la media y la varianza

funcional para cada hora i. En seguida, para evaluar el metodo de imputacion, se contamina la poblacion de

dıas completos con diferentes porcentajes de dıas con datos faltantes, generando dentro de ellos diferentes

brechas horarias de datos faltantes. Posteriormente se realiza la imputacion y se evalua su eficiencia por

medio de los indicadores de desempeno Raız Cuadrada del Error Cuadratico Medio (RMSE), Coeficiente de

Determinacion (R2) y Angulo Espectral (SA). Se evaluaron dos aproximaciones a la imputacion y se observa

que el metodo de imputacion proporciona un muy buen desempeno.

PALABRAS CLAVE: Imputacion, Media funcional, Varianza funcional, Contaminacion Ambiental, An-

gulo Espectral.

ABSTRACT: The analyzes of fine particles suspended in the air (PM2.5) face a huge difficulty due to

the almost inevitable presence of missing data, which is a common trouble in the operation of air quality

monitoring systems. The most widespread analytical option to deal with missing data is to use imputation

methods. In this work, a known fact is that concentrations of PM2.5 have a Normal distribution when data

are studied at hour i, i = 1, ..., 24, of the day j, j = 1, ..., 7. Thus, if an adequate estimate of the mean and

variance of the measurements is achieved in the hour i of the day j, it is possible to use this distribution to

impute the missing data. For the estimation of the parameters of each Normal distribution, the methodology

of functional data analysis is used to construct the curves of the mean and the functional variance for each

aOtero, A. & Presiga, M. & Olaya, J (2019). Avances en la imputacion de datos faltantes de PM2.5. Revista de la

Facultad de Ciencias, 6 (1), 1–4. DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684bEstadıstica, Escuela de Estadıstica, Universidad del Valle, [email protected]ıstico, Escuela de Estadıstica, Universidad del Valle, [email protected]. D., Profesor Titular, Escuela de Estadıstica, Universidad del Valle, [email protected].

1

Page 254: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

254

ALEJANDRA OTERO LEYTON, MAICOL PRESIGA GAMBOA, JAVIER OLAYA OCHOA

hour i. Next, to evaluate the imputation method, the population of full days with different percentages of

days with missing data is contaminated, generating within them different time gaps of missing data. Sub-

sequently, the imputation is made, and its efficiency is evaluated by means of the performance indicators

Square Root of the Mean Square Error (RMSE), Coefficient of Determination (R2) and Spectral Angle (SA).

Two approaches to the imputation were evaluated and we observed that the imputation method showed a

very good performance.

KEYWORDS: Imputation, Functional mean, Functional variance, Environmental pollution, Spectral An-

gle.

1. Introduccion

Uno de los contaminantes que producen las denominadas fuentes moviles es el Material Particulado

(PM). El PM mas estudiado en la actualidad es el PM2.5, que segun Rojas & Galvis (2005) esta

asociada con los niveles de mortalidad y morbilidad de la poblacion ya que su tamano les permite

ingresar de una manera mas sencilla al sistema respiratorio. Las mediciones del PM2.5 presentan

habitualmente datos faltantes en sus mediciones horarias. Con el proposito de darle manejo a es-

ta dificultad mayor, Caicedo & Jimenez (2016) propusieron un metodo basado en el analisis de

datos funcionales. En una primera evaluacion grafica del metodo, se hallaron resultados promiso-

rios. Esta investigacion tiene como fin realizar una evaluacion formal de este metodo de imputacion.

2. Metodo de Imputacion y Escenarios de Simulacion

El metodo de imputacion propuesto por Caicedo & Jimenez (2016) asume una distribucion nor-

mal por cada combinacion horai-dıaj , con parametros estimados a partir de la media y varianza

funcionales del diaj . Proponen que si existe un dato faltante en la hora i del dıa j, este debe ser

imputado por un numero aleatorio generado de la distribucion Normal de la horai-dıaj correspon-

diente. Para efectos del documento esta variante del metodo sera la Propuesta 1. La Propuesta

2 consiste en imputar el promedio de 5 numeros aleatorios de la distribucion Normal de la horai-dıaj .

Al interior de los dıas sin datos faltantes se replica el comportamiento de los dıas que tienen de

1 a 6 datos faltantes, que son los dıas objeto de imputacion en esta investigacion. La generacion

de los escenarios de simulacion se realiza, a grandes rasgos, seleccionando aleatoriamente un %T

de dıas a contaminar (a introducir faltantes) el cual sera de T= 20, 40, 60, 80 y 100%, luego se

toma cada dıa y se elige que tipo de brecha de faltantes se introducira (de tamano 1, 2,... hasta

6) y el numero de estas (para las brechas de tamano 1, 2 y 3) teniendo en cuenta que se pueden

introducir hasta 6 datos faltantes por dıa. Posteriormente se elige(n) aleatoriamente la(s) hora(s)

donde apareceran estas brechas y, cuando se genere el dato faltante, se realiza la imputacion por

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 255: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

255

AVANCES EN LA IMPUTACION DE DATOS FALTANTES DE PM2.5

medio de las propuestas 1 y 2. Finalmente se evaluan estas propuestas por medio de los indicadores

de desempeno RMSE, R2 y SA los cuales son muy utilizados en este tipo de investigaciones (Gomez-

Carracedo et al., 2014; Williams et al., 2018). Este proceso se realiza 1000 veces por cada%T de

dıas contaminados y lo que se reporta por cada indicador es el promedio y el rango de valores de

estas simulaciones. Los escenarios de simulacion y los resultados obtenidos estan basados en los

registros horarios del PM2.5 de la estacion Univalle, de la ciudad Santiago de Cali en el ano 2017.

3. Resultados

Tabla 1: Desempeno de las dos propuestas de imputacion en los escenarios de simulacion generados.

% Dıas con faltantes (%T ) Imputacion RMSE R2 SA

Propuesta 1 12.807 (8.934; 19.162) 0.023 (0; 0.201) 0.043 (0.042; 0.0435)20%

Propuesta 2 11.168 (7.936; 15.287) 0.039 (0; 0.281) 0.039 (0.0385; 0.0395)

Propuesta 1 12.749 (9.771; 16.642) 0.015 (0; 0.169) 0.043 (0.0428; 0.0434)40%

Propuesta 2 11.111 (8.737; 14.125) 0.029 (0; 0.172) 0.038 (0.0379; 0.0386)

Propuesta 1 12.813 (10.686; 15.154) 0.011 (0; 0.087) 0.043 (0.0428; 0.0433)60%

Propuesta 2 11.193 (9.173; 13.423) 0.024 (0; 0.148) 0.038 (0.0379; 0.0386)

Propuesta 1 12.827 (10.963; 15.192) 0.01 (0; 0.079) 0.043 (0.0428; 0.0435)80%

Propuesta 2 11.227 (9.421; 13.714) 0.023 (0; 0.117) 0.038 (0.0379; 0.0386)

Propuesta 1 12.828 (11.173; 15.062) 0.009 (0; 0.068) 0.043 (0.0428; 0.0435)100%

Propuesta 2 11.209 (9.661; 12.601) 0.022 (0; 0.104) 0.038 (0.0379; 0.0386)

La tabla 1 muestra que la Propuesta 2 presenta un mejor desempeno que la propuesta 1 en todos

los escenarios de simulacion. Aunque se evidencian desempenos debiles de ambas propuestas en la

evaluacion punto a punto (indicado por el pobre desempeno del indicador R2), esto es algo que no

debe sorprender, ya que la naturaleza del metodo esta basada en la generacion de numeros aleatorios

haciendo poco probable hallar relaciones lineales entre los valores imputados y reales. De otra parte

el Angulo Espectral (SA) evidencia el buen desempeno de ambas propuestas direccionadas al analisis

de datos funcionales. El SA ∈ [0, π], donde 0 indica que la forma de las dos curvas funcionales, la

estimada originalmente y la estimada luego de realizar la imputacion, es la misma. Esta premisa

se confirma al observar la figura 1 donde se observa que la forma de la media funcional de los

dıas imputados (dıas que tenıan hasta 6 datos faltantes) es casi identica a la de los dıas sin datos

faltantes.

4. Conclusiones

De acuerdo con los indicadores RMSE y SA, se evidencia el buen desempeno de las dos variantes

del metodo propuesto por Caicedo & Jimenez (2016), direccionadas al analisis de datos funcionales.

Y se evidencia que el indicador R2 no es adecuado para evaluar esta propuesta de imputacion, ya

V 6 N1 enero-junio de 2017 • ISSN-e 2357-5749 • DOI: https://doi.org/10.15446/rev.fac.cienc.v5n2.56684 • Artıculo Investigacion 3

Page 256: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

256

ALEJANDRA OTERO LEYTON, MAICOL PRESIGA GAMBOA, JAVIER OLAYA OCHOA

5 10 15 20

2025

30

Propuesta 1

Hora

PM2.

5(m

g/ m

3)

5 10 15 20

2025

30

Propuesta 2

Hora

Figura 1: Curva Media funcional de los dıas imputados (curvas grises), dıas completos (curvas azules) y la media

funcional combinando estos resultados (curvas naranja).

que este indicador evalua el desempeno punto a punto, lo que conducira necesariamente a que sus

valores sean bajos. La Propuesta 2 se desempena mejor, aunque esto puede deberse a la reduccion

de la varianza propia de la imputacion del promedio.

Referencias

Caicedo, A.; Jimenez, S. (2016), Imputacion basada en analisis de datos funcionales de obser-

vaciones faltantes de contaminacion atmosferica por partıculas finas suspendidas en el aire

(PM2.5). Trabajo de Grado, Escuela de Estadıstica, Universidad del Valle.

Gomez-Carracedo, M., Andrade, J., Lopez-Mahıa, P., Muniategui, S. & Prada, D. (2014), A

practical comparison of single and multiple imputation methods to handle complex mis-

sing data in air quality datasets. Chemometrics and Intelligent Laboratory Systems. 134, 23-33.

Rojas, N.; Galvis, B. (2005), Relacion entre PM2.5 y PM10 en la ciudad de Bogota. Revista de

Ingenierıa. 22, 54-60.

Williams, D.A., Nelsen, B., Berrett, C., Williams, G.P. & Moon, T.K. (2018), A comparison of data

imputation methods using Bayesian compressive sensing and Empirical Mode Decomposition

for environmental temperature data. Environmental Modelling & Software. 102(C), 172-184.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 257: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

257

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede MedellınV ? N? (mes) de 2019 • ISSN-e 2357-5749 • Artıculo Investigacion •

Paginas 1 a 8

ESTIMACION ROBUSTA DEL MODELO DE REGRESION

LINEAL EN PRESENCIA DE MULTICOLINEALIDADa.

ROBUST ESTIMATION OF THE LINEAR REGRESSION

MODEL IN PRESENCE OF MULTICOLLINEARITY

SANTIAGO ORTIZ b *, NICOLAS LANIADO-VALENCIA c, JULIAN ESTEBAN CADAVID d,

HENRY LANIADO e

Artıculo Investigacion

RESUMEN: Este trabajo introduce una alternativa para estimar los coeficientes del modelo regresion lineal

que mitiga a la vez dos problemas frecuentes en la practica y que no suelen ser considerados en los metodos

de estimacion habitual. La presencia de datos atıpicos y la multicolinealidad son aquellos problemas que

violan los supuestos comunes de la tecnica clasica y que generan una gran distorsion en las estimaciones con

los metodos de uso comun. La alternativa investigada considera basicamente estimaciones de los coeficientes

del modelo en dos pasos. Una estimacion de la matriz de covarianzas sobre un recorte de la muestra obtenido

por combinaciones de tecnicas de estimacion robusta, y luego una metodologıa de encogimiento de la matriz

estimada sobre el recorte. La matriz de covarianzas final se utiliza para las estimaciones de aquellos coefi-

cientes. Un exhaustivo estudio de simulacion demuestra evidencia empırica que el error cuadratico medio

de las estimaciones de los coeficientes, ası como el numero condicion medio de la matriz de covarianza son

sustancialmente menores a los obtenidos a traves de estimaciones con mınimos cuadrados ordinarios y otras

tecnicas consideradas en la literatura.

PALABRAS CLAVE: Atıpicos, Correlacion, Encogimiento, Robustez.

ABSTRACT: This work introduces an alternative to estimate the coefficients of the linear regression model

that simultaneously mitigates two common problems in the practice and that are not usually considered in

estimation methods. The presence of outlier observations and multicollinearity are those problems that vio-

late the common assumptions of the classical technique, generating a great distortion of estimates in classical

methods. The investigated alternative basically considers estimates of the coefficients of the model in two

steps. A covariance matrix estimation from non-outlying observations obtained by combinations of robust

aOrtiz, S. & Laniado-Valencia, N. & Cadavid, J. E. & Laniado, H. (2017). Estimacion robusta del modelo de

regresion lineal en presencia de multicolinealidad. Revista de la Facultad de Ciencias, ? (?), 1–8bDepartamento de Ciencias Matematicas. Universidad EAFIT*Autor para correspondencia: [email protected] de Estadıstica. Universidad Nacional de Colombia-Sede MedellındEscuela de Estadıstica. Universidad Nacional de Colombia-Sede MedellıneDepartamento de Ciencias Matematicas. Universidad EAFIT

1

Page 258: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

258

Santiago Ortz, Nicolas Laniado-Valencia, Julian Esteban Cadavid, Henry Laniado

estimation techniques, and then a shrinking methodology of the estimated matrix. The final covariance ma-

trix is used to estimate the regression coefficients. An exhaustive simulation study demonstrates empirical

evidence that the mean square error of the coefficient estimates, as well as, the average condition number

of the covariance matrix are substantially lower than those obtained through estimates with ordinary least

squares and other techniques considered in the literature..

KEYWORDS: Outliers, Correlation, Shrinkage, Robustness.

1. INTRODUCCION

Regresion lineal es un conjunto de tecnicas estadısticas, usadas para el modelamiento y la bus-

queda de relaciones entre una variable respuesta Y y una combinacion de variables predictoras

X1, X2, · · · , Xp (Myers et al., 2012). Uno de los objetivos de esta tecnica es el desarrollo de una

ecuacion matematica que permita estimar valores esperados de Y dado unos valores fijados en los

predictores (Johnson & Wichern, 2002). El ajuste de este modelo viene dado por el calculo de los

coeficientes de regresion β, a traves de la tecnica de Mınimos Cuadrados Ordinarios (OLS por sus

siglas en ingles), la cual busca a traves de una minimizacion de S(b) = (Y −Xb)′(Y −Xb) encontrarlos coeficientes estimados β. La estimacion por OLS resulta ser una alternativa importante en el

ajuste de regresion, sin embargo, requiere de supuestos como no presencia de atıpicos (Rousseeuw

& Leroy, 1987) o predictores incorrelados (Johnson & Wichern, 2002) que en la practica no siempre

se cumplen.

El problema de presencia de observaciones atıpicas ha sido abordado desde varias perspectivas,

tal vez la mas reconocida ha sido el uso de la tecnica de Mınimos Cuadrados Recortados (LTS

por sus siglas en ingles), propuesto por Rousseeuw (1984). Otro enfoque ha sido el desarrollo de

tecnicas robustas y de deteccion de atıpicos multivariantes, como Fast-MCD (Rousseeuw & Van

Driessen, 1999), OGK (Maronna & Zamar, 2002), Kurtosis Projections (Pena & Prieto, 2001; Pena

& Prieto, 2007), entre otras, con el objetivo de realizar estimaciones robustas de la matriz de co-

varianza, para su posterior uso en la estimacion de coeficientes de regresion (Rousseeuw et al., 2004).

Por otra parte, el asunto de mitigacion de multicolinealidad, y por lo tanto, el condicionamiento

de la matriz de diseno, ha sido abordado mediante tecnicas de regresion por regularizacion como

lo son los metodos Ridge (Hoerl & Kennard, 1970), Lasso (Tibshirani, 1996) y Elastic–Net (Zuo

& Hastie, 2005); todas tecnicas muy eficientes, pero que tienen como desventaja la penalizacion

abrupta de predictores, complejidad algorıtmica o la interpretacion de las estimaciones obtenidas. A

pesar de que ambas situaciones problema han sido abordadas por separado desde diversos enfoques,

el empleo de las metodologıas mencionadas no obtienen un buen desempeno cuando se pretende

abordar ambas problematicas a la vez, es decir, tecnicas robustas no necesariamente trabajan bien

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 259: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

259

ESTIMACION ROBUSTA DEL MODELO DE REGRESION LINEAL EN PRESENCIA DE MULTICOLINEALIDAD

para problemas de multicolinealidad, similar ocurre con los metodos de regularizacion en escenarios

de contaminacion.

En el presente trabajo, se tiene como objetivo disenar un procedimiento que permita realizar es-

timaciones de coeficientes de regresion en ambos escenarios, presencia de datos atıpicos y multi-

colinealidad; la propuesta en este estudio es la combinacion de metodos de deteccion de atıpicos

multivariantes y tecnicas de encogimiento de matrices de covarianzas (Ledoit & Wolf, 2004). El ar-

tıculo esta organizado de la siguiente manera, en la Seccion 2 se describe la metodologıa propuesta

para estimar de forma robusta tanto la matriz de covarianza como los coeficientes de regresion en

escenarios de contaminacion y multicolinealidad. En la Seccion 3 se presenta un estudio de simu-

lacion comparando el desempeno del metodo propuesto con otras tecnicas en diferentes escenarios

de contaminacion. Finalmente, en la Seccion 4 se realizan algunas conclusiones, derivadas de los

resultados obtenidos en este trabajo.

2. METODO PROPUESTO

Sea X = (X1, X2, · · · , Xn)′ una muestra aleatoria p–dimensional y sea Y = Xβ un modelo lineal

dado por una combinacion lineal de variables Xi para i = 1, · · · , p. Suponga que este modelo lineal

esta sujeto a las siguientes dos condiciones: 1) En el modelo existen predictores Xi que presentan

alta correlacion con algunosXj para i = j, es decir, el coeficiente de correlacion ρ(Xi, Xj) > 0,7 para

multiples pares de variables y 2) El modelo lineal sigue una distribucion multivariante contaminada,

vista como una combinacion lineal convexa de poblaciones de la forma (1− α)F1 + αF2, dado un

nivel de contaminacion α ∈ (0, 1), es decir, Y1 ∼ F1, Y2 ∼ F2 y donde Y = [Y1, Y2]′.

2.1. Matriz de Covarianza Propuesta

Para dar solucion a la presencia de datos atıpicos, se han desarrollado multiples tecnicas robustas,

que buscan mitigar el impacto de estas observaciones en los estadısticos habituales como el vector

de medias µ o la matriz de covarianza Σ. Entre las tecnicas robustas se encuentran los metodos

propuestos por Maronna & Zamar (2002), Olive (2004), Pena & Prieto (2007), Sajesh & Srinivasan

(2012), entre otros. Estas tecnicas permiten realizar una estimacion robusta de parametros, es decir,

una estimacion resistente a observaciones atıpicas.

Sea ΣR una estimacion robusta de la matriz de covarianza, dada por la aplicacion de alguno de los

metodos robustos, en donde ΣR es estimada a traves de una muestra recortada, correspondiente a

aquellas observaciones no etiquetadas como atıpicos multivariantes. Hasta este punto el problema

de contaminacion muestral es solucionado por esta vıa, sin embargo el problema de la multicoli-

nealidad queda latente, es decir, la alta correlacion entre predictores en X puede ocasionar que la

V ? N? (mes) de 2019 • ISSN-e 2357-5749 • Artıculo Investigacion 3

Page 260: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

260

Santiago Ortz, Nicolas Laniado-Valencia, Julian Esteban Cadavid, Henry Laniado

matriz ΣR este mal condicionada, generando problemas de invertibilidad de la misma.

Para dar solucion al mal condicionamiento, Ledoit & Wolf (2004) introducen una tecnica basada

en un encogimiento de la matriz de covarianza, con esta tecnica pretendemos establecer una nueva

estimacion ΣRLW a traves de una combinacion lineal convexa, dado un parametro de encogimiento

δ, entre la matriz de covarianzas muestral estimada de forma robusta ΣR y una matriz FR ∈ Rp×p,

denotada matriz de correlacion constante muestral:

FR =

σ21 rσ1σ2 · · · rσ1σp

rσ2σ1 σ22 · · · rσ2σp

......

. . ....

rσpσ1 rσpσ2 · · · σ2p

donde r =2

(p− 1)p

p−1∑i=1

p∑j=i+1

ρi,j (1)

En este contexto, la informacion calculada en FR viene dada tambien por la muestra recortada. Los

parametros σ2i , ρi,j para i, j = 1 · · · p y r denotan las varianzas muestrales, correlaciones muestrales

y la correlacion muestral promedio, respectivamente. Ası, la nueva estimacion muestral de la matriz

de covarianzas propuesta viene dada por:

ΣRLW = (1− δ)ΣR + δFR. (2)

2.2. Coeficientes de Regresion Propuestos

Siguiendo la notacion OLS para estimacion de coeficientes de regresion y segun lo propuesto por

Rousseeuw et al. (2004) se puede demostrar que los βj para j = 1, · · · , p pueden ser calculados a

traves de la matriz de covarianza de los predictores ΣXX y el vector de covariazas de los predictores

con la variable respuesta ΣXY . De acuerdo a la matriz de covarianza propuesta ΣRLW en (2), una

estimacion robusta de los coeficientes de regresion βRLW es:

βRLW = Σ−1RLWXX

ΣRLWXY(3)

3. RESULTADOS

Para explorar el rendimiento del metodo propuesto, se ha llevado a cabo un exhaustivo estudio de si-

mulacion en multiples escenarios, evaluando diferentes niveles de contaminacion α, tamano muestral

n y cantidad de predictores p. Considere una variable aleatoria p–dimensionalX = [X1, X2, · · · , Xp],

donde la estructura de dependencia entre predictores esta dada por X1 ∼ N(0, σ2), X2 = aX1+ ε y

Xi = bX1 + cXi−1 + ε, para i ∈ 3, · · · , p, con a, b, c = 0 escalares y donde ε ∼ N(0, σ2). Se define

la variable respuesta Y =∑p

i=1 iXi+ ε, el cual corresponde a una combinacion lineal sin intercepto

y donde nuevamente se considera un ruido ε ∼ N(0, σ2).

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 261: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

261

ESTIMACION ROBUSTA DEL MODELO DE REGRESION LINEAL EN PRESENCIA DE MULTICOLINEALIDAD

Posterior a esto se define una estructura de contaminacion al modelo de simulacion expuesto, si-

guiendo una combinacion lineal de convexa de la forma (1−α)W1+αW2 donde W1 = [Y,X] y W2,

la muestra contaminada, corresponde a una variable aleatoria q–dimensional (q = p+1), que sigue

una distribucion normal multivariante W2 ∼ N(e, I), aquı e denota un vector aleatorio uniforme en

el hipercubo (−50, 50)q. Estos experimentos han sido realizados considerando multiples escenarios,

dimensiones p ∈ 5, 10, nivel de contaminacion α ∈ 0,10, 0,20, 0,30, 0,40, tamanos muestrales

n ∈ 100, 1000 y un parametro de encogimiento δ pequeno. Para cada uno de estos escenarios

de experimentacion se hacen N = 1000 repeticiones. Todos los experimentos fueron realizados en

Matlab.

Para explorar de forma extensiva el rendimiento, se lleva a cabo una comparacion de la metodolo-

gıa propuesta considerando cuatro tecnicas de deteccion de atıpicos: Orthogonalized Gnanadesikan-

Kettenring (OGK) de Maronna & Zamar (2002), Algoritmo Median Ball (MB) de Olive (2004),

el metodo de Proyecciones de Maxima y Mınima Kurtosis (PP) de Pena & Prieto (2007) y el

Metodo Comediana (SS) de Sajesh & Srinivasan (2012), mas una aplicacion de encogimiento a la

matriz de covarianzas recortada resultante de los predictores siguiendo la propuesta de Ledoit &

Wolf (2004). Esta comparacion se aplica contrastando los metodos mencionados versus la tecnica

de estimacion de Mınimos Cuadrados Ordinarios (OLS), metodo tradicional de estimacion en re-

gresion lineal (Myers et al., 2012) y las mismas tecnicas robustas pero sin el proceso de encogimiento.

El desempeno del metodo propuesto se evalua a traves de dos enfoques, el primero en el calculo del

error de los coeficientes de regresion estimados, a partir del Montecarlo MSE promedio (MMSE)

definido por Leung et al. (2016) y el segundo, en la medicion del condicionamiento de la estimacion

de la matriz de covarianzas recortada de los predictores a partir del numero de condicion promedio

(cond):

MMSE =1

N

N∑k=1

1

p

p∑j=1

(βj − β

(k)•j

)2

cond =1

N

N∑k=1

(∥∥∥Σ•XX

∥∥∥∥∥∥Σ−1

•XX

∥∥∥)(k)

(4)

En este contexto, βj denota los verdaderos coeficientes de regresion, β•j ∈ βOLSj , βRj , βRLWj los

coeficientes de regresion estimados y Σ•XX ∈ ΣOLSXX, ΣRXX

, ΣRLWXX la matriz de covarianzas

recortada estimada de los predictores, ambos por algunas de las tecnicas empleadas.

En la Figura 1 se presenta el desempeno de las cuatro tecnicas de deteccion de atıpicos con y sin en-

cogimiento junto con la tecnicas OLS, a traves del MMSE y cond fijado un nivel de contaminacion

α ∈ 0,15, 0,20, 0,25, 0,30, 0,35, 0,40 para p = 5 predictores colineales; se puede observar como para

V ? N? (mes) de 2019 • ISSN-e 2357-5749 • Artıculo Investigacion 5

Page 262: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

262

Santiago Ortz, Nicolas Laniado-Valencia, Julian Esteban Cadavid, Henry Laniado

60

OLS vs PP vs PPLW

4

0.1

20

0.2

107

Mean Condition Number

Co

nta

min

atio

n P

rop

ort

ion

0.3

Mean MSE

0.4

210

00

n=100 - OLS

n=100 - PP

n=100 - PPLW

= 0.0001

n=500 - OLS

n=500 - PP

n=500 - PPLW

= 0.0001

n=1000 - OLS

n=1000 - PP

n=1000 - PPLW

= 0.0001

(a)

60

0.1

OLS vs MB vs MBLW

20 4

0.2

Mean Condition Number

107

Co

nta

min

atio

n P

rop

ort

ion

0.3

Mean MSE

0.4

210

00

n=100 - OLS

n=100 - MB

n=100 - MBLW

= 0.0001

n=500 - OLS

n=500 - MB

n=500 - MBLW

= 0.0001

n=1000 - OLS

n=1000 - MB

n=1000 - MBLW

= 0.0001

(b)

60

OLS vs SS vs SSLW

4

0.1

20

0.2

Mean Condition Number

107

Co

nta

min

atio

n P

rop

ort

ion

0.3

Mean MSE

0.4

210

00

n=100 - OLS

n=100 - SS

n=100 - SSLW

= 0.0001

n=500 - OLS

n=500 - SS

n=500 - SSLW

= 0.0001

n=1000 - OLS

n=1000 - SS

n=1000 - SSLW

= 0.0001

(c)

6020

0.1

4

OLS vs OGK vs OGKLW

0.2

Mean Condition Number

107

Co

nta

min

atio

n P

rop

ort

ion

0.3

Mean MSE

2

0.4

10

00

n=100 - OLS

n=100 - OGK

n=100 - OGKLW

= 0.0001

n=500 - OLS

n=500 - OGK

n=500 - OGKLW

= 0.0001

n=1000 - OLS

n=1000 - OGK

n=1000 - OGKLW

= 0.0001

(d)

Figura 1: Montecarlo MSE medio vs Numero de Condicion medio de cinco predictores colineales y con

contaminaciones calculado por OLS, metodos robustos y metodos robustos con encogimiento, para p = 5

predictores. en a) el metodo PP, en b) el algoritmo MB, en c) la tecnica SS y en d) la propuesta OGK.

los diferentes tamanos muestrales, los metodos robustos con encogimiento obtienen menores errores

en la estimacion de los coeficientes de regresion y numeros de condicion promedios sobresalientes

comparado con el metodo OLS y las tecnicas robustas sin encoger. Lo anterior sucede solo para

niveles de contaminacion menores a 0,20, con la excepcion del metodo PPLW que logra mantenerse

estable en todos los niveles de contaminacion y tamanos muestrales.

En la Tabla 1 se muestran los resultados numericos de los metodos mencionados previamente, esta

vez adicionando un experimento con p = 10 predictores colineales; de esta tabla podemos observar

que efectivamente los metodos robustos con encogimiento obtienen un desempeno sobresaliente

respecto a OLS en terminos del MMSE y como el metodo PPLW obtiene el mejor resultado

respecto a los demas en escenarios de alta contaminacion.

6 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 263: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

263

ESTIMACION ROBUSTA DEL MODELO DE REGRESION LINEAL EN PRESENCIA DE MULTICOLINEALIDAD

4. CONCLUSION

En el presente trabajo hemos presentado una nueva estrategia para estimar de forma adecuada la

matriz de covarianza y los coeficientes de regresion, en escenarios de alta multicolinealidad de los

predictores y presencia de diversos niveles de contaminacion en la muestra. Hemos mostrado una

evidencia empırica de que el uso de tecnicas de deteccion de atıpicos multivariantes para estimar

la matriz de covarianzas, de manera robusta, mas la adicion de un proceso de encogimiento de la

misma, produce como resultado una buena estimacion de los coeficientes de regresion y a su vez

matrices de covarianza con mejor numero de condicion.

De los experimentos y simulaciones realizadas se concluye que emplear tecnicas robustas y de

encogimiento resultan ser buenas alternativas para estimacion. Resulta importante resaltar que el

metodo propuesto PPLW presenta un rendimiento sobresaliente, respecto a las tecnicas de deteccion

de atıpicos de la literatura empleadas, puesto que al compararlo tambien con el tradicional metodo

OLS y con el metodo PP sin encogimiento, presenta un mejor desempeno tanto en MSE medio

como en numero de condicion medio, en escenarios de multiples niveles de contaminacion, tamanos

muestrales y dimensiones. Finalmente, los resultados obtenidos muestran las ventajas de nuestra

propuesta presentada.

Referencias

Hoerl, A. E.; Kennard, R. (1970). Ridge regression: Biased Estimation for Nonorthogonal Problems.

Technometrics. 12: 55-67.

Johnson, R. A.; Wichern, D. W. (2002). Applied Multivariate Statistical Analysis. Prentice Hall.

Ledoit, O.; Wolf, M. (2004). Honey, I Shrunk the Sample Covariance Matrix. The Journal of Por-

tafolio Management. 30: 110-119.

Leung, A.; Zhang, H.; Zamar, R. H. (2016). Robust Regression Estimation and Inference in the

Presence of Cellwise and Casewise Contamination. Computational Statistics & Data Analysis.

99: 1-11.

Maronna, R. A.; Zamar, R. H. (2002). Robust Estimates of Location and Dispersion for High-

Dimensional Datasets. Technometrics. 44: 307-317.

Myers, R. H.; Montgomery, D. C.; Vining, G. G.; Robinson, T. J. (2012). Generalized Linear Models:

With Applications in Engineering and the Sciences: Second Edition. John Wiley & Sons Inc.

Olive, D. J. (2004). A Resistant Estimator of Multivariate Location and Dispersion. Computational

Statistics & Data Analysis. 46: 93-102.

V ? N? (mes) de 2019 • ISSN-e 2357-5749 • Artıculo Investigacion 7

Page 264: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

264

Santiago Ortz, Nicolas Laniado-Valencia, Julian Esteban Cadavid, Henry Laniado

Pena, D.; Prieto, F. J. (2001). Multivariate Outlier Detection and Robust Covariance Matrix Esti-

mation. Technometrics. 43: 286-300.

Pena, D.; Prieto, F. J. (2007). Combining Random and Specific Directions for Outlier Detection

and Robust Estimation in High-Dimensional Multivariate Data. Journal of Computational and

Graphical Statistics. 16: 228-254.

Rousseeuw, P. J. (1984). Least Median of Squares Regression. Journal of the American Statistical

Association. 79: 871-880.

Rousseeuw, P. J.; Van Aelst, S.; Van Driessen, K.; Agullo. J. (2004). Robust Multivariate Regression.

Technometrics. 46: 293-305.

Rousseeuw, P. J.; Leroy, A. (1987). Robust Regression and Outlier Detection. Wiley.

Rousseeuw, P. J.; Van Driessen, K. (1999). A Fast Algorithm for the Minimum Covariance Deter-

minant Estimator. Technometrics. 41: 212-223.

Sajesh, T. A.; Srinivasan, M. R. (2012). Outlier Detection for High Dimensional Data Using the

Comedian Approach. Journal of Statistical Computation and Simulation. 82: 745-757.

Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal

Statistical Society. Series B (Methodological). 58: 267-288.

Zuo, H.; Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of

the Royal Statistical Society. Series B. 67: 301-320.

8 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 265: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

265

ESTIMACION ROBUSTA DEL MODELO DE REGRESION LINEAL EN PRESENCIA DE MULTICOLINEALIDAD

Tabla 1: Montecarlo MSE promedio de los coeficientes de regresion y numero de condicion promedio de la matriz de

covarianza estimadas para tecnicas de deteccion de atıpicos con y sin procedimiento de encogimiento y OLS, dado

multiples niveles de contaminacion α, cantidad de predictores colineales p y tamanos muestrales n.

Metodo p

n = 100 n = 1000

Nivel de Contaminacion α Nivel de Contaminacion α

0.10 0.20 0.30 0.40 0.10 0.20 0.30 0.40

PPLWMMSE

5

0.053 0.072 0.089 0.087 0.005 0.005 0.047 0.050

cond 3.51E+06 3.42E+06 3.44E+06 3.32E+06 3.34E+06 3.38E+06 3.51E+06 3.25E+06

OGKLWMMSE 0.067 9.046 13.430 9.570 0.006 3.554 12.933 10.322

cond 3.31E+06 3.04E+06 1.01E+06 4.31E+04 3.39E+06 2.99E+06 6.93E+05 4.27E+04

MBLWMMSE 0.054 15.980 15.747 10.010 0.005 14.596 14.388 11.209

cond 3.39E+06 1.73E+06 3.36E+05 2.98E+04 3.43E+06 2.23E+06 4.80E+05 4.88E+04

SSLWMMSE 0.556 4.242 10.535 10.906 2.195 3.397 11.376 12.824

cond 3.11E+06 2.85E+06 1.11E+06 6.21E+04 3.28E+06 2.72E+06 1.10E+06 5.63E+04

OLSMMSE 14.819 14.342 15.395 14.213 16.579 14.557 14.255 13.648

cond 8.417E+05 5.153E+05 3.614E+05 2.658E+05 7.063E+05 4.883E+05 3.407E+05 2.455E+05

PPMMSE 0.054 0.073 0.086 0.085 0.005 0.005 0.029 0.042

cond 3.599E+07 4.778E+07 3.985E+07 5.159E+07 4.016E+07 4.640E+07 4.282E+07 3.893E+07

OGKMMSE 0.066 9.693 13.538 10.048 0.007 4.002 12.938 10.714

cond 3.688E+07 2.367E+07 7.182E+06 4.485E+04 3.742E+07 2.360E+07 5.440E+06 4.382E+04

MBMMSE 0.057 15.766 15.436 9.740 0.005 14.477 14.140 10.558

cond 3.578E+07 1.692E+07 4.976E+06 2.406E+04 3.348E+07 3.042E+07 4.861E+06 2.662E+04

SSMMSE 0.557 4.243 10.559 10.960 2.195 3.400 11.400 12.868

cond 3.454E+07 3.126E+07 1.034E+07 7.658E+04 4.970E+07 2.890E+07 8.200E+06 6.280E+04

PPLWMMSE

10

0.061 0.072 0.074 0.070 0.018 0.017 0.018 0.019

cond 2.11E+08 2.11E+08 2.06E+08 2.15E+08 1.89E+08 1.83E+08 1.84E+08 1.83E+08

OGKLWMMSE 0.056 0.063 5.440 7.858 0.018 0.020 4.758 4.294

cond 1.99E+08 1.84E+08 2.96E+07 6.09E+06 1.75E+08 1.74E+08 3.09E+07 5.93E+06

MBLWMMSE 0.061 7.748 6.179 7.487 0.018 8.521 6.584 4.857

cond 2.11E+08 4.93E+07 2.44E+07 7.95E+06 1.86E+08 5.39E+07 3.43E+07 1.50E+07

SSLWMMSE 0.043 0.058 1.497 5.662 0.016 0.018 0.798 4.322

cond 1.77E+08 1.65E+08 4.91E+07 5.31E+06 1.76E+08 1.58E+08 4.80E+07 5.63E+06

OLSMMSE 9.515 7.048 6.445 5.777 7.402 7.132 6.117 5.452

cond 2.38E+08 1.42E+08 8.71E+07 6.15E+07 2.17E+08 1.26E+08 8.36E+07 5.56E+07

PPMMSE 0.037 0.049 0.052 0.051 0.003 0.003 0.003 0.004

cond 4.15E+09 4.11E+09 3.77E+09 4.34E+09 3.49E+09 3.34E+09 3.62E+09 3.01E+09

OGKMMSE 0.036 0.046 5.881 6.613 0.003 0.004 4.953 4.437

cond 2.99E+09 2.69E+09 4.78E+07 8.87E+06 2.90E+09 2.22E+09 4.81E+07 1.03E+07

MBMMSE 0.040 7.835 6.621 7.946 0.003 8.097 6.264 4.765

cond 4.10E+09 1.63E+08 3.79E+07 9.48E+06 3.53E+09 1.32E+08 6.03E+07 1.45E+07

SSMMSE 0.030 0.038 1.594 5.713 0.003 0.003 0.918 4.389

cond 3.30E+09 2.97E+09 9.56E+07 7.29E+06 3.21E+09 2.95E+09 8.68E+07 7.78E+06

V ? N? (mes) de 2019 • ISSN-e 2357-5749 • Artıculo Investigacion 9

Page 266: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

266

1 Maestría en Estadística Aplicada, Universidad de Santander, Bucaramanga. 2 Escuela de Economía y Administración, Universidad Industrial de Santander, Bucaramanga 3 Centro de Investigación en Seguridad Vial, Dirección de Tránsito de Bucaramanga. * Autor para correspondencia: [email protected]

EVALUACIÓN ESTADÍSTICA DE ESTRATEGIAS IMPLEMENTADAS PARA UNA MOVILIDAD URBANA

SOSTENIBLE Y REDUCCIÓN DE LA ACCIDENTALIDAD EN LA CIUDAD DE BUCARAMANGA

MIGUEL PEREZ 1*, FRANCISCO LEÓN1, GIAMPAOLO ORLANDONI1 JOSEFA RAMONI2, ZHARIC ORTEGA3 , AMELIA FARFÁN3

Recibido para revisar 11-01-2019, aceptado M-D-A, versión final M-D-A.

RESUMEN: Las muertes ocasionadas en accidentes de tránsito se han convertido en una preocupación para la Organización Mundial de la Salud (OMS) y los organismos territoriales. En este estudio se evalúan dos estrategias adoptadas por la Dirección de Tránsito de Bucaramanga con el fin de reducir la accidentalidad y mejorar la calidad de vida de los habitantes a través de una movilidad urbana sostenible. Una estrategia es comparar los niveles de material particulado (PM10) y ozono troposférico (O3) en tres esquemas de restricción vehicular en dos estaciones de monitoreo de la ciudad, y evaluar su efecto sobre la calidad del aire y el impacto en la incidencia de enfermedades respiratorias. La segunda estrategia, evalúa la funcionalidad del proyecto piloto de franjas de paradas transitorias para motocicletas implementadas en 95 intersecciones semaforizadas en la ciudad de Bucaramanga. Como resultados significativos, es que ante una caída del 10% en los niveles de PM10 disminuye el número de casos de enfermedades respiratorios en 5.6%. Para la estrategia de franjas transitorias, se resalta una disminución del 33% en cuanto a las víctimas fatales en el conjunto de intersecciones donde se implementaron las franjas de paradas. El software utilizado para los análisis fue STATA IC/ 14.0 PALABRAS CLAVE: accidentalidad vial; franjas transitorias; seguridad vial; modelos lineales generalizados; salud ambiental. ABSTRACT: Deaths in traffic accidents have become a concern for the World Health Organization (WHO) and territorial agencies. In this study, two strategies adopted by the Bucaramanga Traffic Department are evaluated in order to reduce accidents and improve the quality of life of the inhabitants through sustainable urban mobility. One strategy is to compare the levels of particulate material (PM10) and tropospheric ozone (O3) in three vehicular restriction schemes at two city monitoring stations, and evaluate their effect on air quality and the impact on disease incidence respiratory The second strategy evaluates the functionality of the pilot project of transient stop strips for motorcycles implemented in 95 traffic lights intersected in the city of Bucaramanga. As significant results, it is that before a 10% drop in PM10 levels the number of cases of respiratory diseases decreases by 4.4%. For the transitional stripes strategy, a 33% decrease in fatalities is highlighted in the set of intersections where the stop strips were implemented. The software used for the analyzes was STATA IC / 14.0 KEYWORDS: road accident; transitory strips; road safety; Generalized Linear Models; Enviromental health.

Page 267: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

267

1. INTRODUCCIÓN Se calculan un total 313 millones de motocicletas en el mundo de las cuales el 77% están en Asia, el 5% en América Latina y un 16% en Norteamérica y Europa. Lo anterior se ha convertido en una preocupación para la Organización Mundial de la Salud considerando que, en 2017 fallecieron 12,5 millones de personas y 50 millones resultaron con algún tipo de lesión como consecuencia de accidentes de tránsito. En Colombia en el 2018 según cifras del Registro Único Nacional de Tránsito (RUNT), se tenía un parque automotor de 14.137.795 millones de vehículos en el 2017 y para el año 2018 se incrementó en un 5,32%; del total el 57,23% (8.091.060 millones) corresponde a motocicletas. Según datos de la Agencia Nacional de Seguridad Vial un total de 3.126 motociclistas murieron en 2018. Según datos del Departamento Nacional de Estadística – DANE (2018), la población del Área Metropolitana de Bucaramanga es de 1.111.999 habitantes y para ese mismo año el parque automotor lo conformaron 703.785 vehículos de los cuales el 58,4% (410.651) eran motocicletas. Para este año, Bucaramanga contaba con el 10,5% (43.065) de este tipo de vehículos, mientras que el municipio de Girón era la cuarta ciudad del país con más motos 249.981, según datos DTB a diciembre de 2018 (DTB, 2017). En Bucaramanga de acuerdo con las directrices del Plan Maestro de Movilidad (2010-2030), el Plan de Desarrollo Municipal el gobierno de las ciudadanas y ciudadanos (2016-2019), los Planes Nacional y Municipal de Seguridad Vial se suscribió el Convenio Interadministrativo No 007 del 28 de Diciembre de 2015 con recursos de la Agencia Nacional de Seguridad Vial – ANSV adscrita al Ministerio de Transporte donde se aprobó el proyecto denominado “Reducir la mortalidad por accidentes de tránsito en 5% en los puntos críticos de accidentalidad del municipio de Bucaramanga (Santander)” presentado por la Dirección de Tránsito de Bucaramanga (DTB, 2017). El proyecto inició en 2016 con una prueba piloto en el corredor vial comprendido en la carrera 27 entre calles 32 y 56. Considerando que medida fue exitosa, en el 2018 se implementó en 8 corredores viales que comprometen un total de 95 intercepciones de Bucaramanga. A la fecha se han realizado tres estudios técnicos donde se evidencia que los resultados han sido positivos en reducción de la accidentalidad. Sin embargo, el Ministerio de Transporte solicita realizar más estudios analizando casos en forma separada aplicados solo a las intersecciones y compararla con la siniestralidad correspondiente a los motociclistas y complementar con un estudio de velocidades entre otras solicitudes, lo anterior es importante si se considera que este tipo de medidas pueden ser la base para tomar decisiones a nivel nacional en esta materia.

La medida de pico y placa (pp) busca normar la circulación de vehículos a partir de la restricción del horario y/o áreas de circulación. las motivaciones de esta medida son generalmente la búsqueda de soluciones a problemas de movilidad y/o la reducción de niveles de contaminación ambiental. al igual que en otras ciudades de Colombia, esta medida se ha implementado en Bucaramanga desde el 2006, pero de manera intermitente, con repetidas modificaciones y suspensiones que obedecen a problemas de transporte público, festividades y tutelas. en enero de 2017 se firmó una resolución que restringía la circulación general de vehículos para dos dígitos en los horarios de 5:00 a 9:00 y de 16:00 a 20:00 de lunes a viernes y prohibición de circulación en el casco central de la ciudad, medida que no fue bien recibida por los comerciantes de la zona. en abril, la medida fue suspendida en respuesta a una acción de nulidad introducida ante

Page 268: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

268

tribunales. las consecuencias de la ausencia total de restricciones vehiculares en la ciudad fueron más que evidentes. largas filas que se tradujeron en pérdida de tiempo y recursos, así como incremento de la informalidad en detrimento del transporte formal, por citar algunos. es por ello que, en agosto de ese año se estableció de nuevo el pp, con restricciones de movilidad de lunes a viernes desde las 6:00 hasta las 20:00 horas. las restricciones abarcaron toda la ciudad y las mediciones se hicieron a lo largo de todo el año 2017, año al cual se limita este estudio. Se presentan dos estrategias implementadas por la DTB, buscando una movilidad sostenible y segura: como primera estrategia se compara la calidad de aire bajo los diferentes esquemas, a fin de definir cuál de ellos arrojó los mejores beneficios ambientales en términos de reducción de material particulado inferior a diez micras y ozono troposférico, y cómo esa mejora puede haber incidido en la reducción del número de casos de enfermedades respiratorias tratados en centros asistenciales en la ciudad. El organismo encargado de las mediciones de contaminantes dispone de solo dos estaciones de monitoreo en esta ciudad, uno de los cuales uno (Cabecera) es de particular interés para este estudio, dada su ubicación estratégica y su dinámica económica. Las estadísticas de enfermedades respiratorias no se presentan desglosadas por centro asistencial o por barrios; en todo caso, la selección del centro asistencial al cual acudir no se basa en vecindad, sino en convenios entre los centros asistenciales y las aseguradoras1. Los resultados apuntan a que el esquema PP2 muestra las mejores ganancias en términos de calidad de aire. También se encuentra evidencia de que una reducción de los niveles de PM10 tiene un efecto significativo más que proporcional en la reducción del número de casos de enfermedades respiratorias La base de datos fue suministrada por la DTB y contenía el consolidado de accidentalidad desde el año 2009 a 2018, para comprender el fenómeno se analizó la serie de tiempo de la accidentalidad total en la ciudad; los mapas de calor correspondientes a dos periodos años 2014 a 2016 y 2017 a 2019 parcial, y por último se realizó un análisis de regresión con árbol de clasificación en algunas intersecciones.

Por otra parte, se pretende exponer un análisis parcial de criterios de valoración estadística aplicados en la accidentalidad de la ciudad de Bucaramanga identificando las intersecciones viales donde se ubican las franjas de paradas transitorias de motocicletas, y las participaciones de actores viales involucrados, gravedad del accidente, dirección, jornada, que pudieran caracterizar perfiles de actores viales más expuestos al riesgo accidental y la evaluación del impacto de la medida con y sin las franjas transitorias. 2 CONTEXTO DE LA ACCIDENTALIDAD EN BUCARAMANGA 2009-2018 Los registros de la DTB agrupan la accidentalidad total (solo daños, con heridos y con víctima fatal) ocasionada entre los diferentes actores viales. La serie de tiempo se realizó empleando la metodología de Box y Jenkins (1976). Identificación: En la serie se observa que enero (J) de 2017 presentó el mínimo de accidentes (246) y octubre (O) de 2011 el máximo (647), en promedio son 370 accidentes por año. Se realizó la función de autocorrelación simple y la función de

1 En Colombia, toda persona debe estar afiliada a una Entidad Prestadora de Salud (EPS), ya sea por régimen contributivo o subsidiado. Las EPS son empresas que fungen como aseguradoras.

Page 269: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

269

autocorrelación parcial caen lentamente a cero, el test de Dickey-Fuller presentó un p-valor=0.5514 (p>0,05), lo anterior evidencia que la serie es no estacionaria; por lo tanto, se procedió a realizar transformación logarítmica y aplicar una primera diferencia para que la media y la varianza sean constantes; con estos pasos el test de Dickey-Fuller presentó un p-valor=0.01 (p<0,05), lo anterior indica que la serie ya es estacionaria con una raíz unitaria y con un primera diferencia. Estimación: Una vez comprobada la estacionalidad de la serie se realizó la estimación del mejor modelo ARIMA (0,1,1) (0,1,1)12 de acuerdo con el criterio de Criterio de Información de Akaike (AIC).

TABLA 1: Modelos SARIMA para la serie de tiempos de accidentalidad en Bucaramanga.

Modelo AIC

ARIMA (1,1,0) (0,1,1)12 -169.42 ARIMA (1,1,0) (1,1,0) 12 -162.43 ARIMA (0,1,1) (0,1,1) 12 -170.69

Fuente: Autores La longitud de la ST son 120 datos y en promedio se presentaron 370 accidentes/mes (DE ± 82.24). Se le aplicó una transformación logarítmica y una primera diferencia. El mejor modelo estimado fue: ARIMA (0,1,1) (0,1,1)12:

Figura 1. Serie de Tiempo de la accidentalidad total de Bucaramanga ajustada. Fuente: elaboración propia. Datos del Centro de Investigación de Tránsito y Seguridad Vial - CITSEV de la

Dirección de Tránsito Bucaramanga (2019). En general, se observa una disminución de la accidentalidad como consecuencia de las medidas implementadas a nivel local y nacional siendo la primera la medida de pico y placa Resolución 408 de 24 de mayo de 2011 de la DTB, la Ley 1696 de diciembre 19 del 2013, por medio de la cual se dictan disposiciones penales y administrativas para sancionar la conducción bajo el influjo del alcohol u otras sustancias psicoactivas y la aplicación del horario de restricción vehicular en el horario de 12:00 pm a 4:00 am para motociclistas según Resolución 608 de 2013 y la implementación de las franjas de paradas transitorias en algunas intersecciones de la ciudad de acuerdo con la Resolución 714 de diciembre 30 de 2016, ambas de la DTB.

Page 270: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

270

Para evidenciar si las políticas públicas implementadas por la DTB han teniendo efecto, se realiza un modelo de intervención. La figura 2 muestra la serie original y ajustada donde se observa un decremento abrupto entre octubre de 2011 a enero de 2012; datos graficados como efecto outliers. El modelo de intervención es:

Figura 2. Modelo de intervención de la accidentalidad en Bucaramanga.

Fuente: elaboración propia. Datos del Centro de Investigación de Tránsito y Seguridad Vial - CITSEV de la Dirección de Tránsito Bucaramanga (2019).

3. MAPAS DE CALOR DE LOS ACCIDENTES CON VÍCTIMAS FATALES MOTOCICLISTAS ANTES Y DESPUÉS DE LA INTERVENCIÓN

La DTB desarrolló varias investigaciones para identificar la problemática como el estudio realizado por Perez et al. (2018) respecto al comportamiento de la accidentalidad en tramos críticos en la ciudad de Bucaramanga siendo estos sectores los de mayor interés por parte de la DTB en su análisis y las víctimas fatales el indicador que más preocupa a las autoridades, por lo cual se han implementado las medidas anteriormente mencionadas. Los mapas de calor (figura 2), a pesar de no evidenciar disminución en la accidentalidad total debido a la influencia de otros factores asociados y el periodo de tiempo corto de observación, si se presenta disminución con víctimas fatales a partir del año 2017. En la tabla 2 se observa el consolidado de acuerdo con la gravedad del accidente (heridos, con víctima fatal y solo daños), se resalta una disminución del 33% en cuanto a las víctimas fatales y en especial en los corredores de la carrera 27 y 33.

Page 271: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

271

TABLA 2: Consolidado de la accidentalidad en Bucaramanga según gravedad del accidente en franjas transitorias.

Gravedad del accidente 2015 a 2016 2017 a 2018 % de variación

Solo daños 841 827 -2% Con heridos 719 805 12%

Con víctima fatal 15 10 -33% Total 1575 1642 4%

Fuente: Elaboración propia

Figura 3. Mapas de calor de accidentalidad (Figura lado izquierdo: accidentalidad antes de las intervenciones 2015-2016; lado derecho: mapa de calor de accidentalidad despues de intervenciones 2017-2018)

Fuente: Elaboración propia. Datos estadísticos del Centro de Investigación de Tránsito y Seguridad Vial - CITSEV de la Dirección de Tránsito Bucaramanga (2019).

4. NIVELES DE CONTAMINANTES E INCIDENCIA DE ENFERMEDADES RESPIRATORIAS

Para el análisis del posible efecto de las emisiones de contaminantes y esquemas de circulación sobre la incidencia de enfermedades respiratorias, se dispuso de información a lo largo de 42 semanas epidemiológicas completas de enero a noviembre de 2017, con un promedio de 21.052 casos por semana, cuya evolución se resume en la figura 3 y en tabla 3. En ella se observa un

Page 272: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

272

patrón de comportamiento de los niveles de contaminantes similar al ya descrito, mientras que el número de casos reportados de enfermedades respiratorias luce inferior en el primer y último segmento: 20174 casos en promedio en PP1, 22155 en PP0 y 20246 en PP2. Además, se observó una correlación positiva estadísticamente significativa únicamente entre el número de casos y los niveles de PM10 (0,33), no así con O3.

PP1 PP0 PP2

12

34

5

1015

2025

30

Caso

s (mi

les)

6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48semana

Casos (miles) Log(PM10) Log(O3)

Figura 4. Enfermedades respiratorias, Log(PM10) y Log(O3) por semana epidemiológica (2017)

Fuente: elaboración propia con datos de la CDMB y SSAB A fin de corregir por el posible efecto de factores meteorológicos sobre la incidencia de enfermedades, se incorporó al estudio información referida a velocidad del viento (m/s), temperatura (°K), humedad (%), presión atmosférica (hPa) y radiación solar (w/m2), cuyos valores mostraron pocas variaciones a lo largo del año y de los diferentes esquemas, sin diferencias significativas entre ellos. Las mayores diferencias se presentaron en los niveles de radiación solar bajo el esquema PP1 con respecto a los otros dos, lo que puede explicar las bajas correlaciones entre estas variables y los niveles de contaminantes (ver tabla 3).

Tabla 3. Comportamiento de variables meteorológicas año 2017. Variable PP0 PP1 PP2

Media D. E. Media D. E. Media D. E. Temperatura (°K) 283,64 0.72 283,59 0,58 283,78 0,37 Velocidad del viento (m/s) 5,26 1,92 4,88 0,77 4,41 1,62 Humedad (%) 87,21 3,73 87,99 2,47 84,82 3,32 Presión atmosférica (hPa) 711,55 0,43 710,99 0,43 710,95 0,69 Radiación solar (w/m2) 179,02 23,53 181,85 26,68 178,21 19,41 Fuente: elaboración propia con datos de la CDMB El modelo de regresión propuesto consideró el número de casos de enfermedades respiratorias como variable dependiente, mientras que las variables explicativas fueron los niveles de contaminantes PM10 y O3, así como dos variables ficticias para identificar los esquemas de circulación PP1 y PP2, con PP0 como grupo de comparación. Con respecto a las variables meteorológicas, se recurrió al análisis de componentes principales para generar factores que combinan temperatura, velocidad del viento, humedad, presión atmosférica y radiación solar en

Page 273: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

273

factores o componentes a partir de la correlación entre ellas, permitiendo con ello un mejor aprovechamiento de la información. Siguiendo los estándares estadísticos, se seleccionaron aquellos factores con valor propio superior a la unidad, resultando tres de ellos con un poder explicativo conjunto de la variabilidad total de las variables por el orden del 83,46%. El primer factor (velocidad-presión) contrapone velocidad del viento y presión atmosférica con temperatura, de modo que altos niveles de las primeras se asocian con bajas temperaturas. El segundo factor (humedad-temperatura) contrapone velocidad del viento y presión atmosférica con temperatura, mientras que el tercer factor (radiación-presión) asocia niveles de radiación solar y presión atmosférica entre sí (ver tabla 4). Los tres fueron incluidos en el modelo de regresión. Las variable O3 y PP1 mostraron ser estadísticamente no significativas, razón por la cual fueron excluidas del modelo final. Cabe destacar que estos resultados fueron semejantes, en estructura y estimaciones, a los obtenidos en una regresión binomial negativa no reportada. Sin embargo, los criterios de información favorecieron al modelo de Poisson (AIC: 219,68 versus 311,48; BIC: 219,91 versus 323,65).

Tabla 4. Resultados del análisis de componentes principales (factores de carga)

Componente

Variable Velocidad- Presión

Humedad- Temperatura

Radiación- Presión

Velocidad del viento 0,6125 -0,2771 0,1182 Temperatura -0,4507 -0,5143 0,0097 Humedad -0,0598 0,7959 -0,1487 Presión atmosférica 0,5528 0,0625 0,4037 Radiación solar -0,3354 0,1463 0,8949

Poder explicativo (%) 38,55 0,2684 0,1807

La tabla 5 resume los resultados del modelo de Poisson. El mejor ajuste se logró con la variable PM10 a nivel. De este modo, una reducción del 10% en las concentraciones de PM10 generaría una disminución estadísticamente significativa en el número de casos de enfermedades respiratorias por el orden del 5,6%2. Las restantes variables no ameritan análisis, puesto que su papel es garantizar que la significancia de los niveles de PM10 y de los esquemas no sea resultado de sesgo de especificación.

Tabla 5. Modelo de regresión de Poisson (variable dependiente número de casos) Variable Coeficiente Error estándar Intervalo confianza 95%

PM10 0,4426 0,0148* 0,4136 0,4716 PP1 0,6336 0,0233* 0,5878 0,6793 PP2 -0,1273 0,0218* -0,1701 -0,0845 PM10*PP1 -0,0101 0,0003* -0,0108 -0,0093 PM10*PP2 0,0069 0,0004* 0,0062 0,0076 Velocidad-Presión -0,0207 0,0012* -0,0231 -0,0183 Humedad-Temperatura 0,0397 0,0012* 0,0373 0,0421 Radiación-Presión -0,0165 0,0013* -0,0191 -0,0139 Cons 8,0539 0,0623* 7,9315 8,1757 LR Chi2 6747,25 Pseudo R2 0,2847

Nota: Estadísticamente significativo al 1% (*).

2 10*(exp(0,4426)-1)

Page 274: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

274

La evidencia soporta la tesis de que el esquema de circulación vehicular ampliado (PP2) contribuyó significativamente a reducir la tasa de incidencia enfermedades respiratorias, si se le compara con la libre movilidad vehicular. Así, el estudio favorece la adopción del esquema movilidad vehicular restringida a lo largo del día, antes que el esquema puntual por horas.

5. CONCLUSIONES La Dirección de Transito de Bucaramanga ha desarrollado e implementado diversas estrategias que buscan disminuir la accidentalidad en la ciudad como son: la Medida de pico y placa y política cero alcohol, horario de restricción vehicular en hora nocturna y madrugada, y la implementación de las franjas de paradas transitorias en algunas intersecciones de la ciudad. Lo anterior evidencia que se requieren de múltiples estrategias que impacten en la reducción de la accidentalidad.

El esquema PP2 permite 48% de ganancia ambiental en PM10; bajo PP1 esta ganancia es inferior al 3%. Ningún esquema contribuye a reducir las ya bajas concentraciones de O3. Una caída del 10% en los niveles de PM10 disminuye el número de casos de enfermedades respiratorios en 5,6%. El estudio favorece la adopción del esquema PP2 (Esquema actual). Se hace necesario desarrollar proyectos de investigación donde la academia tenga un rol importante; participando en el análisis de datos generados como consecuencia de la accidentalidad en la ciudad de Bucaramanga; lo anterior permite la creación de nuevos enfoques en la planificación urbana en puntos específicos de tal forma que se sienten las bases para desarrollar a futuro una política pública que propicie la seguridad en los medios de transporte apoyados en una cultura vial que sea parte de modo de vida de las personas.

REFERENCIAS

Box, G. E., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.

Departamento Administrativo de Estadísticas (2018). [En línea]. Resultados Censo Nacional de

Población y Vivienda 2018. [Consultada en noviembre 02 de 2019]. Disponible en: https://www.dane.gov.co/index.php/estadisticas-por-tema/demografia-y-poblacion/censo-nacional-de-poblacion-y-vivenda-2018

Dirección de Tránsito de Bucaramanga (2017). Estructuración de medidas para el mejoramiento de

la movilidad en Bucaramanga. Bucaramanga. Dirección de Tránsito de Bucaramanga (2017). Estudio de alternativas de priorización para la

seguridad vial de los motociclistas en la ciudad de Bucaramanga. Alcaldía de Bucaramanga. Organización Mundial de la Salud (2017). [En línea]. 10 datos sobre la seguridad vial en el mundo.

[Consultada en noviembre 02 de 2019]. Disponible en: https://www.who.int/features/factfiles/roadsafety/es/

Pérez M., Orlandoni G., Ramoni J., Fontecha F. (2018). Valoración estadística de la accidentalidad

vial en la ciudad de Bucaramanga: un análisis multivariante. II Congreso Colombiano de Estadística Santiago de Cali, Valle del Cauca.

Page 275: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

275

Memorias del XII Coloquio de Estadıstica: Metodos Estadısticos en la Generacion de Conocimiento.

CARACTERIZACION DE LOS TIEMPOS HASTA EL

DESENLACE EN PACIENTES DIAGNOSTICADOS CON

CANCER DE COLON Y RECTO. a

CHARACTERIZATION OF TIMES UNTIL THE RELEASE IN

DIAGNOSED PATIENTS WITH COLON AND STRAIGHT

CANCER.

NORBEY JULIAN TUTALCHA VALBUENA b , JULIAN ALBERTO QUINTERO

BEJARANO c, JOSE RAFAEL TOVAR CUEVAS d

Modalidades de Comunicacion

RESUMEN: En este documento se propuso la implementacion de modelos Bayesianos con el fin de esti-

mar tiempos esperados de fallecimiento de pacientes diagnosticados con CCR. Se identificaron modelos de

probabilidad acordes a la naturaleza de las variables, se plantearon modelos Bayesianos teniendo en cuenta

diferentes distribuciones previas y verosimilitudes, seleccionando ası aquellos modelos posteriores con menor

DIC. Los tiempos esperados mas cortos corresponden a hombres con CR en estadio IV, mediante intervalos

de credibilidad se infiere que estos son diferentes a algunos otros perfiles, tales como hombres del mismo CA

pero con estadio II, o mujeres con el mismo CA pero en estadio II y III, tambien se encontro que pacien-

tes hombres con CC en estadio III tienen tiempos esperados mas cortos que mujeres con CR en estadio II y III.

PALABRAS CLAVE: modelos Bayesianos, cancer de colon, cancer de recto, estadio, distribuciones pre-

vias, modelos posteriores, DIC, tiempos esperados.

ABSTRACT: In this document the implementation of Bayesian models was proposed in order to estimate

expected death times of patients diagnosed with CRC. Probability models were identified according to the

nature of the variables, Bayesian models were considered taking into account different prior distributions and

likelihoods, thus selecting those subsequent models with lower DIC. The shortest expected times correspond

to men with stage IV CR, through credibility intervals it is inferred that these are different from some other

profiles, such as men of the same CA but with stage II, or women with the same CA but in stage II and

III, it was also found that male patients with stage III CHD have shorter expected times than women with

aTutalcha, Julian 1. & Quintero, Julian 2. & Tovar, Rafael 3. (2019). CARACTERIZACION DE LOS TIEM-

POS HASTA EL DESENLACE EN PACIENTES DIAGNOSTICADOS CON CANCER DE COLON Y RECTO.

Memorias del XII Coloquio de Estadıstica: Metodos Estadısticos en la Generacion de Conocimiento.bEstudiante de estadıstica, Escuela de estadıstica, Universidad del Valle, [email protected] de estadıstica, Escuela de estadıstica, Universidad del Valle, [email protected]. en estadıstica, Escuela de estadıstica, Universidad del Valle, [email protected]

1

1

Page 276: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

276

Julian Tutalcha, Julian Quintero, Rafael Tovar

stage II and III CR.

KEYWORDS: Bayesian models, colon cancer, rectal cancer, stage, previous distributions, later models,

DIC, expected times.

1. INTRODUCCION

En el mundo, se presenta una tasa ajustada por edad (TAE) por incidencia de 17.2 casos por

100.000 habitantes (hab), ocupando el cuarto lugar de incidencia entre todos los tipos de cancer

en ambos sexos; con una tasa de incidencia mayor en hombres que en mujeres TAE de 20.3 y

14.6 casos por 100.000 hab, respectivamente. En 2010 en colombia la TAE de mortalidad por es-

te tipo de cancer para hombres fue de 6.1 casos por 100.000 y para mujeres, de 5.8 casos por 100.000.

Con el objetivo de caracterizar los tiempos transcurridos desde la primera cita en el servicio de

oncologıa hasta la muerte para un grupo de pacientes con CCR atendidos en un centro medico de

la ciudad de Pereira, en este estudio se propuso la implementacion de la estadıstica Bayesiana, con

el fin de encontrar estimaciones de los tiempos esperados de muerte mas confiables. Considerando

que al formar grupos de individuos teniendo en cuenta la combinacion de los niveles de los factores

(covariables), y al ajustar modelos de regresion por cada uno de ellos, se podrıan presentar proble-

mas de identificabilidad y sobreparametrizacion debido al bajo numero de unidades de observacion.

Por lo tanto, se identificaron modelos de probabilidad acordes al comportamiento de los tiempos de

muerte y se realizaron pruebas de bondad de ajuste. Se plantearon modelos estadısticos Bayesia-

nos que estimen los tiempos de muerte esperados en cada grupo. Se tuvieron varias distribuciones

previas y verosimilitudes, y se escogen aquellos modelos posteriores con menor DIC (Criterio de in-

formacion de devianza) que permitieran estimar los parametros deseados y ası realizar la inferencia

Bayesiana en cada caso planteado.

2. METODOLOGIA

En este estudio se tiene informacion de los registros historicos de consultas en una institucion pres-

tadora de servicios de salud en Colombia, en el periodo comprendido entre octubre de 2003 y enero

de 2016, dicha informacion corresponde a pacientes que asistıan periodicamente a controles en el

servicio oncologıa. Dicha informacion corresponde a 231 pacientes que murieron a causa de CCR,

de los cuales 132 registros corresponden a pacientes que murieron a causa de CC y 99 que murieron

a causa de CR. De este grupo de pacientes se tiene informacion desde la primera cita a la que

asistieron en el servicio de oncologıa hasta el momento de su muerte, ademas de informacion so-

ciodemografica, como el genero, edad, lugar de residencia, entre otras y caracterısticas patologicas,

como el estadio o tipo de diagnostico de los pacientes.

2

Page 277: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

277

CARACTERIZACION DE LOS TIEMPOS HASTA EL DESENLACE EN PACIENTES DIAGNOSTICADOS CON CANCER DE COLON Y

RECTO.

Para caracterizar los tiempos de muerte se formaron 19 grupos de paciente teniendo en cuenta

los niveles de los factores (covariables). Se consideraron cuatro distribuciones convencionales (Ex-

ponencial, Weibull, Gamma, LogNormal) las cuales se ajustan a los datos de los tiempos de muerte,

estas se decidieron siguiendo el comportamiento de los datos mediante un analisis exploratorio de

datos, donde se evidencio un comportamiento asimetrico y datos extremos. En cada grupo se ajusto

un modelo Bayesiano, el cual consideraba las distribuciones convencionales y distribuciones previas

adecuados en cada caso (distribucion previa Gamma y Normal). Finalmente se eligieron los mejores

modelos Bayesianos con el DIC para realizar la inferencia Bayesiana y comparacion con algunos

aspectos de la estadıstica clasica.

3. RESULTADOS

En la Figura 1 se muestra la grafica de interaccion, en esta se puede ver que las lıneas no son para-

lelas. Este efecto de interaccion indica que la relacion entre el sexo y el tiempo de muerte depende

del estadio del CA. Una paciente mujer diagnosticada con CC en estadio I y IV se caracteriza por

tiempos medios de muerte mas cortos que un paciente hombre en el mismo estado. Sin embargo,

una paciente mujer diagnosticada con CR en estadio I se caracteriza por tiempos medios de muerte

mas prolongados que un paciente hombre en el mismo estado. Una vez seleccionadas las distribu-

6

8

10

FEMENINO MASCULINOGenero

Tiem

po m

edio

(mes

es)

Estadio 0

I

II

III

IV

(a) Tiempos medios de muerte para CC

10

20

FEMENINO MASCULINOGenero

Tiem

po m

edio

(mes

es)

Estadio 0

I

II

III

IV

(b) Tiempos medios de muerte para CR

Figura 1: Grafico de interacciones para tiempos medios de muerte considerando tipo de CA, genero y estadio

ciones posteriores, teniendo en cuenta el DIC se realizan las estimaciones clasicas y Bayesianas,

3

Page 278: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

278

Julian Tutalcha, Julian Quintero, Rafael Tovar

estos resultados se evidencian en la Tabla 1. Se observan diferencias entre las estimaciones clasicas

y Bayesianas, siendo las Bayesianas aquellas con tiempos medios mas cortos que las estimaciones

clasicas, en la mayorıa de casos con un mes de diferencia. Es importante tener en cuenta que en

este caso, la estimacion clasica puede resultar menos precisa, considerando la fuerte asimetrıa de los

datos, por lo que es conveniente examinar la mediana. Ahora bien, las estimaciones clasicas de la

mediana con respecto a las estimaciones Bayesianas, para los grupos de pacientes con CC (Grupos

1-10) presentan valores similares, pero para el caso de los pacientes con CR (Grupos 11-19) si se

observan discrepancias entre estas dos estimaciones.

Considerando los resultados usando el metodo de Bayes se encontro que los pacientes hombres

diagnosticados con CC en el estadio 0 presentaron el tiempo medio mas corto (3.26 meses). De los

pacientes diagnosticados con CR, se encontro que aquellos con el estadio IV tenıan la estimacion

del tiempo medio mas corto (3.81 meses). Por otro lado, los pacientes hombres diagnosticados con

CR en el estadio II (Grupo 17) presentaron los tiempos mas prolongados (25.86 meses), seguido de

los pacientes reportados con estadio 0 (14.09 meses).

Tabla 1: Estimaciones Bayesianas, clasicas y Bootstrap

Estimaciones Bayesianas Estimaciones clasicas Bootstrap

Tipo de CA Genero Estadio GrupoµB

Tiempo medio

Sd

Desv estandar

Region de

Credibilidad HPD95%

X ICBoots 95%

CA

Colon

Femenino

0 1 3.96 2.47 (1.60 ; 9.40) 4.71 (2.57 ; 6.97)

I 2 3.68 2.66 (1.38 ; 9.41) 4.53 (3.12 ; 7.12)

II 3 8.72 1.99 (5.53 ; 12.96) 9.71 (3.99 ; 19.67)

III 4 5.96 1.07 (4.23 ; 8.25) 6.03 (4.61 ; 7.73)

IV 5 6.91 2.31 (3.57 ; 11.89) 7.37 (3.75 11.93)

Masculino

0 6 3.26 3.51 (0.99 ; 10.30) 4.46 (0.23 ; 10.00)

I 7 6.18 4.44 (2.30 ; 15.71) 7.58 (3.14 ; 14.92)

II 8 5.97 2.73 (2.76 ; 11.75) 6.69 (2.33 ; 11.71)

III 9 4.82 1.28 (2.92 ; 7.62) 5.10 (3.76 ; 6.51)

IV 10 10.14 4.05 (4.86 ; 19.04) 11.23 (6.37 ; 16.71)

CA

Recto

Femenino

0 11 11.49 8.31 (4.31 ; 29.38) 14.19 (8.33 ; 21.18)

I 12 16.15 15.85 (5.08 ; 48.86) 21.03 (3.90 ; 50.10)

II 13 13.84 4.33 (7.77 ; 23.41) 14.90 (7.02 ; 25.39)

III 14 13.17 3.45 (7.88 ; 20.56) 13.49 (7.04 ; 22.84)

IV 15 4.47 1.65 (2.33 ; 8.21) 4.89 (2.59 ; 7.38)

Masculino

0 16 14.09 22.81 (3.69 ; 49.97) 20.83 (3.73 ; 37.93)

II 17 25.86 10.84 (11.70 ; 49.25) 27.03 (11.77 ; 43.94)

III 18 11.64 3.07 (6.91 ; 18.30) 12.15 (6.31 ; 19.59)

IV 19 3.81 1.33 (2.03 ; 6.77) 4.13 (2.35 ; 6.10)

Tabla 2: Probabilidades obtenidas de la distribucion posterior

Grupo 1 (CF0) 2 (CFI) 3 (CFII) 4 (CFIII) 5 (CFIV) 6 (CM0) 7 (CMI) 8 (CMII) 9 (CMIII) 10 (CMIV)

P (t > 3,26|Grupo) 0.4376 0.4004 0.5478 0.5744 0.4910 0.3656 0.5968 0.5796 0.5116 0.7382

Grupo 11 (RF0) 12 (RFI) 13 (RFII) 14 (RFIII) 15 (RFIV) 16 (RM0) 17 (RMII) 18 (RMIII) 19 (RMIV)

P (t > 3,26|Grupo) 0.7526 0.6796 0.7892 0.7746 0.4898 0.7964 0.7444 0.6092 0.4320

4

Page 279: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

279

CARACTERIZACION DE LOS TIEMPOS HASTA EL DESENLACE EN PACIENTES DIAGNOSTICADOS CON CANCER DE COLON Y

RECTO.

En la Tabla 2 se muestran los resultados de dichas probabilidades. Se observo que pacientes per-

tenecientes a los grupos 1 (CF0), 2 (CFI), 5 (CFIV), 6 (CM0), 15 (RFIV) y 19 (RMIV) tienen

asociadas probabilidades mas bajas. Por lo que el riesgo asociado a estos grupos es mayor que en

otros grupos, donde las probabilidades sobrepasaron un umbral de 0.5.

4. Conclusiones

Este analisis nos muestra la elevada incertidumbre de tiempos hasta la muerte en los pacientes de

CR para los estadios bajos. Sin embargo, esta alta variabilidad no es tan evidente para los tiempos

de muerte en los pacientes de CC. Es decir, un paciente hombre diagnosticado con CR en estadio

II tiene una esperanza de vida media de 11 a 49 meses, mientras que un paciente hombre con el

mismo diagnostico en el estadio IV tiene una esperanza de vida media de 2 a 6 meses. Una paciente

diagnosticada con CR en estadio IV tiene una esperanza de vida media de 2 a 8 meses, mientras

que una paciente con el mismo diagnostico en estadio I tiene una esperanza de vida de 5 a 48 meses.

Esto hace difıcil predecir la esperanza de vida de pacientes con CR en estadios bajos, debido a que

en las etapas tempranas del CA (Estadio 0,I y II) la resistencia a la enfermedad puede se mayor,

dependiendo de otras caracterısticas de los pacientes, como por ejemplo la edad. Por otro lado, las

estimaciones pueden ser mas precisas en los pacientes con CR en etapas avanzadas (estadio III y

IV), considerando la letalidad del CA en estas etapas.

Referencias

Ministerio de salud ;Proteccion social (2017). Guıa de Practica Clınica para la deteccion temprana,

diagnostico, tratamiento integral, seguimiento y rehabilitacion del cancer de colon y recto.

gpc.mimsalud.gov.co.

Valencia, A., Parra, L., Martınez, J. & Tovar, J. (2019). Application of alternative parametric

models for the survival analysis of cancer patients. Revista Peruana de Medicina Experimental

y Salud Publica-vol.36 no.2.

Alvear, C. & Tovar, J. (2018). Regression models with asymmetric data for estimating thyroglobulin

levels one year after the ablation of thyroid cancer. Statistical Methods in Medical Research-Vol

28 pag 2258-2275.

Hassan, MR., Suan, MA., Soelar, Shahrul Aiman., Mohammed, Noor Syahireen., Ismail, Ibtisam

and Ahmad, Faizah (2016). Survival analysis and Prognostic factors for colorectal cancer pa-

tients in Malaysia. Asian Pac J Cancer Prev-Vol 17 pag 35-75-81

Instituto Nacional de Cancerologia (2006). Grupo de Vigilancia Epidemiologica del Cancer. Inci-

dencia estimada segun departamentos-Colombia (https://www.cancer.gov.co)

5

Page 280: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

280

XII Coloquio de Estadística Medellín, Colombia, 19 al 22 de Noviembre de 2019

1

Una alternativa de predicción de tiempo para el desarrollo de software

An alternative to predict the time to development of software

Mateo Restrepo-Higuita1,a Valentina Yepes-Valle2,b 1-2 Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia-Sede Medellín.

Resumen Algunas empresas de desarrollo de software han presentado el problema de estimar el tiempo que tarda un desarrollador para realizar un proyecto dado. Este tiempo se estima inicialmente mediante el juicio de expertos, con metodologías que solo tienen en cuenta el criterio que parte de sus experiencias previas. Sin embargo, se ha presentado que en la práctica dicha estimación resulta ser diferente, demorándose en muchos casos más de lo esperado y ocasionando pérdidas monetarias a estas empresas. En principio buscamos un acercamiento al problema en una empresa particular, planteando desde la organización de la información histórica hasta el análisis estadístico de la misma y teniendo en cuenta variables como: tipo de desarrollo (DT) solicitado por el cliente, el tiempo asignado por juicio del experto (TE), el tiempo real en horas que se tardó el proyecto (TR), entre otras. Se espera generar un modelo estadístico que permita una estimación más precisa del tiempo de duración de los proyectos relacionados con el desarrollo de software y presentar los resultados junto con los detalles técnicos de los datos reales de una empresa particular.

Abstract

Some software developing companies have presented the problem of estimating time that a developer takes completing a project. Initially this time is estimated through some experts that are going to make a judgment about it with methodologies that only consider the background of previous experiences. However, it has been presented that practical estimates may be different, delaying more of what is expected and generating financially loss of money for the company. At first we are looking for an approach directly to the problem in a particular organization, posing from company's historic information up to the statistic analysis and keeping in mind some variables such as: type of development (DT) requested from the client, assigned time from the expert (TE), the real time in hours it took to do the project (TR), etc. Is expected to generate a statistical model that allow an approximation more precise for the project's time and duration related with the software development and present the results together with the technical details and the real data of a particularly company.

aEstudiante de pregrado en Estadística. E-mail: [email protected] bEstudiante de pregrado en Estadística. E-mail: [email protected]

Page 281: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

281

2 Mateo Restrepo Higuita, Valentina Yepes Valle

XII Coloquio de Estadística 2019

1. Introducción

En este trabajo se busca hacer un análisis del comportamiento de los datos históricos de una empresa dedicada al desarrollo de software que están almacenados en una base de datos, buscando una solución al problema de estimaciones de tiempo para desarrollo de software en esta empresa. Lo que se busca con este análisis es poder mejorar las estimaciones de tiempo de esta entidad para que así puedan tener una mayor veracidad al dar el veredicto de un tiempo a un determinado cliente que quiere contratar sus servicios, debido a que sus estimaciones no son tan acertadas en todos los casos ya que el tiempo estimado para pactar un trato lo hace un experto basado en su experiencia, el problema se abarca usando los modelos de regresión múltiple en este caso en particular los modelos GAMLSS, después de obtener el modelo se trata de hacer el método de validación cruzada para así mejorar la estimación y poder entrenar este para predicciones futuras.

2. Gráficas y ecuaciones Gráficas

Figura 1: Grafico de dispersión de la base de datos, con recta Y=X De la Figura 1 se logró observar que los datos no tienen una varianza constante, puesto que se aprecia que entre más aumenta el tiempo estimado más dispersión tienen los datos, por lo tanto, no es adecuado usar un modelo lineal simple (lm) a causa de que no se cumple el supuesto de varianza constante, por otro lado consideramos un mejor ajuste a estos datos con un modelo GAMLSS, además se comparan con la recta Y=X para ver el comportamiento de las estimaciones realizadas por el experto y comprar estas con el tiempo real que se tardó el proyecto y tener una idea inicial de que tanto subestima o sobrestima el experto.

Page 282: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

282

3 Mateo Restrepo Higuita, Valentina Yepes Valle

XII Coloquio de Estadística 2019

Figura 2: Descripción

De la Figura 2 podemos observar que se cumplen los supuestos de regresión lineal ya que cada curva de densidad gaussiana se comporta como una distribución normal, por la estructura de los datos se puede apreciar que entre más aumente el tiempo estimado más variabilidad tienen los datos (mayor varianza). Además, podemos analizar que de acuerdo con la línea roja el experto en el tema de la empresa en la mayoría de tipos de proyecto está sobrestimando el tiempo que se demora cada proyecto, en el caso de los desarrolladores con un tiempo estimado entre 0 y 50 el experto da un tiempo acertado para para el proyecto de acuerdo con el tiempo real.

Figura 3: Análisis de cada tipo de proyecto (DT) con modelo gamlss.

De la Figura 3 observamos que se toman 2 de los análisis que se le realizo a los 11 tipos de proyectos para ejemplificar, el análisis realizado fue hecho con modelo gamlss y la recta Y=X.

Page 283: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

283

4 Mateo Restrepo Higuita, Valentina Yepes Valle

XII Coloquio de Estadística 2019

Ecuaciones.

𝐻𝐻0: 𝛽𝛽1 = 1 𝐻𝐻1: 𝛽𝛽1 ≠ 1

𝑡𝑡0 = 𝛽1 − 1𝑆𝑆𝑆𝑆(𝛽1)

3. Conclusiones Después de un análisis se puedo observar que una covariable de gran significancia para el modelo de los datos fue el tipo de desarrollo, se pudo apreciar que algunas de las regresiones generadas con el modelo GAMLSS de cada tipo de proyecto (DT) estiman mejor el tiempo teniendo de referencia de la recta y=x, al realizar estas estimaciones se logró concluir que para proyectos con una duración máxima de 65 horas el experto tenía una buena estimación del tiempo necesario, por el contrario para proyectos con duraciones mayores a 65 horas el experto siempre subestimaba o sobrestimaba el tiempo. Partiendo de esto se plantea darle solución a este problema a partir de un modelo general GAMLSS para los datos . 4. Referencias Rigby R.A. and Stasinopoulos D.M. (2005). Generalized Additive models for location, scale and shape. Appl. Statist., 54, part 3, pp 507-554. P. Montgomery. (2002).Introducción al Análisis de Regresión lineal. 1ª ed. Ed. Ediciones CECSA. México DF. México. 2002. pp 65-80. Stasinopoulos. & Rigby, R. (2007), Generalized additive models for location, scale and shape (GAMLSS) in R. Journal of Statistical Software 23(7), 1–46.

Page 284: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

284

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

Metodología de flujo de conocimiento (primera fase) aplicada al proceso

de investigación científica con fines de visibilidad nacional e internacional en la Universidad de Medellín.

Lillyana María Giraldo Marín a, Elizabeth Tatiana Arroyave Cataño 2b , Saray Galeano Ospino c, Jessica María Rojas Mora d.

a Universidad de Medellín. b Universidad de Medellín. c Universidad de Medellín. dUniversidad Nacional de Colombia, sede Medellín. Email: [email protected], [email protected], [email protected], [email protected].

Resumen En el sector de la educación superior se elaboran políticas para atraer y retener el talento humano mundial, las cuales están asociadas a la generación de conocimiento científico. Las universidades desarrollan estrategias de corto, mediano y largo plazo para hacer frente a la creciente competitividad de sus homólogas nacionales e internacionales. El objetivo de este artículo es aplicar la metodología de identificación de flujos de conocimiento KoFI a un proceso institucional que guíe estratégica y sistemáticamente el desarrollo de procesos de visibilidad de las universidades. La metodología de flujos de conocimiento, permitirá en las fases de especificación y modelado del proceso, analizar e identificar las principales variables que se deben tener en cuenta para realizar un modelado de proceso de medición y clasificación de productos derivados de actividades de investigación que guíen estratégicamente el desarrollo de procesos de visibilidad institucional en universidades para la generación de nuevo conocimiento. Los resultados obtenidos permitieron identificar las variables y el modelado del proceso donde se evidencia los roles, los tipos y fuentes de conocimiento del procedimiento de visibilidad institucional. Palabras clave: Flujos de conocimiento, Gestión de Conocimiento, Visibilidad Institucional, Producción Científica.

Page 285: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

285

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

Knowledge flow methodology (first phase) applied to the process of scientific research for national and

international visibility at the University of Medellín.

Lillyana María Giraldo Marín a, Elizabeth Tatiana Arroyave Cataño 2b ,

Saray Galeano Ospino c, Jessica María Rojas Mora d.

a Universidad de Medellín. b Universidad de Medellín. c Universidad de Medellín. dUniversidad Nacional de Colombia, sede Medellín. Email: [email protected], [email protected], [email protected], [email protected].

Abstract In the higher education sector, policies are developed to attract and retain global human talent, which are associated with the generation of scientific knowledge. Universities develop short, medium and long-term strategies to face the growing competitiveness of their national and international counterparts. The objective of this article is to apply the KoFI knowledge flow identification methodology to an institutional process that strategically and systematically guides the development of university visibility processes. The methodology of knowledge flows will allow, in the specification and modeling phases of the process, to analyze and identify the main variables that must be taken into account to perform a modeling process of measurement and classification of products derived from research activities that strategically guide the development of processes of institutional visibility in universities for the generation of new knowledge. The results obtained allowed the identification of variables and process modeling where roles, types and sources of knowledge of the institutional visibility procedure are evidenced. Key words: Knowledge Management; Institutional Visibility; Scientific Production.

Page 286: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

286

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

1

Modelos alternativos para predecir la tasa de natalidad

en función de los factores ambientales y socioeconómicos de un país

Alternative models for predicting the birth rate based

on a country's environmental and socioeconomic factors

Jessica Quintero Lópeza, Yuberth Anderson Saavedra Coneob

aUniversidad Nacional de Colombia sede Medellín bUniversidad Nacional de Colombia sede Medellín Email: [email protected], [email protected]

Resumen Determinar la influencia de los factores ambientales y socioeconómicos sobre la tasa de natalidad o la fertilidad femenina, es el común de muchos artículos científicos; donde se aplican modelos estadísticos asumiendo hipotéticamente que la variable tasa de natalidad o fertilidad femenina sigue una distribución normal univariada, hipótesis que no siempre se cumple. En este documento se usan los modelos GAMLSS, para estudiar la influencia de las variables temperatura, producto interno bruto (PIB) y la contaminación por partículas finas de aire (PM2,5) sobre la tasa de natalidad o fertilidad femenina a nivel de país. Los modelos GAMLSS permiten que el investigador asuma distribuciones estadísticas para la variable respuesta diferentes a la normal y que se puedan modelar todos los parámetros en función de las covariables. Al aplicar GAMLSS a los datos se obtuvo que las variables temperatura, producto interno bruto (PIB) y la contaminación por partículas finas de aire (PM2,5) influyen significativamente sobre explicación de la tasa de natalidad o la fertilidad femenina a nivel de país. En particular, Los resultados encontrados en este artículo sirven para describir la tasa de natalidad o la fertilidad femenina y para estimar la tasa de crecimiento poblacional de los países. Palabras clave: GAMLSS, Loess, Tasa de natalidad, Temperatura, Contaminación, PIB.

Abstract Determining the influence of environmental and socioeconomic factors on the birth rate or female fertility, is the common of many scientific articles, where statistical models are applied assuming hypothetically that the variable birth rate or female fertility follows a univariate normal distribution, hypothesis that is not always fulfilled. In this document, GAMLSS models are used to study the influence of the variables temperature, gross domestic product (GDP) and air pollution by fine particles (PM2.5) on the birth rate or female fertility at the country level. The GAMLSS models allow the researcher to assume statistical

Page 287: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

287

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

2

distributions for the response variable different from the normal one and that all the parameters can be modeled as a function of the covariates. Applying GAMLSS to the data, it was found that the variables temperature, gross domestic product (GDP) and fine particulate air pollution (PM2.5) significantly influence the explanation of the birth rate or female fertility at the country level. In particular, the results found in this article serve to describe the birth rate or female fertility and to estimate the population growth rate of countries. Key words: GAMLSS, Regression, Loess, Birth rate, Temperature, Pollution, GDP.

Introducción Este artículo de investigación aborda la problemática sobre la tasa de natalidad, que según la Organización Mundial de la Salud (2018) se define como: “La razón entre el número de nacidos vivos en una población durante un año específico y la población total a mitad de año, para el mismo año, usualmente multiplicada por 1000”. En la segunda mitad del siglo XVIII, la revolución industrial causó cambios demográficos que se fundamentaron en la mejora de las condiciones higiénicas, sanitarias y alimenticias que disminuyeron de forma notoria las enfermedades y decesos por desnutrición. De esta manera, en los últimos 70 años la población mundial se ha duplicado, lo cual es un dato alarmante para las naciones. Algunos países han invertido en educación y en planificación familiar con el fin de evitar embarazos en hogares de bajos recursos, y de disminuir el índice de nacimientos en los países. Estudios científicos sobre la influencia de las altas y bajas temperaturas en algunos países han mostrado que la temperatura es un factor sobresaliente que influye en la determinación de la tasa de natalidad; asimismo, se ha encontrado relación entre la tasa de natalidad y las partículas finas de aire (PM2,5), reportando que a nivel mundial las altas contaminaciones del aire se presentan en los países más pobres; además, los procesos de fertilidad femenina se han visto íntimamente perjudicados por las altas contaminaciones. Por consiguiente, es interesante para el interés de este estudio, analizar la tasa de natalidad en términos de factores ambientales como la temperatura y la contaminación por partículas finas de aire (PM2,5); como también, del producto interno bruto (PIB) que representa el factor socioeconómico. El objetivo principal de este estudio es plantear modelos alternativos al aplicado por Mary Regina Boland (2018), quien usa datos obtenidos mediante un estudio observacional, y se abordan estadísticamente para explicar y cuantificar la tasa de natalidad como proxy de la fecundación femenina a nivel de país, mediante la metodología GAMLSS en términos de las covariables temperatura (representada mediante la temperatura media en grados Celsius desde el año 1961 hasta el año 1990), la contaminación por partículas finas de aire (PM2,5), y el producto interno bruto (PIB) para el año 2016. Dicho propósito se llevará a cabo usando el lenguaje de programación R Core Team (2019), para dar respuesta a nivel de país de los efectos de los factores ambientales y socioeconómicos mencionados sobre la fecundidad femenina; es decir, la tasa de natalidad.

Page 288: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

288

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

3

Este documento está dividido por las siguientes secciones; en la sección 1, se presenta la introducción del estudio; en la sección 2, se hace una breve descripción de los modelos GAMLSS; en la sección 3, se presenta un análisis descriptivo de los datos y se muestran algunos de los patrones y relaciones entre las variables mediante gráficos bidimensionales y tridimensionales; en la sección 4, se muestra los resultados con los diferentes modelos considerados, los criterios para la elección del mejor modelo y los resultados del mejor modelo; por último, en la sección 6 están las conclusiones del estudio.

Modelos GAMLSS Los modelos GAMLSS propuestos por Rigby, R., Stasinopoulos, D., (2005) son de gran utilidad ya que permiten modelar los parámetros de la respuesta en función de las covariables; además, permiten elegir entre más de 100 distribuciones continuas, discretas y mixtas la distribución más adecuada para la variable respuesta, y no se limitan al supuesto de normalidad. En dichos modelos, las observaciones son independientes, y la función de masa o de densidad de probabilidad depende del vector de parámetros. Los modelos GAMLSS se pueden aplicar fácilmente por medio del paquete gamlss disponible en R Core Team (2019). La función fitDist del paquete gamlss suministra una lista de distribuciones que se ajustan mejor a la variable respuesta, estas están basadas sobre el criterio de información de Akaike generalizado (GAIC), para una penalización dada por k, donde es k es por defecto igual a 2.

Análisis descriptivo de variables y datos En este trabajo se utilizan los datos analizados por Mary Regina Boland (2018) para investigar el papel que juegan los factores ambientales y socioeconómicos en la fecundidad femenina; para esto, se realiza un resumen descriptivo de los datos. En la figura 1 se realiza un análisis para descartar la posible existencia de multicolinealidad entre las covariables y evitar ajustes erróneos del modelo. Se puede observar una relación alta entre la variable respuesta tasa de natalidad y la temperatura, lo cual indica que esta covariable será significativa para el modelo. En la figura 2 se realizan tres diagramas de dispersión por cada pareja de covariables; en el diagrama de la izquierda la tasa de natalidad aumenta para PIB e índices de contaminación relativamente bajos. Además, en el grafico del centro la tasa de natalidad aumenta para altas temperaturas e índices de contaminación moderadamente bajos. Por último, en el gráfico de la derecha la tasa de natalidad aumenta para temperaturas medias y para los PIB moderadamente bajos; lo cual indica que existe mayor tasa de natalidad en los países más pobres y cálidos.

Page 289: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

289

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

4

Figura 1: Matriz de diagrama de dispersión con correlaciones

Figura 2: Tasa de natalidad en función de las covariables

Resultados En esta sección se presentan los resultados del modelo aplicado por Mary Regina Boland (2018) y los resultados de los modelos alternativos considerados. Como criterios de selección se tuvo en cuenta el AIC para el modelo lineal, GAIC para los modelos GAMLSS, el Pseudo R cuadrado y la correlación entre los valores estimados de la tasa de natalidad y los verdaderos valores de la variable respuesta. Adicionalmente, se consideró un modelo de regresión local al que se le obtiene el AIC con la función creada por Michael Friendly (2005), y la aproximación del Pseudo R cuadrado como lo describen en la red de webs Stack Exchange (2013). El modelo aplicado por Mary Regina Boland (2018), tiene una ecuación con la siguiente forma:

En la tabla 1 se observa que, a un nivel de significancia del 0,05 existen variables no significativas para el modelo de referencia; por lo cual, se hace un proceso de selección de variables que permita quitar el enmascaramiento de unas variables sobre otras. Se obtiene un modelo de la forma:

Page 290: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

290

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

5

Por consiguiente, se usó la función fitDist del paquete gamlss para obtener la familia de distribuciones que mejor se ajustan a la variable respuesta, de dicha lista, se seleccionaron ocho distribuciones y se le aplicaron al modelo anterior. La tabla 3 muestra los valores de cada criterio de selección para el modelo de regresión lineal múltiple de referencia y para el modelo de regresión local (loess); en cambio, la tabla 4 muestra dichos valores para los modelos GAMLSS. De las tablas 3 y 4 se sigue que, el mejor modelo GAMLSS es el que tiene una distribución IGAMMA en la variable respuesta; sin embargo, el modelo de regresión local (loess) supera por mucho a cualquier modelo GAMLSS considerado.

Page 291: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

291

XII Coloquio de Estadística “Métodos Estadísticos en la Generación de Conocimiento”

Universidad Nacional de Colombia - Sede Medellín Medellín, 19 al 22 de Noviembre de 2019

6

Conclusiones En este trabajo se analizaron diferentes modelos de regresión lineal múltiple, alternativos al de Mary Regina Boland (2018), donde se modela la tasa de natalidad como proxy de la fecundidad femenina en función de la temperatura, los grados de contaminación y el producto interno bruto (PIB) respectivo de cada uno de los 170 países de los se utilizó la información. Adicionalmente, para los modelos GAMLSS se consideraron ocho familias para la distribución de la variable respuesta, como también se tuvo en cuenta un modelo de regresión local. En particular, cada parámetro de los modelos GAMLSS considerados fueron modelados en términos de las covariables, generando significancia de todas las covariables en el modelo final. Por último, se obtuvo que el mejor modelo GAMLSS es el que tiene una distribución IGAMMA en la variable respuesta, con el parámetro de escala, sigma, en función de las covariables temperatura y producto interno bruto (PIB); no obstante, el modelo de regresión local (loess) fue tomado como modelo final ya que presento menor medida en el AIC, mayor correlación entre los valores estimados y los verdaderos valores de la variable respuesta, y un mayor R cuadrado.

Referencias

Mary Regina Boland. 2018. A model investigating environmental factors that play a role in female fecundity or birth rate. San Francisco, California: PLOS ONE. URL:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0207932 Michael Friendly. 2005. loess: choose span to minimize AIC. Hamilton, Ontario, Canadá. URL: https://stat.ethz.ch/pipermail/r-help/2005-November/082849.html Organización Mundial de la Salud. 2018. El embarazo en la adolescencia. Ginebra, Suiza: OMS. URL:https://www.who.int/es/news-room/fact-sheets/detail/adolescent-pregnancy R Core Team. 2019. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. URL: https://www.R-project.org/ Rigby, R., Stasinopoulos, D. 2005. Generalized additive models for location, scale and Shape. London, England: Royal Statistical Society. URL: https://doi.org/10.1111/j.1467-9876.2005.00510.x Stack Exchange. 2013. How to get an R-squared for a loess fit? New York, U.S. URL: https://stats.stackexchange.com/questions/24993/how-to-get-an-r-squared-for-a-loess-fit

Page 292: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

292

XII Coloquio de Estadıstica

“Metodos Estadısticos en la Generacion de Conocimiento”

Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 de Noviembre de 2019

Un estudio de simulacion para comparar metodos deestimacion para datos longitudinales

Salazar-Uribe, JC.a, Correa-Morales, JC. a, Mazo-Lopera, MA.a, Jimenez,

ID.b, Villegas, LF.b, Alvarez, LG.b

aUniversidad Nacional de Colombia, Sede MedellınbUniversidad CES

Email: [email protected]

Resumen

Existen varios metodos de estimacion de los parametros que caracterizan elmodelo lineal mixto (MLM) y algunos tienen un mejor desempeno que otrosdependiendo de las estructuras y de las caracterısticas presentes en los datos.En este trabajo, se presentan y comparan, vıa un estudio de simulacion, al-gunas estrategias conocidas para la obtencion de estimaciones de parametrosde los efectos fijos y componentes de varianza en el MLM. Especıficamente, sepresentan el metodo de maxima verosimilitud, el metodo de maxima verosimi-litud restringida y el metodo bayesiano MCMC. Para las simulaciones se usandatos de crecimiento craneofacial de la cohorte Damasco del CES-LPH.

Palabras Clave: Modelos lineales mixtos, Estadıstica, MCMC, Bayes, Ortodoncia.

1. Introduccion

Los modelos lineales mixtos (MLM) son ampliamente usados en problemas delmundo real ya que permiten manejar estructuras de datos complejas tales comolos llamados datos longitudinales y medidas repetidas, entre otros. Ademas, losMLM son suficientemente flexibles como para manejar situaciones donde haypresente un alto grado de no linealidad; este tipo de problemas con altos gra-dos de no linealidad se presenta con frecuencia por ejemplo, en el area de laortodoncia en relacion a algunas medidas de registro de crecimiento craneo-facial (Jimenez ID & Villegas LF & Alvarez LG (2011)). Desde un punto devista estadıstico, este tipo de problemas se puede enfrentar por medio de po-linomios con coeficientes aleatorios (Verbeke G & Molenberghs G (2000)) loscuales permiten un grado de flexibilidad mucho mayor al de los modelos linealesusuales.Los paquetes estadısticos mas usados en la practica, cuentan con metodos paraobtener los parametros que caracterizan el MLM y que son los de la componen-te sistematica (predictor lineal o efectos fijos) y las componentes de varianza.Algunos de estos metodos tienen un mejor desempeno que otros dependiendo

1

Page 293: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

293

XII Coloquio de Estadıstica

“Metodos Estadısticos en la Generacion de Conocimiento”

Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 de Noviembre de 2019

de las estructuras y de las caracterısticas presentes en los datos. La pregun-ta de investigacion que se trata de responder en este trabajo es: ¿Cual formade estimacion es recomendable usar en la practica cuando se trabaja con unMLM? Para responder esta pregunta, se presentan algunas estrategias conoci-das para la obtencion de estimaciones de parametros: El metodo de maximaverosimilitud, el metodo de maxima verosimilitud restringida y el metodo ba-yesiano MCMC (existen otras maneras de estimar en el MLM, pero aquı solose presentan estas tres).

2. Estudio de simulacion

El modelo lineal mixto (MLM) (Laird NM & Ware JH (1982)) consta de lossiguientes elementos:

Yi = Xiβ + Zibi + ǫi

bi ∼ N (0,G)

ǫi ∼ N (0,Ri)

bi independiente de ǫi y var(Yi) = ZiGZ′

i+Ri

Para generar los datos de las simulaciones con base en este modelo, se uso infor-macion de una medida que fue recolectada de manera longitudinal (Jimenez ID& Villegas LF & Alvarez LG & Salazar-Uribe JC (2019)): Altura facial anterior(AFH). Para AFH=yit, se simularon datos a partir del modelo con coeficientesaleatorios (Verbeke G & Molenberghs G (2000)):

yit = 76,97 + 2,225Generoi + 3,861Edadit − 0,079Edad2it

+b0i + b1iEdadit + b2iEdad2it+ ǫit

Donde

bt

i= (b0i,b1i,b2i)

t ∼ N

(0,0,0)t ,

20,09 0,29 0,050,29 0,18 −0,0030,05 −0,003 0,0002

ǫit ∼ N0, σ2

ǫ= 2,4345

(bi indep. de ǫit)

i = 1, 2, . . . , n y t = 1, 2, . . . , Ti

Se consideraron tamanos muestrales n ∈ 50, 100, 200, 500 y 1000 ciclos desimulacion; en cada ciclo se ajustaron modelos de acuerdo a ML, REML yMCMC. Como estimador se reporta el promedio de estas 1000 simulaciones.Las simulaciones se ejecutaron con R V3.5.3. ( R Core Team (2019))

2

Page 294: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

294

XII Coloquio de Estadıstica

“Metodos Estadısticos en la Generacion de Conocimiento”

Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 de Noviembre de 2019

3. Resultados estudio de simulacion

Los siguientes graficos resumen los resultados del estudio de simulacion en re-lacion a las estimaciones de los efectos fijos y las componentes de varianza ycada uno de los metodos de estimacion considerados. La lınea vertical punteada(color verde) representa los valores de referencia.

Grafico 1: Comportamiento de las estimaciones de los efectos fijos (β) en relacion a los valores de referencia de acuerdo alos escenarios de simulacion.

3

Page 295: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

295

XII Coloquio de Estadıstica

“Metodos Estadısticos en la Generacion de Conocimiento”

Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 de Noviembre de 2019

Grafico 2: Comportamiento de las estimaciones de las componentes de varianza (α) en relacion a los valores de referencia deacuerdo a los escenarios de simulacion.

En todos los escenarios se observa que los resultados obtenidos con ML y REMLson virtualmente los mismos. En algunos casos los resultados obtenidos conMCMC son mejores que los de ML y REML (cuando n se incrementa). Entodo caso, y de acuerdo a esta simulacion, los resultados con ML y REML sonmejores que MCMC para β, pero para α, algunas veces MCMC es mejor (vercaso n = 500) y en otras ML y REML superan a MCMC.

4. Conclusiones

En este trabajo, se presentaron tres tecnicas para la obtencion de parametros deefectos fijos y componentes de varianza especificados en un modelo lineal mixto.Se simulo un modelo cuadratico con coeficientes aleatorios usando datos de unamedida craneofacial tomada a un grupo de 49 sujetos colombianos a quienes seles ha estado haciendo un seguimiento periodico (cada dos anos) durante mas de20 anos con el fin de ver la manera en que estas medidas evolucionan en personasmestizas que nunca han recibido tratamiento de ortodoncia. Se presentaron losresultados de los ajustes de los tres modelos en varios escenarios de simulacion.En realidad, se observo un buen desempeno (desde la estabilidad numerica) delos metodos ML y REML y no se observo una diferencia notable entre estos dosmetodos y la inferencia es virtualmente la misma con uno u otro enfoque. Porsu parte el metodo MCMC, compite muy bien con ML y REML solo cuando nes grande. Recomendar al analista de datos uno de estos metodos no es tareafacil ya que dependiendo del tipo de datos y de la flexibilidad que se esperedel modelo, en algunas situaciones, un enfoque podrıa llegar a tener mejordesempeno que sus competidores. Con el MCMC es posible obtener intervalos

4

Page 296: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

296

XII Coloquio de Estadıstica

“Metodos Estadısticos en la Generacion de Conocimiento”

Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 de Noviembre de 2019

de credibilidad1, lo cual no es posible con ML o REML, pero con ML y REMLes posible especificar diversas estructuras para la matriz de varianzas de losefectos aleatorios lo cual puede ser muy ventajoso en algunas ocasiones perotambien puede llegar a ser muy problematico en otras.

Agradecimientos

A los participantes de la cohorte CES-Damasco, a la Escuela de Estadıstica de la Uni-versidad Nacional de Colombia, Sede Medellın por su continuo apoyo a los proyectosde investigacion, al grupo de investigacion CES-LPH de la Universidad CES.

Referencias

Jimenez ID, Villegas LF, Alvarez LG. (2011), Crecimiento facial vertical en 44 mesti-zos colombianos sin tratamiento desde los 6 hasta los 25 anos. Rev CES Odont,24, 2, 9-32.

Verbeke G, Molenberghs G. (2000), Linear Mixed Models for Longitudinal Data.Springer, New York.

Laird, NM; Ware, JH. (1982), Random-Effects Models for Longitudinal Data. Bio-metrics, 38, 4, 963-974

Jimenez ID, Villegas LF, Alvarez LG, Salazar-Uribe, JC. (2019), Modeling facialgrowth data in 49 untreated Colombian mestizo subjects during 18 years followup using linear mixed models. American Journal of Orthodontics and Dentofa-

cial Orthopedics, In Press.

R Core Team (2013). R: A language and environment for statistical computing. RFoundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/

1A Bayesian statistician would say ’Given our observed data, there is a 95% probabilitythat the true value of θ falls within the credible region’, while a Frequentist statistician wouldsay ’there is a 95% probability that when I compute a confidence interval from data, thetrue value of θ will fall within it’. Fuente: http://freakonometrics.hypotheses.org/18117

5

Page 297: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

297

1 INTRODUCCIONRevista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

• Memorias Xll Coloquio Nacional de Estadıstica

MODELACION DEL TIEMPO DE RECURRENCIA EN

PACIENTES CON CANCER DIFERENCIADO DE TIROIDESa

MODELING THE TIME OF RECURRENCE IN PATIENTS

WITH DIFFERENTIATED CANCER OF THYROID

LIZETH SUAREZ b, KATHERIN QUINONES c , RAFAEL TOVAR d

Artıculo Investigacion

RESUMEN: En esta investigacion se realiza la estimacion de los tiempos de recidiva en pacientes con

cancer diferenciado de tiroides (CDT), haciendo uso de distintas covariables. Se ajustan tres distribuciones

para los tiempos, las cuales son: la distribucion Exponencial, Gamma y Weibull. Se hizo uso de metodos

bayesianos para hallar la estimacion de los tiempos de recidiva.

PALABRAS CLAVE: Cancer de Tiroides, recidiva, Cancer, Bayesiana.

ABSTRACT: In this investigation, the estimation of recurrence times in patients with differentiated thy-

roid cancer (CDT) is performed, using different covariates. Three distributions are adjusted for the times,

which are: the Exponential, Gamma and Weibull distribution. Bayesian methods were used to find the esti-

mate of recurrence times.

KEYWORDS: Thyroid Cancer, recurrence, Cancer, Bayesian.

1. INTRODUCCION

En este trabajo se presenta la metodologıa empleada para modelar el tiempo de recidiva de pacientes

con cancer diferenciado de tiroides, los cuales fueron sometidos a tiroidectomıa y a terapia con yodo.

Los datos corresponden a un grupo de individuos tratados en una clınica de nivel IV de la ciudad de

Bogota en el periodo comprendido entre enero de 1997 a diciembre de 2012. Se conto con un total

de 35 casos de pacientes que presentaron al menos un caso de recidiva. Se deseaba estimar el tiempo

esperado de recidiva considerando la presencia de diferentes covariables asociadas a caracterısticas

del individuo y establecer la distribucion que mejor se ajuste a los tiempos de recidiva usando

metodos bayesianos.

aSuarez, Lizeth F. 1. & Quinones, Katherin J. 2. & Tovar, Rafael 3. (2019). Modelacion de los tiempos de recurrencia

en pacientes con cancer diferenciado de tiroides. Revista de la Facultad de CienciasbEstadıstica, Escuela de Estadıstica, Facultad de Ingenierıa, Universidad del VallecEstadıstica, Escuela de Estadıstica, Facultad de Ingenierıa, Universidad del ValledPh.D., Profesor Titular, Escuela de Estadıstica, Facultad de Ingenierıa, Universidad del Valle

• Artıculo de Investigacion 1

Page 298: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

298

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın• Memorias Xll Coloquio Nacional de Estadıstica

2. METODOLOGIA

Sea T una variable aleatoria que modela el tiempo de recidiva de un paciente con cancer diferen-

ciado de tiroides. Donde

T ∼ G(t)

Y G(t) puede ser:

Exponencial(λ) Gamma(α, λ) Weibull(α, λ)

Donde λ = 1β es la frecuencia de recidiva, y por tanto, β representa tiempo promedio de recidiva y

esta dado por β = 1λ

Como se desea estimar el tiempo de recidiva de los pacientes dadas las diferentes combinaciones de

co-variables, y se posee muy pocos casos en los grupos binomiales formados es necesario hacer uso

de la inferencia bayesiana. Para la estimacion de los parametros de las funciones de densidad se hizo

uso de los estimadores de maxima verosimilitud para el parametro λ de las tres distribuciones

tenidas en cuenta y el estimador de momento para α de la distribucion Gamma.

Dada la complejidad para la estimacion de los parametros de la distribucion Weibull y los pocos

datos que se tienen, se hara uso de la evaluacion de graficos probabilıstico para la estimacion

del parametro α de los tiempos Weibull. (Ponsati, 2003)

Las covariables usadas son:

Tabla 1: Variables para la estimacion de los tiempos de recidivas

Variable Tipo Escala Recodificacion

Edad (E) Cuantitativa Discreta Razon1 si ≥ 45 Anos

0 si < 45 Anos

Sexo (S) Cualitativa Nominal1 si es Femenino

0 si es Masculino

Tamano del tumor (TT) Cualitativa Ordinal1 si > 2cm

0 si ≤ 2cm

Invasion Capsular (InCap) Cualitativa Nominal1 si esta presente

0 si esta ausente

Con las cuales se formaron nueve grupos binomiales con informacion.

2.1. Inferencia bayesiana

Para las diferentes distribuciones de los tiempos de recidiva se va a considerar la misma apriori

conjugada, donde π(λ) ∼ Gamma(γ, β∗)

Una vez estimada la distribucion a priori, se procede a encontrar las respectivas distribuciones

aposteriori, por tanto, el estimador de bayes para λ usando una funcion de perdida en valor absoluto

2 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 299: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

299

3 RESULTADOSRevista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

• Memorias Xll Coloquio Nacional de Estadıstica

Figura 1: Grupos binomiales

estara dado por la mediana de la distribucion a posteriorı a las cuales se les calculo sus respectivos

intervalos de alta densidad aposteriori (HDI).

3. RESULTADOS

En la tabla 2, se encuentra las estimaciones de bayes para el tiempo de recidiva, el cual corresponde

a la mediana de la distribucion aposteriori. En dicha tabla se puede observar que, el grupo uno

es el que menor tiempo de recidiva presenta para las tres verosimilitudes analizadas, este grupo

esta conformado por hombres menores de 45 anos, que presentaron un tamano de tumor menor

a 2cm y no presentaron Invasion capsular. Los tiempos estimados estan dados por 358.91 dıas

(HDI95%=(115.12;69 126.95)) para la exponencial, de 342.20 dıas (HDI95%=(110.71;40 136.78))

para la Gamma y de 1 729.31 dıas (HDI95%=(528;120 773.62)) para la distribucion Weibull.

Exponencial Exponencial-L Exponencial-U Gamma Gamma-L Gamma-U Weibull Weibull-L Weibull-U

1 358.91 115.12 69126.95 342.20 110.71 40136.78 1729.31 528.00 120773.62

2 1348.38 607.13 7314.62 1284.18 586.07 6327.50 9072.61 4042.38 48149.38

3 1384.94 665.94 5759.71 1304.66 647.85 4947.42 8867.89 4270.81 40586.42

4 2762.87 1258.83 18096.76 2643.71 1203.63 15013.81 22261.66 9968.18 131661.01

5 615.03 363.69 1377.57 584.70 348.66 1324.90 3361.80 1989.55 7725.89

6 1042.32 466.14 6481.64 973.95 455.77 5760.35 7001.57 3091.48 43283.88

7 1087.06 425.48 10065.04 1031.72 417.75 9634.83 6635.65 2638.28 75320.65

8 418.23 188.23 2245.42 398.12 180.64 2452.19 2060.25 912.00 12219.70

9 1181.66 653.76 3195.38 1111.31 626.49 2839.46 8398.36 4690.54 21644.39

Tabla 2: Estimacion de la mediana aposteriori con su respectivo intervalo de maxima densidad para cada grupo de

covariables

Otro grupo que presento menor tiempo de recidiva fue el grupo 8, conformado por Mujeres mayores

a 45 anos, que presentaron un tamano de tumor menor a 2cm y tuvieron invasion capsular. El grupo

cuatro es el que mayor tiempo de recidiva presentan en las diferentes verosimilitudes, este grupo

esta conformado por mujeres menores de 45 anos, que tuvieron un tamano del tumor mayor a

2cm y no presentaron invasion capsular. Para la verosimilitud exponencial el tiempo estimado de

bayes fue de 2762.87 dıas (HDI95%=(1 258.83 ; 18 096.76)), para la Gamma fue de 2 643.71 dıas

(HDI95%=(1 203.63 ; 15 013.81)) y para la Weibull fue de 22 261.66 dıas (HDI95%=(1 989.55 ;

• Artıculo de Investigacion 3

Page 300: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

300

Revista de la Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın• Memorias Xll Coloquio Nacional de Estadıstica

8131 661.01)). Cabe resaltar que en todos los casos, la distribucion Gamma obtuvo valores inferiores

a las otras distribuciones.

0 5000 10000 15000

0e+0

04e−04

8e−04

Grupo 1

tiempos de recidiva

Den

sida

d

0 5000 10000 15000

0e+0

04e−04

8e−04

Grupo 1

tiempos de recidiva

Den

sida

d

0 5000 10000 15000

0e+0

04e−04

8e−04

Grupo 1

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0 50000 100000 150000 200000 250000 300000

0e+0

03e−05

6e−05

Grupo 2

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000 250000 300000

0e+0

03e−05

6e−05

Grupo 2

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000 250000 300000

0e+0

03e−05

6e−05

Grupo 2

tiempos de recidiva

Den

sida

d ExponencialGammaWeibull

0 50000 100000 150000 200000 250000 300000

0e+0

02e−05

4e−05

Grupo 3

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000 250000 300000

0e+0

02e−05

4e−05

Grupo 3

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000 250000 300000

0e+0

02e−05

4e−05

Grupo 3

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 4

tiempos de recidiva

Den

sida

d

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 4

tiempos de recidiva

Den

sida

d

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 4

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 5

tiempos de recidivaD

ensi

dad

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 5

tiempos de recidivaD

ensi

dad

0e+00 1e+05 2e+05 3e+05 4e+050.0e

+00

1.5e−05

3.0e−05

Grupo 5

tiempos de recidivaD

ensi

dad

ExponencialGammaWeibull

0 50000 100000 150000 200000

0e+0

03e−05

6e−05

Grupo 6

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000

0e+0

03e−05

6e−05

Grupo 6

tiempos de recidiva

Den

sida

d

0 50000 100000 150000 200000

0e+0

03e−05

6e−05

Grupo 6

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 7

tiempos de recidiva

Den

sida

d

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 7

tiempos de recidiva

Den

sida

d

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 7

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 8

tiempos de recidiva

Den

sida

d

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 8

tiempos de recidiva

Den

sida

d

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00

000

0.00

010

0.00

020

Grupo 8

tiempos de recidiva

Den

sida

d

ExponencialGammaWeibull

0e+00 2e+05 4e+05 6e+05 8e+05 1e+060.0e

+00

1.0e−05

2.0e−05

Grupo 9

tiempos de recidiva

Den

sida

d

0e+00 2e+05 4e+05 6e+05 8e+05 1e+060.0e

+00

1.0e−05

2.0e−05

Grupo 9

tiempos de recidiva

Den

sida

d

0e+00 2e+05 4e+05 6e+05 8e+05 1e+060.0e

+00

1.0e−05

2.0e−05

Grupo 9

tiempos de recidiva

Den

sida

d ExponencialGammaWeibull

Figura 2: Distribuciones de densidad aposterior para cada grupo de covariables y para cada verosimilitud

Haciendo uso del DIC (Deviance Information Criterion) se llevo acabo la seleccion de modelos,

encontrando que las tres distribuciones utilizadas como verosimilitud, son adecuadas para modelar

los tiempos de recidiva.

4. CONCLUSIONES

Este estudio permite concluir que los hombres menores e 45 anos, que presentaron invasion capsular

y un tamano de tumor menor a 2cm son los que mayor riesgo tienen de presentar una recidiva en

menor tiempo. Otro grupo de mayor riesgo esa dado por mujeres, mayores de 45 anos, con un

tamano de tumor menor a 2cm y presentaron invasion capsular, es decir, que dichos grupos son

mas propensos en tener una recaıda en el cancer de tiroides o presentar diagnostico en otros canceres

de forma mas temprana en comparacion con otros grupos.

Referencias

Ponsati, E. G. (2003). Fiabilidad industrial. Universitat Politecnica de Catalunya.

Fadallah, A. (2011) Highest Density Regions for Uni-and Bivariate Densities. Eramus University.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P., Van Der Linde, A. (2002). Bayesian measures of

model complexity and fit. Journal of the royal statistical society: Series b (statistical methodo-

logy), 64(4), 583-639.

4 Revista Facultad de Ciencias Universidad Nacional de Colombia, Sede Medellın

Page 301: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

301

XII Coloquio de EstadísticaMedillín - Noviembre 19-22 de 2019

XII Coloquio de Estadística

Comparación entre un modelo de Cointegración y un modelo deCointegración por Suavización Exponencial para una ventana de

tiempo trimestral para la TRM y COLCAP.

Daniela Gomez Sanchez1,a

, Vanessa Toledo Serna1,b, Omar Ríos Saavedra1,c

1Escuela de Estadística, Universidad del Valle, Cali, Colombia

Abstract

Este trabajo busca comparar las estimaciones de un modelo de cointe-gración de datos trimestrales tomando el último día del mes como valor dereferencia y un modelo de cointegración siguiendo una suavización exponen-cial para la ventana de tiempo trimestral de la relación a largo plazo de laTRM y el COLCAP. De esta manera se busca determinar la incidencia dela normalidad agregada en la ventana de tiempo sobre los parámetros decointegración y sus respectivos residuales en el modelo de cointegración. Seestimarán dos modelos de Corrección de Errores (VEC) entre la Tasa decambio representativa del mercado (TRM) y el Índice de capitalización dela Bolsa de Valores de Colombia (COLCAP), uno con el último valor diariode cada trimestre de las series, y otro las estimaciones de una suavizaciónexponencial y comparar sus resultados.

Key words: TRM, COLCAP, Cointegración, VAR, VEC, Causalidad.

Resumen

Existen numerosos estudios que analizan que la exposición al riesgo de tipo decambio de empresas e industrias multinacionales de un país influyen en el compor-tamiento de su economía nacional. En una economía abierta como la colombiana,la medición del riesgo cambiario es de gran importancia para la toma de decisio-nes de una empresa, por el riesgo de pérdida o ganancia que puedan afectar tantosus finanzas como su rentabilidad. Donde el riesgo cambiario se ve reflejado en lavolatilidad de la tasa de cambio y dadas las variaciones del mercado cambiario, se

aUniversidad del Valle. E-mail: [email protected] del Valle. E-mail: [email protected] del Valle. E-mail: [email protected]

1

Page 302: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

302

2 3

ve necesario el anticipar los efectos producidos a esta exposición.

El análisis de cointegración es una técnica estadística, que en ciencias econó-micas resuelve el problema de la medición de las relaciones de equilibrio entre lasvariables en el largo plazo tomando en cuenta las características no estacionariasde las mismas. También resuelve el problema estadístico de las regresiones espu-rias, el cual ocurre cuando se trabaja con variables que se encuentran integradasen algún nivel. Se establece que dos o más variables están cointegradas, si estasse mueven de manera conjunta en el tiempo y la diferencia entre ellas es estableo estacionaria, aun cuando estas contengan un comportamiento tendencial y porende no estacionario.

Como ejemplo de aplicación para este análisis, se estimará un vector de coin-tegración que relaciona el precio del peso colombiano respecto al dolar en la TasaRepresentativa del Mercado Colombiano (TRM) y los precios de las acciones per-tenecientes al índice de Capitalización de la Bolsa de Valores de Colombia (COL-CAP) con temporalidad trimestral, tomando como valor de referencia al últimovalor del trimestre, los datos se encuentran de manera publica en la pagina delBanco de la República (de Valores de Colombia 2019).

En la aplicación se pudo observar que tanto las series de la tasa representati-va del mercado TRM y el índice COLCAP tienen grado de integración de ordenuno, por esta razón es posible tratar de encontrar al menos en teoría un vectorcointegración que explique las relaciones de las mismas en el largo plazo. Me-diante el uso del software estadístico R (R Development Core Team 2018) y lospaquetes “tseries"(Trapletti et al. 2018), “MASS"(Ripley et al. 2013) y “urca"(?),se encuentra la existencia de la relación al largo plazo entre la TRM y el COLCAP.

Normalmente los bancos y los agentes de mercados utilizan como estimación,el último valor del periodo para una determinada ventana de tiempo como acumu-lación de toda la información referente a todo ese periodo sin tener en cuenta elcomportamiento implícito de la serie, por tal motivo se busca con el pronóstico deuna suavización exponencial para una ventana de tiempo trimestral de las seriesTRM y COLCAP mejorar las estimaciones del modelo de cointegración donde semodela la relación entre las series y posteriormente comparar este resultado conel anterior modelo de contegración.

Referencias

de Valores de Colombia, M. B. (2019), ‘Página web’, Recuperado de www. bvc.com. co .

Johansen, S. (1988), ‘Statistical analysis of cointegration vectors’, Journal of eco-nomic dynamics and control 12(2-3), 231–254.

Coloquio de Estadística, Medillín

Page 303: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

303

XII Coloquio de Estadística 3

Londoño, W. (2005), Modelos de ecuaciones múltiples modelos var y cointegración,Master’s thesis, Universidad EAFIT.

Lütkepohl, H., Krätzig, M. & Phillips, P. C. (2004), Applied time series econome-trics, Cambridge university press.

Novales, A. (2011), ‘Modelos vectoriales autoregresivos (var)’, Universidad Com-plutense pp. 1–26.

R Development Core Team (2018), R: A Language and Environment for StatisticalComputing, R Foundation for Statistical Computing, Vienna, Austria. ISBN3-900051-07-0.*http://www.R-project.org

Ripley, B., Venables, B., Bates, D. M., Hornik, K., Gebhardt, A., Firth, D. &Ripley, M. B. (2013), ‘Package ‘mass”, Cran R .

Trapletti, A., Hornik, K., LeBaron, B. & Hornik, M. K. (2018), ‘Package ‘tseries”,Version 0.10-45 4.

Coloquio de Estadística, Medillín

Page 304: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

304

XII Coloquio de Estadıstica:“Metodos Estadısticos en le Generacion de Conocimientos”Escuela de Estadıstica, Universidad Nacional de Colombia - Sede Medellın

Medellın, 19 al 22 Noviembre de 2019

DISTRIBUCION BETA-ASIMETRICA LAPLACEa

BETA-SKEW LAPLACE DISTRIBUTION

ROGER TOVAR-FALONb*,

RESUMEN: Este artıculo introduce una forma alternativa de generar asimetrıa en la distribucion Laplace

que permite ajustar un conjunto de datos unimodales, bimodales o trimodales. Se estudian las propiedades

basicas de esta nueva distribucion tales como momentos, funcion de distribucion y funcion generadora de

momentos. La inferencia es llevada a cabo usando el metodo de estimacion por maxima verosimilitud. La

metodologıa desarrollada es ilustrada con una aplicacion de datos reales.

PALABRAS CLAVE: Asimetrıa, Trimodalidad, Estimacion por maxima verosimilitud, Distribucion beta-

asimetrica Laplace.

ABSTRACT: This paper introduce an alternative form of generate asymmetry in the Laplace distribution

that allows fitting unimodal, bimodal or trimodal data set. Basic properties of this new distribution such

as moments, distribution function and generating moment function. The inference is carried out by using

maximum likelihood estimation. The developed methodology is illustrated with a real data application.

KEYWORDS: Asymmetry, Trimodality, Maximum likelihood estimation, Beta skew-Laplace distribution.

1. INTRODUCCION

Recientemente, familias de distribuciones para modelar datos que presentan bimodalidad han sido

propuestas por muchos autores, algunas de ellas pueden ajustar datos simetricos, mientras que otras

son mas utiles para capturar la asimetrıa presente en los datos, vease por ejemplo, Kim (2005),

Arnold et al. (2009), Gomez et al. (2009), Elal-Olivero et al. (2009) y Elal-Olivero (2010). Elal-

Olivero (2010) introduce la distribucion normal bimodal (BN) y a partir de esta define la familia

de densidades alpha-skew-normal (ASN) la cual tiene suficiente flexibilidad para ajustar datos

de tipo unimodal y bimodal. Sobhan et al. (2016) extendio el modelo ASN al agregar un nuevo

parametro a la distribucion. Esta nueva extension denominada alfa-beta-skew-normal (ABSN),

permite modelar conjuntos de datos de hasta cuatro modas y los intervalos admisibles para los

parametros de asimetrıa y curtosis son mas amplios que los de las distribuciones skew-normal (SN)

aTovar-Falon, R. (2019). Distribucion beta-asimetrica Laplace.bPhD en Estadıstica. Profesor Titular. Departamento de Matematicas y Estadıstica. Universidad de Cordoba*Autor para correspondencia: [email protected]

1

Page 305: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

305

Roger Tovar-Falon

de Azzalini (1985) y ASN de Elal-Olivero (2010). Usando metodos analogos a los de Kim (2005)

y Arnold et al. (2009), Bolfarine et al. (2018) propusieron una nueva familia de distribuciones con

la caracterıstica de que su constante de normalizacion tiene una forma cerrada y simple, ademas,

la matriz de informacion de Fisher es no singular, lo que garantiza las propiedades asintoticas de

los estimadores de maxima verosimilitud de los parametros para muestras suficientemente grandes.

Martınez et al. (2018) introduce un modelo llamado normal flexible, el cual extiende el modelo SN

y es adecuado para ajustar datos censurados simetricos y asimetricos uni-bimodales. Una de las

principales ventajas de este modelo es que involucra menos parametros para ser estimados que la

mezcla de distribuciones normales.

Si bien se han desarrollado algunas propuestas la literatura estadıstica para tratar el problema del

analisis de datos uni-bimodales, simetricos o con presencia de asimetrıa, existen pocos trabajos

en la literatura estadıstica capaces de ajustar datos multimodales (tres o mas modas), entre estos

trabajos se destacan los trabajos de Sobhan et al. (2016) y Ma & Genton (2004), quienes introdu-

jeron una clase flexible de distribuciones que pueden tener en cuenta la asimetrıa, colas pesadas y

la multimodalidad de los datos. Por lo tanto, es importante introducir nuevas funciones de distri-

bucion que logren modelar conjuntos de datos que presenten multiples modas y logren ajustarse

a diferentes grados de asimetrıa y curtosis. El principal objetivo de este trabajo es introducir una

nueva distribucion que permite ajustar datos simetricos con hasta tres modas.

El resto de este trabajo esta organizado de la siguiente manera: la Seccion 2 introduce el modelo

beta-asimetrico Laplace y se estudian sus principales caracterısticas y propiedades. La seccion 3

presenta el proceso de inferencia del modelo BSL y la Seccion 4 presenta una aplicacion de datos

reales y se compara con varios modelos rivales.

2. Distribucion Beta-Asimetrica-Laplace

Definicion 1. Se dice que la variable aleatoria X tiene una distribucion beta-asimetrica Laplace

con parametro β, lo cual se denota por X ∼ BSL(β), si X tiene funcion de densidad de probabilidad

(fpd) dada por

f(x;β) =

((1− βx3)2 + 1

)2(1 + 360β2)

e−|x|

2, x ∈ R, (1)

donde β ∈ R es un parametro de asimetrıa.

Notese que, si X ∼ BSL(β), se sigue inmediatamente de la definicion que: si β = 0, entonces

X ∼ L(0, 1). Si β → ±∞, entonces Xd→ BL, donde BL denota la distribucion Bimodal Laplace.

Finalmente, −X ∼ BSL(−β).

Proposicion 1. La funcion de densidad de la distribucion BSL(β) tiene a lo sumo tres modas.

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 306: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

306

Distribucion beta-asimetrica Laplace

Demostracion. Diferenciando (1) con respecto a x se obtine

f ′(x;β) =1

4(1 + 360β2)

(−β2x6 + 6β2x5 + 2βx3 − 6βx2 − 2)e−x, if x > 0

(β2x6 + 6β2x5 − 2βx3 − 6βx2 + 2)ex, if x < 0

(2)

Claramente, cada expresion en (2) tiene a lo sumo seis ceros. Usando metodos computacionales,

se puede mostrar que el polinomio obtenido en cada expresion en (2) tiene al menos dos raices

complejas, por lo tanto, tiene a lo sumo 4 raices reales. Se sigue que la funcion f(x;β) tiene a lo

mas tres modas.

La Figura 1 presenta la forma del modelo BSL para algunos valores seleccionados de β. Puede verse

en el grafico que la distribucion BSL tiene un comportamiento unimodal, bimodal y multimodal

(tres modas).

−15 −10 −5 0 5 10 15

0.0

00.0

20.0

40.0

60.0

80.1

0

x

Densid

ad

β = 0.1

β = − 0.1

−15 −10 −5 0 5 10 15

0.0

00.0

50.1

00.1

5

x

Densid

ad

β = 0.08

β = 2

−10 −5 0 5 10

0.0

0.1

0.2

0.3

0.4

0.5

x

Densid

ad

β = 0

β = 0.05

Figura 1: Funcion de densidad BSL(β) para algunos valores de β.

Proposicion 2. Si X ∼ BSL(β), entonces para k = 1, 2, 3 . . .

E[X2k] =1

2(1 + 360β2)

(2Γ(2k + 1) + β2Γ(2k + 7)

)y E[X2k−1] = − βΓ(2k + 3)

2(1 + 360β2), (3)

Demostracion. La demostracion es directa a partir de la definicion de valor esperado y sabiendo

que E[Z2k] = Γ(2k + 1) y E(Z2k−1) = 0, para k = 1, 2, 3, . . . cuando Z ∼ L(0, 1).

Proposicion 3. Sean√b1 y b2 los ındices de asimetrıa y curtosis respectivamente del modelo

BSL(β), entonces

−0,7160505 <√

b1 < 0,7160505 y 1,607143 < b2 < 13,31209 (4)

3

Page 307: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

307

Roger Tovar-Falon

Demostracion. Usando (3) y a partir de la definicion de√b1 y b2 se obtiene

√b1 =

−576β(1− 1662β2 − 745200β3)[2(1 + 10152β2 + 3628800β4)

]3/2

b2 =24

(1 + 216β2

(343 + 24β2(15997 + 2028600β2 + 680400029β4)

))

[2(1 + 10152β2 + 3628800β4)

]2

aplicando metodos numericos se obtiene (4).

Proposicion 4. Si F(x) es la funcion de distribucion de X ∼ BSL(β) entonces

F(x) =

2ex + 2βΓ(4,−x) + β2Γ(7,−x)

4(1 + 360β2), if x < 0,

1− 2e−x − 2βΓ(4, x) + β2Γ(7, x)

4(1 + 360β2), if x ≥ 0,

donde Γ(n, x) es la funcion gama incompleta superior definida como Γ(n, x) =∫ +∞x tn−1e−tdt.

Proposicion 5. Si MX(t) es la funcion generadora de momentos de X ∼ BSL(β), entonces

MX(t) =1

2(1 + 360β2)

[(M1(t) +M1(−t)

)− 6β

(M4(t)−M4(−t)

)+ 360β2

(M7(t) +M7(−t)

)]

donde Mi(t) es la funcion generadora de momentos de una variable Gama(i, 1) dada por:

Mi(t) = (1− t)−i .

Comentario 1. La extension de localizacion y escala del modelo BSL es obtenida por medio de la

transformacion X = µ+ σZ, donde Z ∼ BSL(β) para µ ∈ R y σ > 0. La fdp de X es dada por

fBSL(x;µ, σ, β) =

(1− β

(x−µσ

)3)2+ 1

4σ(1 + 360β2)e−

|x−µ|σ , x ∈ R, (5)

esta extension es de notada por X ∼ BSL(µ, σ, β).

La funcion de distribucion asociada a (5) es dada por

FBSL(x;µ, σ, β) =

2ex−µσ + 2βΓ

(4,−x−µ

σ

)+ β2Γ

(7,−x−µ

σ

)4σ(1 + 360β2)

, if x < µ,

1−2e−

x−µσ − 2βΓ

(4, x−µ

σ

)+ β2Γ

(7, x−µ

σ

)4σ(1 + 360β2)

, if x ≥ µ,

(6)

y el momento de orden r por

E[Xr] =

r∑i=0

(r

i

)σiµr−iE[Zi], r = 1, 2, . . .

donde E[Zk] es el k-esimo momento de una variable aleatoria Z ∼ BSL(β).

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 308: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

308

Distribucion beta-asimetrica Laplace

3. Estimacion por Maxima Verosimilitud

Se considera una muestra aleatoria x = (x1, . . . , xn) de tamano n de la distribucion BSL(µ, σ, β).

La funcion de log-verosimilitud es dada por

(µ, σ, β) = −n log σ − n log 4(1 + 360β2)

+n∑

i=1

log

1 +

(1− β

(xi − µ

σ

)3)2

− 1

σ

n∑i=1

|xi − µ| (7)

la cual es continua en cada parametro, pero no es diferenciable en xi = µ, i = 1, . . . , n. Asumiendo

yi = µ para i = 1, . . . , n, se obtienen las siguientes ecuaciones de verosimilitud

∂µ= 6β

n∑i=1

(xi−µσ

)2 (1− β

(xi−µσ

)3)

1 +(1− β

(xi−µσ

)3)2 +n∑

i=1

xi − µ

|xi − µ|= 0 (8)

∂σ= 6β

n∑i=1

(xi−µσ

)3 (1− β

(xi−µσ

)3)

1 +(1− β

(xi−µσ

)3)2 +

n∑i=1

|xi − µ| − nσ = 0 (9)

∂β=

n∑i=1

(xi−µσ

)3 (1− β

(xi−µσ

)3)

1 +(1− β

(xi−µσ

)3)2 +360nβ

1 + 360β2= 0 (10)

De (9) - (10) se obtiene

β = ± 1

6√10

−1 + 1nσ

n∑i=1

|xi − µ|

1 + 6σ − 1

n∑i=1

|xi − µ|

12

(11)

Los perfiles de verosimilitud parar µ y σ pueden ser obtenidos reemplazando (11) en las ecuaciones

(8) y (9). Las soluciones a las ecuaciones de verosimilitud (8) - (10) proporcinan los estimadores de

maxima verosimilitud (EMV) de µ, σ y β, estos estimadores deben ser obtenidos numericamente.

La matriz de informacion de Fisher puede ser calculada usando la aproximacion.

Iy(Θ) ≈ −

∂2(Θ)

∂µ2

∂2(Θ)

∂µ∂σ

∂2(Θ)

∂µ∂β

∂2(Θ)

∂σ∂µ

∂2(Θ)

∂σ2

∂2(Θ)

∂σ∂β

∂2(Θ)

∂β∂µ

∂2(Θ)

∂β∂σ

∂2(Θ)

∂β2

(12)

5

Page 309: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

309

Roger Tovar-Falon

donde Θ es el EMV de Θ = (µ, σ, β). Esta aproximacion es llamada matriz de informacion de

Fisher observada y es igual a menos la matriz Hessiana. Se pude observar que la distribucion

BSL(µ, σ, β) no satisface las condiciones de regularidad debido a que el modelo Laplace como parte

de esta familia, no es diferenciable en µ. Sin embargo, se puede obtener la matriz (12) bajo el

supuesto mas debil de que la densidad es absolutamente continua, como es el caso de la densidad

de Laplace, vease Kotz et al. (2001).

4. Aplicacion

En esta seccion aplicamos el modelo beta-skew-Laplace a un conjunto de datos reales. El conjunto

de datos es relacionado a grados de latitud en 69 muetras de lagos del mundo. Estos datos se

encuentran disponibles bajo el nombre lakes en la librerıa alr4 del paquete R Development Core

Team (2019). Estimacion por maxima verosimilitud fue implementda para obtener los estimadores

de los parametros de la distribucion BSL(µ, σ, β). Debido a que la distribucion BSL(µ, σ, β) es una

extension de la distribucion Laplace, en nuestro algoritmo iterativo usamos β = 0 y el estimador

de maxima verosimilitud (EMV) de la parametros de la distribucion Laplace como valores iniciales

para encontrar el EMV de los parametros. los resultados de la comparacion de las distribuciones

localizacion-escala Laplace (L), skew-Laplace (SL), skew-normal (SN) y alpha-skew-Laplace (ASL)

estan resumidos en la Tabla 1. La Tabla 1 presenta ls estimaciones de maxima verosimilitud para los

parametros de los modelos ajustados con los errores estandar (E.E) para cada estimador. Los errores

estandar de los parametros fueron calculados usando la matriz Hessiana 12 de forma numerica

usando la funcion optim del paquete R Development Core Team (2019). El criterio de informacion

de Akaike (AIC) y el criterio de informacion Bayesiano (BIC) son usados para comnparar los

modelos ajustados. Como se puede ver, nuestro modelo con el valor mas pequeno de AIC y BIC es

preferible. Ademas, podemos usar la prueba de razon de verosimilitudes (RV) y consideramos las

siguientes hipotesis

H0 : α = 0(L(µ, σ)) vs H1 : α = 0(BSL(µ, σ, β))

El valor de la estadıstica de razon de verosimilitud es 9.348 y comparando esta cantidad con

χ21 = 3,84, la hipotesis nula es rechazada.

5. Conclusion

En este trabajo, una nueva clase de distribucion capaz de modelar datos unimodales, bimodales y

multimodales. Algunas propiedades distribucionales importantes y el problema de la estimacion de

los parametros son estudiados. Ademas, se muestra que tal diustribucion es mas flexible que ciertos

modelos rivales y ajusta mejor a algunos conjuntos de datos reales.

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 310: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

310

Distribucion beta-asimetrica Laplace

Tabla 1: Resumen de modelos ajustados.

Modelo ajustado

Parametro L SL SN ASL BSL

µ (E.E) 43(0.000749) 42.3(0.001) 35.344(0.964) 42.3(0.00157) 42.399(0.00386)

σ (E.E) 5.895(0.955) 5.943(0.985) 13.698(1.944) 5.439(0.771) 2.924(0.27408)

α (E.E) – – – -0.220(0.070) –

β (E.E) – – – – -0.0198(0.0034)

λ (E.E) – 0.255(0.135) 3.697(0.886) – –

AIC 482.496 479.99 492.072 478.159 475.148

BIC 486.964 486.501 498.774 484.861 481.851

Referencias

Arnold, B. C.; Gomez, H. W.; Salinas, H. S. (2009), On multiple contraint skewed models. Statistics,

43(3), 279-293.

Azzalini, A. (1985), A Class of Distributions which Includes the Normal Ones. Scandinavian Journal

of Statistics, 12(2), 171-178.

Bolfarine, H.; Martınez-Florez, G.; Salinas, H. S. (2018), Bimodal symmetric-asymmetric power-

normal families. Communications in Statistics-Theory and Methods, 47(2), 259-279.

Elal-Olivero, D. (2010), Alpha-skew-normal distribution. Proyecciones Journal of Mathematics,

29(3), 224-240.

Elal-Olivero, D.; Gomez, H. W.; Quintana, F. A. (2009), Bayesian modeling using a class of bimodal

skew-elliptical distributions. Journal of Statistical Planning and Inference, 139(4), 1484-1492.

Gomez, H. W.; Olivero, D. E.; Salinas, H. S.; Bolfarine, H. (2009), Bimodal extension based on the

skew-normal distribution with application to pollen data. Environmetrics, 22, 50-62.

Kim, H. J. (2005), On a class of two-piece skew-normal distribution. Statistics, 39(6), 537-553.

Kotz, S.; Kozubowski, T. J.; Podgorski, K. (2001), The Laplace distributions and generalizations:

A Revisit with applications to Communications, Economics, Engineering and Finance. Birk-

hauser. Springer. Boston.

Ma, Y.; Genton, M. G. (2004), Flexible Class of Skew-Symmetric Distributions. Scandinavian Jour-

nal of Statistics, 31(3), 459-468.

7

Page 311: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

Escuela de Estadística - Facultad de Ciencias - Universidad Nacional de Colombia - Sede Medellín

311

Roger Tovar-Falon

Martınez-Florez, G. and Bolfarine, H. and Gomez, H. W. (2018), Censored bimodal symmetric -

asymmetric families. Statistics and Its Interface, 11, 237-249.

R Development Core Team. (2019), R: A language and environment for statistical computing.

R Foundation for Statistical Computing, Vienna. URL http://www.R-project.org. ISBN 3-

900051-07-0

Sobhan, S.; Doostparast, M.; Jamalizadeh, A. (2016), The alpha-beta skew normal distribution:

properties and applications. Statistics, 50(2), 338-349.

XII Coloquio de Estadıstica: “Metodos Estadısticos en le Generacion de Conocimiento”

Page 312: XII COLOQUIO DE ESTADÍSTICA - Facultad de Ciencias › eventos › ...preguntas de investigación: ¿Cómo es el grado de aglomeración de la calidad educativa en Colombia, a partir

XII Coloquio de Estadística - “Métodos Estadísticos en la Generación del Conocimiento”

312