CONSTRUCCIÓN DE ALGORITMO PARA ANÁLISIS DE CAUSA RAÍZ DE
ACCIDENTES DE TRANSITO UTILIZANDO REDES NEURONALES Y MINERÍA DE
DATOS.
HERNANDO VELEZ SANCHEZ
Trabajo de grado para optar al título de Especialista en Higiene, Seguridad y Salud en el trabajo
Docente Director
Heberto Saavedra M, II, Msc
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS.
FACULTAD DE INGENIERIA
BOGOTA D.C
2018
1
AGRADECIMIENTOS
A DIOS QUE ME GUIA Y ACOMPAÑA SIEMPRE, A MIS PADRES POR QUIENES
SIENTO UN AMOR INFINITO, AL INGENIERO MSC HEBERTO SAAVEDRA M POR SU
VALIOSA ORIENTACION.
“Nadie puede pasar por este mundo e irse dejándolo igual que lo encontró, uno debe de hacer
algo para que los demás sepan que uno estuvo aquí”
Arthur Miller (William Loman).
3
Contenido
1. INTRODUCCION. ............................................................................................................................ 8
2. PLANTEAMIENTO DEL PROBLEMA. ........................................................................................ 9
3. JUSTIFICACION. ........................................................................................................................... 11
4. OBJETIVOS.................................................................................................................................... 13
4.1. OBJETIVO GENERAL. ............................................................................................................. 13
4.2. OBJETIVOS ESPECIFICOS. .................................................................................................... 13
5. ESTADO DEL ARTE. .................................................................................................................... 14
6. MARCO TEORICO ........................................................................................................................ 16
6.1. CARACTERISTICAS DE UN ACCIDENTE DE TRANSITO. ............................................... 16
6.1.1. ACTORES EN LA ACCIDENTALIDAD DE TRANSITO. PELIGROS Y
FACTORES DE RIESGO. 16
6.1.2. COMPLEJIDAD DEL SISTEMA E INTERRELACON ENTRE LOS
FACTORES DE RIESGO. 24
6.2. MODELOS CAUSALES DE ACCIDENTES. ........................................................................... 27
6.2.1. Modelos secuenciales. 1931. Heinrich. 27
6.2.2. Modelos epidemiológicos 1997 (Reason). 28
6.2.3. Modelos sistémicos avanzados Docker, 2006. 29
6.2.4. Relaciones de causalidad. 29
6.3. METODOS DE INVESTIGACION DE ACCIDENTES. ......................................................... 30
6.3.1. Técnicas basadas en modelos secuenciales. 31
6.3.2. TECNICAS BASADAS EN MODELOS EPIDEMIOLOGICOS. 33
6.3.3. Análisis de causa raíz. (RCA). 34
6.3.4. Método de tablas de Forrester. 36
6.3.5. COMPARACION DE LAS TECNICAS. 37
6.4. MODELO DE ANALISIS DE CAUSA RAIZ DE ACCIDENTES. .......................................... 40
4
6.4.1. Modelo de accidentes de transito.. 40
6.4.2. Identificación de factores, representación y relaciones. 42
6.4.3. Metodologìa de análisis de causa raíz. 42
6.5. PROCESO DE INVESTIGACION DE ACCIDENTES. ........................................................... 48
6.6. MINERIA DE DATOS. .............................................................................................................. 50
6.6.1. TECNICAS DE MINERIA DE DATOS. 51
6.6.2. Análisis de la red neuronal. Métricas. 58
6.6.3. Algoritmos bayesianos. 64
6.6.4. SOFTWARE PARA MINERIA DE DATOS. 65
7. METODOLOGIA Y DESARROLLO DEL PROYECTO. ........................................................... 66
7.1. CASO BASE DE DATOS 1. ...................................................................................................... 66
7.1.1. ANALISIS DEL DOMINIO. 66
7.1.2. FIJAR NETAS. 71
7.1.3. SELECCIÓN, EXPLORACION, LIMPIEZA Y TRANSFORMACION DE
DATOS 72
7.1.4. PREPARACION DEL DATASET O VISTA MINABLE. 76
7.1.5. MODELADO Y DESARROLLO DEL DATA MINING, CAUSA PROXIMA.
84
Preprocesamiento. 94
7.2. CASO BASE DE DATOS 2. .................................................................................................... 123
7.2.1. Análisis estadístico base de datos 2. 124
7.2.2. ETAPA DE CLASIFICACION BASE DE DATOS EMPRESAS DE
TRANSPORTE ALLIANZ. 129
7.3. MODELO DE CAUSA RAIZ. .................................................................................................. 143
7.3.1. Construcción de la base de datos para causa basica o raiz. 143
7.3.2. Aplicación de la tecnica PART para determinar la causa raíz de a ccidentes de
tránsito en empresas de transporte. 146
7.3.3. Modelo PART. 147
7.3.4. EJEMPLO DE APLICACIÓN DEL MODELO. 157
Sistema de frenos. 160
Compresor. 160
Análisis sicosensométrico del conductor. ............................................................................................................ 170
5
8. CONCLUSIONES. ........................................................................................................................ 174
9. BIBLIOGRAFÍA. ......................................................................................................................... 176
6
RESUMEN
La determinación de la causa de los accidentes de tránsito tiene una gran utilidad para comprender
la dinámica de estos eventos.
Existe una gran cantidad de técnicas aplicables que requieren la participación de personas
involucradas de alguna manera con el análisis de accidentalidad vial y aprovechan su experiencia
en este campo.
La minería de datos es una tecnología emergente que se adapta a fenómenos de distinta complejidad
como son los accidentes de tránsito y permiten utilizar la información contenida en los datos
acumulados de accidentalidad y que por lo general administran las agencias del estado encargadas
de formular políticas para disminuirla.
En este trabajo se han utilizado dos base de datos de accidentalidad. La primera con 38 campos y
34628 registros o instancias disponible en el portal de datos abiertos.
(https://www.datos.gov.co/widgets/79fi-zm8c)
La segunda base de datos tiene información solamente de accidentes de tránsito en empresas de
transporte. Para ello se ha utilizado información de empresas aseguradas con Allianz, como Coca
Cola, transportes Iceberg, Transportes La Carolina, Pronavicola, Servientrega, Transmeta, Femsa
logística, transportadora nacional de Coca Cola, Harinera del Valle, Sistema de transporte masivo
de Cali (MIO), Conalvías.
El modelo para causa raíz se ha dividido en dos partes: Esta base de datos tiene información de 880
siniestros en diferentes ciudades y carretas nacionales.
El modelo de causa raíz se ha dividido en dos partes, uno para encontrar la causa próxima y el otro
para la causa raíz de los accidentes.
Para ello Se han propuesto dos algoritmos para analizar los datos de estas bases; redes neuronales
artificiales (perceptrón multicapas) y Naive Bayes, que sirven para clasificar los datos
corresp0ndientes a casos nuevos baja la etiqueta de causa de accidente. Se ha utilizado el software
libre Weka.
Se encuentra que el algoritmo Naive Bayes tiene un mejor desempeño que la red neuronal, la cual
requiere una gran capacidad de procesamiento.
La segunda parte para encontrar la posible causa raíz de los accidentes. Para ello se ha utilizado la
base de datos 2 y el algoritmo PART.
7
La validación de los modelos se ha realizado aplicando las métricas normalmente disponibles.
Adicionalmente se ha analizado y aplicado el algoritmo al caso de siniestro de un vehículo de
transportes Iceberg.
Palabras claves:
Accidentalidad vial, minería de datos, redes neuronales, algoritmo de Naive Bayes, causa raíz ,
causa inmediata, Weka.
8
1. INTRODUCCION.
La accidentalidad vial en las carretas colombianas ha sido claramente identificada como un
problema de salud pública por parte de las entidades del estado relacionadas con los sectores de
salud y transporte. Dadas las cifras documentadas de accidentalidad vial, se observa que las
medidas tomadas por los diferentes implicados en el problema no han dado los resultados
esperados. Se han logrado disminuciones no muy significativas en el número de accidentes en las
vías.
Para tratar este problema el estado ha ampliado la legislación la cual ha evolucionado hacia la
organización de las empresas encargadas de prestar el servicio y de sus procesos asociados.
También ha intentado establecer políticas de promoción de prácticas de comportamiento
saludables. Estas disposiciones van dirigidas principalmente a mejorar el nivel de gestión de las
empresas.
Las investigaciones relacionadas con accidentalidad muestran que existe una relación muy estrecha
entre la gestión de los factores de riesgo principalmente los relacionados con el comportamiento
humano y los indicadores de accidentalidad. Aquí participan también factores asociados con el
vehículo y las condiciones de la vía.
Para la formulación de las políticas públicas tendientes a disminuir la accidentalidad y su impacto
en la sociedad y la economía de la nación, es importante conocer las causas más frecuentes de los
mismos.
Este trabajo pretende formular un modelo computacional basado en técnicas de gestión de
información, para realizar una aproximación a la determinación de las causas mencionadas.
9
2. PLANTEAMIENTO DEL PROBLEMA.
Una de las actividades más importantes dentro del proceso de gestión del riesgo es la investigación
de los accidentes y la determinación de sus causas para formular los controles y soluciones
adecuadas al mismo.
Dentro de las metodologías utilizadas para realizar el análisis del accidente se encuentran las de
cinco porque, espina de pescado o Ishikawa, árbol de decisión, análisis de causa efecto y otras.
Estas metodologías recurren a la experiencia y análisis lógico por parte de los integrantes del
equipo que realiza la actividad.
La mayoría de ellas utilizan la experiencia de las personas familiarizadas con esta clase de trabajo,
sin embargo no tienen en cuenta de una manera sistemática la información existente sobre casos
de accidentalidad vial para extraer relaciones y patrones de accidentalidad que pueden servir para
determinar de una manera más precisa las causas de los accidentes.
Poder realizar una identificación de las causas próximas y básicas que permita una confiabilidad
adecuada en la estimación es una tarea difícil, debido a la cantidad de variables que intervienen en
el accidente y a la complejidad de sus relaciones. Esto es más cierto cuando no existe mucha
información de las condiciones prevalecientes en el momento y lugar del accidente.
Lo anterior constituye el problema objeto de este trabajo, que busca aplicar técnicas de análisis de
datos referentes a los accidentes de tránsito para determinar con buena confiabilidad las causas
próxima y básica de los accidentes de tránsito.
Las modernas técnicas de minería de datos e inteligencia artificial proveen herramientas que
permiten identificar patrones de comportamiento de los datos y llevar a la identificación de las
causas raíz de los accidentes dentro de un proceso probabilístico que permita obtener respuestas
con una exactitud razonable a la pregunta : “qué ocasionó el accidente"?. En esta propuesta se
plantea el uso de las técnicas de inteligencia artificial particularmente el uso de redes neuronales
entrenadas con las estadísticas de accidentes disponibles para construir un algoritmo que permita
una rápida y precisa identificación de la causa raíz de los accidentes.
Se ha enfatizado en la aplicación a empresas de transporte porque en los accidentes de particulares
se evalúan las causas a nivel individual y las medidas correctivas y los controles que se puedan
sugerir deben hacerse mediante el convencimiento individual de los conductores. En una empresa,
esta puede incluir en sus políticas y procedimientos de conducción los controles de una manera
más efectiva y supervisada. Sin embargo esto no quiere decir que no se pueda aplicar al análisis de
cualquier tipo de accidente.
10
Se puede extender el análisis de la causa próxima o inmediata a cualquier tipo de vehículo empresa
o particular, teniendo en cuenta que el modelo es dinámico y se actualiza al actualizar la base de
datos con nuevos casos de accidentes de tránsito.
En la mayoría de los casos la vía es compartida por vehículos de diferente tipo, y cuando ocurre un
accidente, las causas próximas no dependen del tipo de vehículo, en la forma en que se están
formulando.
En la bibliografía consultada los modelos que se aplican tienen en cuenta el tipo de vehículo pero
no la actividad que estos realizan.
Siendo el evento de accidentalidad un suceso aleatorio de complejidad variable, el algoritmo
desarrollado no suministra la causa raíz de los accidentes, sino que ayuda en la determinación de
esta, suministrando un procedimiento estructurado y sistemático para hacerlo.
11
3. JUSTIFICACION.
La actividad del transporte de personas, bienes y mercancías implica la existencia de riesgos
tangibles cuya materialización puede tener consecuencias sobre la integridad de las personas,
activos y el medio ambiente.
Esta actividad; por realizarse principalmente en la vía, está en alguna forma fuera del control y
supervisión permanente por parte de las personas encargadas de su administración.
La accidentalidad vial como consecuencia de factores de riesgo asociados tanto con el
comportamiento de las personas como con el estado de la vía y de los vehículos, presenta cifras
que tienen una incidencia en la economía y el bienestar social.
La importancia de intervenir en la organización y operación del sistema de transporte ha llevado
al estado colombiano a expedir normas que propenden por la disminución de las cifras relacionadas
con este tipo de eventos indeseables. Recientemente se ha creado mediante Decreto 000787 de
2015, la Agencia nacional de seguridad Vial, encargada de coordinar las políticas y esfuerzos del
estado y el sector privado, para mejorar los indicadores actuales, que no solo en Colombia sino
también en el mundo ha sido considerado como evidencia de un problema de salud pública.
Entre las cifras relevantes que evidencian la existencia del problema y la necesidad de acciones
contundentes para su intervención están las siguientes:
Las estadísticas y análisis de causa raíz indican que el 90% de accidentes en la vía se relacionan
con factores de riesgo humanos como principal determinante.
En el periodo entre 2005 y 2014 se han documentado 1.800.000 incidentes viales que han tenido
una consecuencia de 58000 personas fallecidas y 411000 lesionadas. Esto conlleva consecuencias
sobre el bienestar de la población y la productividad del país.
Según fuentes del Banco Interamericano de Desarrollo (BID) el costo de estos accidentes para
el país llega a 13500 millones de dólares al año, cerca de 3 puntos del PIB. Las edades de las
personas involucradas están entre 5 y 14 años y 15 y 44 años en promedio.
Según la CEPAL; La tasa de accidentes con víctimas fatales en Colombia en el año 2013 fue
de 13.18 por cada 100000 habitantes, mayor que a principios de 2010 donde se registraron 12.2.
En el continente es superada solamente por Canadá, Estados Unidos, México, Guatemala y Chile.
El estado a través de sus instituciones pertinentes busca enfrentar el problema mediante el
cambio de actitud de los protagonistas, o sea cultura y pedagogía.
Si bien este intento tiene un fuerte componente de apelar a la condición individual para afrontar un
problema social, cuyo diagnóstico como se menciono tiene causas de factores de riesgo asociados
12
con el comportamiento humano, se debe tener en cuenta el papel de las organizaciones que operan
el sistema de transporte en el país.
Es innegable la importancia de disminuir la accidentalidad vial y el beneficio para las empresas
involucradas y la sociedad en general.
Es aquí en donde interviene la gestión que cada empresa realiza de su flota y sistema en
particular. Aun teniendo en cuenta que una gran cantidad de accidentes involucran a particulares e
individuos, como es el caso de los motociclistas y a los vehículos particulares, que no pertenecen
a empresas, e incluso a peatones que tampoco sufren accidentes en cumplimiento de sus actividades
laborales, por lo general los accidentes relacionados con flotas empresariales aportan cifras
importantes al analizar el problema.
El objetivo principal al desarrollar el algoritmo es poder identificar causas básicas de
accidentes de tránsito y aplicarlo en empresas de transporte en proyectos posteriores, para
establecer los controles que permitan por un lado disminuir los riesgos inherentes a la actividad de
transporte automotor y consecuentemente la disminución de la accidentalidad vial. Por lo tanto el
alcance del proyecto llega hasta proporcionar la herramienta que ayude en la identificación de las
causas raíz mencionadas, así como encontrar relaciones no evidentes entre los diferentes factores
de riesgo. Esta es su principal utilidad.
Desde el punto de vista del especialista en Seguridad y Salud en el trabajo, su intervención en el
diseño de controles que permitan abordar los temas de accidentalidad es una de sus posibles
actividades misionales. A su vez, la identificación de las causas de los accidentes es un paso
fundamental en el diseño de los controles mencionados. Es decir su actividad es preventiva y
correctiva.
Se propone la aplicación del modelo principalmente a las empresas de transporte ya que en los
accidentes de particulares se evalúan las causas a nivel individual y las medidas correctivas y los
controles que se puedan sugerir deben hacerse mediante el convencimiento individual de los
conductores. En una empresa, esta puede incluir en sus políticas y procedimientos de conducción
los controles de una manera más efectiva y supervisada. Sin embargo esto no quiere decir que no
se pueda aplicar al análisis de cualquier tipo de accidente.
De otro lado el número de kilómetros recorridos tanto en las carreteras como en la ciudad es alto
en el caso de empresas de transporte y por lo tanto su tiempo de exposición es mayor que en el caso
de los particulares.
13
4. OBJETIVOS.
4.1. OBJETIVO GENERAL.
Elaborar un algoritmo para análisis de causa raíz de accidentes en empresas de transporte utilizando
redes neuronales y minería de datos.
4.2. OBJETIVOS ESPECIFICOS.
• Identificar los factores de riesgo y las variables asociados con los mismos en la
accidentalidad en transporte.
• Construir un modelo para representar el evento de accidentalidad.
• Configurar una red neuronal asociado con el modelo de accidentalidad propuesto.
• Entrenar la red neuronal asignando los pesos asociados a las interacciones de las neuronas
• Calibrar y validar el modelo utilizando datos con estadísticas de accidentalidad vial en
Colombia.
14
5. ESTADO DEL ARTE.
La mayoría de literatura encontrada se centra en la aplicación de sistemas inteligentes y minería de
datos para la detección de accidentes de tránsito. A continuación se mencionan los trabajos más
relacionados con la identificación de causa raíz y otros que aplican algoritmos inteligentes para la
detección de accidentes.
Olutayo et al presentan un estudio donde comparan el desempeño de un algoritmo de res neuronales
y otro de árboles de decisión para el análisis de accidentalidad en carreteras de Nigeria. Utilizan
una base de datos de los años 2002 y 2003. La red neuronal escogida fue un perceptrón multicapas
con una tasa de entrenamiento de 0,01 tratando de minimizar el error medio absoluto y el error
cuadrático medio, obteniendo valores de 52.70% de aciertos y errores de 0.3479 y 0.5004
respectivamente. Con el algoritmo de árboles de decisión obtuvieron un mejor desempeño con
77.7% de aciertos y 0.1835% Y 0.5029% en los errores medio absoluto y medio cuadrático
respectivamente.
Weerasuriya realizó una tesis de doctorado aplicando redes neuronales a detección de accidentes
de tránsito en autopistas. Desarrolló 16 modelos de redes neuronales con diferentes arquitecturas
(feed forward y recurrent), y comparó sus resultados encontrando que los modelos con doble
número de capas ocultas presentaron un desempeño con menor error.
Jiangfeng Xi et al aplicaron un algoritmo hibrido para el análisis de causa de accidentes utilizando
minería de datos. Utilizaron reglas de asociación basado en optimización de enjambre de partículas,
para analizar la correlación entre atributos y cusas de accidentes. Para evaluar el rendimiento del
algoritmo mejorado utilizo el modelo de prueba T y el método Delphi. Obtuvo velocidades de
procesamiento diez veces superior a las de los algoritmos convencionales. El algoritmo se probó
en unas bases de datos de más de 20000 registros con 56 atributos cada una.
Elfadil Abdalla realizo un estudio para la identificación de causas de accidentes de tránsito
utilizando algoritmo de máquinas de soporte vectorial multi clase. Utilizo una base de datos de la
policía de Dubai en Emiratos Árabes Unidos. Obtuvo una precisión mayor a 75% en la predicción
de causas de accidentes de tránsito.
Srinivasan et al utilizaron una red neuronal adaptativa para la detección de accidentes de tránsito
en autopistas en Singapur. Utilizó un perceptrón multicapas, una red probabilística básica (BPN)
y una red probabilística constructiva CPNN. El perceptrón multicapas presentó el mejor desempeño
desde el punto de vista de detección de accidentes. Variando el límite entre casos positivos
verdaderos y falsos negativos, encontró tasas de detección del orden de 90%. Vario la tasa de
entrenamiento y el momentum para mejorar el rendimiento de la red neuronal.
Molinero Francisco realizó una aplicación de redes bayesianas para diagnosticar la causa raíz de
fallas en un sistema de red de comunicaciones.
15
En [4] se aplica un algoritmo hibrido de reglas de asociación y peso en las capas de atributo y valor
fe atributo para calcular la influencia de los factores desencadenantes del accidente en la severidad
de este.
Martin Luis señala que tradicionalmente se han utilizado métodos estadísticos y de análisis de
regresión para determinar la relación entre los accidentes y las causas de estos. Estos modelos
requieren la formulación de hipótesis, así como el conocimiento de las relaciones entre las
variables dependientes e independientes. Si las hipótesis no se cumplen, se pueden obtener
conclusiones erróneas.
Para resolver estos inconvenientes, se ha utilizado una técnica denominada minería de datos, para
formular los modelos del sistema bajo estudio.
S.L González Ruiz, presenta el uso de minería de datos para identificar las localizaciones de los
accidentes que tiene mayor probabilidad de ocurrir, y después se analizan para identificar los
factores que afectan los accidentes de tránsito en esas locaciones utilizando clusstering, después se
utiliza el algoritmo de reglas de asociación para revelar la correlación entre diferentes atributos en
los datos del accidente y comprender las características de estas localizaciones.
Luego se utiliza un algoritmo de asociación para clasificar la severidad del accidente. Se utiliza
después un algoritmo de15asociación para para predecir la probabilidad de accidente en la ciudad
del estudio.
Bahram Sadeghi Bigham presenta un análisis de accidentes de carretera utilizando minería de datos
y reglas de asociación. La muestra que obteniendo las reglas de asociación se puede identificar los
factores involucrados en el accidente que ocurre junto de manera fácil.
Si ocurre un evento x entonces ocurre un evento Y en M% de las veces y este patrón ocurre en N%
de todos los eventos en el dataset.
M: confianza probabilidad de que el evento Y ocurra, cuando ha ocurrido el evento X.
N Apoyo: probabilidad de que ambos eventos Y,Y ocurran simultáneamente en la base de datos.
Lift: relación de probabilidad de que ocurra Y, y la probabilidad de que ocurra X.
Avellan Joaquin, presenta un estudio sobre el uso de árboles de decisión para obtener reglas de
decisión aplicables a determinar la severidad de los accidentes de tránsito en Granda, España.
Arzlan y Kecesi desarrollan un método denominado SHARE para el análisis de causa raíz en
accidentes marítimos. Incluyen un resumen interesante de la taxonomía de causa raíz de los
accidentes, de la cual se puede tomar una parte relativa al comportamiento humano principalmente
de los operarios frente al accidente.
16
MARCO TEORICO
Se realiza a continuación una breve descripción de los principales conceptos característicos de la
accidentalidad de tránsito en carretera
5.1. CARACTERISTICAS DE UN ACCIDENTE DE TRANSITO.
De acuerdo con el artículo 2° del código Nacional de Tránsito Ley 769 del 2002, se define
Accidente de tránsito como: evento generalmente involuntario, generado al menos por un vehículo
en movimiento, que causa daños a personas y bienes involucrados en este e igualmente afecta la
normal circulación de los vehículos que se movilizan por la vía o las vías comprendidas en el lugar
o dentro de la zona de influencia del hecho.
Según Hassinger Rodriguez Mark Mirko “es un evento raro, aleatorio y de múltiples factores
siempre precedido por una situación en la que uno o más conductores no pueden hacer frente al
entorno de la carretera . Cada accidente es el resultado de una cadena de eventos que es en su
totalidad único pero algunos factores son comunes a varias circunstancias del accidente y la
identificación de estos y sus interdependencias puede llevarse a cabo mediante la técnica de
minería de datos”.
Un solo hecho o evento básico puede aparecer en muchos accidentes. Existen varios factores que
intervienen en la ocurrencia de un accidente de tránsito.
Se puede distinguir entre características antes y después del accidente, así como en características
o datos del accidente, Por ejemplo, la fecha, hora y genero de los participantes en el mismo.
El objetivo aquí es identificar las variables y las categorías a las que pertenecen, así como los
valores que pueden tener y la relación entre las mismas, para seleccionar las variables que sean
independientes. Vale decir que unas variables pueden depender de otras y en este caso se prefiere
utilizar solamente las que sean independientes.
En primer lugar, se identifican los actores presentes en la accidentalidad de tránsito así como sus
características y papel que desempeñan en el accidente, tanto antes como durante el mismo.
5.1.1. ACTORES EN LA ACCIDENTALIDAD DE TRANSITO. PELIGROS Y
FACTORES DE RIESGO.
El desempeño exitoso de la operación una vez el vehículo se encuentra en ruta, está ligado
íntimamente al desempeño y condiciones reales de los siguientes componentes:
• Equipo.
• Operario.
17
• Vía.
• Condiciones ambientales.
La combinación del estado de estos cuatro elementos determina el rendimiento del proceso de
transporte en su parte de operación.
Teniendo en cuenta lo expuesto anteriormente, los factores de riesgo se identifican considerando
las condiciones peligrosas que pueden presentar los elementos componentes mencionados.
En el caso del vehículo, se estima principalmente la influencia y los temas relacionados con la
integridad de este en todos sus sistemas y componentes, en particular los que pueden ocasionar una
pérdida en la función de control del mismo, como los sistemas de frenos, dirección, suspensión,
acople king pin, ejes, estabilidad del remolque y la carga, llantas, partes expuestas a explosión o
incendio como lo relativo al sistema eléctrico y de combustible y escape, así como los factores
ergonómicos que afectan la condición del confort del operador del equipo.
En los factores relacionados con el operador, se tiene en cuenta no solamente su condición física,
sino también sicológica, ya que por las características de su labor, se requiere una concentración
100% durante todo el tiempo que esté al frente del equipo así como un funcionamiento óptimo de
su sistema sensorial y los reflejos para tomar y ejecutar decisiones en forma rápida y correcta ,
frente a las condiciones irregulares que pueden generar el funcionamiento del equipo y la vía
propiamente dicha, incluyendo los eventos en la misma como la conducción de otros vehículos que
pueda encontrar en la carretera, la ocurrencia de condiciones climáticas y ambientales diversas
(lluvia, granizo, derrumbes, vientos fuertes, terremotos, etc.) y las amenazas a las condiciones de
seguridad física producidas por situaciones de orden público.
El panorama visto de esta forma resulta de una complejidad grande, y la presión sobre el operador
del equipo puede llegar a afectar su capacidad para un desempeño exitoso.
Factores de riesgo psico laborales: se refiere a aquellos aspectos intrínsecos y organizativos del
trabajo y a las interrelaciones humanas que al interactuar con factores humanos endógenos (edad,
patrimonio genético, antecedentes sicológicos) y exógenos (vida familiar, cultural...etc.), tienen la
capacidad potencial de producir cambios sociológicos del comportamiento (agresividad, ansiedad,
satisfacción) o trastornos físicos o psicosomáticos (fatiga, dolor de cabeza, hombros, cuello,
espalda, propensión a la úlcera gástrica, la hipertensión, la cardiopatía, envejecimiento acelerado).
Los factores de riesgos locativos: condiciones de las instalaciones o áreas de trabajo que bajo
circunstancias no adecuadas pueden ocasionar accidentes de trabajo o pérdidas para la empresa.
Como los factores de riesgo sociolaboral tienen una influencia muy grande en el desempeño del
operador del equipo, las políticas y directivas de la organización (cuando se trata de empleados
18
conductores), deben proveer sistemas de seguimiento y control para mitigar los efectos y eliminar
en lo posible las causas de estas situaciones.
En muchos procesos de análisis de causa raíz, se llega a la conclusión de que esta se relaciona con
el factor humano, ya sea a través de errores en la conducción del vehículo, ò en las medidas que
deben servir como barreras para evitar el accidente o minimizar su consecuencia. Las causas
relacionadas con el componente equipo propiamente dicha, no son las más frecuentes, y los
incidentes/accidentes en los cuales se refieren causas como sueño y cansancio del conductor, falla
en la forma de asegurar y manejar la carga (cuando aplica), no cumplimiento de las
reglamentaciones viales, maniobras riesgosas sin evaluar la oportunidad de estas, es muy claro que
son circunstancias atribuibles a decisiones que toman las personas.
En el anexo 4 se presentan la matriz de peligros y la matriz de riesgo para la empresa
TRANSPORTES ICEBERG.
Es de señalar que teniendo en cuenta el objetivo final del trabajo, no se requiere la valoración de
los riesgos, ya que para la construcción del algoritmo de búsqueda de causa próxima y causa raíz
solamente exige la identificación de los riesgos y su representación mediante los atributos de la
base de datos que se utilizará para la construcción.
Además, la valoración de los riesgos depende de características particulares de la empresa y aquí
se plantea la construcción de un algoritmo aplicable a empresas de transporte en general.
Para la construcción de la matriz de riesgo se ha utilizado la estructura de la norma NTC 45 y la
valoración de los riesgos se ha hecho empleando el método William Fine. Se han dejado sin llenar
las columnas correspondientes al factor de costo (FC) y factor de corrección (FCR, )así como la
justificación económica (JI).
A continuación se presentan en la tabla 1 una clasificación de las causas próximas o inmediatas,
las cuales, al ser analizadas en forma apropiada, permiten realizar una aproximación a la causa raíz
del accidente. Aquí se han resumido causas identificadas a partir de los trabajos realizados por
Hinfeng Xi y colaboradores, V.A Olutayo, Griselda López y colaboradores.
POSIBLES CAUSAS INMEDIATAS DE ACCIDENTES DE TRANSITO
Causas Descripción
1 Conductor
Exceso de velocidad Exceder el límite de velocidad permitido para la vía.
Conducción si mantener
distancia razonable ni
prudente
Acercarse demasiado al vehículo que está por delante. En Colombia
esta distancia es de aproximadamente 10 metros en ciudad.
19
Circular en sentido
contrario
Conducir en dirección contraria a la permitida por el código de
tránsito para esa vía.
Inexperiencia en el
manejo
No tener las competencias requeridas para conducir el vehículo en
cuestión.
Estado de ebriedad Conducir o circular bajo el efecto de alcohol, exceder los límites
permitidos de concentración.
Perdida control vehículo El conductor no controla el vehículo
Conducción no atento a
las condiciones de
transito
Conductor distraído
Señalización,
desobedecer señal pare
El conductor no respeta las señales de tránsito como semáforos,
límites de velocidad, pares.
Conducción cambiar
sorpresivamente pista
circulación
Microsueño mientras
conduce
Maniobra repentina de cambio de dirección
No usar el cinturón de
seguridad
No usar epp
Rebasar indebidamente Sobrepaso prohibido o peligroso
Uso de drogas Estado alterado por consumo de drogas
Conducir con fatiga Perdida de reflejos y capacidad por cansancio
2 Condiciones
ambientales
desfavorables:
El sol cuando pega de
frente y deslumbra
Visibilidad defectuosa por deslumbramiento
Lluvia Empañamiento de vidrios, patinamiento, falta de tracción, aumento
de distancia segura de frenado
Neblina Disminución de visibilidad
3 Desperfectos de los
vehículos
Pinchadura de llantas Pérdida de control del vehículo por estallido de llanta o pinchado
Falta de frenos Pérdida de control por frenado deficiente.
Descompostura de la
dirección
Pérdida de control del vehículo
Falla de luces delanteras Disminución de visibilidad propia o para otros vehículos y peatones
en la noche ò condiciones de niebla o lluvia
Ruptura de un eje Pérdida de control del vehículo
Incendio del vehículo Peligro de explosión y propagación del incendio
4 Situaciones y
características
desfavorables en la
carretera y vía.
20
Vehículos que se detiene
en el acotamiento
Obstáculo para otros vehículos, probabilidad de choque
Invasión o cruce de
ganado u otros animales
Probabilidad de choque o ejecución de maniobras peligrosas para
esquivar el animal
Falta de señales Señalización deficiente en la vía como límites de velocidad,
circulación permitida, cambios en la vía, tránsito de personas y
semovientes.
Circulación en doble
sentido
Posibilidad choque con vehículos en circulando en sentido contrario
Obstáculos que impiden
la visibilidad
Derrumbes, obras,
Presencia de camellón
central
Separador entre calzadas
Mal estado del
pavimento
Huecos, destapado, rizado, hundimientos
5 Debidas al peatón:
Imprudencia No analiza la maniobra a realizar.
Estado de ebriedad
Descuido No se fija en el tráfico
Cruce calzada forma
descuidada o sorpresiva
No respetar derecho
preferente de paso
peatón
Tabla 1. Condiciones relacionadas con las causas próximas o inmediatas de accidentalidad vial.
Fuente: Elaboración propia resumen de: Using decisión trees to extrac decisión rules from
pólice reports on road accidents, traffic accident analysis using decisión trees and neural
networks, a hybrid algorithm of traffic accident data mining on cause analysis.
En la tabla 2 se presentan los atributos o variables que pueden estar relacionados con el accidente
y sus causas inmediatas y en menor grado con las causas raíz.
ATRIBUTOS QUE PUEDEN INFLUIR EN EL ACCIDENTE
Índice Identificación del accidente
latitud latitud
Fuerza policial Jurisdicción a que pertenece la policía
Gravedad de accidente Fatal, serio, leve
Número de vehículos Número de vehículos involucrados en el accidente
Numero de victimas Numero de victimas
21
Fecha Fecha del accidente
Dia de la semana Lunes, martes, mi, j, v, s ,d
Hora Hora del accidente
municipio Municipio donde ocurrió el accidente
ciudad Ciudad donde ocurrió el accidente
Clase de carretera Autopista, A,B,C
Tipo de carretera Rotonda, calle de un solo sentido, autovía.
Límite de velocidad Límite de velocidad
Detalle conexión
carretera
Rotonda, mini rotonda
Control conexión
carretera
Persona autorizada, señal de pare
Control humano paso
peatones
Patrulla escolar, etc.
Patinaje volcadura Cebra, pasarela
Condición de
iluminación
Luz, oscuro con luces encendidas
Condición climática Lloviendo, granizo
Condición superficie
carretera
Seco, mojado, granizo
Condición especial
carretera
Obras de carretera, superficie defectuosa
Riesgo vía Carga de vehículo, otro objeto, accidente anterior
Rural o urbano Zona real o urbana
Presencia policial Presencia policial si/no
Ubicación bloque
accidente
Dirección
Tipo de vehículo Taxi, motocicleta
Remolque y articulación Remolque, articulación
Maniobra vehicular Estacionado, etc.
Ubicación del vehículo Carril del autobús, carril d ellas bicicletas
Patinaje volcadura Patinaje o volcadura
Punto de impacto Frente, atrás, lateral
Propósito de viaje Propósito del viaje
Sexo conductor Sexo conductor
Edad conductora Edad conductor
Edad vehículo Tiempo vehículo
marca Marca del vehículo
modelo Modelo del vehículo
Año de accidente Año de accidente
Variables
Tipo de accidente Colisión con objetos fijos, con peatón, animales, con o sin colisión,
en carruaje sin colisión
Factores atmosféricos Buen clima, aguacero, llovizna
22
barreras de seguridad No, si
causa Características del conductor, combinación de factores, otra,
características d ella vía, características del vehículo
Dia Dia de trabajo después del domingo o festivo, antes de domingo o
festivo, día de trabajo normal
Ancho de carril 3.25m, 3.25-3.75, > 3.75
iluminación Luz día, oscuro suficiente, suficiente, sin iluminación , , i
Mes Verano, invierno
Número de heridos 1, >1
Ocupantes involucrados 1, 2, >2
Tipo de policía acostado Si, no
Ancho de pavimento 6-7 m, <6, >7
Demarcación pavimento No existen están borradas, márgenes separadas de la vía, carrieles
separados y márgenes de la vía definidos, carriles separados
solamente
genero Masculino, femenino
Ancho del policía
acostado
<1.5 m, 1.5-2.5 m no existe o es difícil de pasar.
Límite de visibilidad Atmosférico, edificio o construcción, otro, topografía, vegetación,
sin restricción
tiempo Hora del accidente
Tipo de vehículo Carro, camión, motociclo o motocicleta., otro
severidad Accidente con heridos leves, accidente fatal o con heridos serios
Condición de la
superficie de la vía
Intacta en construcción, cóncava convexa, colapsada, barricada, otras
Separación física de la
vía
No separada, separada media, separada entre vehículos y no
vehículos, ambas
Alineación de la vía Línea recta, giro común, giro cortante, pendiente común, pendiente,
pendiente pronunciada, pendiente continua hacia abajo, giro agudo y
pendiente pronunciada, giro en pendiente regular, pendiente en giro
regular
Tipo de barandas Riel, pared, otras, ninguna
Severidad del accidente Fatal, serio, leve
Numero de victimas datos
Tipo de vía datos
Velocidad limite datos
Mes accidente datos
Dia de la semana datos
Condiciones de
iluminación
Luz día 1-3, oscuridad 4-7
Condiciones de clima Sin vientos altos, llovizna sin vientos altos, otra
Condición de la
superficie de la vía
Señalización con semáforos, señalización parcial, otras
23
Localización de la unión
en el impacto
0 no o en 20 m, aproximación a crecer o espera/parqueo en
proximidad al cruce, cruce limpio o esperando parqueo en la salida
del cruce, saliendo, entrando de la vía principal o glorieta, cruce
medio sobre una glorieta o vía principal.
Derrape/sobregiro Ninguno, derrape o sobregiro
Primer punto de impacto No impacta, frontal, posterior, lateral, cerca del lado
Tipo de vehículo Motocicleta o bicicleta, carro, bus, vehículo pesado
Genero conductor Masculino/femenino
Edad del conductor <25, 26-35, 36-45, 46-55, 56-65, >65
Atributos específicos del
accidente
Tipo de accidente 0,99
Categoría de accidente 1-13
Escena de accidente 1-9
Tráfico pesado
involucrado
Si/no
Número de
vehículos/animales
involucrados
dato
Numero de fatalidades dato
Número de heridos dato
Atributos específicos del
conductor
genero f-m
Conductor borracho
edad dato
Atributos específicos de
la vía
Densidad de población 0-6
Pavimento de la vía 0-6
Luces de trafico 0-4
Tipo de límite de
velocidad
1-6
Autopista motor/semi
motor
1-3
Clase funcional de vía 1-4
Clase de mantenimiento 1-8
Vía de peatón/bicicleta Si/no
Arteria de alta velocidad Si/no
Límite de velocidad 10-120
Volumen de tráfico
promedio diario
dato
Volumen de tráfico
pesado promedio diario
dato
24
Numero de calzadas 0-4
Ancho de calzada Relación 35, 379
Distancia de visibilidad a
150 m
Relación 0-100
Distancia de visibilidad a
300 m
Relación 0-100
Distancia de visibilidad a
300 m
Relación 0-100
Atributos de la
circunstancia especifica
tiempo 1-10
Condición de la vía 1-6
iluminación 1-4
clima 1-7
temperatura 0-35
Otros atributos (solo
para interpretación)
mes 1-12
región 1-14
Tipo de vehicular Carro pequeño, carro pesado
Tempo del dia Mañana, tarde, anochecer, noche/ medianoche
estación Húmeda, seca
causas Maniobra equivocada, descuido del conductor, pérdida de control,
estallido de llanta, sobre velocidad, obstrucción, empuje por otro
vehículo, eje roto, resorte roto, falla de frenos ,problema de la vía,
causas desconocidas (problemas con la policía, condición del
conductor, actitud de otros usuarios de la vía, señales de tráfico en la
vía inadecuadas, condición de la superficie de la vía, factores
demográficos de la localización del accidente, congestión de tráfico,
fabricante del vehículo, año de fabricación, condiciones generales del
vehículo), ataque/robo. 1
Tabla 2. Atributos que se pueden utilizar en el análisis de los accidentes. Tomado de Montt
Cecilia, 2013, Análisis de accidentes de tránsito con inteligencia computacional, 16 congreso
chileno de ingeniería de transporte.
5.1.2. COMPLEJIDAD DEL SISTEMA E INTERRELACON ENTRE LOS FACTORES
DE RIESGO.
Una de las características importantes de un sistema de tránsito y de los fenómenos implícitos en
el mismo, en particular los relativos a la accidentalidad vial es la complejidad de este y el nivel de
interrelación entre los factores que intervienen en los accidentes.
25
Según el accidente se puede describir mediante un sistema espacio tiempo en el cual se distinguen
tres fases; percepción, decisión y conflicto.
La percepción se refiere al acto mediante el cual el conductor o persona involucrada en él, se da
cuenta de que existe una situación anómala que puede desencadenar un accidente. Esta condición
puede ocurrir de un momento para otro, o en un lapso. Por ejemplo, cuando el conductor está
conduciendo dentro de las condiciones normales respetando su carril en la vía ,así como la
velocidad adecuada, con el vehículo en condiciones normales y de un momento a otro parece un
vehículo, peatón, semoviente invadiendo su carril en una curva, esto constituye una condición
inesperada para el conductor y el tiempo para elaborar, tomar y ejecutar una decisión puede ser
muy corto.
De otro lado, si la visibilidad es buena, la carretera recta y se presenta la misma situación, quizás
el conductor puede advertir la misma con una anticipación suficiente para tomar la decisión
adecuada y ejecutar la maniobra tendiente a evitar la colisión, o al menos disminuir sus
consecuencias.
Al colocar como actores principales a las personas; conductor y peatones, este análisis se centra en
las decisiones tomadas por estos actores, cuando se percibe el peligro inminente de accidente.
Debido a que los factores y las correspondientes variables que pueden incidir en el accidente son
muchas y en algunos casos no todas están presentes, la complejidad del proceso de accidente de
tránsito puede ser variable. Además de esto, las decisiones tomadas por las personas incluyen un
proceso de razonamiento que como todo acto humano puede tener motivaciones muy particulares,
el análisis de estas puede ser bastante simple o por otro lado muy complejo. También participan
aquí los actos reflejos o decisiones que no son completamente conscientes sino el producto de las
vivencias del individuo que las toma.
La determinación de las causas de los accidentes requiere la existencia de registros que permitan
al investigador hacer una reconstrucción lo más fiel posible de los hechos que antecedieron al
accidente.
Según Vásquez en ¨ Causas de los accidentes de tránsito desde una visión de la medicina social”,
las relaciones entre la causa raíz de los accidentes, la causa inmediata y los factores de riesgo
asociados, se puede resumir en la figura 1. Se reconoce la multicausalidad de los accidentes de
tránsito, tratando de no asociarlos a numerosas causas sin que se puedan identificar las más
probables, ni a tan pocas como para perder la verdadera relación entre el accidente y las posibles
causas.
26
Figura 1 Esquema jerárquico multicausal aplicado a los accidentes de tránsito. Tomado de causa
de los accidentes de tránsito desde una visión de la medicina epidemiológica.
Según Fernández, el problema de la accidentalidad vial se puede catalogar como complejo, de
acuerdo con la tabla 3.
TIPO DE
PROBLEMA
MODELO NUMERO DE
POSIBILIDADES
PROBABILIDAD
DE RESULTADO
Bien Estructurados Determinístico 1 1
Bien Estructurados Estocástico Finitas y conocidas Conocidas y
objetivas
Semiestructurados Incertidumbre
cuantitativa
Finitas y conocidas
Complejos o cuasi
estructurados
Incertidumbre
cuantitativa y
cualitativa
DETERMINAN
TES BASICOS
POBLACION AMBIENTE
ORGANIZACIÓN SOCIAL GENOMA
DETERMINANTES
RSTRUCTURALES
INDICE DE MOTORIZACION DEL PAIS NIVEL DE
URBANIZACION SEÑALIZACION VIAL
LEGISLACION SEGURIDAD VIAL EDUCACION
VIAL TOLERAN CIA SOCIAL CONSUMO DE
ALCOHOL Y DROGAS %CONDCUTORES MENORES
DE 25 ALOS MAYORES DE 65
DETERMINANTES
PROXIMOS
CONGESTIO VEHICUAR EN VIA PUBLICA
MAL ESTADO DE LA VIA SEDÑALIZACION
MALAS CONDICIONES CLIMATICAS ESCESO
DE VELOCIDAD IMPERICIA EN EL MANEJO
INTOXICACION ETILICA DEL CONDUCTOR
27
TIPO DE PROBLEMA MODELO N° DE
POSIBILIDADES
PROBABILIDAD
DE RESUTADO
BIENESTRUCTURADOS DETERMINISTICO 1 1
Bien Estructurados Estocástico Finitas y conocidas Conocidas y
objetivas
´SEMIESTRUCTURADOS INCERTIIDUMBRE
CUANTITATIVA
FINITAS Y
CONOCIDAS
Complejos o cuasi
estructurados
Incertidumbre
cuantitativa y
cualitativa
Tabla 3 Complejidad de Problemas y Modelos de solución Tomado de Singh Maninder , Kaur
Amrit , 2014, A Review on Road Accident in Traffic System, International Journal of Science
and Research,
5.2. MODELOS CAUSALES DE ACCIDENTES.
Las causas de los accidentes pueden ser inmediatas o fundamentales y básicas o coadyuvantes.[1].
De acuerdo con Arévalo Carlos, 2017, Metodología y técnicas analíticas para la investigación de
accidentes de trabajo, se pueden establecer históricamente tres modelos de ocurrencia de
accidentes. A continuación, se presenta un resumen de los principales modelos y metodologías
asociadas para el estudio de las causas de los accidentes. Esta descripción se basa en los expuesto
en el libro “Metodología y técnicas analíticas para la investigación de accidentes de trabajo”. Estos
son:
5.2.1. Modelos secuenciales. 1931. Heinrich.
En este modelo una sucesión de eventos secuenciales conduce a la ocurrencia de accidente. Si no
ocurre un evento en la secuencia esta se suspende, Al eliminar una condición o acto inseguro, no
ocurre el accidente. Se observa en la figura 2.
Los eventos que pueden llevar al accidente se pueden agrupar en cinco categorías;
• Entorno social y ascendencia.
• Falla de la persona (acto inseguro).
• Condición física insegura.
28
• Accidentes y lesiones.
Figura 2. Teoría causal o de fichas de dominó. Tomado de Arévalo Carlos, 2017, Metodología y
técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
5.2.2. Modelos epidemiológicos 1997 (Reason).
Son modelos lineales que consideran los accidentes como el resultado de una combinación de
condiciones inseguras latentes, condiciones activas o actos inseguros. En este caso las causas
básicas son las condiciones inseguras, que se activan mediante la ejecución de un acto inseguro.
Los accidentes se previenen fortaleciendo las barreras o defensas. Los actos inseguros se pueden
observar directamente mientras las condiciones inseguras son latentes, diseño, organización,
formación, desequilibrio entre niveles de competencia y responsabilidades. Según esta teoría el
hecho de que no todos los actos inseguros se conviertan en accidentes es debido a la existencia de
las barreras creadas por la organización. Las deficiencias en las defensas pueden cambiar con el
tiempo.
Debido a la incidencia de los factores organizativos, el error humano no se considera una causa
sino un efecto. Permite detectar interacciones complejas y se centra en la organización y gestión.
Las condiciones latentes a nivel de organización y gestión y los factores de organización del lugar
de trabajo facilitan la ocurrencia de actos inseguros y estos ante la deficiencia en las barreras, los
accidentes. Si las barreras se ubican en niveles más bajos del modelo, se requieren más errores o
actos inseguros para romperlas.
Se incluyen las condiciones latentes presentes en el sistema para la ocurrencia de cualquier
accidente, figura 3.
Las deficiencias de la organización y gestión se consideraban normales antes del accidente.
29
Figura 3. Modelo epidemiológico, tomado de Arévalo Carlos, 2017, Metodología y técnicas
analíticas para la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
5.2.3. Modelos sistémicos avanzados Docker, 2006.
Los accidentes se producen por combinaciones inesperadas de condiciones normales, en lugar de
fallas humanas. La naturaleza del fenómeno es compleja. Aunque el trabajador tome una
decisión acertada, al combinarse con otra variable se produce la falla del sistema. De acuerdo con
esto, si no existen las otras condiciones, la acción del trabajador no hubiera producido la falla o
accidente. Existen factores causales que con base en la correlación propia de la obra o el proyecto
pueden aumentar sus efectos.
5.2.4. Relaciones de causalidad.
Tradicionalmente las técnicas para el análisis de accidentes se basan en establecer una relación
jerárquica entre la causa y el efecto como en el árbol de causa efecto. A partir del accidente se trata
de ir estableciendo la ocurrencia de causas y actos inseguros, figura 4.
En este modelo se suponen:
• La causa precede al efecto en el tiempo.
• La misma causa genera siempre el mismo efecto.
La causa se refiere en términos modernos a factores mecánicos o físicos, mientras que en los demás
casos se refiere a factores causales.
Factor causal: acto o condición necesaria para llegar a la secuencia del accidente.
30
Causas directas o primarias: factores, condiciones o acciones que desencadenaron de manera
inmediata el accidente. Son las condiciones presentes en el lugar del accidente.
Causas, factor causal: son factores que en combinación con otros aumentan la probabilidad de
ocurrencia del accidente, pero que aisladamente no lo producen.
Factores coadyuvantes: son aquellos de condición más general y permanente que afectan las
condiciones de trabajo relacionado y que por sí mismos no producen el accidente, incrementan la
probabilidad de ocurrencia de este.
Causa raíz o básica: causa primordial del accidente, relacionada con los aspectos más generales y
sistémicos de la organización y gestión del trabajo. Una causa básica genera varios factores
coadyuvantes.
El análisis de causa raíz debe incluir el análisis de las barreras existentes.
Las causas básicas pueden ser:
• Barreras insuficientes o inadecuadas.
• Fallos activos.
• Precursores de fallos humanos.
• Condiciones inseguras. (gestión, organización o lugar del trabajo).
Figura 4 Modelo de investigación de accidentes. Tomado de Arévalo Carlos, 2017, Metodología y
técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
5.3. METODOS DE INVESTIGACION DE ACCIDENTES.
31
Existen numerosas técnicas y metodologías que se han utilizado para el análisis de accidentes. De
cualquier manera, el análisis termina siendo realizado por un equipo de expertos, que finalmente
llega a una conclusión utilizando una de las metodologías existentes. Según Arévalo Carlos, una
clasificación de estas técnicas, teniendo como base los modelos de causas de accidentes
presentados anteriormente, es la siguiente;
• Técnicas basadas en Métodos secuenciales.
• Técnicas basadas Métodos epidemiológicos.
• Técnicas basadas en Métodos sistémicos.
En la tabla 4 se muestran diferentes técnicas clasificadas como se dijo anteriormente.
En la figura 10 se presenta un diagrama de procesos para la investigación de accidentes según
Niven Karen.
A continuación, se describe brevemente de acuerdo con Arévalo Carlos, las técnicas más utilizadas.
5.3.1. Técnicas basadas en modelos secuenciales.
Se presentan las principales técnicas pertenecientes a los modelos definidos anteriormente.
Árbol de causas.
Se busca evidenciar las relaciones entre los hechos que han producido el accidente. La pregunta
que se hace es qué tuvo que ocurrir para que se produjera el hecho. Para hallar la respuesta se busca
reconstruir las circunstancias en el momento anterior al accidente. Esto permite identificar las
causas coadyuvantes y raíz.
Se cumplen los principios de encadenamiento, conjunción, disyunción.
Se identifican las causas que, propiciando el origen del accidente, no necesitan una situación
anterior para ser explicadas. Cuando falta información, se desconocen los antecedentes que
propiciaron una situación. Se puede utilizar para obtener una primera aproximación cuando las
interacciones en el entorno no son muchas.
Permite una mejor aproximación y organización de las causas identificadas mediante el árbol de
causa efecto.
Se pueden manejar niveles de relevancia de las causas principales para tratar primero las más
relevantes. Se recomienda analizar globalmente el proceso de accidente e identificar las causas
primarias.
32
Se forma a partir de los modelos secuenciales e introduce modificaciones que tienen en cuenta el
proceso de gestión introduciendo causas inmediatas y básicas.
Las causas básicas se deben a fallas en los procesos de control y gestión de la empresa, siendo los
actos subestándares y las condiciones subestándar que no son controladas,(ausencias de medidas
de seguridad, mantenimiento inadecuado) , los detonantes del accidente. Las causas básicas se
agrupan en factores personales Comportamiento humano (falta de conocimiento, competencias, no
seguir procedimientos) y factores del trabajo (condiciones en el lugar de trabajo, procesos,
elementos de seguridad, equipos, normas). Los detonantes son procedimientos inadecuados o no
aplicación, figura 5.
Figura 5 Modelo de control de perdidas. Bird. Tomado de Arévalo Carlos, 2017, Metodología y
técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
La técnica SCAT incluye las barreras dentro del desarrollo secuencial del accidente. Esta técnica
identifica tres motivos de falta de control:
• Falta o insuficiencia de programación.
• Falta de procedimientos y estándares.
• Incumplimiento de estos.
33
La información recolectada y su análisis se resumen en una gráfica que contiene cinco bloques;
descripción del incidente, contactos que pudieron llevar al accidente, causas inmediatas, causas
básicas comunes, acciones utilizadas para el control de los factores identificados.
5.3.2. TECNICAS BASADAS EN MODELOS EPIDEMIOLOGICOS.
Es una representación gráfica de la cronología del accidente en base a los sucesos, factores causales
que han contribuido al mismo. Permiten incluir sucesos que no se han probado dentro del proceso
de investigación, aunque tengan soporte probatorio. Esto se observa en la figura 6.
El método consta de sucesos (acciones y hechos a que incluyen fecha, cuantificación, (son activos),
condiciones (situaciones y circunstancias,( pasivos) está asociada al hecho e incluyen fechas y
tiempo en que concurrieron), sucesos y condiciones supuestas.
Sus etapas son:
• Cadena de sucesos acaecida.
• Identificación de factores causales.
• Análisis de condiciones de los sucesos. Relacionan los sucesos con las condiciones en que
acaecieron.
Figura 6 Análisis gráfico de factores causales. Tomado de Arévalo Carlos, 2017, Metodología y
técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
Esta técnica es complementaria a la anterior y adiciona el análisis de barreras que podrían haber
evitado el accidente. La barrera es cualquier medio utilizado para controlar, prevenir o impedir la
ocurrencia del accidente.
34
En la figura 7 se presenta varias clases de barreras que se pueden incluir en el análisis. Estas se
pueden analizar en los niveles de la actividad que se desarrolla, la instalación y corporativo.
Figura 7 Barreras que se pueden incluir en el análisis. Tomado de Arévalo Carlos, 2017,
Metodología y técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín
de Betancourt.
Se fundamente en la presunción de que los cambios en los sistemas generan desviaciones de estos.
Los cambios pueden ser programados o imprevistos.
La técnica compara un escenario de ocurrencia del accidente, y otro en el que este no ocurre. Se
evalúan las diferencias que llevaron al accidente y el efecto que los cambios (procedimientos,
acciones, condiciones) tuvieron.
Esta técnica se puede incorporar a la anterior. Para establecer las diferencias entre los dos
escenarios, se pueden incluir las preguntas que, como, donde, cuando, quien.
5.3.3. Análisis de causa raíz. (RCA).
Es el método más utilizado y permite identificar los factores que al ser corregidos evitan la
ocurrencia del accidente.
Se centra en el sistema de gestión de la empresa y permite responder por qué ocurrió el accidente.
Puede incluir aspectos como:
Deficiencias en la organización de funciones técnicas y preventivas.
• Deficiencia en los procedimientos de gestión.
35
• Deficiencia en la programación y supervisión de trabajos.
• Pueden existir más de una causa raíz del accidente, pero no deben sobrepasar de cuatro.
El procedimiento es:
• Conocimiento previo de los hechos y sucesos alrededor del accidente.
Se puede realizar una aproximación mediante otras técnicas, y disponer de un listado inicial de
factores causales.
• Se valida la significancia y normalidad. Para ello se pregunta:
¿Si el factor se hubiera evitado, se hubiera roto la cadena del accidente?
¿El factor es habitual y ha generado el resultado esperado?
Si la primera respuesta es afirmativa y la segunda negativa, se considera un factor relevante.
El análisis debe realizarse en los diferentes niveles jerárquicos.
• Se agrupan los factores causales que dependen de una sola causa raíz.
No todas las cadenas de sucesos generan factores causales o causa raíz.
Figura 8 Agrupación de factores causales. Tomado de Arévalo Carlos, 2017, Metodología y
técnicas analíticas para la investigación de accidentes de trabajo, Fundación Agustín de
Betancourt.
Además de las metodologías convencionalmente conocidas, se proponen las siguientes
metodologías:
36
Sequential timing events plotting. STEP.
Functional resonance analysis method. FRAM.
5.3.4. Método de tablas de Forrester.
Este método se basa en la aplicación del diagrama causal a la dinámica de sistemas. Permite la
validación del modelo que representa el sistema, cómo es la evolución de las variables asociadas
al mismo y realizar un análisis de sensibilidad para observar las variaciones en las entradas y
salidas del modelo.
Mediante su aplicación se obtiene una transformación del diagrama de causas en un sistema de
ecuaciones que relacionan las variables.
Se pueden aplicar los siguientes pasos en el desarrollo del modelo por este método:
• Representación mental del sistema, incluyendo los actores que intervienen en el
mismo; en el caso de los accidentes de tránsito pueden ser el conductor, los
peatones, la vía, el vehículo, el ambiente. Esto constituye los niveles.
• Se representan los flujos que constituyen las variaciones de los niveles en el
tiempo.
• Los demás elementos se consideran variables auxiliares y los valores que
permanezcan constantes se consideran variables auxiliares constantes.
• En la figura se muestra una representación de un accidente de tránsito
utilizando los diagramas de Forrester.
Figura 9. Representación de un accidente de tránsito utilizando diagramas de Forrester. Tomado
de Modelo Dinámico-sistémico de accidentes de tránsito.
El diagrama contiene 56 variables que describen el funcionamiento del sistema.
Esta técnica permite realizar el análisis de sistemas estructurados, no estructurados, modelos
conceptuales, problemas relacionados con el sistema, soluciones y compararlas entre ellas.
37
Es aplicable al análisis de causas en accidentes de tránsito, de acuerdo con el documento
presentado por Loyola John y colaboradores en Modelo Dinámico-sistémico de accidentes de
tránsito. Realizaron un estudio aplicando la técnica de diagramas de Forrester en el estudio de
accidentalidad en la población de Trujillo en el Perú. Determinaron que las principales causas de
accidentalidad están relacionadas con el factor humano principalmente el conductor y el peatón,
por no respetar la reglamentación existente y de incurrir en actos inseguros.
Utilizaron una técnica denominada Sistemas suaves y dinámica de sistemas para determinar las
causas de los accidentes. El modelo dinámico que construyeron permite identificar las relaciones
entre los diferentes actores del sistema.
5.3.5. COMPARACION DE LAS TECNICAS.
La selección de la técnica de investigación de accidentes depende de varios elementos; el principal
de ellos incluye las características de interrelación y complejidad de los factores de riesgo del
sistema analizado. Sin embargo, existen otros factores como la disponibilidad de recursos,
incluyendo el tiempo, metodología de investigación y programación, sector en el que ocurre el
suceso investigado, calificación de los investigadores.
De acuerdo con la interrelación de los factores y la complejidad del sistema analizado, se muestran
las técnicas sugeridas de acuerdo con en la figura 10.
Figura 10 Selección de modelos de análisis de accidentes en función de la complejidad e
interacción de factores. Tomado de Arévalo Carlos, 2017, Metodología y técnicas analíticas para
la investigación de accidentes de trabajo, Fundación Agustín de Betancourt.
38
La tabla 4 presenta un resumen de técnicas utilizadas para el análisis de causas de accidentes, así
como su aplicación . Para el caso particular de análisis de causa raíz se observa que existen varias
técnicas recomendadas entre ellas cinco porque, Pareto, FMEA, Change, Baryver análisis. La
técnica de redes bayesianas encuentra causas razonables.
Los cuadros rojos indican deficiencia en la aplicación de la técnica para conseguir los objetivos de
la columna izquierda, mientras los verdes representan resultados cualitativos.
39
5 p
orq
ue
CE
D
FT
A
ET
A
PA
RE
TO
ST
EP
FM
EA
Sto
ry t
elli
ng
CH
AN
GE
Bar
iyer
anal
ysi
s
BO
W T
IE
K-T
CR
T
AR
CA
ID
CA
T W
OE
TR
IZ
TR
IZ
RP
R
Bay
esia
n n
etw
ork
MO
RT
Provee resultados
cuantitativos
Explora causas
razonables
Localiza causas raíz
especificas
Se focaliza en soluciones
Genera acciones
correctivas/ preventivas
Determina causas raíz y
prioridades de estrategias
Refleja el trabajo de la
mente humana en
resultados de evaluación
Identifica personas
responsables de acciones
correctivas
Estructura fácil y
aplicable
Direcciona temas
simples
Adopta aproximación
atomística
Herramienta teórica
Procesos sistemáticos
Resuelve problemas
estructuradlos
Fácil de entender
Tabla 4 Resumen de técnicas para análisis de causa raíz de accidentes. Tomado de Tuba Kecesi, Ozcan Arsla, 2017, SHARE
technique: a novel approach to root cause analysis of ship accidents. Safety science 96. 1-21.
40
5.4. MODELO DE ANALISIS DE CAUSA RAIZ DE ACCIDENTES.
Para realizar el análisis de causa raíz de accidentes se debe plantear en primer lugar un
modelo conceptual del accidente, después identificar los factores que inciden y coadyuvan
a la materialización del mismo así como sus relaciones y finalmente establecer un método
para realizar el análisis.
5.4.1. Modelo de accidentes de tránsito.
De acuerdo con los modelos presentados anteriormente, y el documento Dream 3.0, se
plantea un modelo de accidente para describir la dinámica del mismo, basándose en los
eventos que determinan y concurren con la ocurrencia de los accidentes.
Según Girard, todos los accidentes pueden describirse a partir de cuatro etapas;
• Fase de conducción: no hay demandas especiales sobre el conductor. La conducción
es normal. Hay un balance entre las demandas sobre el sistema uy su capacidad de
respuesta.
• Fase de discontinuidad: la continuidad se interrumpe por un evento inesperado y la
demanda sobre el sistema excede su capacidad de respuesta.
• Fase de emergencia: el tiempo y la distancia entre la discontinuidad y el impacto , el
tiempo disponible para que los componentes del sistema respondan al incremento
súbito en la demanda.
• Fase de choque o colisión.
El proceso de respuesta del conductor involucra características cognitivas, de observación,
interpretación y planeación. Existen otros factores como la desatención.
Según DREAM 3.0 existen los fenómenos o eventos observables en el momento del
accidente, denominados fenotipos,(acciones humanas y eventos del sistema) y que tienen
que ver con tiempo, velocidad, distancia, objeto, dirección, fuerza, y otros denominados
genotipos o factores coadyuvantes (humanos como fallas en interpretación, observación y
planeamiento y otros factores más generales temporales o permanentes como desatención,
así como factores del vehículo y la vía y organizacionales como mantenimiento, diseño,
logística), que incluyen factores o eventos en un blunt end (los frenos del vehículo fallan)
que están relacionados con hombre vehículo, organización, vía, y en el Sharp en (el conductor
no ve la luz roja del semáforo), con los mismos factores y que están en la proximidad del
accidente. Entre ellos existen las condiciones de falla latentes, que contribuyen al accidente.
Los eventos de blunt end y Sharp end están espaciados en el tiempo y espacio. Este modelo
no es secuencial ni jerárquico sino en forma de red. Esto se observa en la figura 11.
41
Figura 11 Representación gráfica del modelo de accidente, basado en Dream 3.0 versión
2008.
Desde el punto de vista teórico se refleja en cómo se definen los factores
contribuyentes en el esquema de clasificación, y como se relacionan entre ellos.
El esquema de clasificación incluye factores observables en el momento del accidente
(fenotipos) y factores contribuyentes al mismo (genotipos).
Los fenotipos pueden ser vistos como la causa inmediata o próxima.
Los enlaces entre fenotipos y genotipos indican la forma en que interactúan entre ellos.
Los fenotipos son los puntos finales en la cadena de causalidad. Cuando los genotipos actúan
como enlaces, se pueden deducir cadenas enteras de causas consecuencias. Al comenzar con
un fenotipo al final de la cadena de causas, se puede hacer el análisis hacia atrás hasta que no
existan más genotipos o factores significativos. El uso de enlaces debe estar soportado por la
información.
Un genotipo general puede llevar a otro genotipo general. Los genotipos contribuyen no
determinan los fenotipos.
Los diferentes vehículo comparten la misma vía con las mismas reglas. Las causas inmediatas
son coadyuvadas por las causas raíz a diferentes niveles.
Factores particulares de una empresa de transporte que influyen en las causas próximas.
Para cada vehículo participante en el accidente se selecciona un solo fenotipo.
42
En el modelo propuesto, los fenotipos corresponden a la causa próxima del accidente,
mientras los genotipos son una aproximación a la causa raíz de este. El fenotipo se debe
buscar en la fase de discontinuidad.
Fenotipos Fenotipos específicos
Tiempo Acción prematura, acción tardía, inacción
Velocidad Velocidad muy alta, velocidad muy baja
Distancia Distancia muy próxima
Dirección Dirección equivocada
Fuerza Demasiada fuerza, fuerza insuficiente
Objeto Objeto adyacente
Tabla 5 Fenotipos y fenotipos específicos de DREAM 3.0-
Los genotipos relacionados en proximidad al fenotipo se acercan a la causa próxima, mientras
que a medida que se avanza en la cadena de genotipos, el análisis se dirige hacia la causa
raíz.
5.4.2. Identificación de factores, representación y relaciones.
Partiendo de los conceptos presentados en el modelo DREAM 3.0, una vez identificados los
factores que pueden incidir en los accidentes de tránsito, se debe establecer una relación entre
ellos (genotipos) y la causa próxima (fenotipos), así como entre los mismos genotipos.(causa
raíz).
Las relaciones entre las causas próximas y los factores coadyuvantes a las mismas se
presentan en la tabla del apéndice 3. Las relaciones entre las causas coadyuvantes se
muestran en la tabla del mismo apéndice.
Estas tablas se han utilizado para construir la base de datos número 3 para la identificación
de la causa raíz del accidente de tránsito mediante las reglas de decisión suministradas por la
aplicación de la técnica PART en WEKA 3.8.
5.4.3. Metodología de análisis de causa raíz.
Una vez realizada una aproximación a la causa inmediata ò próxima del accidente, se realiza
un análisis de los resultados obtenidos mediante un panel de expertos, y se propone una
segunda aproximación esta vez a la probable causa raíz de este.
43
Siguiendo el trabajo desarrollado por Mesec y Arlan, donde realizan una clasificación
detallada de las diferentes causas atribuibles a los accidentes de barcos, se elabora una tabla
en la que se han seleccionado las causas que pueden ser aplicables a los accidentes de tránsito
por carretera. Esta información se ha complementado con la clasificación de genotipos
(antecedentes o causas) y fenotipos (consecuentes o causa próxima) proporcionada por
DREAM 3.0 y se presentan en la tabla 5.
Estas causas básicas o raíz incluyen dos categorías; las relacionadas con las personas y las
relacionadas con el factor trabajo. Muchas están orientadas a la organización o empresa y
otras a personas particulares. Como en los accidentes pueden intervenir personas naturales o
personas que conducen vehículos de empresas, se tiene en cuenta las características de ambos
tipos. En la tabla 7 se presentan los diferentes factores relacionados con los accidentes de
tránsito.
44
1 FACTORES RELACIONADOS CON LAS PERSONAS.
Características humanas
Reacción lenta
Baja aptitud de aprendizaje
Competencia
Bajas competencias de comunicación.
Complacencia
Habilidad de percepción
Percepción del riesgo
Relaciones de trabajo por debajo del óptimo
Vigilancia
Inatención
Inadecuada situacional
Distracción por temas diferentes al trabajo
Comportamiento humano
Cultura
Caracter
Falta de autodisciplina
Capacidad estrés física y fisiológica
sensibilidad
Sensibilidad o alergia a sustancias
Sensibilidad a temperatura, sonido, etc.
Deficiencias sensoriales
Deficiencia en la visión y escucha
Otras deficiencias sensoriales (gusto, tacto, equilibrio)
Discapacidades temporales/permanentes
Uso de alcohol/droga
Enfermedad
Peso, tamaño, altura, alcance inadecuados
Capacidad-estrés sicológico
Enfermedad mental, emocional
Pánico
Frustración
Miedos y fobias
Agresión inapropiada
Preocupación con problemas
Carga emocional
Presión de tiempo
Fatiga
Fatiga debida a carga o duración del trabajo
Fatiga debida a falta de descanso
Fatiga debida a sobrecarga sensorial
Fatiga debida a demandas extremas de percepción y concentración
45
Rutina, monotonía, demanda por vigilancia continua
Demandas extremas de juicio y decisión
Conocimiento, habilidades y entrenamiento deficientes
Práctica inadecuada
Conocimiento insuficiente de los equipos y sistemas
Conocimiento técnico inadecuado
Entrenamiento actualizado inadecuado
Entrenamiento inicial inadecuado
Orientación del ambiente de trabajo inadecuado
Falta de entrenamiento en equipo
Inadecuado conocimiento de las operaciones del vehículo
Falta de experiencia
Inadecuado conocimiento de las reglamentaciones y estándares
Pobre uso de la información para la toma de decisiones
Problemas de comunicación
Comunicación deficiente entre los miembros de la tripulación del vehículo
Mal entendimiento
No uso de smcp
Problema con equipo de comunicaciones
Cultura de equipo inadecuada
Ausencia de modelo mental compartido
Brm inefectivo
Falta de pertenencia
Overreliance en el equipo, las personas o el sistema
Sobre confianza en el supervisor
Liderazgo inadecuado
Relaciones conflictivas
Instrucciones iniciales inadecuadas
Falta de coaching
revisión de instrucción inadecuada
Falta de supervisión/conocimiento de gestión del trabajo
Falta de disciplina de la tripulación/pasajeros
Delegación impropia o insuficiente
Asignación de responsabilidades no clara o conflictiva
Ejemplo de supervisión inadecuada
Mano de obra insuficiente para la tarea
Temas relacionados con seguridad
Falta de cultura de seguridad
Actos inseguros
Acciones involuntarias
confusión
Desorden
Fallas de memoria
Pasar por alto
46
Intento impropio de ahorro de tiempo o esfuerzo
Intento impropio de evitar incomodidad
Sabotaje
Tomar precauciones inadecuadas
Factores de falta de motivación
Falta de incentivos
Castigo por rendimiento apropiado
El rendimiento inadecuado es premiado
Presión entre los miembros de la tripulación
Intento impropio por ganar atención
Medida inadecuada de desempeño
Retroalimentación inadecuada del desempeño
Medida y evaluación inadecuada del desempeño
Presión jerárquica
Inadecuada tripulación
Inadecuado nivel de la tripulación
Inadecuada disponibilidad de fuerza de trabajo
2 FACTORES RELACIONADOS CON EL TRABAJO
Diseño, construcción inadecuados del vehículo
Ergonomía deficiente del vehículo
Monitoreo y evaluación inadecuada de cambios
Inadecuada evaluación de preparación operacional
Ensamble defectuoso en la construcción
Defecto de construcción
Diseño inadecuado
Material de construcción inadecuado
Falla mecánica del material
Fatiga de material
Defectos de sellamiento
Soldadura defectuosa
Deterioro químico/UV
Equipo/material inadecuado
Equipo no operacional
Uso inadecuado el equipo
Herramientas/equipo inadecuado
Inadecuada disponibilidad de herramientas/equipo
Estándares y especificaciones inadecuadas de herramienta/equipo
Equipo operado por persona no autorizada
Mantenimiento inadecuado
Evaluación inadecuada de requerimientos preventivos de mantenimiento
Inadecuada reparación
Equipos/herramientas para reparación/ajuste/mantenimiento
Reparaciones provisionales inadecuadas
Inspección/monitoreo inadecuados del equipo
47
Inadecuada recuperación de salvamento del equipo
Problema con características de manejo del vehículo
Inadecuada selección del vendedor
Inadecuadas especificaciones o requisiciones
Inadecuada investigación del equipo
Inadecuada comunicación de datos de salud y seguridad
Manejo inadecuado de materiales
Almacenamiento inadecuado de materiales
Temas relacionados con la carga
Deterioro de la carga
Autoignición de la carga
Radiación
Temas relacionados con el sistema
Procedimiento, reglas y estándares
Ausencia de procedimientos en la compañía
Los procedimientos de la compañía no reúnen los requerimientos legales
Discrepancias entre procedimientos
Mala aplicación de procedimientos
Ausencia de registro y análisis de accidentes
Ausencia de sistema de lecciones aprendidas de accidentes/incidentes
Inadecuada actualización de procedimientos
Reglas, estándares y políticas
Ausencia de regulaciones, políticas y estándares
Mala aplicación de regulaciones, políticas y estándares
Regulaciones/políticas pobres, ambiguas
Estándares del trabajo
Inadecuado desarrollo de estándares de trabajo
Inadecuada comunicación de estándares de trabajo
Inadecuado monitoreo de cumplimiento de estándares de trabajo
Gestión
Gerencia de la empresa
No tomar acciones correctivas
Desorden en documentación de procesos
Fraude en certificación
Inspección inadecuada
Sistema de alerta inadecuado
Inadecuada referenciación de documentos, directrices y lineamientos
Evaluación del riesgo
Inadecuada evaluación del riesgo
Proceso de evaluación del riesgo inadecuado
Proceso de evaluación del riesgo no implementado
Toma inadecuada de precauciones relacionadas con el riesgo
Factores ambientales
Ambiente natural
48
Normal
Clima pesado
Desastres naturales
Ambiente natural peligroso
Granizo
Temperatura
humedad
Ambiente visual/iluminación
Ambiente de trabajo
Ruido
Vibración
Gestión interna deficiente
Lugar de trabajo sucio
Iluminación deficiente
Inadecuada ventilación
Factores debidos a terceros
Tabla 7 Posibles causa básica de accidentes de tránsito. Tomado de Tuba Kecesi, Ozcan
Arsla, 2017, SHARE technique: a novel approach to root cause analysis of ship accidents.
Safety science 96. 1-21.
5.5. PROCESO DE INVESTIGACION DE ACCIDENTES.
Es un proceso en el cual se pueden distinguir cuatro fases que se desarrollan secuencialmente.
La primera de ellas es la recolección de la información en el lugar del accidente. Esta etapa
es clave como entrada de las etapas posteriores y la calidad de las conclusiones o salidas de
cada una de ellas y del proceso en general. Desde el punto de vista legal esta fase es realizada
por la autoridad competente que por lo general es la policía de tránsito y en casos de
accidentes fatales la fiscalía. El documento oficial es el informe del accidente que se
documenta en el formato mostrado en el apéndice . este es diligenciado por la persona
autorizada y lleva las firmas de las personas protagonistas del accidente. Estos documentos
son almacenados y custodiados por la policía. En Colombia son un documento reservado y
para tener acceso al mismo se requiere la autorización de la ley o de las personas que
intervinieron en el accidente. Por tratarse de la primera información sobre el accidente
tomada en el sitio de ocurrencia y sobre las condiciones objetivas y reales del mismo, son la
fuente fundamental para cualquier análisis posterior a que trate de determinar
responsabilidades y las probables causas del accidente. Actualmente con los recursos
tecnológicos existen otras fuentes de información como los registros realizados por cámaras
ubicadas en proximidad del sitio del accidente. Además, se puede obtener información de
testigos presentes en el lugar.
49
Respecto del vehículo, siempre y cuando exista la posibilidad de hacerlo, en los equipos que
poseen la tecnología para ello se puede tratar de recuperar información acerca de las
condiciones de velocidad y algunos parámetros mecánicos sobre el funcionamiento de los
sistemas de este en el momento del accidente, como por ejemplo condición del sistema de
frenos o de la presión de aire en el mismo, en caso de que sea pertinente.
La segunda es la identificación y análisis de las variables contenidas en la información
recaudada.
En tercer lugar está la búsqueda de las posibles causas del accidente, aquí se utiliza alguna
de las técnicas descritas en la sección 6.2.
En la cuarta etapa se diseñan políticas y procedimientos tendientes a evitar la ocurrencia de
los accidentes o disminuir su impacto.
En general el proceso de investigación de accidentes se puede resumir en la figura 11.
ACCIDENTE DE TRABAJO
INVESTIGACION DEL ACCIDENTE
CAUSAS DEL ACCIDENTE
MEDIDAS CORRECTIVAS
DESCRIPCION DE HECHOS.HORA, LUGAR, FECHA, TURNO, TIPO DE
TRABAJO, TIPO DE VEHICULO, DIRECCION, CONDICIONES CLIMATICAS
ANALISIS DE VARIABLES CONTENIODAS EN LA DESCRIPCION DETALLADA DE LOS HECHOS. ESCOGER METODOLOGIA .
CONCLUSIONES: FALTA DE PROCEDIMIENTOS, FALLAS EN EQUIPOS Y
MAQUINAS, ACTOS INSEGUROS DEL PERSONAL, ETC.
DISEÑO DE POLITICAS YPROCEDIMIENTOS
BASE DE DATOS
PROCESO DE INVESTIGACION DE
A CCIDENTES
Figura 11 Proceso de investigación de accidentes. Tomado de Niven Karen, 2004, Real
time evaluation of health and safety management in the national health service. Recuperado
de http://www.hse.gov.uk/research/rrpdf/rr280.pdf
50
5.6. MINERIA DE DATOS.
Según Hanget al en mining road traffic accidents] se puede definir la minería de datos como
“el análisis de conjuntos de datos observacionales, generalmente de gran tamaño, con el
objetivo de encontrar relaciones no previstas y resumir los datos en formas nuevas que son
entendibles y útiles para el usuario de estos”.
De otro lado el descubrimiento de conocimiento en bases de datos (Knowledge Discovery
data)de acuerdo con Margaret Dunham [12 en mining road traffic Accidents] es “el procedo
de encontrar información y patrones útiles en los datos”.
En la figura 12, se muestra un diagrama del proceso completo de descubrimiento de
conocimiento, y de la minería de datos como una parte dentro del mismo.
Figura 12 Proceso de adquisición de conocimiento a través de minería de datos. Tomado de
Hassinger Rodriguez Mark Mirko, 2015, Aplicación técnica de minería de datos en
accidentes de tráfico, Tesis de Maestría, Universidad Politécnica de Valencia.
Según Olutayo V.A, Eleudire A.A el proceso de descubrimiento de conocimiento se puede
dividir en las siguientes etapas;
51
Selección.
• Recopilar e integrar las diferentes fuentes de datos existente.
• Identificar y seleccionar las variables relevantes en los datos.
• Aplicar las técnicas de muestreo adecuadas.
Exploración.
• Utilizar las técnicas de análisis exploratorio de datos.
• Deducir la distribución de los datos, simetría y normalidad.
• Analizar las correlaciones existentes en la información.
Limpieza.
• Detectar y tratar la presencia de valores atípicos
• Imputar la información faltante o valores perdidos.
• Eliminar datos erróneos e irrelevantes.
Transformación.
• Utilizar técnicas de reducción y aumento de la dimensión.
• Aplicar técnicas de discretización y numeración.
• Realizar escalado simple y multidimensional.
Minería de datos..
• Utilizar técnicas predictivas.
• Utilizar técnicas descriptivas.
En la minería de datos se construye un modelo basado en los datos recopilados para ello, es
una descripción de los patrones y relaciones entre los datos, que pueden usarse para hacer
predicciones, entender mejor los datos o explicar situaciones pasadas.
5.6.1. TECNICAS DE MINERIA DE DATOS.
Existen varias técnicas que permiten realizar el proceso de minería de datos, es decir construir
el modelo de datos requerido para extraer la información. Asociadas con estas técnicas se
encuentran los algoritmos o herramientas utilizadas para desarrollar las técnicas.
52
En la figura 13 se muestra una clasificación de las técnicas.
Figura 14. Clasificación de técnicas utilizadas en minería de datos. Tomado de Cevallos
Alvaro, 2013, Guía metodológica para obtener patrones de accidentalidad laboral usando
data mining, Universidad de Piura, Tesis de grado Maestría.
Según Cevallos Alvaro, la potencia de la minería de datos reside en su capacidad de
relacionar las variables a partir de modelos planteados por el analista.
Estos modelos pueden ser descriptivos o predictivos y dependiendo de ello se aplican las
tareas y algoritmos de minería de datos.
De acuerdo con Cevallos Alvaro, en el campo de la seguridad vial las técnicas más utilizadas
son redes neuronales, arboles de decisión y Redes bayesianas.
Los árboles de decisión permiten el uso de reglas si entonces,
ALGORITMOS DE AGRUPAMIENTO.
Estos forman parte de los métodos no supervisados descriptivos. Aquí no se requiere la
existencia de datos ́ previos y la salida después de ejecutarlos es un agrupamiento que permite
identificar relaciones entre variables que tienen valores similares.
K-means o K-medias es uno de los algoritmos más utilizados para realizar agrupamiento,
técnica implementada en Minería de Datos. La idea del k-medias es colocar todos los objetos
53
en un espacio determinado y dadas sus características formar grupos de objetos con rasgos
similares pero diferentes a los demás que integran otros grupos.
El criterio básico es el de distancia o similitud entre las observaciones.
Sin embargo, el algoritmo presenta algunos inconvenientes:
• El agrupamiento final depende de los centroides iniciales.
• La convergencia en el óptimo global no está garantizada, y para problemas con muchos
ejemplares, requiere de un gran número de iteraciones para converger [3].
Descripción del algoritmo k-means
Paso 1. Inicialización: Se definen un conjunto de objetos a los cuales se les aplica el proceso
de clustering que consiste en la división de los datos en grupos y un centroide (centro
geométrico del clústeres) para cada uno. Los centroides iniciales se pueden determinar
aleatoriamente, mientras que en otros casos procesan los datos y se determinan los centroides
mediante cálculos.
Paso 2. Clasificación: Para cada dato se calcula la distancia (euclidiana cuadrada) con
respecto a los centroides, se determina el centroide más cercano a cada uno de los datos, y el
objeto se anexa al clúster del centroide que fue seleccionado.
Paso 3. Cálculo de centroides: Para cada uno de los clústeres se vuelve a recalcular los
centroides.
Paso 4. Verificación de convergencia: En este paso se comprueba si una de las condiciones
del algoritmo se ha cumplido y que este debe parar, a esto se le llama condición de
convergencia o paro. A continuación, se mencionan algunas de las condiciones de
convergencia:
• El número de iteraciones.
• Cuando los centroides obtenidos en dos iteraciones sucesivas no cambian su valor.
• Cuando la diferencia entre los centroides de dos iteraciones sucesivas no supera cierto
umbral.
• Cuando no hay transferencia de objetos entre grupos en dos iteraciones sucesivas.
Si algunas de las condiciones de convergencia no cumplen se repiten los pasos dos, tres y
cuatro del algoritmo.
ALGORITMOS DE CLASIFICACION.
54
Los algoritmos de clasificación son técnicas supervisadas, en las cuales se realiza un
aprendizaje a partir de unos datos disponibles, y una vez ajustado el modelo de clasificación
o predicción, se realiza una prueba para ajustar el modelo de predicción.
La escogencia del algoritmo adecuado para realizar la actividad de clasificación depende
entre otras cosas de la naturaleza de los datos. Cuando estos son nominales, se utilizan
técnicas como las redes neuronales artificiales, mientras que para datos numéricos se utilizan
técnicas como la regresión.
A continuación, se describen las redes neuronales artificiales y el algoritmo Naive Bayes.
Las redes neuronales artificiales son algoritmos de procesamiento de datos basados en el
funcionamiento de las neuronas biológicas. Para ello tratan de imitar las conexiones
existentes entre las diferentes neuronas para transmitir señales que contienen datos.
El objetivo de una red neuronal es poder realizar predicciones sobre datos de un fenómeno
en el cual ha sido entrenada con un conjunto de datos que incluye las entradas y las salidas
correspondientes. Durante esta etapa la red neuronal construye un modelo en donde asigna
unos pesos a las diferentes variables de entrada que permiten obtener una salida lo más
cercana posible a la que se conoce para ese conjunto de entradas. Aquí se trata de minimizar
el error de la salida de la predicción con respecto a la que se conoce de los datos.
La unidad autónoma de la red neuronal es la neurona, figura 15 que es un procesador local
con conexiones que transportan la información a las otras neuronas.
Figura 15 Neurona artificial. Tomado de Velazco Avendaño Juana Yenny, 2017, redes
neuronales aplicadas al análisis de datos,
La arquitectura de una red neuronal posee una capa de entrada, una o más capas ocultas y
una capa de salida.
La red neuronal funciona en la modalidad feed forward procesando los flujos de las señales
desde la capa de entrada hacia adelante.
55
Capa de entrada.
Contiene las neuronas que se conectan con la información de entrada al algoritmo. En el caso
de la base de datos de accidentes de tránsito, aquí se colocan los atributos que pueden explicar
la causa del accidente. Cuando los datos salen de la capa de entrada son transformados en la
siguiente capa según se ve en la Figura 16.
Figura 16 Arquitectura de una red neuronal. Tomado de Velazco Avendaño Juana Yenny,
2017, redes neuronales aplicadas al análisis de datos,
Capas ocultas.
Contienen los pesos para transformar los datos de entrada y las neuronas ocultas que se
activan para permitir las conexiones entre los datos de entrada y la capa de salida.
Funcionamiento de la red neuronal.
Cuando un patrón de señales o datos ingresa a la capa de entrada, primero se transforma por
los pesos de la capa oculta y se utiliza para activar las neuronas ocultas. Las salidas de estas
sirven como entradas para la siguiente capa, y se repite el mismo proceso de transformación
y activación hasta la capa de salida.
Una neurona biológica puede estar activa (excitada estado 1) o inactiva (no excitada estado
0 o -1), Las neuronas artificiales también tienen un estado de activación como las biológicas.
La función de activación es una entrada global. La neurona recoge las señales por su sinapsis
sumando todas las influencias excitadoras e inhibidoras.
El entrenamiento del modelo de perceptrón se realiza presentando un conjunto de datos o
señales de entrada y salida a la red y ajustando los pesos en las capas de salida y oculta para
tratar de minimizar el error o diferencia entre las salidas producidas y las esperadas. La idea
es obtener una combinación adecuada de los pesos en las conexiones para disminuir el error
en la capa de salida, o sea ajustar los parámetros de la red en la dirección del gradiente
56
descendiente de la superficie de error de la salida . Para ajustar los pesos se calcula el error a
la salida y se propaga hacia atrás a las capas ocultas. La magnitud del ajuste del peso y la
rapidez de convergencia se ajustan mediante la tasa de aprendizaje y momento.
Cada neurona en una capa funciona a partir del conjunto de pesos asignados aleatoriamente
multiplicado por la entrada respectiva.
𝐼 = ∑𝑊𝑖Xi + ɵi (ec 1).
I: vector de entrada de la neurona
ɵ: peso adicional que influencia el resultado.
Wi: peso asignado a la conexión i.
Los datos de entrada se procesan mediante una función de activación. Hay varios tipos de
función de activación que producen estados de la neurona normalizados en valores entre 0 y
1, o entre -1 y 1. Algunas de las funciones de activación más utilizadas son la sigmoide,
logística, tangente hiperbólica. La mayoría de las funciones no son lineales.
Los valores de los pesos se ajustan iterativamente. El criterio de minimización de error que
puede ser el error cuadrático medio:
𝑆𝑆𝐸(𝑤) =1
2∑(𝑌𝑖 − 𝑌𝑖2) (ec 2)
Diseño de la red neuronal para Entrenamiento.
En el desarrollo de la red neuronal se sigue varios pasos secuenciales. En la figura 16 se
muestra un diagrama con el proceso de diseño de la red neuronal hasta su uso.
La magnitud del ajuste de los pesos y la velocidad de convergencia se obtienen mediante la
tasa de entrenamiento y el momentun.
La figura 17 muestra el proceso de desarrollo de la red neuronal.
57
RED NEURONAL ARTIFICIAL
(ANN)
TRATAMIENTO DE LOS DATOS
ELECCION DE LA ANN
ALGORITMO DE
ENTRENAMIENTO
TOPOLOGIA DE LA ANN
ENTRENAMIENTO DE LA
RED
PRUEBA DE LA RED
PREDICCION DE CAUSA DE
NUEVOS ACCIDENTES
.
Figura. 17. Proceso de desarrollo e implementación de una red neuronal. Elaboración
propia.
Prueba.
En la prueba del ajuste del modelo de red neuronal a los datos, se utilizan cuatro opciones:
Utilizar el conjunto de datos de entrenamiento para probar el modelo. Este método no se
sugiere ya que los resultados son muy próximos al óptimo porque el modelo ya conoce el
comportamiento de los datos con que se va a probar y por esta razón los resultados obtenidos
son muy altos en cuanto al desempeño de este. Cuando los datos de entrenamiento se utilizan
para la prueba, la precisión es cercana a 100%.
Utilizar un conjunto independiente para realizar la prueba.
Utilizar el método de validación cruzada, que divide el conjunto de datos. al azar en un
número de folds y toma un subconjunto para el entrenamiento y otro para la prueba. La
58
validación cruzada consiste en la construcción de un modelo de N + 1 veces, donde N es el
numero elegido de los folds. Los primeros N veces, una fracción (N + 1)=N (90% de diez
veces la validación cruzada) de los datos se utiliza para el entrenamiento y el tiempo _final
del conjunto de datos completo se utiliza.
Utilizar un porcentaje del conjunto de datos (entre 66-6% y 80%) y el restante subconjunto
para la prueba, implica la construcción del modelo en dos ocasiones, una vez en el conjunto
de datos reducidos y de nuevo en el conjunto de datos completo.
Los dos primeros métodos de prueba, la evaluación en el conjunto de entrenamiento y el uso
de una unidad de prueba suministrada, implican la construcción de un modelo de una sola
vez.
5.6.2. Análisis de la red neuronal. Métricas.
Para analizar el rendimiento del algoritmo de clasificación, se utilizan métricas que están
definidas previamente. Dependiendo del tipo de clasificador se utilizan las técnicas más
apropiadas. Algunas se adaptan mejor a variables numéricas, otros a categóricas o a ambas.
Criterios básicos para evaluar.
En problemas de clasificación, si tenemos una clase con muchos más datos que otra, el
porcentaje de aciertos a superar es el porcentaje de datos de la clase mayoritaria. En este caso
los porcentajes de la clase mayoritaria para los cinco atributos escogidos para clasificación
son los siguientes;
— Ej.: Sean dos clases (+ y -). Hay 90 datos + y 10 -. Un clasificador que prediga siempre +
(independientemente de los atributos), ya acertara en un 90%. Hay que hacerlo mejor que
eso.
La correlación dice que tan relacionados están los valores verdadero y estimado.
Los estadísticos que se describen a continuación comparan los valores estimados con los
verdaderos. Dan una idea de cuan alejados están los valores estimados de los verdaderos. A
veces se usan las raíces cuadradas y otras los errores absolutos porque cuando hay valores
extremos tienen mayor incidencia en el resultado. El error medio absoluto y la raíz del error
cuadrático medio simplemente miran la diferencia promedio entre dos valores, y se pueden
interpretar comparando con la escala de la variable,
En RAE y RRSE se dividen las diferencias por la variación de la variable de manera que
tienen una escala entre 0 y 1 y si se multiplica por 100 se cambia la escala de 1 a 100. Los
valores ∑(𝜃 − 𝜃𝑖)2 y ∑(𝜃 − 𝜃𝑖) muestran como varia ϴ de su valor medio o sea cuanto varia
respecto de si misma comparar con la varianza, como se denominan relativas, se compararán
respecto de la escala de ϴ.
59
Para interpretar correctamente los resultados de la clasificación, las clases deben de estar
balanceadas.
De acuerdo con [12] la bondad de los modelos de predicción, contrario a lo que se esperaría,
no depende del número de instancias o registros de la base de datos utilizada para construir
el modelo cuando este se basa en reglas.
• Estadístico Kappa.
Mide la concordancia entre las categorías clasificadas por el modelo y las observadas. Se
tienen en cuenta los aciertos que pueden verse a causas aleatorias. La interpretación de este
indicador se puede apreciar en la tabla 8.
kappa grado de acuerdo
< 0,00 sin acuerdo
>0,00 - 0,20 insignificante
0,21 - 0,40 discreto
>0,41 - 0,60 moderado
0,61 - 0,80 sustancial
0,81 - 1,00 casi perfecto
Tabla 8. Interpretación de los valores del índice Kappa.
Si el valor es 1 concuerda perfectamente. Si es 0 la concordancia se debe al azar y si es
negativo se tiene una concordancia menor de la que podría obtenerse por azar.
A continuación, se muestran las medidas que se relacionan con el error de clasificación.
• Error absoluto medio.
Es una medida de la diferencia entre dos variables continuas. En este caso se trata de la
diferencia entre los valores obtenidos mediante la predicción y los observados. Se determina
mediante la expresión;
𝑀𝐴𝐸 =1
𝑁∑𝑑𝑖
𝑁
𝑖=1
60
di: son valores correspondientes a un vector que se calcula en la siguiente forma:
• Se construye un vector binario que tiene un uno en la posición de la clase a
• la que pertenece la instancia y ceros en las demás.
• Se determina el vector de probabilidades de asignación a las distintas clases
• que proporciona el clasificador.
• Se realiza la diferencia entre el par de vectores asociados.
• Las componentes de los vectores diferencia proporcionan los valores di.
• Raíz del error cuadrático medio.
Es la raíz cuadrada del promedio de los cuadrados de las diferencias entre los valores de la
predicción y los observados
𝑅𝑀𝑆𝐸 = √1
𝑁∑𝑑𝑖
2
𝑁
𝑖=1
• Error absoluto relativo.
Es la relación entre el error absoluto medio y la media del error medio absoluto para el
algoritmo utilizado.
𝑅𝐴𝐸 =Error absoluto medio
Promedio de las diferencias de la media𝑥100
• Raíz del error cuadrático relativo.
Es la relación entre la raíz del error cuadrático medio y la raíz del error medio del algoritmo
utilizado.
RRSE =Raiz cuadrada del error cuadratico medio
Raíz cuadrada del promedio de las diferencias de la media𝑥100
• Número total de instancias.
Es el número de registros en la base de datos.
Indicadores relativos a la precisión de la predicción.
61
• Matriz de confusión.
Una forma de hacer la validación es la matriz de confusión, que permite visualizar en una
tabla los errores cometidos por el clasificador. Los valores ubicados sobre la diagonal de la
matriz son los correctamente clasificados para cada valor de la clase o etiqueta, asumiendo
que los valores en la matriz pueden ser verdaderos positivos, falsos negativos, verdaderos
negativos o falsos positivos.
Con base en los valores anteriores, se pueden definir las tasas de error y acierto.
• Exactitud por clase.
A continuación, se presenta el análisis de los resultados obtenidos para cada uno de los cinco
modelos construidos para las respectivas causas probables de accidente
• Análisis de costo beneficio.
Otra forma de determinar la bondad del modelo es a través de la relación costo beneficio.
Cuando el valor asignado a los errores, en este caso a un falso negativo no es igual al de un
falso positivo, se utiliza para determinar la bondad del modelo el concepto de costo beneficio,
que se puede representar mediante una matriz o una gráfica. Se incluyen en la matriz o gráfica
los costos por cada tipo de error. Se establecen las siguientes relaciones:
Beneficio= VPxBVP+VNxBVN ( ec -3)
Costo= FNxCFN+ FPxCFP (ec-4)
• Curva de margen de predicción (Margin curve).
Genera puntos que ilustran el margen de predicción. El margen se define como la diferencia
entre la probabilidad predicha para la clase verdadera y la probabilidad de la más alta
predicha para las otras clases. Para un buen desempeño del modelo es que incrementan el
margen en los datos de entrenamiento lo cual produce un mejor desempeño en los datos de
prueba.
• Curva ROC.
La curva ROC es una curva paramétrica del límite de manera que un punto (pareja de
verdadero positivo-falso positivo) pertenece a la curva si existe un valor límite para el cual
el experimento resulta en tasa de verdadero positivo igual a tpr y tasa de falso positivo igual
a fpr.
62
En un buen modelo la curva esta hacia la parte superior derecha del plano. Se trata de
optimizar el área bajo la curva. Cuando las clases están separadas, la curva se dibuja hacia la
parte superior izquierda. El área bajo la curva para un buen modelo debe estar entre 0.75 y 1.
Esto quiere decir que puede clasificar correctamente los verdaderos positivos y los
verdaderos negativos como tales.
El valor de treshold (limite) se define para separar la probabilidad de verdadero positivo y
falso positivo. Cuando se tiene dos clases, la probabilidad es 0,5 es decir que para calificar
como verdadero positivo, la probabilidad debe ser mayor de 0.5. cuando hay más de dos
clases, este valor limite puede cambiar. Sin embargo, existe una condición en la cual no se
pude distinguir el valor limite, para identificarlo se colorea la curva.
En la figura 18 se observan diferentes formas de curvas ROC, indicando la aplicabilidad de
estas.
Figura 18. Formas de curvas ROC. Tomado de Beltrán Pascual tesis.
• Verdaderos positivos. (TP)
Instancias correctamente reconocidas por el sistema. Corresponden a los valores de la
diagonal;
• Verdaderos negativos. (TN)
Instancias que son negativas y correctamente reconocidas como tales. Si consideramos
únicamente el estudio para una clase, por ejemplo, para la clase I, entonces los verdaderos
negativos serían
• Falsos positivos (FP)
Instancias que son negativas pero el sistema dice que no lo son.
63
• Falsos negativos (FN)
Instancias que son positivas y que el sistema dice que no lo son.
El cálculo de los indicadores de precisión se realiza en la siguiente forma;
𝑇𝑃𝑅𝑎𝑡𝑒 =𝑇𝑃
𝑇𝑃+𝐹𝑁 (ec-5)
• Tasa de falsos positivos.
𝐹 𝑃𝑟 𝑎 𝑡𝑒 =𝐹𝑃
𝐹𝑃+𝑇𝑁 (ec-6)
∑(𝜃 − 𝜃𝑖)2
• Medida de precisión.
Pr𝑒𝑠𝑖𝑐𝑖𝑜𝑛 =𝑇𝑃
𝑇𝑃+𝐹𝑃 (ec-7)
• Valor límite (treshold)
Es el valor que separa los verdaderos positivos de los falsos positivos. Solamente se utiliza
para variables continuas.
• Recall. (sensitividad)
Mide la proporción de términos correctamente reconocidos respecto del total de términos
reales. En qué grado están todos los términos que son. Cómo puede clasificar los casos
positivos dentro de todos los casos positivos presentes en la prueba.
Re𝑐𝑎𝑙𝑙(𝑥) =Numero de instancias de la clase X clasificadas correctamente
número total de instancias de la clase X (ec-8)
Recall = TP rate.
Las curvas precisión recall son más útiles para estimar la precisión del modelo que las ROC,
ya que estas solamente dan una idea aproximada de cómo está desempeñándose en general
el clasificador. Sin importar como son las probabilidades de las diferentes clases, dan valores
parecidos. Por ejemplo, consideran iguales las clases positiva y negativa. Por el contrario,
los valores PRC son más útiles si el interés es cómo se comporta el clasificador en cada clase.
Un valor ROC AUC d e0.5 indica que el clasificador es aleatorio
64
• Precisión.
Mide la proporción de términos correctamente reconocidos respecto de los términos
predichos.
Una medida de desempeño muy utilizada consiste en representar la gráfica Recall-vs
precisión.
En el eje horizontal se representa el recall y en el vertical la precisión. Entre más hacia la
parte superior derecha se encuentre la curva, el modelo es más adecuado, o sea los valores
de mayor recall y mayor precisión. La precisión no es sensible a la distribución de clases
• Medida F.
Combina la precisión con el recall.
𝐹 −𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =2𝑇𝑃
2𝑇𝑃+𝐹𝑃+𝐹𝑁=
2𝑥𝑃𝑟𝑒𝑠𝑖𝑐𝑖𝑜𝑛𝑥𝐶𝑜𝑏𝑒𝑟𝑡𝑢𝑟𝑎
𝑃𝑟𝑒𝑠𝑖𝑐𝑖𝑜𝑛+𝑐𝑜𝑏𝑒𝑟𝑡𝑢𝑟𝑎 (ec-9)
• Curva ROC (Receiver operating characteristics) Roc area
El threshold o límite separa los verdaderos positivos de los verdaderos negativos y se puede
desplazar. Los ejes están numerados en una escala de 0 a 1.
El área bajo la curva AUC mide la probabilidad de que el clasificador puntuara una instancia
positiva elegida aleatoriamente más alta que una negativa.
Prc area
Es el área debajo de la curva Presicion-Recall. Esta se determina para cada clase por la
prevalencia de la clase en los datos de prueba. Si una clase ocurre 30% de las instancias de
prueba, su peso es 0.3.
5.6.3. Algoritmos bayesianos.
De acuerdo con García González, presenta una medida probabilística cuantitativa acerca de
que tan importantes son los valores de la variable clase dentro del problema. Entre los
atributos del conjunto de entrenamiento no pueden existir correlaciones. Este algoritmo se
basa en el teorema de Bayes y supone funciona bien con datos reales y con mecanismos de
selección de atributos para eliminar la redundancia.
Entre los algoritmos bayesianos se distinguen dos: Naive Bayes y Bayes Net.
65
En el primero se supone que al conocer el valor de la variable clase, todos los atributos son
independientes entre sí. Esta hipó tesis de independencia da lugar a un modelo de un único
nodo raíz, correspondiente a la clase, y en el que todos los atributos son nodos hoja que tienen
como único origen a la variable clase.
5.6.4. SOFTWARE PARA MINERIA DE DATOS.
Entre los programas disponibles para las tareas de minería de datos algunos son libres y otros
no. Entre los programas más utilizados se tienen;
• XLMiner.
• Matlab.
• IBM SPSS
• SAS
• Salford System Data Mining.
• Oracle Data Mining.
• Rapid Miner
• Knime
• R
• Orange
• Weka.
66
6. METODOLOGIA Y DESARROLLO DEL PROYECTO.
La metodología utilizada se presenta a continuación, teniendo en cuenta que se han usado
dos bases de datos diferentes para la construcción del modelo. Estas son:
• Base de datos 1: Base de datos accidentes de tránsito Bogotá 2016.
• Base de datos 2: Base de datos de accidentes de tránsito en empresas de transporte
suministrada por la compañía aseguradora Allianz.
En consecuencia con lo anterior, se han desarrollado dos modelos diferentes. Cuando se
utiliza la base de datos 1 se incluyen 34931 registros de accidentes de tránsito sin discriminar
el uso de los vehículos, es decir figuran accidentes de vehículos particulares y de empresas
de transporte. De otro lado, al utilizar la base de datos 2 se han considerado únicamente
accidentes de tránsito de empresas de transporte con un total de 894 registros como se
describirà màs adelante.
Siguiendo la metodología propuesta en S.L González Ruiz se presenta el desarrollo del
trabajo. En este paso se asume que se ha elaborado el modelo de accidente, lo cual se ha
presentado en el apartado
En general, se puede resumir el proceso de adquisición de conocimiento a partir de los datos,
en las siguientes etapas:
6.1. CASO BASE DE DATOS 1.
A continuación se presenta la metodología aplicada utilizando la base de datos 1.
6.1.1. ANALISIS DEL DOMINIO.
En el análisis del dominio se hace una selección inicial de los datos y la forma en que se
desean organizar, con base en las características de estos y del sistema o fenómeno que se
va a estudiar.
Como resultado del análisis del dominio, se miden y almacenan las variables de interés en
las bases de datos para el análisis posterior.
En este caso, no se realizaron mediciones, sino que se buscaron bases de datos de
accidentalidad en tránsito en las diferentes entidades que se relacionan con este tema. En
Colombia, las principales instituciones que manejan la información de accidentalidad son:
• Ministerio de transporte base de datos rnat.
• Fasecolda.
67
• Policía nacional (informes de accidentes de tránsito).
• Instituto de medicina legal.
• Agencia de seguridad vial (antes fondo de seguridad vial).
La principal fuente de datos del estado corresponde al RNAT, Registro Nacional de
accidentes de tránsito, el cual fue establecido en el año 2014 mediante resolución número y
que fue administrado inicialmente por el Ministerio de transporte, y en el año 2015 trasladado
al RUNT (Registro único nacional de transporte).
Debido al carácter de la información contenida en estas bases de datos, no ha sido posible
hasta el momento, tener acceso a la misma.
En el portal Datos Abiertos, administrado por el Ministerio de Comunicaciones e
información, se han encontrado varias bases de datos, entre las cuales son de interés las
siguientes;
• Base de datos de accidentes de tránsito a nivel nacional año 2010.
• Base de datos de accidentes de tránsito Cali año.
• Base de datos accidentes de tránsito Bogotá 2016.
Se ha seleccionado la base de datos de accidentes de la ciudad de Bogotá durante el año 2016,
debido a que es la que más información relevante tiene para el desarrollo del proyecto.
• Base de datos de accidentalidad vial en empresas aseguradas con Allianz.
De acuerdo con la experiencia del autor en el tema de accidentalidad vial, se recurre a bases
de datos suministradas por la aseguradora Allianz dentro de su programa de disminución del
riesgo en los asegurados con pólizas de accidentalidad vehicular.
Esta base de datos consta de 894 registros de accidentes en diferentes empresas de transporte
y ciudades y vías del territorio nacional. Sin embargo, al realizar el preprocesamiento de ,los
datos la base se ha reducido a 325 registros, que contienen información detallada de los
accidentes y siniestros ocurridos entre los años 2009 y 2011.
Aunque todas las empresas realizan actividades de transporte, en algunos casos se tiene el
transporte de pasajeros como en Transportes La Carolina, ubicada en Soledad Atlántico y
EM (empresa de transporte metropolitano de Cali) que equivale al sistema Transmilenio de
Bogotá, mientras que en otras se realiza un servicio de transporte a terceros como
Servientrega y en las demás El transporte es de materia prima o producto terminado hacia
sus diferentes plantas o bodegas de distribución como Femsa Logística transportadora de
68
Coca Cola entre ciudades, o la división de transporte de Coca Cola en los centros urbanos,
Harinera del Valle, Transportes Iceberg, Pronavicola, que operan a nivel del país y en algunos
casos del exterior.
Selección y exploración de la base de datos.
En la selección de la base de datos a utilizar se tuvieron en cuenta los datos de accidentalidad
de tránsito disponibles en el país. Para ello se recurrió a las entidades relacionadas con el
transporte y la accidentalidad de tránsito.
Se visitaron entidades como Fasecolda, la Agencia Nacional de Seguridad vial, El ministerio
de Transporte, la Secretaría Distrital de Tránsito, la policía Nacional, El Instituto de Medicina
Legal, así como los portales del estado que manejan la información de diferente índole,
conocida como datos abiertos.
De todas las anteriores solamente fue posible conseguir información útil en el portal de datos
abiertos. Allí se encontró información de accidentalidad de tránsito en el país y en diferentes
municipios. Al analizar la información encontrada, se desechó en algunos casos debido a que
la información era insuficiente respecto de los datos del accidente en particular, y no
consideraba algunos factores o atributos que son valiosos para el análisis del accidente como
por ejemplo estado de la vía, clima, señalización, conductores, peatones, pasajeros, probables
causas determinadas en el momento del accidente por las autoridades competentes. En otros
casos los registros o instancias no tenían el volumen suficiente para construir modelos
descriptivos y de predicción robustos.
Sin embargo, en la Agencia Nacional de seguridad Vial, entidad que tiene acceso a esta
información, solamente se suministra información sobre estadística de los datos y no de los
datos brutos. Por esta razón no fue posible acceder a la base de datos como tal.
Arquitectura Nacional ITS de Colombia
Este subsistema recoge, archiva, maneja, y distribuye los datos generados por los ITS para el
uso en la administración del transporte, la evaluación de la política, la seguridad, la
planeación, la supervisión de funcionamiento, el gravamen de programa, operaciones, y usos
para la investigación. Los datos recibidos se dan formato, marcado con etiqueta con las
cualidades que definen la fuente de datos, las condiciones bajo las cuales fueron recogidos,
las transformaciones de los datos, y la otra información (es decir metadatos) necesaria
interpretar los datos. El subsistema puede fundir datos generados por los ITS con datos de
fuentes no-ITS y de otros archivos para generar los productos de la información que utilizan
datos de áreas funcionales, de modos, y de jurisdicciones múltiples. Este subsistema se puede
ejecutar en muchas maneras diferentes. Puede residir dentro de un centro operacional y
proporcionar el acceso enfocado a un agencia particular o archivos de los datos ITS
69
operacionales. Alternativamente, puede funcionar como centro distinto que recoja datos de
las agencias y de las fuentes múltiples y proporcione un servicio del almacén de datos
generales para una región.
El RNAT es la sigla del Registro Nacional de Accidentes de Tránsito.
Es el sistema que centraliza la información de todos los informes policiales de accidentes de
tránsito (IPAT), realizados en todo el país, con el fin de contar con un sistema que cuente con
la actualización de los registros de información inherente a heridos, fallecidos y prueba de
alcoholemia.
Los actores que deben inscribirse y proveen información al Registro Nacional de accidentes
de Tránsito son:
• Autoridad de control (Dirección de Tránsito y Transporte de la Policía Nacional o
Agente de Tránsito)
• Autoridad Administrativa (Organismos de Tránsito, Alcaldías, Seccional de la
Policía de Carreteras, DITTRA)
• Ministerio de Protección Social
• Ministerio de Transporte
La información registrada en el Rnat es la siguiente;
• Autoridad de tránsito
• Número IPAT
• Organismo de tránsito radicación
• Gravedad
• Clase de accidente
• Objeto fijo
• Otro (Objeto fijo)
• Otro (Clase de accidente)
• Fecha de accidente
• Hora de accidente
• Fecha levantamiento
70
• Hora levantamiento
• Información del lugar del accidente
• Señales de las vías que intervinieron en el accidente
• Vías que intervinieron en el accidente
• Testigos involucrados con el accidente
• Vehículos que intervinieron en el accidente
• Víctimas que intervinieron en el accidente
• Información de quien conoce el accidente
En el caso de la base de datos suministrada por Allianz, se tienen los siguientes datos
suministrados en la misma.
• Autoridad de tránsito
• Organismo de tránsito radicación
• Gravedad
• Clase de accidente
• Objeto fijo
• Otro (Objeto fijo)
• Otro (Clase de accidente)
• Fecha de accidente
• Hora de accidente
• Estado del Tiempo
• Condiciones de la vía.
• Tipo de tránsito.
• Genero de los conductores.
• Tipo de vía.
71
• Información del lugar del accidente
• Vías que intervinieron en el accidente
• Vehículos que intervinieron en el accidente
• Tipo de vehículo.
• Víctimas que intervinieron en el accidente
• Información de quien conoce el accidente.
De acuerdo con las características del estudio a realizar, la metodología de minería de datos
y los datos en particular, se sugiere utilizar una estructura de datos en donde estos se
organizan en tres niveles, que son; factores, atributos o variables y valores de estos. Además,
cada atributo o variable tiene su correspondiente categoría nominal o numérica. Esta
organización de los datos representa el modelo de datos correspondiente al modelo de
accidente definido anteriormente en la sección .
En la figura19 se presenta el modelo utilizado para la estructura de los datos a manejar.
BASE DE DATOS DE ACCIDENTES DE
TRANSITO
FACTORES DE RIESGO
NIVEL DE ATRIBUTOS/VARIABLES
NIVEL DE VALOR DE ATRIBUTO/VARIABLE
CLASE DE ATRIBUTO
HUMANOS VIACLIMA/TIEMPO
VEHICULO PEATONES PASAJERO
GENERO/EDAD/
ANTIGÜEDAD LICENCIA
CONDUCTOR
PAVIMENTADA/SEÑALES/GEOMETRIA
NUBLADO/LLUVIOSO/
VIENTO
ESTADO INTEGRIDAD MECANICO/ELECTRICO/SEGURIDAD
RESPETAR SEÑALES
SEGURIDAD
NOMINAL/NUMERICO/
STRING
NOMINAL/NUMERICO/
STRING
NOMINAL/NUMERICO/
STRING
NOMINAL/NUMERICO/
STRING
NOMINAL/NUMERICO/
STRING
NOMINAL/NUMERICO/
STRING
M-F/20-30,30-40,40-50
SI-NO/CURVA-GLORIETA-
TUNEL-PUENTE
SI-NO
ESTADOFRENOS-DIRECCION-
LUCES-LLANTAS
PASAR EN ROJO/
CAMINAR POR LA CALZADA
DESCENDER VEHICULO EN MOVIMIENTO
Figura 19. Modelo de Estructura de datos con los diferentes niveles. Fuente: elaboración
propia.
6.1.2. FIJAR NETAS.
La meta del proceso de minería de datos está relacionada con la disponibilidad de datos. En
este caso, no se ha encontrado una base de datos con la información suficientemente completa
72
que contenga todos los datos deseados. Sin embargo, la meta de la investigación se adapta a
la misma, y es el descubrimiento de patrones de accidentalidad que contienen las variables
que pueden asociarse a las causas de los accidentes.
6.1.3. SELECCIÓN, EXPLORACION, LIMPIEZA Y TRANSFORMACION DE
DATOS
Como se mencionó anteriormente, en los datos abiertos suministrados por las agencias del
estado, se ha seleccionado la base de datos accidentes de tránsito en la ciudad de Bogotá,
correspondientes al año 2016.
La base de datos en mención contiene 34931 registros de accidentes ocurridos en el perímetro
urbano de la ciudad de Bogotá durante el año 2016, con diferentes clases de consecuencias.
Los datos seleccionados se encuentran en una tabla de Excel, por lo cual no requieren
integración, ya que estos datos fueron ingresados al sistema bajo un mismo formato, por las
autoridades que participaron en el conocimiento inicial del accidente.
El documento base para capturar la información es el formato de reporte policial de
accidentes de tránsito de acuerdo con la resolución 004040 de 2004 modificado por
resolución 1814 de 2005. (anexo 1).
La técnica utilizada depende del objetivo o meta planteado y de la base de datos seleccionada,
además de la relación entre los atributos y el atributo clase seleccionado para la clasificación.
Métodos de selección de atributos.
El conjunto de datos del accidente contiene información relacionada con:
Las variables de interés que sería adecuado estuvieran incluidas en la base de datos son, por
ejemplo:
• Atributos relacionados con el accidente
Severidad (fatal o no fatal).
Sitio del accidente (región, distrito, carretera o vía, tramo de la vía, distancia desde el
comienzo de la vía, dirección).
Tiempo (año. Mes, día, hora, fecha)
Ambiente: clima, temperatura, iluminación.
Condiciones de la vía (superficie, ancho de la vía, aceras, cruces, iluminación de tráfico,
semáforos, límites de velocidad, trabajos en la vía, volumen máximo y mínimo de tráfico)
73
Tipo de accidente (giro y golpe, golpe a animal, número de heridos, causas)
Una vez ingresada la base de datos al programa Weka, se realiza una primera fase que es la
de preproceso, la cual consiste en realizar la estadística descriptica de los datos. Aquí se
pueden observar los atributos y sus medidas de tendencia central y dispersión. El programa
permite identificar los atributos que tienen poca relación con el atributo escogido como clase
y no son los más adecuados para describir el comportamiento de la accidentalidad, ni aportan
información relevante acerca de la causa probable de los accidentes. Desde este punto de
vista pueden ser eliminados de la base de datos, o filtrados para que no aparezcan en los
cálculos posteriores en las etapas de agrupamiento y predicción.
Inicialmente, y con el objetivo de encontrar particularidades en el comportamiento de los
datos, se realiza un análisis estadístico con el módulo de preprocesamiento del programa
Weka. Aquí se realiza una primera limpieza de los datos, que busca eliminar valores atípicos,
repetidos, con datos nulos, etc.
Como resultado de esta primera exploración y limpieza de los datos, se han identificado los
valores de las variables que presentan un menor número de conteos o frecuencia. Inicialmente
se podría esperar que estos valores debido a su poca aparición podrían eliminarse en la base
de datos minable.
Se realizó un análisis estadístico descriptivo, utilizando el programa WEKA. Este permite
encontrar medidas estadísticas de las variables o atributos que figuran en la base de datos
seleccionada, así como eliminar los atributos que muestran poca importancia desde el punto
de vista de la influencia en los objetivos del estudio, en este caso, en la causa de los
accidentes.
A continuación, se presenta algunos de los resultados obtenidos en este análisis.
El valor solo daños tiene unas frecuencias de 23818 conteos, que corresponde al 68.19%,
heridos 10555 con 30.21% y muertos 555 con 1.5%.
Para el atributo clase nombre, las frecuencias son choque 29947, atropello 3668, otro 92,
caída acompañante 869 , volcamiento 347.
El atributo choque nombre, las frecuencias son vehículo 28857, objeto fijo 1043, otro 41,
semoviente 6.
Para el atributo objeto fijo nombre, las frecuencias son inmueble 123, vehículo estacionado
266, muro 229, árbol 40, poste 261, semáforo 31, barandas 37, tarima caseta 8, valla señal
19, defensa metálica 1, hidrante 3, separador de calzada 18, roca 5, panel luminoso 2.
74
El atributo nombre otra clase, las frecuencias son aprisionamiento 78, caída dentro del
vehículo 8.
El atributo tipo vía, las frecuencias son KR 11596, CL 11610, AV 6300, AK 2546, DG 623,
TR 745,
El atributo localidad, las frecuencias son Kennedy 4009, Engativa 3487, Usaquén 3538,
Barrios Unidos 1884, Fontibón 2793, Suba 3334, Chapinero 2418, Puente Aranda 2409, Bosa
1524, Santafé 967, Usme 654, Teusaquillo 1778,Los Mártires 1389.
El atributo tipo diseño, figura, las frecuencias son vehículo 28857, objeto fijo 1043, otro 41,
semoviente 6.
El atributo tipo tiempo, figura, las frecuencias son normal 33604, lluvia 1214, viento 43,
niebla 35.
El atributo causa peatón, las frecuencias son otras1087, cruzar sin observar 948, pararse sobre
la calzada 92, salir por delante de vehículo 92, cruzar en estado de ebriedad 257, pasar
semáforo en rojo 87, cruzar en diagonal 30, transitar POR la calzada 162,
El atributo causa vehículo, las frecuencias son fallas en los frenos 108, fallas en las llantas
25, otro 24, fallas en la dirección 17,fallas en las puertas 10.
Después de analizar la estadística descriptiva, se abordan las siguientes tareas:
• Eliminación de valores atípicos (outlets)
• Llenado de valores perdidos, que corresponden a las casillas vacías de la tabla. Aquí
se debe observar que como las causas figuran en diez columnas, solamente se
coloca una causa o máximo dos por cada registro o instancia, haciendo que las
casillas correspondientes a las demás causas queden vacías.
• Definición del atributo clase, que va a servir como índice en la fase de clasificación,
o sea la salida del clasificador. En este caso el atributo clase es el que corresponde
con la causa del accidente. Se fusionan en la base de datos original los diez atributos
correspondientes a las causas de accidentes, en uno solo denominado causa.
• Selección de atributos más relacionados con el atributo clase. Existen atributos que
a primera vista no deben tener relación con la causa del accidente. Estos se pueden
eliminar de la base de datos minable.
• Para poder realizar las fases de selección de atributos de acuerdo con su importancia
respecto del atributo clase, se debe tener atributos de tipo nominal únicamente. Por
esta razón se eliminan los atributos de tipo numérico y Sting.
75
• Debido a la importancia del atributo clase en este caso causa, se debe depurar en la
base de datos de Excel los valores de la variable causa. Inicialmente en la base de
datos convertida a formato csv, se obtienen 1082 valores distintos. Esto a pesar de
que los valores relevantes son 72. Esto ocurre debido a que La sintaxis del registro
se ha escrito de manera diferente. Una depuración lleva a obtener 72 valores del
atributo causa. Posteriormente se identifican los valores que presentan una menor
frecuencia, y se eliminan de la base de datos en Excel.
• Como resultado de los anteriores procesos se obtiene una base de datos con 22
atributos y 30465 registros que son la base para el dataset minable.
El programa contiene varias funciones que permiten realizar las anteriores tareas.
Para adecuar el diseño de la red neuronal a la arquitectura de los datos y a la salida deseada,
se tienen en cuenta varios factores de estos.
Otra situación importante de análisis consiste en el hecho de que la base de datos disponible
contiene la información sobre las causas de los accidentes distribuida en 10 columnas, que
corresponden a los atributos; causa vía 1 descripción, causa vía 2 descripción, causa vehículo
1 descripción, causa vehículo 2 descripción, causa conductor 1 descripción, causa conductor
2 descripción, causa peatónldescripciòn, causa peatón2descripciòn, causa conductor1
descripción, causa conductor2descripciòn.
Como el objetivo principal de la salida es obtener una aproximación a las posibles causas que
produjeron el accidente, se pueden tener dos opciones desde el punto de vista de la
organización de los datos.
La primera consiste en tener un solo atributo que se denomine causa, y en el cual figuren
todos los posibles valores de este atributo. Por ejemplo, en esta columna estarían las causas
atribuibles al vehículo, conductor, vía, peatones, pasajeros. Esta organización presenta la
ventaja de que se tendría un solo modelo de red neuronal para realizar la predicción sobre
una sola clase que correspondería al valor del atributo o variable dependiente causa. Para la
elaboración de la vista minable, estas columnas se reducen a una sola bajo el nombre causa.
En segundo lugar, se pueden tener diferentes atributos para las causas relacionadas con los
diferentes factores de riesgo. Por ejemplo, para las causas relacionadas con los factores
asociados al conductor se define un atributo, para las causas relacionadas con los factores
asociados a la vía, otro atributo y así sucesivamente. En este caso se tendrían cinco atributos
para agrupar las diferentes causas, eliminando los atributos que se repiten, como
causavialdecripciòn y causavialldescripciòn, solamente se deja uno. Es en esta forma como
está organizada la base de datos. Este modelo presenta la dificultad de que se deben construir
cinco modelos de red neuronal, cada uno teniendo como clase de salida uno de los atributos
76
mencionados. Por ejemplo, un modelo de red neuronal para predecir la causa asociada a los
factores de riesgo relacionados con el conductor, otro para la vía, otro para el vehículo, para
el peatón y finalmente para el pasajero. Presenta la ventaja de que se puede tener por aparte
las causas relacionadas a cada posible actor del accidente. Además, desde el punto de vista
computacional, la causa que más valores posibles tiene es conductor, con valores, lo cual
disminuye la capacidad de procesamiento requerida porque en la fase de clasificación, se
procesa un atributo causa a la vez, y el algoritmo de clasificación trabaja solamente con los
valores correspondientes a ese atributo, mientras que en la opción de unir todos los atributos
causa en uno solo que se denomine causa, resultan cerca de 72 valores diferentes que puede
tomar el atributo clase, lo cual hace mucho más exigente el requerimiento de memoria y
procesamiento en el computador, haciendo que el proceso sea más lento, y en algunos casos
no se pueda realizar.
6.1.4. PREPARACION DEL DATASET O VISTA MINABLE.
El data set minable se obtiene después de realizar la limpieza y transformación de los datos,
como eliminación de atributos que no son relevantes para las tareas de agrupamiento y
clasificación.
Para definir el data set minable se tienen en cuenta entre varios factores los siguientes;
Importancia del atributo en la explicación del fenómeno que se quiere describir o predecir.
Independencia de otros atributos similares. Algunos atributos pueden ser incluidos dentro de
otros o fusionados para formar un solo atributo.
Como resultado de la fase de exploración y limpieza de la base de datos se obtuvo una base
de datos modificada con 11 atributos y 24285 instancias.
Sobre esta nueva base de datos modificada se realiza nuevamente la etapa de
preprocesamiento con el programa Weka y las etapas de agrupamiento y clasificación.
En la figura 20 se muestra la estadística descriptiva resultante de este preprocesamiento.
Se puede observar en el histograma del atributo causa, que existen cuatro valores de esta
variable que contienen el mayor número de conteos. Son los que están en colores azul, rojo,
verde y lavanda que corresponden a los valores: no mantener la distancia de seguridad (8474
observaciones), adelantar cerrando (5019 observaciones), otras (4509 observaciones) y
desobedecer señales (4187 observaciones), siguen después no respetar prelación con 1056 y
reverso imprudente con 1040 observaciones, sobre 24285.
De lo anterior se puede hacer una aproximación en el momento de realizar la fase de
clasificación, que consiste en seleccionar con el programa los valores que presenten las
77
mayores frecuencias, y asignando cero observaciones a los demás valores de la variable
causa. Esto es conveniente para que el procesamiento computacional sea más rápido y aunque
se incurre en un error, dado que las frecuencias de los valores de la variable causan que no
se tienen en cuenta son bajos, el error también lo será.
Una vez realizado el análisis estadístico de los datos, se procede a transformarlos para obtener
el data set minable. Esta tarea se realiza principalmente mediante las opciones de filtros
disponibles en el programa. Las tareas están orientadas a identificar cuáles son los atributos
que tienen mayor relación con los atributos de clasificación tomar una decisión sobre los
registros nulos o datos perdidos, los valores extremos o outliers, los registros o instancias
repetidas. Después de realizadas estas tareas, se debe tener la base de datos con los atributos
más pertinentes para el objetivo de clasificación, así como el número de registros más
adecuado para fines computacionales.
El número de registros considerados es ahora de 30637 y se aprecian cambias en los conteos
para los atributos seleccionados. En la figura 19 se presentan las gráficas con los histogramas
para los diferentes atributos.
Cada diagrama presenta información gráfica sobre los atributos, en forma de histogramas; en
el eje horizontal se representan los valores de los atributos y en el vertical las frecuencias o
conteos de cada valor que puede tomar el atributo,
En la figura 20 a, se observa que el valor solo daños en color rojo tiene unas frecuencias de
31474 conteos, heridos 8738 y muertos 474.
Para el atributo clase nombre, figura 20 b, las frecuencias y porcentajes son choque 26438,
atropello 3190, otro 92, caída acompañante 706 , volcamiento 210.
El atributo choque nombre, figura 20 c, las frecuencias y porcentajes son vehículo 25782,
objeto fijo 625, otro 28, semoviente 3.
Para el atributo objeto fijo nombre, figura 20 d, las frecuencias y porcentajes son inmueble
123, vehículo estacionado 186, muro 138, árbol 29, poste 158, semáforo 18, barandas 15,
tarima caseta 8, valla señal 19, defensa metálica 1, hidrante 3, separador de calzada 12, roca
3, panel luminoso 2, inmueble 62.
80
Figura 20 f Tipo vía.
Figura 20 g localidad
Figura Diagramas de barras obtenidos del preprocesamiento del data set minable. En el
eje horizontal están los valores de las variables o atributos y en el vertical el número de
conteos o frecuencia para cada una.
Fuente: elaboración propia programa Weka 3.8.
El atributo nombre otra clase, figura 20 e, las frecuencias y porcentajes son aprisionamiento
75, caída dentro del vehículo 8.
El atributo tipo vía, figura 20 f, las frecuencias y porcentajes son KR 10123, CL 10143, AV
5589, AK 2277, DG 527, TR 636,
El atributo localidad, figura 20 g, las frecuencias y porcentajes son Kennedy 4009, Engativa
3042, Usaquén 3538, Barrios Unidos 1884, Fontibón 2449, Suba 2887, Chapinero 2418,
Puente Aranda 2132, Bosa 1524, Santafé 967, Usme 556, Teusaquillo 1601, Los Mártires
1044, Rafael Uribe Uribe 809.
81
El software especializado posee ayudas y técnicas para la selección de atributos.
• Atributos relacionados con las personas.
El conjunto de datos de personas contiene atributos como:
Información de las personas involucradas.
Conductor culpable, conductor no acusado, prueba de alcohol.
• Atributos de los participantes.
Otros participantes como vehículos, animales, etc.
• Atributos de Densidad de población.
La densidad de población es un riesgo potencial para el accidente de tránsito. La densidad de
población de las áreas cercanas al sitio del accidente se registra vs el numero d ella vía, los
tramos inicial y final, la distancia desde el tramo inicial, la distancia desde el tramo final,
Estos datos por lo general se encuentran en bases de datos diferentes y deben ser integradas
a la base de datos principal. La densidad de población puede ser la misma en todos los tramos
de la vía o variar dentro de un tramo en una distancia corta.
Después de la selección de datos, se obtiene el número de variables del estudio.
En la tabla 9 se presenta el resumen con los atributos existentes en la base de datos de
accidentes en 2016 Bogotá, seleccionados, el tipo y los valores permitidos para los mismos.
De acuerdo con el análisis del sistema y el fenómeno de accidentalidad bajo estudio, además
de la bibliografía al respecto, sería deseable tener una información más detallada referente
principalmente a genero ò sexo de los conductores, peatones, pasajeros ò personas
involucradas en el accidente, edad de estos, tiempo de expedición de la licencia de
conducción y antecedentes del conductor. características del vehículo como clase de
vehículo, tiempo de fabricación, información sobre el estado mecánico del mismo como
certificados de revisión mecánica y gases,
82
Atributo Clase Valores
Índice Numérico 1-34232
Accidente Numérico
Fecha Date
Gravedad Nominal Con heridos, solo daños, con muertos
Nombre Nominal
ClaseNombre Nominal Choque,atropello,otro, caída de ocupante,
volcamiento, autolesión, incendio
ChoqueNombre Nominal Vehículo, objeto fijo, otro, semoviente
ObjetoFijoCodigo Nominal
ObjetoFijoNombre Nominal Inmueble, vehículo estacionado, muro, árbol, poste,
semáforo, barandas, tarima caseta, valla señal,
defensa metálica, hidrante, separador de calzada,
roca, panel luminoso..
Otra Clase Nominal
NombreOtraClase Nominal Caída dentro del vehículo, aprisionamiento, caída
de objeto sobre el vehículo
Latitud Nominal Dato
Longitud Nominal Dato
Dirección Nominal Dato
TipoVia1 Nominal KR,C,AV,TR,AK, DG , AC
NumeroVia1 Nominal Dato
LetraVia1 Nominal A, B, C, D, E, F
CardinalVia1 Nominal S, E
TipoVia2 Nominal Dato
NumeroVia2 Nominal Dato
LetraVia2 Nominal A, B, C, D, E, F
CardinalVia2 Nominal S, E
Localidad Nominal KENNEDY, FONTIBON, ENGATIVA,
USAQUEN, BARRIOS UNIDOS, TUNJUELITO,
ANTONIO NARIÑO, RAFAEL URIBE
URIBE,SAN CRISTOBAL, LOS MARTIRES,
CIUDAD BOLIVAFR, SUBA, CHAPINERO,
USME, SANTAFE, BOSA, PUENTE ARANDA,
CANDELARIA
HoraOcurrencia Nominal HORA
TipoDiseño Nominal Intersección, Tramo de vía, Glorieta, Puente, Lote
o predio, paso a nivel, Paso elevado, Paso inferior,
Túnel, Vía troncal, Pontón.
TipoTiempo Nominal Normal, Lluvia, Viento, Lluvia/Lluvia,
Normal/normal, Lluvia/Normal, Normal/Lluvia,
Viento/Normal.
TotalMuertos Numérico Dato
TotalHeridos Numérico Dato
83
CausaConductorIDesc Nominal Otra, Desobedecer señal, Adelantar cerrando,
Frenar bruscamente, Reverso imprudente,
Adelantar invadiendo vía, Semáforo en rojo, No
mantener distancia de seguridad, Transitar entre
vehículos, Exceso de velocidad, Adelantar en zona
prohibida, Embriaguez aparente, Cruzar en estado
de embriaguez, Desobedecer señales, Poner en
marcha un vehículo sin precauciones, Arrancar sin
precaución, Impericia en el manejo, embriaguez o
droga, Girar bruscamente, Transitar con las puertas
abiertas, Salir por delante de un vehículo, transitar
en contravía, Adelantar en curva, Cruzar sin
observar, Adelantar en curva, Dejar o recoger
pasajeros en zona no demarcada,
CausaPeatonIDesc Nominal Otras, Cruzar sin observar, Pararse sobre la calzada,
Salir delante de vehículo, Cruzar en diagonal
Cruzar en curva, Pasar semáforo en rojo, Jugar en
la vía. Cruzar ene estado de embriaguez.
CausaVehiculoIDesc Nominal Fallas en los frenos, Fallas en el exhosto, Fallas en
las luces delanteras, Fallas en direccionales, Otra,
Falla en luces direccionales, Falla en la dirección,
Ausencia o deficiencia
CausaConductorIIDesc
Nominal
CausaPeatonIIDesc Nominal
CausaVehiculoIIDesc Nominal
CausaPasajeroICod Nominal Pasajero embriagado, Bajar o subir del vehículo en
movimiento, Viajar colgado.
CausaPasajeroIDesc Nominal
CausaPasajeroIIDesc Nominal
CausaViaIDesc Nominal Huecos, Superficie húmeda, Superficie lisa,
Ausencia o deficiencia de señales, Otras, Obstáculo
en la vía, Dejar o movilizar semovientes.
CausaViaIICod Nominal
CausaViaIIDesc Nominal
Tabla 9 Atributos de la base de datos 2016 Accidentalidad Bogotá. Fuente
Después de analizar el comportamiento de los datos mediante la estadística descriptiva, se
seleccionan los atributos que mejor representan el comportamiento de los datos y más aporte
hacen al objetivo de determinar la causa raíz de los accidentes.
84
En la tabla 9 se presentan los atributos que forman parte de data set minable. Se han eliminado
los atributos tipo numérico y string, ya que como se mencionó anteriormente, estos no pueden
incluirse en los algoritmos de clasificación disponibles en el programa.
Numero Atributo Clase
3 Gravedad Nominal
5 ClaseNombre Nominal
6 ChoqueNombre Nominal
7 ObjetoFijoNombre Nominal
9 NombreOtraClase Nominal
10 TipoVia1 Nominal
12 Localidad Nominal
13 HoraOcurrencia Nominal
14 TipoDiseño Nominal
15 TipoTiempo Nominal
Tabla 10 Atributos seleccionados para el data set minable. Fuente: elaboración propia.
6.1.5. MODELADO Y DESARROLLO DEL DATA MINING, CAUSA PROXIMA.
En esta etapa se selecciona una o varias de las técnicas mencionadas anteriormente. Para el
presente trabajo se escoge las redes neuronales contenido en la opción funciones de
clasificación y en particular el perceptrón multicapas.
Alternativamente se van a evaluar el desempeño de los algoritmos bayesianos NaivesBayes
y BayesNet, descritos en la sección
Esta tarea se empieza a diseñar desde que se comienzan a gestionar los datos. Los
componentes principales son:
Entrada es el bloque de entrada, conformado por la vista minable, los datos están
seleccionados, muestreados, transformados..
Dadas las características de los objetivos y metas planteados, a saber, la asociación o a
identificar la causa de accidentes de tránsito, se desearía tener un algoritmo de predicción, el
cual, dadas unas condiciones particulares del accidente a analizar, y con una herramienta
entrenada para realizar predicción, se puede identificar la probable causa o causas de un
accidente. Sin embargo, al tener en cuenta que las características de un accidente son muy
particulares, se puede ver también como una guía para realizar un análisis por parte de
expertos y ahí si determinar las causas más probables. En este caso, la herramienta serviría
como guía para que los expertos partan de sus resultados y el trabajo resulte menos extenso.
Una limitación para que esto ocurra es el hecho de que las bases de datos existentes no
85
contienen toda la cantidad de variables que pueden intervenir en un accidente. Es decir,
después de la extracción visual de patrones, se realiza el análisis para la extracción de
conocimiento y su posterior uso que sería identificar la causa raíz del accidente.
Además, el llegar a tener una aproximación respecto de las causas próximas es un buen
comienzo para comenzar la búsqueda de las causas básicas, y que esta es una labor mucho
más técnica y en donde se debe escudriñar bastante para llegar a la causa básica más probable,
analizando los detalles mínimos del accidente y aplicando conceptos físicos particulares.
En la literatura se ha encontrado en [1] dentro de las recomendaciones de aplicación de
minería de datos en análisis de riesgos, “así mismo y a nivel predictivo un objetivo
supremo seria obtener probabilidades más confiables de ocurrencia de accidentes dadas
ciertas condiciones iniciales, esto a través de un modelo clasificador por ejemplo”.
Algunos autores proponen realizar primero una tarea descriptiva para identificar los
patrones de accidentalidad, seguida por una tarea predictiva para identificar las variables
que se relacionan con las causas básicas del accidente.
En algunos casos se utiliza la técnica de agrupamiento y en otros la de reglas de asociación.
El primer caso se utiliza en las referencias [1], [6] y la segunda en la referencia [4].
Para la extracción de las variables relacionadas con la causa próxima o inmediata se utilizan
las técnicas de redes neuronales y algoritmos bayesianos.
En [1] se plantea el uso en primer lugar de un algoritmo de agrupamiento, el cual permite la
identificación de patrones de accidentalidad, es decir para un mismo grupo se incluyen los
atributos que se repiten en esa clase de accidente.
Una vez seleccionados los atributos más influyentes se procede a correr el algoritmo de
clasificación o predicción que consiste en que dados los grupos, se obtiene la serie de
atributos cuyas instancias relacionadas permiten obtener cada uno de ellos, para lo cual se
pueden combinar distintos grupos de atributos según su mayor a menor influencia al
modelo descriptivo.
En el algoritmo predictivo se requiere seleccionar un atributo clasificador.
En [3] se recomienda deducir las causas del accidente a partir del análisis de patrones de
variables independientes. Por esta razón al aplica la asociación de árboles de decisión se
obtienen las reglas a partir de las cuales se pueden determinar las causas de los accidentes.
Aquí los accidentes se encuentran agrupados en la fase de agrupación.
En resumen, no se obtiene directamente las causas del accidente.
86
Se puede trabajar un modelo descriptivo, el principal es el de reglas de asociación, para
estudiar la relación entre las diferentes variables que pueden causar el accidente, y otras
características de este. De aquí se pueden utilizar esta información para agilizar un método
con la participación de expertos permita obtener diferentes hipó tesis de causa del accidente.
De otro lado esto puede ser acompañado con técnicas de agrupamiento. En que paso se
describen los patrones de accidentalidad. Puede ser en el paso de reglas de asociación o
clusstering.
Interpretación de resultados y conclusiones.
En este paso se obtienen los patrones que definen el comportamiento de la accidentalidad [1].
Se pueden confirmar o rechazar hipótesis a priori.
El estudio de patrones de accidentalidad describe los patrones detectados sin explicar porque
ocurren o se asocian a tal o cual forma. Esta es tarea del analista y los expertos.
En la figura se presenta el proceso de modelamiento de los datos de minería de datos a partir
del data set minable.
A continuación, se desarrolla cada una de las etapas o tareas mencionadas.
Para el análisis de los clústeres se pueden presentar dos tipos de gráficas.
En primer lugar, se presenta en el eje x los valores de un atributo y en el otro eje los de otro
atributo. Aquí se puede visualizar como se agrupan los datos con respecto a los valores de
los dos atributos, mientras que el color de cada dato representa el clúster al cual pertenece.
En segundo lugar, se pueden tener las gráficas en las que en un eje se presenta un atributo y
en el otro los diferentes clústeres. Aquí se visualiza para cada clúster los valores que
corresponden en una determinada variable o atributo.
Se utiliza para el agrupamiento el algoritmo K-means. Esto se hace por medio del programa
Weka, y se eliminan los atributos que no aportan información relevante, quedando veintidós
atributos para esta actividad.
Se presentan los resultados de este agrupamiento, identificando como clases, los atributos
que sirven para definir cada grupo de atributos con características comunes. Los valores
perdidos se reemplazaron con la media.
87
FASE DE ENTRADA
RECOLECCION DE DATOS
FASE DE MINADO
CLUSTERING DE ACCIDENTES K
MEANS
EXTRACCION DE REGLAS
CLASIFICACION DE CAUSA DE
ACCIDENTE
MODELO DE PREDICCION
ANN
PREPROCESAMIENTO DE LOS DATOS
FASE DE SALIDA
SALIDA DE PREDICCION
POSIBLES CAUSAS DE ACCIDENTE
Figura 21 Proceso de modelamiento de minería de datos. Fuente: elaboración propia.
Debido a que los atributos presentes en la mayoría de los cinco clústeres tienen valores muy
similares, se reduce el número de clústeres y se analiza el agrupamiento solamente con dos
clústeres.
Los resultados se muestran en la tabla 10.
A continuación, se presenta el análisis de cada uno de los cluesteres obtenidos, y las
conclusiones respectivas. El programa entrega una serie de gráficos que permiten realizar los
siguientes análisis;
• En el eje horizontal presenta el clúster identificado por colores y en el eje vertical
uno de los atributos del data set. Aquí se observa de manera diferenciada cada
clúster en una sola zona de la figura.
88
• En el eje horizontal y vertical se presentan dos atributos mientras que en el color
asignado a cada clúster se observan los datos agrupados. En esta gráfica los
clústeres no se encuentran en una sola forma, sino que pueden estar distribuidos en
distintos puntos de la figura, pero son identificados mediante su color respectivo.
Inicialmente se configuró el programa con dos clústeres. En la tabla se presenta el resumen
de los valores de los atributos que caracterizan cada uno de ellos. Se observa que los valores
son iguales, por lo tanto, al considerar este caso no aporta más información. En la figura se
observa que los clústeres 0 y 2 están prácticamente sobrepuestos, lo cual indica que no existe
un atributo al menos que permita diferenciarlos.
Figura 22 Gráfica agrupamiento con dos clústeres. Eje x clúster, eje y gravedad accidente.
Clúster 0 color azul, clúster 1 color rojo. Fuente: elaboración propia programa Weka 3.8.
89
En la figura 22 se aprecia que no existe prácticamente ninguna diferencia entre los dos
clústeres, ya que los puntos en azul que corresponden al clúster 0 prácticamente coinciden en
su posición con los rojos, del clúster 1.
Desde este punto de vista y mirando la tabla,
Tabla 11 Resultados agrupamiento con dos clústeres, Fuente: elaboración propia programa
Weka 3.8.
En la figura 22 se presenta la configuración del algoritmo de agrupamiento Simple K means
en Weka. La tabla presenta el porcentaje de instancias perteneciente a cada clúster, y se
realiza el análisis de las características de cada grupo.
90
Figura 23 Configuración del algoritmo K -means en Weka. Fuente: elaboración propia
programa Weka 3.8.
Se han obtenido cinco clústeres, con la siguiente distribución de datos:
Clúster n° Instancias/registros %
0 11173 32
1 12773 37
2 5723 16
3 524 2
4 4735 14
Tabla 12 Porcentaje de instancias incluidas en cada clúster. Fuente: elaboración propia
programa Weka 3.8.
91
En la siguiente tabla se muestra el resumen en donde se incluyen los atributos y sus
respectivos valores característicos de los diferentes clústeres.
Como se aprecia en la figura 23 se pueden observar los cinco clústeres bien diferenciados
con algunas observaciones por fuera de ellos.
Clúster 0 azul
El clúster cero se caracteriza principalmente por accidentes que involucran choque con otro
vehículo, con consecuencia de solo daños, en glorietas, condición climática normal, en
algunos casos presencia de huecos en la vía. Como los accidentes analizados son dentro de
la ciudad con una velocidad límite de60 kph, no se espera que esté presente la condición de
velocidad alta, aunque esto podría ocurrir. Sin embargo, las condiciones de maniobra en las
glorietas, con acceso de varios vehículos simultáneamente, hace que estos tramos de vía sean
más propensos a la ocurrencia de conflictos viales. Probablemente la condición de baja
velocidad se relacione con la consecuencia de solo daños.
Clúster 1 rojo
En este caso predominan los accidentes con choque y atropello, muertos y en menor
proporción heridos, con vehículo, en glorieta, condición ambiental normal, peatón transitar
en menor proporción y en mayor otra, en algunos casos vías con huecos.
Clúster 2 verde
Accidentes con choques, en menor cantidad volcamiento, heridos, en glorieta y en menor
cantidad paso y puente, condición atmosférica normal, y en menor cantidad con viento,
atribuibles al peatón otra, pasar, transitar, atribuibles al pasajero otra, colgados, vía con
huecos en algunos casos.
Clúster 3 aguamarina
Accidentes con choques y heridos y otro vehículo, objeto fijo en menor cantidad, transitando
por glorieta y en menor cantidad paso, puente, condición atmosférica normal y en menor
cantidad con viento, como causa de pasajero otra y colgados, huecos en la vía.
Clúster 4 lila
Accidentes con choque, solo daños, transitando por glorieta, en paso o puente en menor
cantidad, condición atmosférica normal, con viento en menor cantidad, con peatón parado o
transitando, vehículo con fallas, pasajero otra o colgado huecos en la vía, superficie húmeda
y poste en menor cantidad.
93
Figura 24 Gráfica agrupamiento algoritmo K-Means con cinco clústeres. Fuente:
elaboración propia programa Weka 3.8.
94
En esta etapa se trata de asignar etiquetas a la variable o variables de predicción, relacionadas
con el conjunto de variables definidas como independientes o predictoras.
El algoritmo seleccionado en primer lugar es el de redes neuronales artificiales descrito
anteriormente. Se considera también la aplicación de un algoritmo bayesiano, en este caso
Naive Bayes por tratarse de una técnica con menores requerimientos computacionales que la
red neuronal y buen desempeño.
Una vez obtenido el data set minable de acuerdo con los objetivos del estudio, se procede a
procesar los datos contenidos en el mismo con el algoritmo de perceptrón multicapas.
Se realizaron varias corridas utilizando los algoritmos Perceptrón multicapas y Naive
Bayes. Se seleccionaron las configuraciones de los clasificadores que presentaron un mejor
desempeño de acuerdo con las métricas estudiadas anteriormente.
En la tabla 14 se resumen las diferentes corridas realizadas. Las corridas en color rojo son
las que presentaron mejor desempeño.
En la figura 15 se presentó un diagrama de proceso de la configuración y aplicación de la red
neuronal artificial. Como se mencionó anteriormente como en cualquier algoritmo para
minería de datos el primer paso es el preprocesamiento de los datos para obtener la vista
minable. En segundo lugar, se selecciona la clase de red neuronal a utilizar. En este estudio
se trata del perceptrón multicapas que por su estructura y funcionamiento se asimila a la
estructura de datos disponible.
A continuación, se muestra la configuración del clasificador.
El número de capas ocultas es a, que es igual a:
Número de atributos + número de clases /2 = 11+2/2 = 6.5 aproximadamente 7 capas
ocultas.
La tasa de aprendizaje es de 0.3, teniendo en cuenta que el valor no debe de ser muy
pequeño porque el algoritmo se demora más ni muy grande porque puede saltar el valor
óptimo que busca.
El momentum es de 0,2.
Preprocesamiento.
Entre los métodos utilizados por el programa para aumentar la precisión del clasificador
están:
95
Selección de atributos.
Ranker.
Aplicación de filtros-
Aplicación de envoltorios (wrapper).
Selección con principal componente análisis.
Entrenamiento.
El entrenamiento de la red se realizó utilizando el data set minable y el procedimiento
descrito en la sección 5.4.3.1.1.
Durante esta fase, y dependiendo de las características del dataset como ruido, pequeño
número de datos y del clasificador como su complejidad, se pueden presentar algunas
situaciones que disminuyen el rendimiento de la red. cuando las clases están desbalanceadas,
es decir según Singh Maninder existen diferencias apreciables entre el número de instancias
negativas y positivas, especialmente cuando las negativas sobrepasan a las positivas. Estas
pueden ser;
Sobre aprendizaje y sub-aprendizaje.
La sobre adaptación o sobre aprendizaje puede ocurrir cuando el clasificador obtiene un alto
porcentaje de aciertos en entrenamiento, pero pequeño en test, aprende los datos de memoria
y no generaliza. Den la validación cruzada se obtienen porcentajes cercanos al azar, es decir
la índice kappa es cercano a cero. De otro lado si la complejidad del clasificador no es
suficiente de acuerdo con el problema, se produce su adaptación.
Validación del modelo.
Para determinar la bondad del proceso de clasificación se utiliza la validación del modelo,
el cual trata de determinar la capacidad de predicción del clasificador. Para ello se utilizan
las métricas y criterios presentados en la sección 5.4.3.1.2. esta actividad es realizada por el
programa Weka, se acuerdo con las opciones presentadas, y los resultados presentados en la
hoja para el efecto.
Análisis de las métricas seleccionadas.
Después de correr el programa con la configuración seleccionada del clasificador, en este
caso el perceptrón multicapas, se obtienen los resultados en forma de tablas y gráficas que
resumen las características de desempeño del modelo de acuerdo con las métricas
seleccionadas.
96
Los resultados obtenidos en Weka se presentan en cuatro bloques de información;
• Resumen.
• Precisión detallada por clase.
• Matriz de confusión.
Tabla 14 Resumen de corridas de algoritmos Perceptrón multicapas y Naive Bayes.
Fuente: elaboración propia programa Weka 3.8.
Instancias clasificadas correctamente. La tabla muestra que el número de instancias clasificadas correctamente
fue de 1444 esto indica que el 54.47% se clasificaron de forma correcta. Hubo 1207 instancias clasificadas
incorrectamente.
Fecha numero basedatos
numeroinst
ancias
numeroatri
butos
atributoclas
e
numero de
atributos
seleccionad
os
porcentajea
ciertos
indicekappa
errorrelativ
oabsolutoroc algoritmo atribiutos ncapas
tasa
aprendizajamomentum
nov30-2018 1 2 14993 4 causa 58.52 0,3644 74,46 0,732 nb cn,chn,ho,td na na na
nov30-2019 2 1 14993 4 58.42 3,3655 71,14 0,732 bn gn,cn,ch,ho,tdna na na
dic 1-2018 3 2 9691 11 causa 4 37,38 0.2611 83.00 0.763 nb gn,cn,td,chn na na na
dic1-2018 4 02-nov 8978 11 causa 5 59,8773 0,3832 72,47 0,75 nb
tt,td,ho,loc,
tv,noc,ojn,c
ghn,gn na na na
dic2-2018 5 2 12897 11 causa 3 63,59 0,3363 72,82 0,724 nb na na na
dic2-2019 6 2 19551 11 causa 5 49.99 0.3151 78.65 0.728 nb
tt,td,ho,loc,
tv,noc,ojn,c
ghn,gn na na na
dic2-2020 7 2 18527 11 causa 4 52.73 0.3383 76.49 0.737 nb
tt,td,ho,loc,
tv,noc,ojn,c
ghn,gn na na na
dic2-2021 8 2 14717 11 causa 3 54.90 0.2709 79.31 0.688 nb
tt,td,ho,loc,
tv,noc,ojn,c
ghn,gn na na na
dic2-2022 9 2 2651 11 causa 2 54,47 -0,0005 102.24 0.524 MLP
tt,td,ho,loc,
tv,noc,ojn,c
ghn,gn
1
na na
dic3-2018 10 2 10605 11 causa 2 76 0.4817 60.23 0.783 nb
tt,td,ho,loc,
tv,noc,ofn,c
hn,cn
na
na na
dic4-2018 11 2 30637 11 causa 32 40.06 0.2449 83.86 0.744 nb
tt,td,ho,loc,
tv,noc,ofn,c
hn,cn
na
na na
dic4-2019 12 2 4887 6 causa 5 29,99 0,0187 99,86 0,534 mlp
gn,cn,chn,h
o,td,c4 0.3
na
dic4-2020 13 2 5717 6 causa 4 32,14 0 99,69 0,513 mlp
gn,cn,chn,h
o,td,c3 0.3
na
dic4-2021 14 2 5712 6 causa 4 32,94 0 100,7 0,514 mlp
gn,cn,chn,h
o,td,c2 0,15 0,2
dic4-2022 15 2 4629 6 causa 3 38,69 0,0003 100,58 0,516 mlp
gn,cn,chn,h
o,td,c2 0,15 0,2
dic4-2023 16 2 2651 11 causa 2 54,47 -0,0005 102.7 0,525 mlp
tt,td,ho,loc,
tv,noc,ofn,c
hn,cn
2 0,3 0,2
dic6-2018 17 2 30637 11 causa 4 40.02 0.24 84.99 0.728 nb
tt,td,ho,loc,
tv,noc,ofn,c
hn,cn
na na na
97
Al observar el valor del indicador Kappa, es menor de 0, esto significa que el número de
aciertos es menor al que se podría obtener aleatoriamente, lo cual significa un pobre resultado
para el algoritmo. Del análisis del error absoluto relativo se observa un valor demasiado alto.
Figura 25 Configuración del perceptrón multicapas utilizado en la fase de clasificación de
causa de accidente. Fuente: elaboración propia programa Weka 3.8.
=== Stratified cross-validation ====== Summary ===
98
Correctly Classified Instances 1444 54.47 %
Incorrectly Classified Instances 1207 45.53 %
Kappa statistic -0.0005
Mean absolute error 0.0316
Root mean squared error 0.1253
Relative absolute error 102.1792 %
Root relative squared error 101.3349 %
Total number o Instances 2651
En la tabla análisis detallado por clase, se muestran los valores de los indicadores Tasa de
verdaderos positivos 0.401, tasa de falsos positivos 0.16, recall 0.545, precisión 0.511, F
mesure, área bajo la curva ROC 0.744 en promedio, área PRC 0.311. En esta tabla se
incluyen todos los valores de la variable causa, aunque se mantuvieron solamente los dos con
frecuencias más altas. Por esa razón en la tabla los indicadores figuran con un signo de
interrogación.
El valor de recall o cobertura indica que el 54.55 de las instancias han sido clasificadas
correctamente.
La precisión indica que el 51.1% de las instancias clasificadas como verdaderos lo son
realmente.
Para el indicador F su valor promedio no figura el promedio, sin embargo, para la clase
mayoritaria no mantener distancia de seguridad, su valor es de 0.564 los cual significa que
este valor es la media armónica de la precisión y la cobertura.
En la tabla se presenta la matriz de confusión, que muestra 1219 aciertos para la clase no
mantener distancia de seguridad, y 225 aciertos para la segunda clase que es otras causas de
accidente. Las demás clases presentan valores de cero debido a que solamente se tuvieron en
cuenta las dos clases con mayor frecuencia.
Análisis de las gráficas.
En las figuras 24 a 28 se presenta en forma gráfica la información más representativa
para evaluar el modelo clasificador.
Análisis de curva margen de predicción (margin curve).
99
Esta curva representa el margen de predicción, es decir la diferencia entre el valor de
probabilidad para la clase predicha y el valor de la probabilidad más alta para las clases
diferentes a la predicha. Entre más alto sea este valor hay mayor certeza de que la predicción
sea correcta, ya que hay un mayor margen para equivocarse.
Un margen de 1 significa que la confiabilidad de la predicción es del 100% mientras un
margen de -1 significa lo contrario, es decir que la confiabilidad es de predicción de una clase
incorrecta es del 100%. Como el valor mínimo en la gráfica es de -0.33 para la instancia 1, y
comienza a aumentar para las otras instancias, quiere decir que el margen va aumentando a
medida que se aumenta el número de instancias y para 2651 instancias, que son las que se
analizaron es de 0.33 que representa una confiabilidad de 33%, que, aunque no es el valor
óptimo (100%) tampoco es un valor tan bajo. Esto significa que entre mayor sea el número
de instancias analizadas, mayor el valor del margen de predicción y por lo tanto la
confiabilidad de la predicción.
Análisis de curva de error.
Se muestran las instancias bien clasificadas con una cruz y las mal clasificadas con un
cuadrado, para cada valor del atributo causa. Se observa una mayor cantidad de instancias
bien clasificadas (cruces) para la clase adelantar cerrando en color azul y para la clase no
mantener distancia de seguridad en color rojo.
Análisis de curva PRC (Recall-Precisión).
El área bajo la curva RP (recall-precisión) es de 0.314 que es un valor bajo. Para el sistema
bajo estudio resulta más útil considerar el valor ROC, ya que el RPC se utiliza más cuando
es más importante acertar en una clase que en otras, por ejemplo “buscar una aguja en un
pajar”. En el caso bajo estudio, si la clase “no respetar distancia de seguridad” fuera más
importante que la clase otras, o la clase adelantar cerrando, ò huecos, sería mejor aplicar la
curva PRC ya que no debería dejarse por fuera del clasificador ningún caso, es decir el
algoritmo clasificador no debería dejar de clasificar correctamente ningún caso de no respetar
distancia de seguridad, pero esta no es la situación bajo estudio.
Análisis de la curva ROC.
El área bajo la curva ROC es de 0.744. el rango de valores recomendado para un buen
modelo según y está entre 0.75 y 1. En este caso el valor está ligeramente por debajo de 0.75.
Esto significa que puede clasificar correctamente los verdaderos positivos y los verdaderos
negativos.
Análisis de la curva Beneficio Costo.
100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0,835 0,431 0,426 0,835 0,564 0,363 0,761 0,485 NO MANTENER DISTANCIA DE SEGURIDAD
0,057 0,035 0,239 0,057 0,092 0,041 0,678 0,244 ADELANTAR CERRANDO
0,060 0,002 0,325 0,060 0,102 0,135 0,821 0,121 EXCESO DE VELOCIDAD
0,508 0,009 0,421 0,508 0,461 0,455 0,888 0,348 FRENAR BRUSCAMENTE
0,365 0,027 0,259 0,365 0,303 0,287 0,961 0,277 CRUZAR SIN OBSERVAR
0,650 0,118 0,466 0,650 0,543 0,465 0,833 0,477 DESOBEDECER SEÑALES
0,058 0,001 0,250 0,058 0,095 0,118 0,971 0,165 CRUZAR EN ESTADO DE EMBRIAGUEZ
0,329 0,120 0,320 0,329 0,324 0,206 0,670 0,305 OTRA
0,070 0,003 0,312 0,070 0,115 0,140 0,842 0,155 SEMAFORO EN ROJO
0,011 0,002 0,132 0,011 0,021 0,033 0,763 0,072 ADELANTAR INVADIENDO VIA
0,000 0,000 0,000 0,000 0,000 -0,002 0,686 0,025 TRANSITAR ENTRE VEHICULOS
0,000 0,000 0,000 0,000 0,000 -0,001 0,588 0,014 ADELANTAR POR LA DERECHA
0,002 0,000 0,111 0,002 0,003 0,011 0,636 0,052 ARRANCAR SIN PRECAUCION
0,165 0,002 0,292 0,165 0,211 0,216 0,970 0,225 506 OTRA
0,000 0,000 ? 0,000 ? ? 0,569 0,006 ADELANTAR EN ZONA PROHIBIDA
0,008 0,000 0,167 0,008 0,016 0,036 0,952 0,053 TRANSITAR POR LA CALZADA
0,101 0,007 0,344 0,101 0,156 0,172 0,726 0,132 REVERSO IMPRUDENTE
101
0,004 0,000 0,100 0,004 0,007 0,017 0,771 0,043 EMBRIAGUEZ O DROGA
0,001 0,000 0,067 0,001 0,002 0,004 0,662 0,057 NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0,005 0,000 0,400 0,005 0,010 0,044 0,699 0,029 TRANSITAR EN CONTRAVIA
0,043 0,001 0,407 0,043 0,078 0,130 0,742 0,062 VEHICULO MAL ESTACIONADO
0,000 0,000 0,000 0,000 0,000 -0,000 0,762 0,014 TRANSITAR POR VIAS PROHIBIDAS
0,014 0,000 0,143 0,014 0,026 0,044 0,837 0,087 HUECOS
0,000 0,000 0,000 0,000 0,000 -0,001 0,747 0,038 FALLAS EN LOS FRENOS
0,000 0,000 0,000 0,000 0,000 -0,001 0,673 0,025 ADELANTAR INVADIENDO CARRIL DEL MISMO SENTIDO EN ZIG-ZAG
0,000 0,000 ? 0,000 ? ? 0,575 0,000 NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0,000 0,000 0,000 0,000 0,000 -0,000 0,079 0,000 REVERSO IMPRUDENTE
0,000 0,000 ? 0,000 ? ? 0,023 0,000 NO MANTENER DISTANCIA DE SEGURIDAD
0,000 0,000 ? 0,000 ? ? 0,077 0,000 OTRA
0,000 0,000 ? 0,000 ? ? 0,201 0,000 DESOBEDECER SEÑALES
0,000 0,000 ? 0,000 ? ? 0,015 0,000 FRENAR BRUSCAMENTE
0,000 0,000 ? 0,000 ? ? 0,325 0,000 DESOBEDECER SEÑALE
0,401 0,160 ? 0,401 ? ? 0,744 0,314 Weighted Avg
Tabla 15 resumen de resultados weka. Algoritmo perceptrón multicapas. Fuente: elaboración propia programa Weka 3.8.
102
Análisis de la curva de costo.
Cuando se incluye el concepto de costo en el análisis, se considera el costo de clasificar un
negativo como positivo o un positivo como negativo. Las curvas de costo son según
Drummond Holte más adecuadas para estimar la bondad de un modelo que las curvas ROC.
Permiten visualizar el desempeño a través de la tasa de error o costo de mala clasificación.
Muestra los intervalos de confianza en el desempeño del clasificador y la significancia
estadística en el rendimiento de dos clasificadores.
La gráfica presenta en el eje x la función de probabilidad de costo y en el eje Y el costo
esperado. Cada línea en la figura es una curva de costo que corresponde a una condición en
la curva ROC, o sea a una pareja de valores tasa de falso positivo-tasa de verdadero positivo,
o sea que representa el costo esperado del clasificador en el rango completo de posibles
distribuciones de clase y costos de mala clasificación. Para el caso bajo estudio no es tan
importante tener en cuenta los costos, sin embargo, se han incluido las gráficas. Los valores
extremos de las líneas representan en el eje y los costos de falso positivo cuando x igual cero
y costo de falso negativo cuando x igual a 1. El costo de clasificar bien una instancia es
siempre menor que el de clasificarla mal. El mejor clasificador, que clasifica siempre de
modo correcto, tiene un costo igual a cero.
El costo máximo de clasificación o sea 1 ocurre cuando todas las instancias son clasificadas
incorrectamente. El valor en y es una extensión de la tasa de error a los costos normalizados.
Fracción de la diferencia entre los costos máximo y mínimo en que se incurre al utilizar el
clasificador. El mayor valor de costo esperado está un poco por debajo de 0.5, que
corresponde al valor de la envolvente inferior de todas las curvas de costo. Esto sirve para
comparare el rendimiento de varios clasificadores. El que tenga un menor costo esperado
tiene un mejor desempeño cuando los costos son importantes.
103
=== Confusion Matrix ===
a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af <-- classified as
1219 0 0 0 0 0 0 305 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = NO MANTENER DISTANCIA DE SEGURIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = ADELANTAR CERRANDO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = EXCESO DE VELOCIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = FRENAR BRUSCAMENTE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = CRUZAR SIN OBSERVAR
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = DESOBEDECER SE ム ALES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | g = CRUZAR EN ESTADO DE EMBRIAGUEZ
902 0 0 0 0 0 0 225 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | i = SEMAFORO EN ROJO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | j = ADELANTAR INVADIENDO VIA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = TRANSITAR ENTRE VEHICULOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | l = ADELANTAR POR LA DERECHA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = ARRANCAR SIN PRECAUCION
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | n = 506 OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | o = ADELANTAR EN ZONA PROHIBIDA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | p = TRANSITAR POR LA CALZADA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | q = REVERSO IMPRUDENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | r = EMBRIAGUEZ O DROGA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | s = NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | t = TRANSITAR EN CONTRAVIA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | u = VEHICULO MAL ESTACIONADO 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | v = TRANSITAR POR VIAS PROHIBIDAS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | w = HUECOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | x = FALLAS EN LOS FRENOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | y = ADELANTAR INVADIENDO CARRIL DEL MISMO SENTIDO EN ZIG-ZAG
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | z = NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aa = REVERSO IMPRUDENTE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ab = NO MANTENER DISTANCIA DE SEGURIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ac = OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ad = DESOBEDECER SE ム ALES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ae = FRENAR BRUSCAMENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | af = DESOBEDECER SE ム ALES
104
Gráficas.
Figura 26 Curva de margen de predicción (Margin curve) Fuente: elaboración propia
programa Weka 3.8.
105
Figura 27 Curva Recall Presicion. (PRC). El área bajo esta curva es de 0.314. Fuente:
elaboración propia programa Weka 3.8.
Figura 28 Función de error. Fuente: elaboración propia programa Weka 3.8.
106
Figura 29 Costo-beneficio. Fuente: elaboración propia programa Weka 3.8.
Figura 30 Curva de costo. Fuente: elaboración propia programa Weka 3.8.
107
Como alternativa al modelo de perceptrón multicapas se aplica el modelo de Naive Bayes.
Inicialmente se configura el modelo utilizando el data set minable sin aplicar filtros para
eliminar los valores menos frecuentes. El algoritmo utiliza los 30637 registros de este.
Los resultados de este modelo se presentan en las tablas .
Configuración de algoritmo Naive Bayes.
Figura 30 Parámetros configuración algoritmo Naive Bayes. Fuente: elaboración propia
programa Weka 3.8.
Instancias clasificadas correctamente. La tabla muestra que el número de instancias
clasificadas correctamente fue de 8107 esto indica que el 76.44% se clasificaron de forma
correcta. Hubo 2498 instancias clasificadas incorrectamente.
Al observar el valor del indicador Kappa, es de 0.4817, esto significa que el número de
aciertos es mayor al que se podría obtener aleatoriamente, y aunque está alejado de 1, es un
valor satisfactorio para el algoritmo. Del análisis del error absoluto relativo se observa un
valor de 60.23% que, aunque es alto se puede tomar como aceptable.
108
=== Stratified cross-validation ====== Summary ===
Correctly Classified Instances 8107 76.4451 %
Incorrectly Classified Instances 2498 23.5549 %
Kappa statistic 0.4817
Mean absolute error 0.0181
Root mean squared error 0.1023
Relative absolute error 60.2305 %
Root relative squared error 83.5118 %
Total Number of Instances 10605
En la tabla análisis detallado por clase, se muestran los valores de los indicadores Tasa de
verdaderos positivos, tasa de falsos positivos, recall, precisión, F mesure, área bajo la curva
a R, área PRC. El valor ROC (área bajo la curva R) es de 0,525 en promedio. En esta tabla
se incluyen todos los valores de la variable causa, aunque se mantuvieron solamente los dos
con frecuencias más altas. Por esa razón en la tabla los indicadores figuran con un signo de
interrogación.
El Treshold es el valor a partir del cual se decide que un valor es positivo.
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0,911 0,455 0,750 0,911 0,823 0,502 0,783 0,798 NO MANTENER DISTANCIA DE SEGURIDAD
? 0,000 ? ? ? ? ? ? ADELANTAR CERRANDO
? 0,000 ? ? ? ? ? ? EXCESO DE VELOCIDAD
? 0,000 ? ? ? ? ? ? FRENAR BRUSCAMENTE
? 0,000 ? ? ? ? ? ? CRUZAR SIN OBSERVAR
? 0,000 ? ? ? ? ? ? DESOBEDECER SEムALE
? 0,000 ? ? ? ? ? ? CRUZAR EN ESTADO DE EMBRIAGUEZ
0,545 0,089 0,803 0,545 0,649 0,502 0,783 0,789 OTRA
? 0,000 ? ? ? ? ? ? SEMAFORO EN ROJO
109
? 0,000 ? ? ? ? ? ? ADELANTAR INVADIENDO VIA
? 0,000 ? ? ? ? ? ? TRANSITAR ENTRE VEHICULOS
? 0,000 ? ? ? ? ? ? ADELANTAR POR LA DERECHA
? 0,000 ? ? ? ? ? ? ARRANCAR SIN PRECAUCION
? 0,000 ? ? ? ? ? ? 506 OTRA
? 0,000 ? ? ? ? ? ? ADELANTAR EN ZONA PROHIBIDA
? 0,000 ? ? ? ? ? ? TRANSITAR POR LA CALZADA
? 0,000 ? ? ? ? ? ? REVERSO IMPRUDENTE
? 0,000 ? ? ? ? ? ? EMBRIAGUEZ O DROGA
? 0,000 ? ? ? ? ? ? NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
? 0,000 ? ? ? ? ? ? TRANSITAR EN CONTRAVIA
? 0,000 ? ? ? ? ? ? VEHICULO MAL ESTACIONADO
? 0,000 ? ? ? ? ? ? T RANSITAR POR VIAS PROHIBIDAS
? 0,000 ? ? ? ? ? ? HUECOS
? 0,000 ? ? ? ? ? ? FALLAS EN LOS FRENOS
? 0,000 ? ? ? ? ? ? ADELANTAR INVADIENDO CARRIL DEL MISMO SENTIDO EN ZIG-ZAG
? 0,000 ? ? ? ? ? ? NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
? 0,000 ? ? ? ? ? ? REVERSO IMPRUDENTE
? 0,000 ? ? ? ? ? ? NO MANTENER DISTANCIA DE SEGURIDAD
? 0,000 ? ? ? ? ? ? OTRA
? 0,000 ? ? ? ? ? ? DESOBEDECER SEムALES
? 0,000 ? ? ? ? ? ? FRENAR BRUSCAMENTE
? 0,000 ? ? ? ? ? ? DESOBEDECER SEムALES
Weighted Avg. 0,764 0,308 0,771 0,764 0,753 0,502 0,783 0,794
La tasa de verdaderos positivos que es el mismo recall es en promedio 0,764 que es un valor
adecuado a lo esperado, la tasa de falsos positivos es 0.308, bastante baja, la precisión es
0.771 lo cual indica que del total de términos clasificados, este porcentaje se hizo
correctamente, el treshold es 0.5 , el accuracy es la suma de predicciones verdaderas sobre la
suma de todas las clasificaciones no figura en la tabla , la medida F es 0.753 en promedio,
lo cual significa que la relación entre la tasa de verdaderos positivos y la suma de las
predicciones sin tener en cuenta los verdaderos negativos, es relativamente alta , el área bajo
la curva ROC es 0.783, que es bastante aceptable cercano a 1, el área PRC es 0.794 en
promedio.
110
Análisis de las gráficas.
En las figuras 30 a 34 se presenta en forma gráfica la información más representativa para
evaluar el modelo clasificador.
Análisis de curva margen de predicción (margin curve).
Esta curva representa el margen de predicción, es decir la diferencia entre el valor de
probabilidad para la clase predicha y el valor de la probabilidad más alta para las clases
diferentes a la predicha. Entre más alto sea este valor hay mayor certeza de que la predicción
sea correcta, ya que hay un mayor margen para equivocarse.
Un margen de 1 significa que la confiabilidad de la predicción es del 100% mientras un
margen de -1 significa lo contrario, es decir que la confiabilidad es de predicción de una clase
incorrecta es del 100%. Como el valor mínimo en la gráfica es de -0.33 para la instancia 1, y
comienza a aumentar para las otras instancias, quiere decir que el margen va aumentando a
medida que se aumenta el número de instancias y para 2651 instancias, que son las que se
analizaron es de 0.33 que representa una confiabilidad de 33%, que, aunque no es el valor
óptimo (100%) tampoco es un valor tan bajo. Esto significa que entre mayor sea el número
de instancias analizadas, mayor el valor del margen de predicción y por lo tanto la
confiabilidad de la predicción.
Análisis de curva PRC (Recall-Precisión).
El área bajo la curva RP (recall-precision) es de 0.794 que es un valor alto. Para el sistema
bajo estudio resulta más útil considerar el valor ROC, ya que el RPC se utiliza más cuando
es más importante acertar en una clase que en otras, por ejemplo “buscar una aguja en un
pajar”. En e l caso bajo estudio, si la clase “no respetar distancia de seguridad” fuera más
importante que la clase otras, o la clase adelantar cerrando, ò huecos, sería mejor aplicar la
curva PRC ya que no debería dejarse por fuera del clasificador ningún caso, es decir el
algoritmo clasificador no debería dejar de clasificar correctamente ningún caso de no respetar
distancia de seguridad, pero esta no es la situación bajo estudio.
Análisis de curva de error.
Se muestran las instancias bien clasificadas con una cruz y las mal clasificadas con un
cuadrado, para cada valor del atributo causa. Se observa una mayor cantidad de instancias
bien clasificadas (cruces) para la clase no mantener distancia de seguridad en color azul y
para la clase otra en color rojo.
Análisis de la curva ROC.
111
El área bajo la curva ROC es de 0.783. el rango de valores recomendado para un buen
modelo según y está entre 0.75 y 1. En este caso el valor está por encima de 0.75. Esto
significa que puede clasificar correctamente los verdaderos positivos y los verdaderos
negativos. La forma de la curva ROC está dentro de las que son aceptables. Este valor es
mayor al encontrado en el perceptrón multicapas.
Análisis de la curva costo.
Se puede observar que la envolvente inferior tiene el punto más bajo en aproximadamente
0.3 que corresponde al máximo costo esperado y es sensiblemente menor que el encontrado
para el perceptrón multicapas. Des de este punto de vista este algoritmo es más adecuado
para la clasificación de las causas de accidentes.
112
=== Confusion Matrix ===
a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af <-- classified as
5793 0 0 0 0 0 0 566 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = NO MANTENER DISTANCIA DE SEGURIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = ADELANTAR CERRANDO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = EXCESO DE VELOCIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = FRENAR BRUSCAMENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = CRUZAR SIN OBSERVAR
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = DESOBEDECER SEÑALES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | g = CRUZAR EN ESTADO DE EMBRIAGUEZ
1932 0 0 0 0 0 0 2314 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | i = SEMAFORO EN ROJO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | j = ADELANTAR INVADIENDO VIA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = TRANSITAR ENTRE VEHICULOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | l = ADELANTAR POR LA DERECHA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = ARRANCAR SIN PRECAUCION
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | n = 506 OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | o = ADELANTAR EN ZONA PROHIBIDA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | p = TRANSITAR POR LA CALZADA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | q = REVERSO IMPRUDENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | r = EMBRIAGUEZ O DROGA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | s = NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | t = TRANSITAR EN CONTRAVIA
113
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | u = VEHICULO MAL ESTACIONADO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | v = TRANSITAR POR VIAS PROHIBIDAS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | w = HUECOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | x = FALLAS EN LOS FRENOS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | y = ADELANTAR INVADIENDO CARRIL DEL MISMO SENTIDO EN
ZIG-ZAG
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | z = NO RESPETAR PRELACION DE INTERSECCIONES O GIROS
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aa = REVERSO IMPRUDENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ab = NO MANTENER DISTANCIA DE SEGURIDAD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ac = OTRA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ad = DESOBEDECER SEÑALES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ae = FRENAR BRUSCAMENTE
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | af = DESOBEDECER SEÑALES
114
Gráficas.
Figura 31 Margin curve. Fuente: elaboración propia programa Weka 3.8.
Figura 31 Treshold Recall Precision curve.
Fuente: elaboración propia programa Weka 3.8.
115
Figura 32 Errores del clasificador. Fuente: elaboración propia programa Weka 3.8.
Figura 33 Curva ROC y curva Costo beneficio. Fuente: elaboración propia programa Weka
3.8.
118
Para aproximar la causa de un accidente con datos nuevos, o sea que no están en la base de
datos minable, se construye una plantilla para ingresar los datos, se carga el modelo ajustado
y se aplica a los nuevos datos.
En la tabla se muestran los nuevos datos para realizar la predicción. Se trata de cinco casos a
los cuales se les han asignado valores arbitrariamente.
Accidente,Fecha,GravedadNombre,ClaseNombre,ChoqueNombre,ObjetoFijoCodigo,ObjetoFijoNombre,OtraClase,NombreOtraClase,Latitud,Longitud,Direccion,TipoVia1,NumeroVia1,LetraVia1,CardinalVia1,TipoVia2,NumeroVia2,LetraVia2,CardinalVia2,Localidad,HoraOcurrencia,TipoDiseño,TipoTiempo,TotalMuertos,TotalHeridos,causa,NO
5.433.429,10/08/2018 0:00,Solo Daños,Choque,Objeto Fijo, , , , ,0,0,CL 32-KR 19 28,KR,13, , ,KR,19, , ,KENNEDY,10/20/22016 01:10:00 AM,Tramo Via,Normal,0,0,? ,
5.433.430,11/09/2018 0:00,Con Heridos,Atropello,Vehiculo, , , , ,0,0,CL 23-KR 67 28,CL,13, , ,KR,67, , ,FONTIBON,10/20/22016 01:10:00 AM,Interseccion,Lluvia,0,0,? ,
5.433.431,14/10/2018 0:00,Solo Daños,Choque,Vehiculo, , , , ,0,0,AV 72-KR 19 14,AV,13, , ,KR,72, , ,SUBA,10/20/22016 01:10:00 AM,Glorieta,Viento,0,0,? ,
5.433.432,17/10/2018 0:00,Con Heridos,Choque,Semoviente, , , , ,0,0,CL 68-KR 67 12,CL,13, , ,KR,72, , ,USME,10/20/22016 01:10:00 AM,Puente,Niebla,0,0,? ,
5.433.433,11/11/2018 0:00,Solo Daños,Atropello,Vehiculo, , , , ,0,0,CL 23-KR 67 28,CL,13, , ,KR,72, , ,RAFEL URIBE URIBE,10/20/22016 01:10:00 AM,Tramo Via,Normal,0,0,? ,
A continuación, se presentan los resultados de la clasificación para los dos algoritmos
considerados; en primer lugar, el perceptrón multicapas y en segundo lugar Naive Bayes.
Clasificación utilizando el algoritmo Perceptrón multicapas.
Se puede apreciar que para todos los cinco casos nuevos la clase asignada como causa de
falla es NO MANTENER DISTANCIA DE SEGURIDAD. El menor error se presenta para
el caso número 2 con 0.585.
=== Model information ===
Filename: mlpdic2.model
Scheme: weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S
0 -E 20 -H 1
Relation: basededatosDIC-1c (2)-weka.filters.unsupervised.attribute.Remove-R1-
2,6,8,10-12,14-20,25-26,28-weka.filters.unsupervised.instance.RemoveWithValues-S0.0-
Clast-Lfirst-last-V-M-weka.filters.unsupervised.instance.RemoveDuplicates-
weka.filters.unsupervised.instance.RemoveDuplicates-
119
weka.filters.unsupervised.instance.RemoveFrequentValues-Clast-N2-
weka.filters.unsupervised.instance.RemovePercentage-P50.0-
weka.filters.unsupervised.instance.RemovePercentage-P50.0
Attributes: 11
GravedadNombre
ClaseNombre
ChoqueNombre
ObjetoFijoNombre
NombreOtraClase
TipoVia1
Localidad
HoraOcurrencia
TipoDiseño
TipoTiempo
causa
=== Re-evaluation on test set ===
User supplied test set
Relation: plantillaDIC-5
Instances: unknown (yet). Reading incrementally
Attributes: 28
=== Predictions on user test set ===
inst# actual predicted error prediction
120
1 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.827
2 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.585
3 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.844
4 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.594
5 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.841
=== Summary ===
Total Number of Instances 0
Ignored Class Unknown Instances 5
Clasificación utilizando el algoritmo Naive Bayes.
Se muestra la salida del programa con las clases asignadas a cada caso. Para el primero se
asigna la clase OTRA con un error de 0.028, la clase asignada al caso 4 es ADELANTAR
CERRANDO y tiene el menor error de predicción con0.033.
=== Model information ===
Filename: nbdic3-31.model
Scheme: weka.classifiers.bayes.NaiveBayes
Relation: basededatosDIC-1c (2)-weka.filters.unsupervised.attribute.Remove-R1-
2,6,8,10-12,14-20,25-26,28-weka.filters.unsupervised.instance.RemoveWithValues-S0.0-
Clast-Lfirst-last-V-M-weka.filters.unsupervised.instance.RemoveDuplicates-
weka.filters.unsupervised.instance.RemoveFrequentValues-Clast-N3-
weka.filters.unsupervised.instance.RemoveDuplicates-
weka.filters.unsupervised.instance.RemoveFrequentValues-Clast-N2
Attributes: 11
GravedadNombre
ClaseNombre
121
ChoqueNombre
ObjetoFijoNombre
NombreOtraClase
TipoVia1
Localidad
HoraOcurrencia
TipoDiseño
TipoTiempo
causa
=== Classifier model ===
Naive Bayes Classifier
=== Re-evaluation on test set ===
User supplied test set
Relation: plantillaDIC-5
Instances: unknown (yet). Reading incrementally
Attributes: 28
=== Predictions on user test set ===
inst# actual predicted error prediction
1 1:? 8:OTRA 0.928
2 1:? 8:OTRA 0.997
3 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.949
4 1:? 2:ADELANTAR CERRANDO 0.033
5 1:? 8:OTRA 0.99
=== Summary ===
123
6.2. CASO BASE DE DATOS 2.
Una vez construido un modelo utilizando la base de datos 1, se repite el proceso pero esta
vez con la base de datos 2.
Los pasos son los mismos en ambos casos, con la diferencia que los datos son diferentes. El
modelo de accidentes y el de datos que lo representa son los mismos. Por lo tanto se omite la
parte descriptiva de cada paso y se presentan los resultados obtenidos.
Atributo Clase Valores
Numero de
siniestro
Numérico 1-34232
Accidente Numérico
Año Date Dato
Mes Nominal
Dia Numerico
Placa Numerico Dato
Clase vehiculo Nominal Camión, automóvil, remolque, furgón, articulado
Gravedad Nominal Con heridos, solo daños, con muertos
Tipo vehiculo
Marca vehículo Nominal
ClaseNombre Nominal Choque,atropello,otro, caída de ocupante, volcamiento,
autolesión, incendio
ChoqueNombre Nominal Vehículo, objeto fijo, otro, semoviente
ObjetoFijoNombre Nominal Inmueble, vehículo estacionado, muro, árbol, poste,
semáforo, barandas, tarima caseta, valla señal, defensa
metálica, hidrante, separador de calzada, roca, panel
luminoso..
Otra Clase Nominal
NombreOtraClase Nominal Caída dentro del vehículo, aprisionamiento, caída de
objeto sobre el vehículo
Dirección Nominal Dato
TipoVia1 Nominal KR,C,AV,TR,AK, DG , AC
HoraOcurrencia Nominal HORA
TipoDiseño Nominal Intersección, Tramo de vía, Glorieta, Puente, Lote o
predio, paso a nivel, Paso elevado, Paso inferior, Túnel,
Vía troncal, Pontón.
TipoTiempo Nominal Normal, Lluvia, Viento, Lluvia/Lluvia, Normal/normal,
Lluvia/Normal, Normal/Lluvia, Viento/Normal.
Tipo tráfico Nominal Normal, trancón, congestionado, despejado
Género Nominal Hombre,Mujer
Causa Nominal Otra, Desobedecer señal, Adelantar cerrando, Frenar
bruscamente, Reverso imprudente, Adelantar
124
invadiendo vía, Semáforo en rojo, No mantener distancia
de seguridad, Transitar entre vehículos, Exceso de
velocidad, Adelantar en zona prohibida, Embriaguez
aparente, Cruzar en estado de embriaguez, Desobedecer
señales, Poner en marcha un vehículo sin precauciones,
Arrancar sin precaución, Impericia en el manejo,
embriaguez o droga, Girar bruscamente, Transitar con
las puertas abiertas, Salir por delante de un vehículo,
transitar en contravía, Adelantar en curva, Cruzar sin
observar, Adelantar en curva, Dejar o recoger pasajeros
en zona no demarcada,
Ciudad circulación Nominal Otras, Cruzar sin observar, Pararse sobre la calzada,
Salir delante de vehículo, Cruzar en diagonal Cruzar en
curva, Pasar semáforo en rojo, Jugar en la vía. Cruzar
ene estado de embriaguez.
Uso Nominal Fallas en los frenos, Fallas en el exhosto, Fallas en las
luces delanteras, Fallas en direccionales, Otra, Falla en
luces direccionales, Falla en la dirección, Ausencia o
deficiencia
Tabla 16 Atributos base de datos 2, suministrada por la empresa Allianz. Fuente: Allianz
En la tabla 16 se presentan los atributos y valores asociados con la base de datos de
empresas de transporte.
6.2.1. Análisis estadístico base de datos 2.
En la figura 36 a, se observa que para el atributo descripción clase el valor solo camión en
color verde tiene unas frecuencias de 96 conteos, que corresponde al 68.19%, furgón 55
con 30.21% y remolcador 39 con 1.5%.
Para el atributo clase nombre, figura 36 b, las frecuencias y porcentajes son choque 242,
atropello 17, caìda 14, volcamiento 8.
125
El atributo choque nombre, figura 36 c, las frecuencias y porcentajes son vehículo
177,persona 38 objeto fijo 34, motocicleta 17, bicicleta 8.
Para el atributo objeto fijo nombre, figura 36 d, las frecuencias y porcentajes son inmueble
3, vehículo estacionado 5, muro 5, árbol 6, poste 8, defensa metálica 2, hidrante 2.
36aAutomóvil campero bus volqueta furgón camion pickup doble remolcador chasis pick up sencilla n/a remolque padrón complem
articulado
36b Choque robo caída atropello volcamiento otro caída objeto aprisionamiento caída autolesion
126
35c Vehiculo motocicleta obj fijo bicicleta persona semoviente
36 e parqueadero tramo recto (normal) intersección puente curva intersección sin semáforo glorieta lote o predio paso inferior paso elevado paradero parqueo en via
36d Barranco anden poste árbol defensa met hidrante muro inmueble cable luz panel luminoso
127
36 f carretera carrera avenida calle autopista diagonal transversal solo bus
36 g normal lluvia niebla lluvia/niebla
36 h Normal trancon parado despejado congestionado estacionado
36 i Via pavimentada via destapada via en reparación via rizada via con huecos derrumbes
129
Figura 36 Estadística base de datos 2.Fuente elaboración propia WEKA 3.8.
6.2.2. ETAPA DE CLASIFICACION BASE DE DATOS EMPRESAS DE
TRANSPORTE ALLIANZ.
En esta etapa se trata de asignar etiquetas a la variable o variables de predicción, relacionadas
con el conjunto de variables definidas como independientes o predictoras.
El algoritmo seleccionado en primer lugar es el de redes neuronales artificiales descrito
anteriormente.
Una vez obtenido el data set minable de acuerdo con los objetivos del estudio, se procede a
procesar los datos contenidos en el mismo con el algoritmo de perceptrón multicapas.
Se realizaron varias corridas utilizando el algoritmo Perceptrón multicapas. Se seleccionaron
las configuraciones de los clasificadores que presentaron un mejor desempeño de acuerdo
con las métricas estudiadas anteriormente.
En la figura 15 se presentó un diagrama de proceso de la configuración y aplicación de la red
neuronal artificial. Como se mencionó anteriormente como en cualquier algoritmo para
minería de datos el primer paso es el preprocesamiento de los datos para obtener la vista
minable. En segundo lugar, se selecciona la clase de red neuronal a utilizar. En este estudio
se trata del perceptrón multicapas que por su estructura y funcionamiento se asimila a la
estructura de datos disponible.
A continuación, se muestra la configuración del clasificador.
36 m Familiar particular Publico Otros carga Transporte mercancí bus/buseta/micro familiar herramientas otros pu blicos remolque
transporte publico
130
El número de capas ocultas es a, que es igual a:
Número de atributos + número de clases /2 = 11+2/2 = 6.5 aproximadamente 7 capas ocultas.
La tasa de aprendizaje es de 0.3, teniendo en cuenta que el valor no debe de ser muy pequeño
porque el algoritmo se demora más ni muy grande porque puede saltar el valor óptimo que
busca.
El momentum es de 0,2.
Entre los métodos utilizados por el programa para aumentar la precisión del clasificador
están:
Selección de atributos.
Ranker.
Aplicación de filtros-
Aplicación de envoltorios (wrapper).
Selección con principal componente análisis.
El entrenamiento de la red se realizó utilizando el data set minable y el procedimiento
descrito en la sección 5.4.3.1.1.
Durante esta fase, y dependiendo de las características del dataset como ruido, pequeño
número de datos y del clasificador como su complejidad, se pueden presentar algunas
situaciones que disminuyen el rendimiento de la red. cuando las clases están desbalanceadas,
es decir según Singh Maninder existen diferencias apreciables entre el número de instancias
negativas y positivas, especialmente cuando las negativas sobrepasan a las positivas. Estas
pueden ser;
Sobre aprendizaje y sub-aprendizaje.
La sobre adaptación o sobre aprendizaje puede ocurrir cuando el clasificador obtiene un alto
porcentaje de aciertos en entrenamiento, pero pequeño en test, aprende los datos de memoria
y no generaliza. Den la validación cruzada se obtienen porcentajes cercanos al azar, es decir
la índice kappa es cercano a cero. De otro lado si la complejidad del clasificador no es
suficiente de acuerdo con el problema, se produce su adaptación.
131
Para determinar la bondad del proceso de clasificación se utiliza la validación del modelo,
el cual trata de determinar la capacidad de predicción del clasificador. Para ello se utilizan
las métricas y criterios presentados en la sección 5.4.3.1.2. esta actividad es realizada por el
programa Weka, se acuerdo con las opciones y los resultados presentados en la hoja para el
efecto.
Después de correr el programa con la configuración seleccionada del clasificador, en este
caso el perceptrón multicapas, se obtienen los resultados en forma de tablas y gráficas que
resumen las características de desempeño del modelo de acuerdo con las métricas
seleccionadas.
Los resultados obtenidos en Weka se presentan en cuatro bloques de información;
• Resumen.
• Precisión detallada por clase.
• Matriz de confusión.
Gráficas.
Instancias clasificadas correctamente.
La tabla muestra que el número de instancias clasificadas correctamente fue de 129 esto indica que
el 68.2% se clasificaron de forma correcta. Hubo 48 instancias clasificadas incorrectamente.
Al observar el valor del indicador Kappa, es mayor de 0 ( 0,543), esto significa que el número de
aciertos es mayor al que se podría obtener aleatoriamente, lo cual significa un buen resultado para el
algoritmo. Del análisis del error absoluto relativo se observa un valor de 45,66% que no es muy alto.
132
Figura 37 Configuración del perceptrón multicapas utilizado en la fase de clasificación de
causa de accidente. Fuente: elaboración propia programa Weka 3.8.
=== Stratified cross-validation ====== Summary ===
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 129 72.8814 %
Incorrectly Classified Instances 48 27.1186 %
Kappa statistic 0.5437
Mean absolute error 0.0118
Root mean squared error 0.0952
Relative absolute error 39.2143 %
Root relative squared error 81.4138 %
Total Number of Instances 177
Tabla Resumen métricas Perceptron multicapas. Fuente; elaboración propia WEKA 3.8.
133
En la tabla análisis detallado por clase, se muestran los valores de los indicadores Tasa de
verdaderos positivos 0.0 que es un valor adecuado a lo esperado,729 , tasa de falsos positivos
0.093 bastante baja, recall 0.729, F mesure 0,925, área bajo la curva ROC 0.918 en promedio
cercano a 1, área PRC 0.739. En esta tabla se incluyen todos los valores de la variable causa,
aunque se mantuvieron solamente los dos con frecuencias más altas. Por esa razón en la tabla
los indicadores figuran con un signo de interrogación. El treshold es 0.5 , el accuracy es la
suma de predicciones verdaderas sobre la suma de todas las clasificaciones no figura en la
tabla , la medida F es 0.753 en promedio,
El valor de recall o cobertura indica que el 72.9% de las instancias han sido clasificadas
correctamente.
La precisión indica que del total de términos clasificados, este porcentaje se hizo
correctamente no está definida.
Para el indicador F no figura el promedio, sin embargo, para la clase mayoritaria reversa imprudente,
su valor es de 0.943 los cual significa que este valor es 0,925 lo cual significa que la relación entre
la tasa de verdaderos positivos y la suma de las predicciones sin tener en cuenta los verdaderos
negativos, es relativamente alta, es decir la media armónica de la precisión y la cobertura.
En la tabla 18 se presenta la matriz de confusión, que muestra 99 aciertos para la clase
reversa sin precaución, y 44 aciertos para la segunda clase que es no mantener distancia de
seguridad. .
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
? 0,000 ? ? ? ? ? ? conducir sin precaución
? 0,000 ? ? ? ? ? ? Invasión de carril
? 0,000 ? ? ? ? ? ? Hurto en parquedero
? 0,000 ? ? ? ? ? ? impericia
? 0,000 ? ? ? ? ? ? no mantener distancia de
seguridad
? 0,000 ? ? ? ? ? ? adelantamiento
? 0,000 ? ? ? ? ? ? Descuido conductores
0,000 0,006 0,000 0,000 0,000 -0,006 0,523 0,012 Falla Mécanica
0,000 0,000 ? 0,000 ? ? 0,906 0,243 Distancia Incadecuada
0,000 0,000 ? 0,000 ? ? 0,040 0,006 Exceso de Velocidad
? 0,000 ? ? ? ? ? ? Cruce imprudente
? 0,000 ? ? ? ? ? ? Imprudencia
134
0,000 0,000 ? 0,000 ? ? 0,769 0,212 impericia
0,609 0,104 0,467 0,609 0,528 0,452 0,893 0,496 conducir sin precaucion
0,000 0,006 0,000 0,000 0,000 -0,014 0,888 0,226 invadir carril
0,625 0,144 0,405 0,625 0,492 0,405 0,885 0,436 no mantener distancia de
seguridad
0,000 0,000 ? 0,000 ? ? 0,534 0,012 semoviente en la via
0,971 0,108 0,926 0,971 0,948 0,873 0,978 0,987 reversa sin precaucion
0,000 0,000 ? 0,000 ? ? 0,880 0,079 desacato normas
0,000 0,000 ? 0,000 ? ? 0,589 0,020 ASEGURADO
0,000 0,000 ? 0,000 ? ? 0,714 0,029 Sin determinar
? 0,000 ? ? ? ? ? ? adelantar en curva
? 0,000 ? ? ? ? ? ? microsueño
? 0,000 ? ? ? ? ? ? DAÑO CONTRA ARBOL
? 0,000 ? ? ? ? ? ? llanta pinchada
? 0,000 ? ? ? ? ? ? sobrepaso sin precaucion
? 0,000 ? ? ? ? ? ? cruzar semaforo en rojo
0,000 0,000 ? 0,000 ? ? 0,525 0,031 girar sin precaucion
? 0,000 ? ? ? ? ? ? NO SE ASEGURA BIEN LA CARGA
-REVISAR AMARRES
? 0,000 ? ? ? ? ? ? CONFIRMACION PTD
? 0,000 ? ? ? ? ? ? CODIFICACION 103 SEGÚN
CROQUIS Y PARA EL TERCERO 102
? 0,000 ? ? ? ? ? ? giro prohibido
? 0,000 ? ? ? ? ? ? adelantar cerrando
? 0,000 ? ? ? ? ? ? frenar bruscamente
? 0,000 ? ? ? ? ? ? desobedecer señales
? 0,000 ? ? ? ? ? ? cierre de puertas
? 0,000 ? ? ? ? ? ? DAÑOS DE LA NATURALEZA
? 0,000 ? ? ? ? ? ? adelantar invadiendo carril
? 0,000 ? ? ? ? ? ? cruzar sin observar
? 0,000 ? ? ? ? ? ? PADRON
? 0,000 ? ? ? ? ? ? embriaguez evidente
? 0,000 ? ? ? ? ? ? ARTICULADO
? 0,000 ? ? ? ? ? ? COMPLEMENTARIO
? 0,000 ? ? ? ? ? ? MPRUDENCIA DEL ASEGURADO
? 0,000 ? ? ? ? ? ? DESCUIDO CONTRARIO
135
? 0,000 ? ? ? ? ? ? HURTO PARQUEADERO
? 0,000 ? ? ? ? ? ? HURTO EN LA VIA
Weighted Avg. 0,729 0,096 ? 0,729 ? ? 0,915 0,718
Tabla 18 resumen de resultados weka. Algoritmo perceptrón multicapas. Fuente: elaboración propia programa Weka 3.8.
=== Confusion Matrix ===
a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au <-- classified as
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = conducir sin
precaución
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | b = Invasión de carril
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | c = Hurto en parquedero
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | d = impericia
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | e = no mantener
distancia de seguridad
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | f = adelantamiento
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | g = Descuido
conductores
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | h = Falla Mécanica
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | i = Distancia
Incadecuada
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | j = Exceso de Velocidad
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | k = Cruce imprudente
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | l = Imprudencia
0 0 0 0 0 0 0 0 1 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | m = impericia
0 0 0 0 0 0 0 0 1 0 0 0 0 12 0 6 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | n = conducir sin
precaucion
0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | o = invadir carril
136
0 0 0 0 0 0 0 0 0 1 0 0 0 6 2 14 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | p = no mantener
distancia de seguridad
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | q = semoviente en la
via
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | r = reversa sin
precaucion
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | s = desacato normas
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | t = ASEGURADO
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | u = Sin determinar
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | v = adelantar en curva
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | w = microsueño
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | x = DAÑO CONTRA ARBOL
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | y = llanta pinchada
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | z = sobrepaso sin
precaucion
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aa = cruzar semaforo en
rojo
0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ab = girar sin
precaucion
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ac = NO SE ASEGURA BIEN
LA CARGA -REVISAR AMARRES
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ad = CONFIRMACION PTD
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ae = CODIFICACION 103
SEGÚN CROQUIS Y PARA EL TERCERO 102
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | af = giro prohibido
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ag = adelantar cerrando
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ah = frenar bruscamente
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ai = desobedecer señales
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aj = cierre de puertas
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ak = DAÑOS DE LA
NATURALEZA
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | al = adelantar
invadiendo carril
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | am = cruzar sin observar
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | an = PADRON
137
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ao = embriaguez evidente
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ap = ARTICULADO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | aq = COMPLEMENTARIO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | ar = MPRUDENCIA DEL
ASEGURADO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | as = DESCUIDO CONTRARIO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | at = HURTO PARQUEADERO
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | au = HURTO EN LA VIA
Tabla 19 Matriz de confusión modelo perceptrón multicapa
138
Análisis de las gráficas.
En las figuras 30 a 34 se presenta en forma gráfica la información más representativa para
evaluar el modelo clasificador.
Análisis de curva margen de predicción (margin curve).
Esta curva representa el margen de predicción, es decir la diferencia entre el valor de
probabilidad para la clase predicha y el valor de la probabilidad más alta para las clases
diferentes a la predicha. Entre más alto sea este valor hay mayor certeza de que la predicción
sea correcta, ya que hay un mayor margen para equivocarse.
Un margen de 1 significa que la confiabilidad de la predicción es del 100% mientras un
margen de -1 significa lo contrario, es decir que la confiabilidad es de predicción de una clase
incorrecta es del 100%. Como el valor mínimo en la gráfica es de -0.33 para la instancia 1, y
comienza a aumentar para las otras instancias, quiere decir que el margen va aumentando a
medida que se aumenta el número de instancias y para 2651 instancias, que son las que se
analizaron es de 0.33 que representa una confiabilidad de 33%, que, aunque no es el valor
óptimo (100%) tampoco es un valor tan bajo. Esto significa que entre mayor sea el número
de instancias analizadas, mayor el valor del margen de predicción y por lo tanto la
confiabilidad de la predicción.
Análisis de curva PRC (Recall-Precisión).
El área bajo la curva RP (recall-precision) es de 0.794 que es un valor alto. Para el sistema
bajo estudio resulta más útil considerar el valor ROC, ya que el RPC se utiliza más cuando
es más importante acertar en una clase que en otras, por ejemplo “buscar una aguja en un
pajar”. En e l caso bajo estudio, si la clase “no respetar distancia de seguridad” fuera más
importante que la clase otras, o la clase adelantar cerrando, ò huecos, sería mejor aplicar la
curva PRC ya que no debería dejarse por fuera del clasificador ningún caso, es decir el
algoritmo clasificador no debería dejar de clasificar correctamente ningún caso de no respetar
distancia de seguridad, pero esta no es la situación bajo estudio.
Análisis de curva de error.
Se muestran las instancias bien clasificadas con una cruz y las mal clasificadas con un
cuadrado, para cada valor del atributo causa. Se observa una mayor cantidad de instancias
bien clasificadas (cruces) para la clase no mantener distancia de seguridad en color azul y
para la clase otra en color rojo.
Análisis de la curva ROC.
El área bajo la curva ROC es de 0.783. el rango de valores recomendado para un buen
modelo según y está entre 0.75 y 1. En este caso el valor está por encima de 0.75. Esto
139
significa que puede clasificar correctamente los verdaderos positivos y los verdaderos
negativos. La forma de la curva ROC está dentro de las que son aceptables. Este valor es
mayor al encontrado en el perceptrón multicapas.
Análisis de la curva costo.
Se puede observar que la envolvente inferior tiene el punto más bajo en aproximadamente
0.3 que corresponde al máximo costo esperado y es sensiblemente menor que el encontrado
para el perceptrón multicapas. Des de este punto de vista este algoritmo es más adecuado
para la clasificación de las causas de accidentes.
140
Gráficas.
Figura 38 Margin curve. Fuente: elaboración propia programa Weka 3.8.
Figura 39 Treshold Recall Precision curve.
Fuente: elaboración propia programa Weka 3.8.
141
Figura 40 Errores del clasificador. Fuente: elaboración propia programa Weka 3.8.
Figura 41 Curva ROC y curva Costo beneficio. Fuente: elaboración propia programa Weka
3.8.
143
6.3. MODELO DE CAUSA RAIZ.
La segunda parte del modelo consiste en construir un algoritmo para realizar una
aproximación al análisis y determinación de la causa o causas básicas de los accidentes de
tránsito. Siguiendo la metodología explicada, esta aproximación se realiza a partir de la causa
básica o próxima.
En este caso, se dificulta utilizar técnicas de minería de datos por no disponer de los mismos
y por constituir una característica de cada accidente en particular. Debido a que las categorías
de causa raíz; factores humanos y factores del trabajo están relacionados estrechamente con
las características particulares de las personas que participan en el accidente, ya sea
conductor, peatón, pasajero, mecánicos de mantenimiento, supervisores de la flota de
transporte, etc., y de la organización, es difícil obtener información con algún nivel de detalle
para realizar este análisis.
Por estas razones construir un algoritmo que realice la predicción ò clasificación basándose
en la causa básica no es lo más apropiado al problema bajo estudio. Esta fase se debe realizar
utilizando la participación de expertos los cuales a partir de una información clasificada
sistemáticamente pueda llegar a determinar la causa o causas más probables de los
accidentes.
Se propone entonces con base en los conceptos presentados en el apartado y el método
DREAM 3.0, la construcción de un algoritmo que proporcione reglas de decisión que sirvan
como punto de partida para que los expertos puedan llegar a conclusiones acordes con las
particularidades del caso, siguiendo el procedimiento de investigación de accidentes.
Este modelo no busca realizar una provisión de explicaciones de la causa del accidente, sino
ser un organizador de las mismas, por lo tanto para que los factores contribuyentes a un
accidente puedan ser aplicables al mismo, deben ser soportados por información empírica
relevante obtenida a partir del accidente. Se trata de clasificar y organizar la información
obtenida de los accidentes con el objetivo de identificar de forma estructurada las causas
detrás del accidente expresadas en un conjunto de categorías formalmente definidas de los
factores contribuyentes. Si no existe esta información, no es posible realizar la clasificación.
Por esta razón se ha decidido utilizar un algoritmo cuya salida sean reglas de decisión con
información que debe ser validada en el proceso de investigación de accidentes con la
obtenida por el análisis particular del accidente.
El modelo proporciona pues un punto de partida, no de llegada para la determinación de la
causa raíz del accidente.
6.3.1. Construcción de la base de datos para causa básica o raíz.
144
Se ha diseñado entonces una base de datos con 20 campos, que corresponden a la causa
próxima probable del accidente encontrada en la primera parte del modelo mediante la
técnica de perceptrón multicapas, y a los factores coadyuvantes en la ocurrencia del mismo,
clasificados en 19 categorías, que a su vez dentro del modelo de datos mostrado en la figura
17 corresponden a los niveles de atributos / variables con los respectivos valores que puede
tomar cada atributo.
Para la elaboración de la base de datos se toma cada uno de los valores del atributo causa
próxima y se establece una relación con los valores de la posible causa raíz expresados en
los valores de los 19 atributos mencionados.
Al comparar el modelo de datos propuesto con el presentado en DREAM 3.0, se observan
unas coincidencias y diferencias en la forma de clasificar los factores de riesgo expresados
como atributos o como fenotipos y genotipos.
Mientras en el modelo propuesto en este trabajo se utilizan las 19 categorías o atributos para
agrupar las posibles causa raíz, en el DREAM 3.0 se utilizan 23 categorías para agrupar
genotipos generales.
Retomando los factores y variables asociadas a los mismos definidos en la tabla 5 y los
criterios de clasificación de genotipos y su relación entre ellos y con los fenotipos definidos
en el método DREAM 3.0, se ha realizado un arreglo para establecer las relaciones entre los
mismos y la causa próxima identificada por el algoritmo obtenido en la primera parte del
modelo.
Para que la base de datos sea representativa se deben establecer de forma clara los posibles
valores de las categorías o atributos de causa raíz y de otro lado establecer las relaciones
mencionadas.
Se debe mencionar que las combinaciones de valores pueden ser numerosas, sin embargo la
clasificación realizada en DREAM 3.0 ayuda a definir las más probables.
La base de datos se elaboró con base a la experiencia, se tomó una causa inmediata como por
ejemplo no mantener distancia de seguridad, y de las diferentes causas asociadas con factores
humanos, se asignaron los más probables, por ejemplo esto puede ocurrir debido a temas
relacionados con la seguridad como los mencionados anteriormente, o características
humanas como reacción demorada o lentitud, percepción equivocada del riesgo, desatención
como hablar por teléfono, actitud relajada, entre otras razones o debidas a comportamiento
humano como carácter, cultura, faltas de disciplina, o en temas relacionados con la seguridad
como actos inseguros o pasar por alto situaciones riesgosas, o con el vehículo como falla
mecánica,
145
En DREAM 3.0 los genotipos relacionados pueden ser miedo, fatiga, conducir bajo la
influencia de sustancias, discapacidad funcional súbita, limitación temporal de acceso, falla
de equipo, mal juzgamiento de tiempo o distancia, viento lateral fuerte.
Para seleccionar las relaciones, se ha realizado primero una homologación de los genotipo
con los atributos de la base de datos 3, y después se ha utilizado la tabla de relaciones entre
fenotipos y genotipos de la tabla del anexo y la relación entre genotipos de la tabla . el
resultado es la base de datos 3 utilizada para el algoritmo de clasificación PART.
Es de anotar que esta base de datos puede ser mejorada en la medida en que se tenga acceso
a datos relacionados con el tema, y la participación de los expertos sea mayor.
Los factores de riesgo asociados a las causas básicas de accidentes de tránsito en empresas
de transporte, se han clasificado en las siguientes categorías definidas en la tabla ,
• Características humanas.
• Comportamiento humano.
• Fatiga.
• Capacidad de estrés físico/fisiológico.
• Capacidad de estrés sicológico.
• Conocimiento/competencia/entrenamiento inadecuado.
• Problemas de comunicación.
• Cultura de equipo inadecuada.
• Temas relacionados con seguridad.
• Factores de falta de comunicación.
• Tripulación inadecuada.
• Falla mecánica.
• Mantenimiento inadecuado.
• Inadecuada selección del proveedor.
• Factores ambientales.
• Ambiente de trabajo.
146
• Reglas estándares procedimientos.
• Gestión.
• Evaluación del riesgo.
• Causa próxima.
Los valores que pueden tomar estos atributos figuran en el anexo de la base de datos 3 y en
la tabla 5.
6.3.2. Aplicación de la técnica PART para determinar la causa raíz de a accidentes
de tránsito en empresas de transporte.
Partiendo de la causa próxima se utiliza la plantilla con las principales causas asociadas con
ella, que figuran en la tabla 5.
La base de datos que se ha construido consta de 550 instancias. Para la construcción de esta
base de datos se ha utilizado la experiencia de personas que han laborado en el sector
transporte así como los documentos elaborados por Aslan y DREAM 3.0, así como
Se parte del principio de que los factores que participan en la materialización de un accidente
no están necesariamente relacionados entre ellos ni jerarquizados. Esto significa que la red
que incluye los factores que son coadyuvantes en la ocurrencia del accidente y no
necesariamente determinantes del mismo.
Estos factores de acuerdo con numerosos estudios están relacionados con condiciones de las
personas y en mucho menor cantidad con los vehículos o las vías. Por esta razón los factores
relacionados con las personas son mucho más numerosos que los de los vehículos y vía.
Aunque pueden existir diferentes factores contribuyentes a un mismo accidente, en la
construcción de la base de datos se ha tratado de colocar simultáneamente un número máximo
para disminuir la complejidad del modelo de datos y porque además no es muy común que
al mismo tiempo se presenten varios factores similares como por ejemplo los relacionados
con fatiga, estrés físico, estrés sicológico, características humanas, comportamiento humano
y por otro lado de gerencia y organización.
En la tabla se presentan los factores generales y específicos contribuyentes utilizados en la
base de datos.
En la figura 35 parte izquierda se presenta el histograma para la clase causa raíz
características humanas. En el eje horizontal se representan las 8 clase o valores de la variable
(atributo) causa raíz características humanas. En el eje vertical, los conteos o frecuencias.
147
En la parte derecha se presenta la causa próxima o inmediata con sus 20 valores posibles,
tomados de la tabla 8, con los histogramas estratificados para la causa raíz, representados en
diferentes colores.
Por ejemplo, la primera columna corresponde al valor de causa próxima desobedecer señales
con 12 conteos, y de los doce hay cuatro colores sobrepuestos; azul oscuro, rojo, aguamarina
y amarillo, los cuales corresponden a cuatro valores diferentes de la variable causa raíz
características humanas, y así para las demás barras del histograma.
La mayor frecuencia para la causa raíz, en el diagrama de la izquierda, corresponde a la clase
o valor temas relacionados con seguridad, que incluyen factores como: actos inseguros,
acciones imprevistas como acciones inoportunas, falta de memoria, pasar por alto
situaciones, acciones inapropiadas tendientes a ahorrar tiempo, esfuerzo, o evitar
incomodidad, sabotaje.
En segundo lugar está el comportamiento humano con 101 conteos en color azul. Este valor
de la variable incluye, de acuerdo con la tabla 5, circunstancias como: cultura, carácter y falta
de disciplina de las personas.
6.3.3. Modelo PART.
A partir de la base de datos causa raíz se construyó un modelo de clasificación utilizando la
técnica PART incluida en el programa WEKA 3.8. Este clasificador se configuró con los
parámetros mostrados en la figura con la configuración mostradas en la figura 36. El
número mínimo de atributos incluidos en las reglas de decisión se ha fijado en 3.
Se obtuvieron los resultados mostrados a continuación:
Reglas de decisión obtenidas a partir del modelo PART.
148
Figura 43 Configuración de la técnica PART en Weka.
A continuación se presentan los resultados obtenidos a partir de la aplicación de la técnica
PART utilizando la base de datos número 3 para causa raíz, partiendo de la causa próxima
identificada en la primera parte del modelo.
=== Classifier model (full training set) ===
PART decision list
------------------
fatiga = Fatiga debida a falta de descanso: microsueño (27.82/2.82)
caracteristicas humanas = desatencion AND
temas relacionados con seguridad = precausiones inadecuadas: frenar
bruscamente (24.76/1.76)
fatiga = Fatiga debida a sobrecarga sensorial: microsueño (26.68/2.84)
caracteristicas humanas = competencia AND
capacidad estrés fisico/fisiologico = deficiencias sensoriales: no
mantener distancia de seguridad (23.61/2.61)
149
caracteristicas humanas = competencia: estacioanar sin seguridad
(17.45/3.45)
capacidad estrés sicologico = carga emocional AND
fatiga = por falta de descanso: reverso imprudente (21.0/3.0)
capacidad estrés sicologico = carga emocional AND
fatiga = demanda percepcion/concentracion extrema: en contravia (21.0)
caracteristicas humanas = complacencia: semaforo en rojo (13.38/0.38)
caracteristicas humanas = incomunicacion AND
temas relacionados con seguridad = actos inseguros: semaforo en rojo
(9.26/1.26)
caracteristicas humanas = percepcion de riesgo AND
fatiga = demanda percepcion/concentracion extrema AND
comportamiento humano = carácter: no mantener distancia de seguridad
(58.0/1.0)
capacidad estrés sicologico = carga emocional AND
caracteristicas humanas = habilidad de percepcion AND
fatiga = por sobrecarga sensorial: en contravia (16.0/4.0)
capacidad estrés sicologico = carga emocional AND
caracteristicas humanas = habilidad de percepcion: no respetar
prelacion de intersecciones o giros (16.59/7.59)
caracteristicas humanas = percepcion de riesgo AND
fatiga = demanda percepcion/concentracion extrema AND
temas relacionados con seguridad = precausiones inadecuadas: exceso de
velocidad (18.0)
caracteristicas humanas = percepcion de riesgo AND
capacidad estrés fisico/fisiologico = sensibilidad: no mantener
distancia de seguridad (23.9/0.9)
capacidad estrés sicologico = uso de alcohol/droga: no respetar
prelacion de intersecciones o giros (14.55/2.55)
caracteristicas humanas = habilidad de percepcion AND
temas relacionados con seguridad = precausiones inadecuadas: no mantener
distancia de seguridad (47.15/3.44)
caracteristicas humanas = habilidad de percepcion AND
150
temas relacionados con seguridad = actos inseguros AND
fatiga = demanda percepcion/concentracion extrema: exceso de velocidad
(20.0)
caracteristicas humanas = habilidad de percepcion AND
temas relacionados con seguridad = falta de cultura de seguridad: invadir
carril (59.86/21.13)
capacidad estrés fisico/fisiologico = deficiencias sensoriales AND
fatiga = por falta de descanso: desobedecer señales (15.38/0.38)
capacidad estrés fisico/fisiologico = deficiencias sensoriales: semaforo
en rojo (15.0/2.0)
fatiga = por falta de descanso: adelantar invadiendo via (17.0/6.0)
fatiga = rutina/monotonia vigilancia AND
factores de falta de motivacion = presion jerarquica AND
temas relacionados con seguridad = precausiones inadecuadas: exceso de
velocidad (15.0)
fatiga = demanda por decisión/juicio extremo: no mantener distancia de
seguridad (9.0)
fatiga = rutina/monotonia vigilancia AND
temas relacionados con seguridad = precausiones inadecuadas: no mantener
distancia de seguridad (7.0)
fatiga = por sobrecarga sensorial: frenar bruscamente (9.0/4.0)
fatiga = por carga o duracion del trabajo: embriaguez o droga (6.0/1.0)
: en contravia (9.61/4.61)
Number of Rules : 27
Time taken to build model: 0.09 seconds
=== Predictions on test data ===
inst#,actual,predicted,error,prediction
=== Classifier model for fold 1 ===
PART decision list
------------------
fatiga = Fatiga debida a falta de descanso: microsueño (25.58/2.58)
caracteristicas humanas = desatencion AND
151
temas relacionados con seguridad = precausiones inadecuadas: frenar
bruscamente (22.6/1.6)
fatiga = Fatiga debida a sobrecarga sensorial: microsueño (24.51/2.6)
caracteristicas humanas = competencia AND
capacidad estrés fisico/fisiologico = deficiencias sensoriales: no
mantener distancia de seguridad (22.55/2.55)
caracteristicas humanas = competencia: estacioanar sin seguridad
(15.37/3.37)
capacidad estrés sicologico = carga emocional AND
fatiga = por falta de descanso: reverso imprudente (18.0/2.0)
capacidad estrés sicologico = carga emocional AND
caracteristicas humanas = percepcion de riesgo AND
factores de falta de motivacion = presion jerarquica: en contravia
(16.42/0.42)
caracteristicas humanas = complacencia: semaforo en rojo (13.34/0.34)
caracteristicas humanas = lentitud de reaccion: desobedecer señales
(8.21/0.21)
capacidad estrés sicologico = uso de alcohol/droga: no respetar
prelacion de intersecciones o giros (14.36/2.36)
caracteristicas humanas = incomunicacion AND
capacidad estrés fisico/fisiologico = uso de alcohol/droga: frenar
bruscamente (7.18/2.18)
capacidad estrés sicologico = carga emocional AND
caracteristicas humanas = habilidad de percepcion: en contravia
(31.81/11.81)
caracteristicas humanas = percepcion de riesgo AND
fatiga = demanda percepcion/concentracion extrema AND
comportamiento humano = carácter: no mantener distancia de seguridad
(55.0/1.0)
temas relacionados con seguridad = precausiones inadecuadas AND
fatiga = demanda percepcion/concentracion extrema: exceso de velocidad
(19.99/1.99)
temas relacionados con seguridad = precausiones inadecuadas AND
fatiga = por sobrecarga sensorial: no mantener distancia de seguridad
(17.87/2.05)
152
temas relacionados con seguridad = precausiones inadecuadas AND
fatiga = rutina/monotonia vigilancia AND
factores de falta de motivacion = falta de incentivos: no mantener
distancia de seguridad (16.68)
caracteristicas humanas = habilidad de percepcion AND
temas relacionados con seguridad = precausiones inadecuadas: no mantener
distancia de seguridad (20.85/1.56)
caracteristicas humanas = habilidad de percepcion AND
temas relacionados con seguridad = actos inseguros AND
fatiga = demanda percepcion/concentracion extrema: exceso de velocidad
(19.0)
caracteristicas humanas = habilidad de percepcion AND
temas relacionados con seguridad = falta de cultura de seguridad: invadir
carril (53.93/19.79)
capacidad estrés fisico/fisiologico = deficiencias sensoriales AND
temas relacionados con seguridad = actos inseguros: semaforo en rojo
(17.19/1.19)
fatiga = rutina/monotonia vigilancia AND
temas relacionados con seguridad = precausiones inadecuadas: exceso de
velocidad (10.0)
fatiga = por falta de descanso AND
caracteristicas humanas = percepcion de riesgo: adelantar invadiendo
via (16.0/5.0)
fatiga = demanda por decisión/juicio extremo: no mantener distancia de
seguridad (9.0)
fatiga = demanda percepcion/concentracion extrema: no mantener
distancia de seguridad (7.0)
fatiga = rutina/monotonia vigilancia : en contravia (6.0/2.0)
fatiga = por carga o duracion del trabajo: embriaguez o droga (6.0/1.0)
: desobedecer señales (10.54/5.54)
Number of Rules : 27
Tabla 20 Reglas de decisión obtenidas a partir de la técnica PART. Fuente: elaboración
propia WEKA 3.8.
153
=== Classifier model (full training set) ===
=== Run information ===
Scheme: weka.classifiers.rules.PART -M 3 -C 0.25 -Q 1
Relation: crjunio23-2019-
weka.filters.unsupervised.attribute.StringToNominal-Rfirst-last-
weka.filters.unsupervised.attribute.Remove-R11-14
Instances: 549
Attributes: 18
caracteristicas humanas
comportamiento humano
capacidad estrés fisico/fisiologico
capacidad estrés sicologico
fatiga
conocimiento/competencias/entrenamiento inadecuado
problemas de comunicación
cultura equipo inadecuada
temas relacionados con seguridad
factores de falta de motivacion
Factores ambientales
Ambiente de trabajo
Procedimiento
reglas y estándares
Reglas estándares y políticas
Gestión
Evaluación del riesgo
causa proxima
Test mode: 10-fold cross-validation
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 524 95.4463 %
154
Incorrectly Classified Instances 25 4.5537 %
Kappa statistic 0.9463
Mean absolute error 0.0091
Root mean squared error 0.0754
Relative absolute error 7.4655 %
Root relative squared error 30.6183 %
Total Number of Instances 549
Se obtuvo un porcentaje de 53% de instancias correctamente clasificadas, un indicador
kappa de 0.3588, error relativo absoluto de 78.352, error medio absoluto de 0.1531, área
bajo la curva ROC 0.757 que es un valor entre 0.75 y 1 para un buen desempeño.
A continuación se presentan la precisión detallada por clase y la matriz de confusión.
155
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 desobedecer señales
0,966 0,000 1,000 0,966 0,982 0,982 0,983 0,967 frenar bruscamente
0,941 0,004 0,941 0,941 0,941 0,937 0,999 0,990 semaforo en rojo
0,945 0,006 0,945 0,945 0,945 0,939 0,989 0,970 exceso de velocidad
1,000 0,006 0,938 1,000 0,968 0,965 0,998 0,967 en contravia
0,952 0,002 0,952 0,952 0,952 0,950 0,976 0,950 no respetar prelacion de
intersecciones o giros
0,833 0,006 0,833 0,833 0,833 0,828 0,990 0,802 estacioanar sin seguridad
0,978 0,005 0,989 0,978 0,983 0,975 0,999 0,998 no mantener distancia de
seguridad
1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 Otra
1,000 0,004 0,931 1,000 0,964 0,963 0,998 0,935 reverso imprudente
0,857 0,013 0,632 0,857 0,727 0,728 0,955 0,549 adelantar invadiendo via
0,000 0,000 ? 0,000 ? ? 0,918 0,227 adelantar en zona prohibida
0,875 0,004 0,778 0,875 0,824 0,822 0,934 0,582 embriaguez o droga
1,000 0,000 1,000 1,000 1,000 1,000 1,000 1,000 microsueño
Weighted Avg. 0,954 0,004 ? 0,954 ? ? 0,993 0,951
Weighted Avg. 0,954 0,004 ? 0,954 ? ? 0,993 0,951
Tabla 21 Métricas obtenidas a partir de la técnica PART para causa raíz. Fuente: Elaboración propiua
PART 3.8
=== Confusion Matrix ===
a b c d e f g h i j k l m n <-- classified as
17 0 0 0 0 0 0 0 0 0 0 0 0 0 | a = desobedecer señales
0 28 0 0 0 0 1 0 0 0 0 0 0 0 | b = frenar bruscamente
0 0 32 0 0 1 1 0 0 0 0 0 0 0 | c = semáforo en rojo
0 0 2 52 1 0 0 0 0 0 0 0 0 0 | d = exceso de velocidad
0 0 0 0 45 0 0 0 0 0 0 0 0 0 | e = en contravía
0 0 0 0 0 20 1 0 0 0 0 0 0 0 | f = no respetar prelación de intersecciones
o giros
156
0 0 0 0 1 0 15 2 0 0 0 0 0 0 | g = estacionar sin seguridad
0 0 0 3 1 0 0 176 0 0 0 0 0 0 | h = no mantener distancia de seguridad
0 0 0 0 0 0 0 0 43 0 0 0 0 0 | i = Otra
0 0 0 0 0 0 0 0 0 27 0 0 0 0 | j = reverso imprudente
0 0 0 0 0 0 0 0 0 2 12 0 0 0 | k = adelantar invadiendo vía
0 0 0 0 0 0 0 0 0 0 6 0 2 0 | l = adelantar en zona prohibida
0 0 0 0 0 0 0 0 0 0 1 0 7 0 | m = embriaguez o droga
0 0 0 0 0 0 0 0 0 0 0 0 0 50 | n = micro sueño
Tabla 22 Matriz de confusión obtenido por la técnica PART para causa raíz. Fuente:
Elaboración propia WEKA 3.8
157
6.3.4. EJEMPLO DE APLICACIÓN DEL MODELO.
A continuación se presenta la aplicación del modelo a un caso real tomado de la base de
datos suministrada por la empresa Allianz.
Algunos detalles se excluyen por constituir información reservada.
RECOLECCION DE INFORMACION DEL ACCIDENTE.
De acuerdo con la información suministrada por las personas responsables de la operación
en la empresa Iceberg, el vehículo de placas SKL458 entró a revisión al taller el día 4 de
abril de 2011 y salió el día 5 de abril. Se realizaron entre otras actividades el cambio de
mangueras de conducción de aire desde la unidad tractora hasta el remolque, y ajuste de
los frenos. Según el conductor, solicito expresamente la revisión de este sistema.
El vehículo salió con carga con destino hacia Venezuela el día 5 de abril a las 4pm., a
cargo del conductor Faiver Iván Paloma. Esa noche, el conductor guardó el vehículo con
la carga y se alojó en un hospedaje en la vía.
El día 6 de abril el conductor continuó su viaje y hacia las 8:30 a.m. cuando iba en terreno
de descenso al intentar frenar según su versión; el sistema no respondió, produciéndose
un volcamiento de este. De acuerdo con el croquis suministrado por la empresa, el
accidente ocurrió en una curva pronunciada. El documento elaborado por la autoridad de
tránsito, no señala presencia de huellas en la vía debido a frenado, derrape, o
deslizamiento del vehículo sobre la misma.
Se realizó una inspección del vehículo en el patio de Iceberg el día 11 de abril. Debido al
estado de este, no fue posible revisar en detalle componentes de interés, particularmente
del sistema de frenos. Se presenta el resultado de la revisión de los sistemas, la cual como
se anota fue realizada visualmente. Se revisó con especial atención el sistema de frenos,
dada la declaración de conductor.
Sin embargo, se hace énfasis más adelante en la conveniencia de realizar una revisión
detallada del sistema mencionado, con el objeto de determinar la integridad en cuanto a
su funcionamiento, teniendo en cuenta que según la versión del conductor el accidente se
debió a una falla en el mismo. También es de interés poder obtener la información sobre
los datos de operación del vehículo, almacenada en el computador de este. Por tratarse de
un motor Cummins, se requeriría el uso del sistema Insite.
Condición tecno mecánica.
Durante la revisión del vehículo, se pudo determinar un gran daño en la parte estructural,
perdida de integridad estructural del chasis de la unidad tractora, pérdida en la integridad
estructural de la carrocería del remolque así como en su cerramiento, perdida en la
integridad de la unidad de enfriamiento.
159
Figura 44. Documento de levantamiento del accidente. Suministrado por transportes
Iceberg a Allianz.
160
Dado el estado de este, no es posible realizar una puesta en marcha de la unidad motriz,
sin antes realizar un acondicionamiento detallado de la misma.
Sistema de frenos.
Al revisar los componentes del sistema de frenos, se hace notar que el sistema de frenado
de emergencia probablemente fue activado, pero no se ha determinado si esto ocurrió por
falla en el suministro de aire antes del volcamiento, o fue producto de un daño después
del mismo.
En la inspección visual se observa lo siguiente:
Compresor.
No se observa deterioro exteriormente, la correa se encuentra en su lugar. Las conexiones
de aire tubería y mangueras están en su sitio y no se observa deterioro en los mismos.
Regulador de presión.
Se observa en buenas condiciones exteriormente, así como sus conexiones.
Depósitos de aire.
Se observa en buena condición exteriormente. Las conexiones están en su sitio en buena
condición.
Secador de aire.
Está ubicado al interior del tanque secador y no se observa su estado desde afuera.
Conducciones.
Se observan exteriormente en buenas condiciones.
Válvula de pedal.
A pesar de que el impacto desplazo parte del torpedo en el lado d la válvula, se observa
en buena condición, aunque el acceso es un poco difícil.
Válvula repartidora.
Se observa exteriormente en buen estado.
Válvula de descarga rápida.
Se observa exteriormente en buen estado.
Válvula check simple.
Se observa exteriormente en buen estado.
Válvula check doble.
Se observa externamente en buen estado.
Válvula de seguridad del tanque.
Se observa exteriormente en buen estado.
161
Válvula relay.
En buen estado exterior.
Cámaras de frenos de emergencia.
No se determinó si estaban activadas. De acuerdo con la información recogida, se
activaron probablemente en el momento del accidente y fueron recogidas para poder
trasladar el vehículo en la grúa.
Cámaras de frenos.
Delantera derecha.
En buen estado exterior.
Delantera izquierda.
En buen estado exterior.
Posterior derecha troque delantero.
En buen estado exterior.
Posterior izquierdo troque delantero.
En buen estado exterior.
Posterior derecha troque posterior.
En buen estado exterior.
Posterior izquierda troque posterior.
En buen estado exterior.
Mangueras y acoples del tráiler.
En buen estado, así como sus conexiones. No se encontraron las manos en el tráiler. Las
mangueras se cambiaron antes del viaje.
Conjuntos de frenos. (Porta zapatas, bandas, leva, resortes)
Conjunto freno delantero derecho. En buen estado exterior.
163
Válvula relay Figura Deposito de aire..
Figura 46 a. Válvula relay, diafragmas, depósito, llantas.
Cámara y llanta delantera izquierda se observan exteriormente en buen estado. El labrado no
presenta evidencia de desgaste por frenado abrupto o bloqueo de las llantas debido a
accionamiento del freno de seguridad. Igual sucede con las llantas y cámaras de la unidad
tractora y del remolque. Bombona de suspensión lado posterior izquierdo dañada.
164
Figura 46 b. Mangueras de conexión, Tanque y válvulas del tráiler en buen estado exterior.
Conjunto freno eje delantero
En buen estado exterior.
Conjunto eje posterior.
En buen estado exterior.
Conjuntos frenos tráiler.
En buen estado exterior.
Figura 46 c. Control manual de frenos del tráiler.
Instrumentos.
Indicador caída de presión.
No se tuvo acceso por la condición de la cabina.
Sistema antibloqueo (ABS).
165
El vehículo tiene incorporado este sistema que evita el bloqueo de las llantas y por lo tanto el
derrape del vehículo en la vía. No se revisó el sistema de control de ABS para verificar su
integridad.
Sugerencia.
Realizar una inspección detallada de los componentes del sistema, incluyendo el desmontaje de
las llantas, el desmontaje de la válvula de pedal y de la válvula relay tanto de la unidad motriz
como del remolque.
llantas.
Como se mencionó anteriormente, el estado general es normal. Algunas presentan cortes en el
flanco y en la unión entre la carcasa y la banda de rodamiento reencauchada, pero
probablemente sea debido al accidente. No hay llantas estalladas.
Figura 46 d. Llantas posteriores de la unidad tractora Deterioro en la Cabina
en buen estado.
Carrocería.
La parte de la cabina es la que presenta el mayor deterioro. En particular el espacio ocupado por
el conductor, ya que la parte frontal y el techo de la cabina se desplazaron hacia atrás y abajo
respectivamente. Esto indica que el volcamiento se produjo hacia el lado que el vehículo salido
de la vía y se recostó hacia el lado del conductor girando la cabina con el techo hacia abajo. En
estas condiciones el impacto hacia el lado del conductor fue de una gran magnitud.
166
Figura 46 e. Posición de la columna de dirección y el asiento del conductor.
ANALISIS DINAMICO DEL VEHICULO.
La carga estimada del vehículo, peso neto vehicular es de 48 toneladas, repartidas en la siguiente
forma:
Peso bruto vehicular: 18 toneladas.
Carga: 30 toneladas.
En el lugar del accidente, se observa una pendiente cuyo valor se desconoce.
El accidente ocurrió en una curva en descenso, y el vehículo se desplazó cerca de cincuenta
metros con respecto a la curva hasta el sitio en donde rompió la barrera de protección y se
precipitó fuera de la vía.
No se tienen detalles en el croquis acerca de la velocidad del vehículo, ni de la existencia de
huellas de frenado o deslizamiento del vehículo sobre la vía que se encontraba seca y en buenas
condiciones.
De otro lado, las llantas no presentan evidencia de fricción con la vía en las bandas de rodadura
reencauchadas en las llantas posteriores y originales en las llantas delanteras.
Asumiendo un peralte estándar en la vía, (5%) con una pendiente normal, el peso del vehículo
con la carga genera un incremento en la velocidad, que puede exceder el valor seguro en bajada.
Las fuerzas inerciales resultantes constituyen una condición peligrosa que pueden ocasionar un
aumento de la fuerza centrífuga que exceda la acción estabilizadora del peralte en la parte más
pronunciada de la curva. ,
167
Obviamente la influencia de la dirección de las llantas delanteras y del conjunto del vehículo en
sí mismas puede producir también la salida de la vía, con la trayectoria que indica el croquis. Es
decir que no necesariamente la fuerza centrífuga producto de la combinación masa del vehículo
y su velocidad son necesarias para hacer que este se salga de la vía.
Sin conocer los detalles de la velocidad, y teniendo en cuenta la versión del conductor en el
sentido de que se desplazó cerca de dos Km. sin frenos, en bajada, la cantidad de movimiento
adquirida por el vehículo puede ser lo suficientemente alta para producir que este rodara una
distancia mayor a los 17 metros reportados en el croquis. En este caso, el efecto de la barda
como elemento absorbedor de energía, es bajo por las características livianas de la misma.
Esto lleva a entrever una probable inconsistencia en la versión del conductor respecto de las
condiciones en que ocurrió el evento.
Este pudo ser ocasionado también por una acción intencional.
La empresa Iceberg ha suministrado los datos obtenidos del GPS acerca de la velocidad del
vehículo. Sin embargo, como el reporte no es continuo, se desconoce la velocidad en el instante
exacto de la salida de la vía y el volcamiento. Este dato es importante para establecer con certeza
las condiciones de este.
El último reporte del GPS es a las 7:50 mientras el accidente según versión del conductor es a
las 8:30 am. Los reportes del GPS son aproximadamente cada 15 minutos. Por esta razón, la
información obtenida no es lo suficientemente consistente para estimar la velocidad en el
momento en que se presentó el evento.
Figura 46 f Medidor de velocidad
168
Se aplica el primer modelo de perceptrón multicapas para realizar una aproximación hacia la
causa próxima del accidente. Para comparar los modelos obtenidos utilizando las bases de datos
1 y 2 se aplican al mismo accidente y se obtiene los resultados mostrados a continuación.
Los datos de entrada para el modelo fueron los siguientes;
Base de datos 2:
empresa numpoliza numcis modelo placa Descr Marca Descr Clase Tipo1 año
transportes iceberg 2010 skl458 KENWORTH REMOLCADOR 2011
Aunque aquí figuran los 22 atributos de la base de datos Accidentes de empresas de transporte
de Allianz, solamente se consideran 17 ya que son los que contiene el modelo de perceptrón
multicapas definido en la sección ..
Del análisis de salida del modelo se observa que la causa determinada es la de invadir carril.
=== Re-evaluation on test set ===
User supplied test set
Relation: PLANTILLA JUNIO25-2019
Instances: unknown (yet). Reading incrementally
Attributes: 17
=== Predictions on user test set ===
inst# actual predicted error prediction
1 1:? 15:invadir carril 0.671
=== Summary ===
Total Number of Instances 0
Ignored Class Unknown Instances 1
Es de observar que la causa próxima FALLA MECANICA, que corresponde a la declaración
del conductor, no figura en la salida del modelo, lo que es consecuente con el resultado obtenido
169
de su aplicación y con el análisis realizado a partir de la documentación existente y del estado
en que quedó el vehículo.
El modelo proporciona solamente un valor de causa próxima bajo las condiciones de entrada
definidas a partir del análisis de la información disponible del accidente.
Se comparó el resultado anterior con el obtenido al utilizar el modelo resultante de la aplicación
de la base de datos 1 o sea de accidentalidad en general para Bogotá en 2016.
Los resultados obtenidos para el caso bajo análisis fueron;
=== Re-evaluation on test set ===
User supplied test set
Relation: plantilladjulio2-2019ok
Instances: unknown (yet). Reading incrementally
Attributes: 28
=== Predictions on user test set ===
inst# actual predicted error prediction
1 1:? 1:NO MANTENER DISTANCIA DE SEGURIDAD 0.605
=== Summary ===
Total Number of Instances 0
Ignored Class Unknown Instances 1
Partiendo del modelo de causa raíz obtenido a partir de la técnica PART, utilizando la tabla con
las reglas de decisión presentadas en la tabla se pueden inferir algunas probables causas
básicas que están relacionadas con la causa próxima invadir carril.
De la tabla de reglas de decisión obtenida del modelo que utiliza la técnica PART, se extraen
las causas asociadas con la causa próxima INVADIR CARRIL.
características humanas = habilidad de percepción AND
temas relacionados con seguridad = falta de cultura de seguridad: invadir
carril (59.86/21.13)
170
Estas reglas sugieren centrarse en las características humanas y de comportamiento del
conductor, y llevan a revisar las pruebas sicosensométricas realizadas según se muestra en el
anexo .
Análisis sicosensométrico del conductor.
Teniendo en cuenta la información obtenida a partir próxima y causa raíz, y teniendo en cuenta
que no se presentan evidencias que soporten la declaración del conductor en el sentido de que
el accidente se debió a una falla mecánica, en este caso falla en el sistema de frenos, se toma la
hipótesis 1 que indica que la causa se pudo deber a una operación o maniobra de conducción
indebida.
Para reforzar esta hipótesis, se recurre a la revisión de las pruebas sicosensométricas al
conductor involucrado en el accidente. Este estudio no está disponible para presentar en el
trabajo.
En el anexo 5 se presenta un modelo utilizado por la empresa Allianz para la realización de estas
pruebas.
RESULTADOS DE LAS PRUEBAS PSICOSENSOMÉTRICAS
Las pruebas psicosensométricas son evaluaciones que buscan identificar de manera precoz las
posibles alteraciones que pueda presentar una persona en su visión, audición y motricidad.
Constituyen el primer acercamiento para que la empresa conozca los resultados consolidados de
las condiciones de salud de sus trabajadores y proceda a tomar las medidas preventivas
correspondientes, tales como la remisión oportuna a controles médicos y la intervención sobre
los factores de riesgo presentes en el ambiente laboral de sus conductores.
Los exámenes miden la aptitud física y mental de los trabajadores.
172
RESUMEN.
Respecto de las posibles causas del accidente, después de realizar el análisis del vehículo y
del croquis elaborado por la autoridad de carreteras entregado por Iceberg, se plantean dos
hipó tesis.
Hipó tesis 1. Pérdida de control del vehículo por parte del conductor debido a maniobra
incorrecta, operación deficiente, falta de reacción ante las condiciones de la vía, descenso y
curva pronunciada, negligencia o dolo por parte del conductor.
Como se mencionó, no es muy claro que el vehículo haya alcanzado una velocidad que
produjera la pérdida de control del mismo por parte del conductor, esto se contrasta con la
distancia de caída (17.90 metros), y la distancia que el conductor afirma haber recorrido sin
frenos.
De otro lado no se evidencia la presencia de testigos que validen la información suministrada
por el conductor.
Hipó tesis 2. Pérdida de control del vehículo debido a probable falla en el sistema de frenos.
Esta hipó tesis parece no tener asidero de acuerdo con los resultados obtenidos.
Para verificar la posible ocurrencia del evento debido a esta causa, se ha realizado una
inspección que ha tratado de ser exhaustiva, teniendo en cuenta el estado del vehículo y las
limitaciones de información sobre la operación de este en el instante del accidente.
Es importante realizar dos actividades complementarias.
Se sugiere recuperar la información del computador del vehículo, utilizando el sistema insite
de Cummins, y del GPS para determinar las condiciones de operación antes del accidente, en
particular la velocidad del motor, marcha en la que estaba funcionando, presión en el sistema
de aire, accionamiento del freno de motor, y otros parámetros de interés.
Revisión detallada de los componentes del sistema de frenos en particular válvula de pedal y
válvulas relay.
Además sería importante obtener información acerca de la geometría de la vía hasta 500
metros antes de la curva en la cual se produjo el accidente, con el fin de estimar los escenarios
posibles, en particular el de la velocidad desarrollada por el peso del vehículo más la carga.
Sin tener conocimiento detallado de la misma, de acuerdo con información recogida, se
establece que la vía tiene una característica conocida como de repechos y que en realidad la
pendiente pronunciada comienza al pasar la curva.
173
El operador del vehículo argumenta que iba a pasar de quinto a cuarto cambio y no fue
posible hacerlo, porque el vehículo ya había adquirido una velocidad que no lo permitió.
Además tenía aplicado el freno de motor.
La validación de esta hipó tesis seria corroborada en consecuencia con los resultados de la
inspección al sistema de frenos.
PLAN DE ACCION.
En consecuencia con las hipó tesis planteadas y con el objeto de utilizar el accidente como
una lección aprendida, además de profundizar más en la determinación d la causa raíz de
este, se propone realizar las siguientes actividades;
• Revisión de componentes del sistema de frenos válvula de pedal, válvula relay.
• Descargar y analizar información del computador del vehículo. (Insite).
• Analizar con más elementos de juicio la información sobre la integridad de cada uno
de los componentes del sistema de frenos.
• Conseguir la información sobre la topografía y características geométricas de la vía.
• Investigar posible negligencia del conductor.
• Revisar el programa de mantenimiento en cuanto a la periodicidad de las rutinas a los
diferentes sistemas relacionados, en particular el de frenos, axial como los
procedimientos de prueba de estos.
174
8. CONCLUSIONES.
Una vez desarrollado el estudio se obtienen las siguientes conclusiones.
Se desarrolló e implementó un algoritmo para la predicción de causa inmediata de accidentes
de tránsito utilizando dos bases de datos; una compuesta por 34000 registros y que contiene
bases de datos de diferentes tipos de accidentes en la ciudad de Bogotá en el año 2016, y la
otra con 880 registros tomada de la base de datos de la empresa Allianz entre los años 2009
y 2011 en diferentes empresas y zonas del país.
El modelo de propuesto consta de dos partes; la primera determina la causa próxima y la
segunda la causa raíz de los accidentes de tránsito.
Se aplicaron los algoritmos de clasificación redes neuronales artificiales y el algoritmo Naive
Bayes, para determinar la causa próxima de los accidentes en la base de datos 1, y algoritmos
de agrupamiento como clusstering, C-K means para identificar relaciones de agrupamiento
entre los atributos o variables de la base de datos de accidentalidad en Bogotá en el año 2016.
Para la base de datos de empresas de transporte se utilizó la técnica perceptròn multicapas..
Se realizó un análisis de las posibles causas básicas partiendo de la identificación de la causa
próxima y empleando el algoritmo de clasificación PART que suministra reglas de decisión
para determinar las causas básicas asociadas con la causa próxima determinada en la primera
parte.
La construcción de los modelos se realizó en el caso de la base de datos 1con menos datos
de los que contenía la base de datos inicial (34323) ya que el tamaño inicial saturaba la
capacidad de procesamiento del computador. En el caso de la base 2 , después de depurar los
880 registros disponibles, se obtuvo una base de datos reducida de 327 registros.
Para evaluar el desempeño de los dos modelos construidos, se utilizaron las métricas de uso
común en minería de datos.
Se aplicaron los modelos obtenidos con las dos bases de datos para aplicar el modelo de
predicción. Los resultados obtenidos fueron diferentes. Para el modelo basado en la base de
datos 1 se obtuvo como causa próxima “no respetar distancia de seguridad” y para el modelo
correspondiente a la base de datos 2: “invadír carril”.
Se compararon diferentes algoritmos de clasificación, encontrando que, para el caso bajo
estudio, las técnicas bayesianas producen resultados superiores a los de la red neuronal.
Para el modelo de causa próxima el perceptrón multicapas utilizando la base de datos de
accidentalidad en empresas de transporte produjo un porcentaje de 72% de aciertos.
175
Se recomienda utilizar bases de datos con información sobre características del conductor
como edad, genero, tiempo y clase de emisión de la licencia de conducción, antecedentes de
accidentalidad, del vehículo como tipo, año de fabricación.
De acuerdo con los modelos analizados, las causas de accidentalidad en Bogotá y en las
carreteras están relacionadas principalmente con el comportamiento de los conductores
frente a las reglas de tránsito.
176
9. BIBLIOGRAFÍA.
Allireza Pakgohar, Reza Sigari Tabrisi, Mohadeseh Khalili, Alliresa Esmaleili, 2011,The role
of human factor in incidence and severity of road crashes based on CART an LR regression
an data mining approach, Procedar Computer Science, 3, , 764-769.
Arévalo Carlos, 2017, Metodología y técnicas analíticas para la investigación de accidentes
de trabajo, Fundación Agustín de Betancourt.
Avellan Joaquin, Griselda Lopez , De Oya Juan, 2013, Analysis of traffic accidents severity
using decision rules via decision trees,, Expert systems and application, 40,.
Bahram Sadeghi Bigham, 2014, Road accident data analysis: a data mining approach, , indian
journal of scientific research, mayo.
Beltrán Pascual, 2015, Diseño e implementación de un nuevo clasificador de préstamos
bancarios a través de la minería de datos Tesis maestría.
Cevallos Alvaro, 2013, Guía metodológica para obtener patrones de accidentalidad laboral
usando data mining, Universidad de Piura, Tesis de grado Maestría.
Corso Cynthia Lorena, 2013, Aplicación de algoritmos de clasificación supervisada usando
weka.. Universidad Tecnologica Nacional Facultad regional Cordoba.
Día Hussein, 1997,Development and evaluation of neural network freeway incident detection
models using field data, Recuperado de
https://www.sciencedirect.com/science/article/pii/S0968090X97000168
Drummond Cris, Holter Robert C, 2006, Cost curves: an improved method for visualizing
classifier performance, Mach learn, , 95-130.
G Janani, N Ramya Devi, 2017, Road traffic accident analysis using data mining techniques.
Recuperado de
https://www.tandfonline.com/doi/full/10.1080/13588265.2015.1122278?src=recsys
García González Fernando, 2013, Aplicación de técnicas de minería de datos a datos
obtenidos por el Centro Andaluz de Medio Ambiente, Universidad de ranada,
Gutiérrez Cruz Doricela, 2017, Manual para practicas del departamento de computo, Taller
con Weka, , Universidad Autónoma del estado de México,
Halk Mark, Frank Eibe, , 2011, Practical data mining, , University of Waikato.
177
Harasri Rungratanaubul, 2011, An exploratory neural network model for predicting disability
severity from road traffic accidents in Thailand, , Third international conference on
knowledge and smart technologies.
Hassinger Rodríguez Mark Mirko, 2015, Aplicación técnica de minería de datos en
accidentes de tráfico, Tesis de Maestría, Universidad Politécnica de Valencia.
Introducción al aprendizaje automático y a la minería de datos con Weka.
JiangFeng Xi, Zhenhai Gao,1 Shifeng Niu,3 Tongqiang Ding,2 and Guobao Ning4,,2012, A
hybrid algorithm of traffic accident data mining on cause analysis, Mathematical problems
in engineering, Procedia Social and Behavioral Sciences, 160, 607-614.
Kirkbi Richard, Frank Eiber, 2004, Weka explorer user guide, University of Waikato,.
Liu Xiao,1995, Artificial neural networks for freeway incident detection, Transportation
research Journal,
Martin Luis, Baena Leticia, Barach Laura, Lopez Griselda, 2014, Using data mining
techniques to road safety improvement in spanish roads.
Montt Cecilia, 2013, Análisis de accidentes de tránsito con inteligencia computacional, 16
congreso chileno de ingeniería de transporte.
Niven Karen, 2004, Real time evaluation of health and safety management in the national
health service. Recuperado de http://www.hse.gov.uk/research/rrpdf/rr280.pdf
Olutayo V.A, Eleudire A.A ,2014, Traffic accident analysis using decision trees and neural
networks. Information Technology and Computer Science, 02, 22-28
Poojitha Shetty1, Sachin P C2, Supreeth V Kashyap3, Venkatesh Madi4, 2017, Analysis of road
accidents using data mining techniques, vol 4, tema 4.
Rojas Mauricio, 2015,Predicción de accidentes de tránsito utilizando redes neuronales
artificiales, Pontificia Universidad Católica de Valparaíso, Tesis de grado,
S.L González Ruiz. I Gómez Gallego, 2014, Algoritmos de clasificación y redes neuronales
en la observación automatizada de registros. Cuadernos de sicología del deporte, Vol 15, 1-
31-40.
Sami Ayramo, Pasi Pirtala, Janne Kauttonen, Kashif Naveed, Tomi Karkainnen, 2009,
Mining road traffic accidents, Tesis de maestria, University of Jyvaskyla, Finlandia..
Singh Maninder , Kaur Amrit , 2014, A Review on Road Accident in Traffic System,
International Journal of Science and Research,
178
Taamneh Madahr M, 2026,Data mining techniques for traffic accident modeling and
prediction in the united arab emirates, Journal of Transportation Safety and Security,
Takaya Saito, Marc Reinsbeier, 2015, The precision recall curve is more informative than
the ROC plot when evaluating binary classifiers on imbalanced datasets, , Plos One,
Tuba Kecesi, Ozcan Arsla, 2017, SHARE technique: a novel approach to root cause analysis
of ship accidents. Safety science 96. 1-21.
Vásquez Rodolfo, Causas de los accidentes de tránsito desde una visión de la medicina social,
el binomio alcohol-tránsito, Red Mes Uruguay, 2004, 20, 178-186.
Velazco Avendaño Juana Yenny, 2017, redes neuronales aplicadas al análisis de datos,
H Wallen Waner ,Dream 3.0 (Driving reliability and error analysis method), 2008.
Shirley A Cotreras Ulloa, John A Loyola Díaz, Modelo dinámico sistémico; caso análisis de
accidentes de tránsito en Trujillo Peru,
190
ANEXO 3 RELACION ENTRE Y GENOTIPOS Y ENTRE GENOTIPOS SEGÚN
DREAM 3.0.
CONSECUENCIAS
ANTECEDENTES Acción
temprana
Acción tardía inacción Exceso de
velocidad
Velocidad
baja
No
mantener
distancia de
seguridad
Dirección
equivocada
Exceso de
fuerza
Fuerza
insuficiente
Objeto
adyacente
MIEDO
Accidentes en intersecciones.
Sobrepasos
invasión de
carril.
Cambio de
carril
Accidentes en intersecciones.
Sobrepasos
invasión de
carril.
Cambio de
carril
Freno o
maniobra tardía
para evitar
colisión con vehículo por
delante
Accidentes en
intersecciones
pasar semáforo
en rojo, no respetar
señales de
pare.
Sobrepasos
invasión de
carril. No hace nada para
evitar
accidente con
vehículo en dirección
contraria.
Cambio de carril. No ve
otro vehículo
al hacer la
maniobra El conductor
no toma acción
para evitar
colisión con carro delante
de él (frenar o
maniobrar).
Accidentes en
intersecciones:
el conductor
llega a la intersección
con mayor
velocidad de lo esperado.
Tomar una
curva
demasiado rápido.
Sobrepaso
demasiado rápido.
Colisionar con
un vehículo delante debido
a exceso de
velocidad.
Colisión por conducir más
despacio de
lo esperado
por otros conductores.
El
conductor mantiene
una
distancia
muy pequeña
con el
vehículo
delante de él.
Accidentes en
intersecciones.
Realizar cruces
prohibidos. Cambio de
carril en vía
recta o curva.
Conducir en
contravía.
Accidentes
de salir de
carril por
sobre giro en la dirección.
El conductor
gira más bruscamente
de lo
esperado por
otros conductores.
Accidentes
por frenado
insuficiente.
El conductor
frena con
poca fuerza o los frenos
no
responden.
El
conductor
pisa el
acelerador en lugar
del freno
FATIGA
Bajo la influencia
de sustancias
Discapacidad
funcional súbita
Limitación temporal de acceso
Falla de equipo
Viento lateral
fuerte
Mal juzgamiento
de tiempo
Mal juzgamiento
de distancia
191
ANEXO 3 CONTINUACION RELACION ENTRE GENOTIPOS.
ANTECEDENTES B1 B2 B3 C1 C2 D1 E1 E2 E3 E4 E5 E6 E7 F1 F2 F3 F4 F5 F6 G1 G1 G2 G3 G4 G5 H1 H2 H3 I1 J1 J2 K1 K2 L1 L2 L3 L4
Pérdida de
observación (B1)
X
Observación
tardía (B2)
X X
Observación falsa
(B3)
X X
Apreciación
errónea de
intervalo de
tiempo (C1)
X
Apreciación
errónea d e la
situación (C2)
X
Miedo (E1) X X X x
Desatención (E2) X X X X X
Fatiga (E3) X X X X X
Bajo la influencia
de sustancias (E4)
X X X X X X X X
Búsqueda de
éxitos(E5)
x
Perdida funcional
instantánea (E6)
X X X X x
Estrés sicológico
(E7)
X X X X X x
Perdida funcional
permanente (F1)
X X X X X
192
Expectativa de
ambiente vía
estable (F3)
X X X X
Bajo la influencia
de sustancias (F4)
x x
Sobreestimación
de capacidad (F5)
x
Falta de conocim X X X X X X
iento competencia
(F6)
Problema
temporal de
iluminación (G1)
X X X X
Problema
temporal de sonido
(G2)
X X X X
Problema
permanente de
iluminación(H1)
X X X X
Obstrucción
temporal de la
visión G3)
X X X X
Información
incorrecta (G5)
X
Problema
permanente de
sonido (H2)
X X X X
Obstrucción
permanente de la
visión (H3)
X X X X
Falla de equipo
(I1)
X X X X X X X X X X X
Visibilidad
reducida (J1)
X X X X X X
193
Obstrucción
temporal para ver
(k1)
X X X
Obstrucción
permanente de la
visión (K2)
X X X
Señalización
insuficiente (L1)
X
Fricción reducida
(L2)
X
Degradación de la
superficie d e la
vía (L3)
X
Objeto en la vía
(L4)
X
Geometría
inadecuada de la
vía (L5)
X X X
Transmisión
inadecuado desde
usuarios de otra
vía (M1)
X X X
Transmisión
inadecuada desde
otro ambiente de
vía. (M2)
X X X X
Presión del tiempo
(N1)
X X
Horas de trabajo
excesivas (N2)
X X
Actividad física
pesada antes de
conducir(N3)
X X
194
Características
impredecibles del
sistema (P4)
X X X
NO DEFINIDO X X X X X X X X X X X
Diseño inadecuado
de la vía (Q1)
X
Inadecuado
mantenimiento m
de la vía (O2)
X X X
Inadecuado diseño
de la vía (Q2)
X X X X
Entrenamiento
inadecuado (N4)
Falla de equipo
(I1)
Diseño inadecuado
de la cabina (P1)
X X X
Inadecuado
mantenimiento del
vehículo (O1)
X
Diseño inadecuado
de dispositivos de
comunicación (P1)
X
Diseño inadecuado
de estructuras del
vehículo (P3)
X
Sin definir
197
ANEXO 5 PRUEBAS SICOSENSOMETRICAS.
Capacidad visual en:
Visión perimétrica
Agudeza visual, visión cercana, visión lejana y visión en profundidad
Visión nocturna, visión en encandilamiento y recuperación al encandilamiento
Discriminación de colores
Capacidad auditiva:
Se evalúa cada oído y la capacidad de orientación auditiva en cinco frecuencias entre los
500 a 8.000 Hz y desde 10 hasta los 70 decibeles.
Coordinación motriz:
Coordinación bimanual, coordinación manual (ojo-mano) y capacidad de reacción a un
estímulo (coordinación ojo-pie).
Estas evaluaciones se realizan bajo parámetros internacionales y estándares
preestablecidos y tienen sólo el carácter de tamizaje, que indica si el evaluado se
encuentra o no dentro de los rangos correspondientes. No se consideran como examen
de diagnóstico médico como tal y se recomienda a cada persona realizar control médico
en el área de salud que corresponda (optómetra, oftalmólogo, fonoaudiólogo, Audiólogo,
Terapeuta, etc.,) si el resultado está fuera de los rangos.
Estas pruebas tampoco determinan si el trabajador es “apto” o “no” para desempeñar un
oficio o labor determinada.
INFORME DE RESULTADOS
Resultados obtenidos en las Evaluaciones Psicosensométricas realizadas a 39 personas
en la ciudad de Buga
198
POBLACIÓN OBJETIVO
POBLACIÓN SEGÚN EL CARGO
POBLACIÓN SEGÚN LA EDAD
GRÁFICO DE DISTRIBUCIÓN DE LA POBLACIÓN SEGÚN LA EDAD
PRUEBAS DE VISIÓN
Los resultados se interpretan de la siguiente manera según el rango:
0
2
4
6
8
10
12
20-30 años 31-40 años 41-50 años Mas de 50 años
POBLACIÓN EVALUADA SEGÚN EL RANGO DE EDAD
199
Algunos exámenes de visión nos determinan únicamente si el evaluado VE o NO VE.
El Gabinete Psicotécnico evalúa la visión de las personas mediante los siguientes
exámenes:
: Evalúa el Campo Visual, es decir, la visión periférica. Determina la capacidad de una
persona de percatarse de móviles u objetos ubicados a sus costados.
Parámetros mundiales sugieren que las personas tengan como mínimo 70 grados de
campo visual. Nuestro Sistema de Evaluación permite descubrir a conductores cuyo
campo visual sea de solo 40 grados.
Una persona que no tiene el campo visual mínimo establecido de 70º, no tienen la
capacidad de percatarse de móviles ubicados inmediatamente a sus costados, por lo que
al cambiar de vía solo ven lo que ocurre hacia atrás y no hacia los lados.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
Ningún evaluado amerita remisión para examen confirmatorio.
APROBARON
Son los evaluados cuyos resultados obtenidos en la evaluación de los DOS OJOS, están por encima del parámetro de aprobación establecido (mayor o igual al 70%, es decir, visión 30/20.)
NO APROBARON
Son los evaluados cuyos resultados obtenidos en la evaluación de los DOS OJOS, están por debajo del parámetro de aprobación establecido (menor que 70%, es decir, visión 30/20.)
EN OBSERVACIÓN
Son los evaluados cuyos resultados obtenidos en la evaluación de los DOS OJOS, están por debajo del parámetro de aprobación establecido (menor que 70%, es decir, visión 30/20.) Un ojo aprueba y el otro no.
200
AGUDEZA VISUAL, VISIÓN CERCANA, VISIÓN LEJANA: Evalúan la calidad de Visión que
se tiene con respecto a lo que está mirando. Define la capacidad de discernir las cosas y
los detalles de estas.
Los Parámetros Internacionales Estándar para evaluar la Agudeza Visual son:
Tabla Snellen
Eficiencia
Visual
(Dist. En
pies).
Eficiencia
Visual (%)
20/200 10%
20/100 20%
20/70 25%
20/60 30%
20/50 40%
20/40 50%
20/30 70%
20/25 80%
20/20 100%
20/15 130%
20/10 200%
El Resultado mínimo de Eficiencia Visual que se considera debe tener una persona al
momento de conducir es del 20/30 que corresponde al 70% de la Agudeza Visual.
Una persona pasa el examen si obtiene este resultado; sin embargo presenta una ligera
deficiencia en la visión, por lo cual se recomienda ir al especialista para que efectúe el
tratamiento correspondiente.
Del total de la muestra evaluada, se estiman los siguientes resultados:
201
Agudeza Visual Lejana
Un evaluado amerita remisión para examen confirmatorio y ocho deben permanecer en
observación en Agudeza Visual Lejana.
Agudeza Visual Cercana
AGUDEZA VISUAL LEJANA
Aprobaron
76%
No Aprobaron
3%
En Observación
21%
202
Cinco evaluados no aprobaron y ameritan remisión para examen confirmatorio y siete
están en observación en Agudeza Visual Cercana.
VISIÓN EN PROFUNDIDAD: Mide la capacidad de determinar las distancias de ubicación
de los objetos en el espacio.
Cada año se presentan alrededor de 1200 accidentes por “mal rebasamiento”.
El mal rebasamiento puede generar un choque frontal o un volcamiento, accidentes que
más engrosan el número de muertos en las estadísticas. El mal rebasamiento en la
mayoría de los casos, más que una imprudencia del conductor, obedece al mal cálculo
que se hace con respecto al espacio que se tiene para rebasar un vehículo, producto de
fallas en la visión en profundidad. Se ubica un vehículo a 300 metros cuando en realidad
se encuentra a 200 metros. En otros casos, se estima que se trata de un gran camión
ubicado a una distancia amplia cuando en realidad es un pequeño furgón a muy corta
distancia.
Estas diferencias en las apreciaciones de las distancias no le conceden el tiempo
suficiente para rebasar en el espacio que se estimó amplio, generando así un choque
frontal o un volcamiento al esquivar.
La prueba evalúa la Capacidad de Visión en Profundidad en 3 niveles diferentes. El
evaluado debe identificar al menos 2 de los 3 niveles para pasar el examen con el 70%.
AGUDEZA VISUAL CERCANA
Aprobaron
69%
No Aprobaron
13%
En Observación
18%
203
Si el evaluado identifica 3
niveles
Aprueba el Test con el 100%
Si el evaluado identifica 2
niveles
Aprueba el Test con el 70%
Si el evaluado identifica 1
nivel
No Aprueba el Test
Si el evaluado identifica
ningún nivel
No Aprueba el Test
Tomando en cuenta el cuadro anterior, tenemos que, del total de la muestra evaluada, se
determinaron los siguientes resultados:
Ningún evaluado amerita remisión para examen confirmatorio.
Discriminación de Colores: Evalúa la visión cromática.
Este examen permite identificar a conductores que confunden los colores de los
elementos que se encuentran en las vías o en sus inmediaciones. Pueden ver como tierra
o arena lo que es agua. Hay quienes ven café lo que es azul o ven verde lo rojo. En otros
casos no pueden distinguir las ramas de las hojas en los árboles.
204
Estas personas tienen grandes dificultades para distinguir con antelación el tipo de señal
dispuesta en la vía, y sólo la agudeza visual les permite reconocer la señal, sin contar con
la opción del color, que es lo primero que se advierte normalmente
Del total de la muestra evaluada, se determinaron los siguientes resultados:
Según los resultados obtenidos, ningún evaluado amerita examen confirmatorio en el Test
Discriminación de Colores.
VISIÓN NOCTURNA: Evalúa la capacidad visual en condiciones de poca luminosidad.
Así como encontramos conductores que no ven en condiciones de encandilamiento o
mucha luminosidad, hay otros que no ven con poca luminosidad. Esto quiere decir que no
es seguro para estas personas manejar durante la noche.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
De acuerdo con los resultados obtenidos, ningún evaluado amerita remisión para examen
confirmatorio.
VISIÓN EN ENCANDILAMIENTO: Mide la capacidad de visión de una persona, al
enfrentarse a un fuerte estímulo lumínico.
205
Este examen permite identificar a personas que pierden su capacidad de visión en un
grado importante, al enfrentarse en la noche a vehículos con luces altas.
Todas las personas nos encandilamos en estas condiciones, pero la mayoría podemos
distinguir aún el camino y las condiciones de éste.
Hay personas que no distinguen nada a su alrededor cuando se le enfrenta a una alta
intensidad lumínica. Estos son conductores de alto riesgo, pues en esa circunstancia no
se percatarán de vehículos que les preceden a velocidades menores o de obstáculos en
la vía.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
Ningún evaluado amerita remisión para examen c
RECUPERACIÓN AL ENCANDILAMIENTO (tiempo en segundos): Mide la capacidad de la
recuperación visual luego de enfrentarse a un fuerte estímulo lumínico.
La capacidad de recuperación al encandilamiento se transforma en un examen
importantísimo, toda vez que los conductores no deben tener problemas para recuperarse
antes de 3 segundos después de haber enfrentado luces enceguecedoras.
Según el Parámetro Estándar, una persona en condiciones normales, debe recuperar su
visión después del encandilamiento en un tiempo no mayor a 5 segundos. (Menor o Igual
a 5 seg.)
Las personas que no se recuperan en menos de 5 seg. al encandilamiento y se
encuentran conduciendo a 80 Km./hr, alcanzan a recorrer cerca de 111 metros en esta
condición sin percatarse de cambios en la vía.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
206
Según los resultados obtenidos, ningún evaluado amerita examen confirmatorio en el Test
de Recuperación al Encandilamiento.
PRUEBAS DE AUDICIÓN
Aspecto importante en la evaluación sensométrica es la audición, sentido por el cual
percibimos sonidos que llegan a nosotros a distintas frecuencias y en diferentes
intensidades y emitidos desde lugares que debemos estar en capacidad de ubicar.
¿Percibe el conductor tal o cual tipo de sonido? ¿Ubica el conductor dónde está la fuente
de ese sonido?
En las pruebas de audición se tomaron en cuenta dos aspectos importantes:
CAPACIDAD AUDITIVA DE CADA OÍDO: Mide la capacidad auditiva de cada oído en
diferentes frecuencias y decibeles.
CAPACIDAD DE ORIENTACIÓN AUDITIVA: Mide la capacidad que tiene una persona de
determinar de donde proviene un sonido.
El parámetro que se tuvo en cuenta para establecer los resultados de los evaluados en la
empresa es de máximo 40 dB (decibeles) en todas las frecuencias, ya que se tuvo en
cuenta la intensidad de ruido que había en el entorno. Esto significa que el evaluado
debía escuchar el estímulo en 40 dB o por debajo de este.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
207
En los resultados, algunos evaluados escucharon con los dos oídos los estímulos
auditivos dentro de los parámetros establecidos “Aprobaron”, otros escucharon con los
dos oídos los estímulos auditivos pero fuera de los parámetros establecidos, “No
aprobaron” y los evaluados que se encuentran “en observación” son el resultado de
alguna deficiencia en alguno de los dos oídos. (Un oído está bien y otro no).
Los Evaluados que están en observación o no aprobaron el Test, se recomienda que
vayan al especialista indicado (Fonoaudiólogo – Otorrinolaringólogo).
Los conductores manejan vehículos que pesan toneladas, las cuales generan distintos
tipos de ruidos en su funcionamiento normal. También en muchos casos acusan sus
desperfectos a través de diferentes ruidos anormales como por ejemplo un reventón de
ruedas, una pieza metálica que arrastra, roces anormales en el sistema de frenos,
rodamientos fundidos o neumáticos sin aire (desinflados).
Estos diferentes ruidos están relacionados con la seguridad en la conducción y, a su vez,
con las toneladas que se desplazan a distintas velocidades. Por otra parte, ésta el medio
ambiente y las condiciones generales de tránsito en las vías, donde una vez más seremos
advertidos de situaciones especiales a través de los ruidos:
el camión que nos rebasa, los neumáticos de otro vehículo que chillan en una frenada, las
bocinas, las diferentes sirenas de los vehículos de emergencia, pasos ferroviarios y otros.
Para esto es indispensable que el conductor aspirante a la licencia de conducir tenga una
audición normal en términos de intensidades e identificación de diferentes frecuencias, al
menos las más comunes como, neumáticos desinflados, etc.
208
PRUEBAS DE COORDINACIÓN MOTRIZ
Las Pruebas de Coordinación Motriz permiten identificar personas que no presentan la
habilidad de coordinar movimientos simultáneos. En la conducción esta habilidad nos
permite, por ejemplo, accionar la palanca de cambios con una mano mientras con la otra
cambiamos de dirección con el timón.
El Test de Reactímetro mide la capacidad de reaccionar rápidamente ante un estímulo o
suceso repentino, y esta habilidad no se adquiere con el tiempo ni la experiencia.
Capacidad de Coordinación Manual - Coordinación Motriz ojo-mano (Test de Punteo): El
Test de punteo es un medidor de coordinación de vista y mano, identifica a conductores que
tienden a perder la concentración en una actividad determinada.
209
Este examen es realizado por el TEST DE PUNTEO, el cual es un medidor de reflejos y
de coordinación motriz. Establece capacidad de concentración y permanencia, número de
aciertos y número de errores, ante estímulos visuales.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
Ningún evaluado amerita remisión para examen confirmatorio
Capacidad de Coordinación Bimanual – Coordinación Viso-motriz (Test de palanca):
Factores que se tuvieron en cuenta para el resultado:
Es un examen que identifica a conductores que pueden llegar a presentar dificultad en
coordinar los movimientos manos-vista en la conducción (volante, palanca de cambios,
etc.).
Ejemplo: La mano izquierda gira el volante mientras la mano derecha pasa el cambio de
3° a 2°, y al tiempo debe mirar para todos los lados para efectuar el giro de una manera
segura.
Este examen se realiza con el TEST DE PALANCA el cual tiene por finalidad evaluar
objetivamente la capacidad de percepción y coordinación visomotor del examinado. El
examinado realiza una tarea diferente con cada mano.
Este examen determina:
Aciertos
Debería presentar más de 24
aciertos
Errores
Debería presentar menos de 23
aciertos
Permanencia en el Acierto
Debería ser mayor o igual a 4 seg.
210
Tiempo de recorrido de un trazado.
Número de errores o veces que abandona el trazado.
Tiempo de reacción para salir del error.
Identifica la coordinación bimanual.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
Ningún evaluado amerita remisión para examen confirmatorio.
Capacidad de Reacción a un Estímulo – Coordinación Motriz ojo-pie (Test de
Reactímetro):
La reacción al freno, permite determinar cuántos metros recorre un conductor antes de
aplicar los frenos frente a una emergencia.
El tiempo de reacción de frenado es lo que demora el conductor desde que se decide a
aplicar los frenos del vehículo hasta el instante en que realmente comienza a aplicarlos.
Esta prueba está hecha para que el evaluado responda ó reaccione ante el estímulo
visual inesperado, con el pie al frenado en máximo 43 centésimas de segundo (0.43 seg.)
en promedio.
Este examen se realiza con el REACTÍMETRO, el cual permite medir automáticamente el
tiempo promedio transcurrido entre un estímulo visual y la reacción con el pie al frenar,
medido en centésimas de segundo. Indica además la aceleración y frenadas anticipadas.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
211
Según los resultados obtenidos, cuatro evaluados ameritan examen confirmatorio en el
Test de Reactímetro.
TEST DE ANTICIPACIÓN
Mediante el test de anticipación podemos evaluar posibles desviaciones de percepción de
la velocidad que tenga un operador. En esta prueba el evaluado debe realizar un ejercicio
de auto- control para no precipitar ni anticipar una respuesta.
El test cuenta con una fase de ensayo la cual permite al evaluado adaptarse al manejo de
los mandos y al examinador poder dar las explicaciones.
La prueba se presenta al evaluado a través de un móvil el que avanza a una velocidad
constante y de forma rectilínea ocultándose al sujeto, éste debe apreciar, usando su
habilidad perceptiva, el momento que estima pasará el móvil frente a una señal que se
encuentra en la parte superior de la zona oculta. En este test se presenta al examinado
diferentes recorridos, tres en dirección de derecha a izquierda y tres en dirección de
izquierda a derecha, evitando así efectos como lateralidad y direccionalidad. Los
parámetros establecidos están hechos según estudios realizados en Chile para selección
de conductores de vehículos motorizados.
Del total de la muestra evaluada, se determinaron los siguientes resultados:
0
5
10
15
20
25
Crítico Regular Medio Bueno Excelente
TEST DE ANTICIPACIÓN