Upload
software-guru
View
115
Download
0
Embed Size (px)
Citation preview
@sgcampus
Agenda
• Introducción– Métodos de clasificación
• Contexto– Escenario– Datos– Metodología
• Propuesta– “Pregunta de negocio” y caso de uso
@sgcampus
Introducción
• Datos– Fuentes diversas– Heterogeneidad– Integridad – Limpieza
Aprendizaje automático y minería de datos
@sgcampus
Introducción
La minería de datos o exploración de datos es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.
@sgcampus
Introducción
Inteligencia artificial y estadística
• Redes neuronales artificiales• Regresiones (lineales o no)• Árboles de decisión• Modelos estadísticos• Clustering
Algunos se podrán dividir entre supervisados y no supervisados
@sgcampus
Contexto
• En un hospital existe una bitácora en la que se registran los resultados de las intervenciones quirúrgicas realizadas a pacientes en el área de pediatría.
• Se registran las condiciones iniciales, eventos ocurridos durante la intervención, y resultado final de la intervención.
@sgcampus
Contexto
• Intervención programada o de urgencia
• Edad y sexo del paciente
• Eventualidades como transfusiones sanguíneas
• Quién participó en la intervención
• Tipo de destino del paciente
@sgcampus
Contexto
• No existe una forma estándar de llevar la bitácora• Los registros de la bitácora se llevan en una hoja
de cálculo• No hay un proceso de homologación de
información• Los registros son hechos por los mismos médicos
según van terminando su turno
@sgcampus
Contexto
• Palabras mal escritas
• Sinónimos
• Nomenclatura recortada
• Errores de captura en los campos
@sgcampus
Contexto
Why we need a methodology for data science
IBM Big Data & Analytics Hubhttp://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-science
@sgcampus
Contexto
Business understanding
Every project, regardless of its size, starts with business understanding, which lays the foundation for successful resolution of the business problem.
@sgcampus
Propuesta
• Predictor del destino del paciente– Historial de las intervenciones– Registro de condiciones iniciales – Registro del destino del paciente
• ¿Qué se necesita para predecir?
• ¿Qué variables son importantes para predecir?
@sgcampus
Propuesta
• Árbol de clasificación– Fácil interpretación de resultados– Representación visual– Agrupación de variables– Jerarquías de variables– Automatización e implementación fácil
• Extracción de reglas de negocio• Sistema experto
@sgcampus
Propuesta
• Marzo• 20 variables• Limpieza de información
– Expresiones regulares– Minúsculas– Eliminación de espacios y caracteres
especiales– Sustitución de palabras
@sgcampus
Propuesta
• 8 variables– Edad en meses– Sexo– Diagnóstico– Tipo de programación– Tiempo en minutos– Hemoderivados– Incidentes– Destino
@sgcampus
Propuesta
• Árbol C 4.5– En RWeka se llama J48– Entropía o desorden de la información– Aprendizaje supervisado– Clasificador– La variable que mejor divide al conjunto de
datos se fija y se vuelve a iterar
@sgcampus
Propuesta
• Destino
– formulaDestino <- Destino ~ EdadMeses + Sexo + ProgramadoUrgencia + TiempoMinutos + Incidentes
@sgcampus
Propuesta
• ¿Necesita hemoderivados?
– formulaHemo <- Hemoderivados ~ EdadMeses + ProgramadoUrgencia + Sexo + TiempoMinutos