1
Tecnologías Inteligentes para Explotación de Información
Dr. Ramón García-Martínez
M. Ing. Paola Britos
Metodologías para la Explotación de Información
2
Hoja 3
Temas a tratar
�Alcances de las metodologías
�Características�CRISP-DM,�SEMMA, y�P3TQ.
�Metodología CRISP-DM�Desarrollos de las fases, �Dependencia entre fases.
�Metodología de educción de requerimientos
Hoja 4
Alcance de las metodologías
�Un proyecto de Explotación de Información involucra, en general las siguientes fases: �Comprensión del negocio y del problema que se quiere resolver,
�Determinación, obtención y limpieza de los datos necesarios,
�Ejecución de los modelos, �Validación de los algoritmos, �Comunicación de los resultados obtenidos, e �Integración de los mismos, si procede.
�Metodologías existentes:�CRISP-DM, �SEMMA, y�P3TQ (Product, Place, Price,Time and Quality).
3
Hoja 5
Características CRISP-DM
�Niveles de abstracción
�Ciclo de vida
Hoja 6
Características SEMMA
�Dinámica metodológica
4
Hoja 7
Características P3TQ
�Fases
Hoja 8
Metodología CRISP-DM
Compresión del negocio
Compresión de los datos
Preparación de los datos
Modelado
Evaluación
Desarrollo
8
Hoja 15
Dependencias Fase: Comprensión del negocio
Costos y beneficios- Objetivo de negocio, Inventario de recursos Requerimientos, presunciones y restricciones,
- Riesgos y contingencias.
- Plan de proyecto.
- Criterio de éxito de negocio,- Requerimientos, presunciones
y restricciones, - Metas de explotación de datos.
- Criterio de éxito de explotación de datos.
- Objetivo de negocio, Requerimientos, asunciones y restricciones.
- Metas de explotación de datos.
Plan de proyecto- Objetivo de negocio.- Costos y beneficios.
Objetivo de negocio- Backgorund.- Terminología.
- Objetivo de negocio, Criterios de éxito de negocio.
- Riesgos y contingencias.
- Objetivo de negocio.- Requerimientos, asunciones y restricciones.
- Inventario de recursos.
- Objetivo de negocio.- Criterios de éxito de negocio.
Terminología- Backgorund.- Objetivo de negocio.
- Background.
Relacionado aDepende deEntregable
Hoja 16
Dependencias Fase: Comprensión de los datos
-Objetivo de negocio, -Reporte de colección inicial de datos.
-Reporte de calidad de datos.
Reporte de descripción de datos
-Objetivo de negocio, -Reporte de colección inicial de datos.
-Reporte de exploración de datos.
Reporte de calidad de datos
-Objetivo de negocio,-Reporte de colección inicial de datos.
-Reporte de descripción de datos.
-Objetivo de negocio, Inventario de recursos, -Objetivos de explotación de datos.
-Reporte de colección inicial de datos.
Relacionado aDepende deEntregable
9
Hoja 17
Dependencias Fase: Preparación de los datos
-Objetivo de negocio, -Objetivo de explotación de datos,-Reporte de descripción de datos,-Reporte de calidad de datos,-Reporte de exploración de datos.
-Set de datos y descripción de set de datos.
Relacionado aDepende deEntregable
Hoja 18
Dependencias Fase: Modelado
-Criterio de éxito de negocio,-Diseño de test,-Modelos.
-Evaluación de modelo.
-Modelos,-Setear parámetros, Diseño de test.
-Descripción de modelo.
Modelos-Objetivo de explotación de datos.-Setear parámetros.
Setear parámetros-Objetivo de explotación de datos.-Modelos.
-Objetivo de explotación de datos,-Criterio de éxito de explotación de datos.
-Diseño de test.
Relacionado aDepende deEntregable
10
Hoja 19
Dependencias Fase: Evaluación
-Plan de proyecto, -Evaluación de resultado de explotación de datos, -Criterios de éxito de negocio.
-Pasos a seguir.
-Objetivo de negocio,-Evaluación de resultado de explotación de datos,-Criterios de éxito de negocio.
-Revisión de proceso.
-Criterio de éxito de negocio,-Terminología.
-Evaluar resultado de explotación de datos,-Criterios de éxito de negocio.
Relacionado aDepende deEntregable
Hoja 20
Dependencias Fase: Desarrollo
-Plan de proyecto,-Revisión de proceso.
-Documentación de experiencia.
-Objetivo de negocio,-Terminología,-Evaluación de resultado de explotación de datos, -Criterios de éxito de negocio.
-Reporte final y presentación.
Desarrollo de plan-Objetivo de negocio. -Requerimientos, presunciones y restricciones.
-Plan de mantenimiento.
Plan de mantenimiento-Objetivo de negocio, -Requerimientos, presunciones y restricciones.
-Desarrollo de plan.
Relacionado aDepende deEntregable
11
Hoja 21
Metodología de Educción de Requisitos
� La Ingeniera de Requisitos es una fase importante en las metodologías de Ingeniería del Software que intentan especificar las necesidades del sistema del cliente.
� Varios autores han tratado la necesidad de mejorar las metodologías de Explotación de Datos que se centraban en la especificación de la definición de los objetivos y en la tarea de especificación, especialmente en fase de análisis de datos.
� La comunidad de Explotación de Datos ha descuidado los aspectos de la especificación de requisitos de estos proyectos, no pudiendo identificar cualquier técnica utilizar para obtener el conocimiento necesario o para sugerir plantillas para la documentación sistemática de requisitos.
Hoja 22
Estado de situación en las metodologías existentes
� El proceso del elicitación del requisito es tratado por la mayoría de las metodologías de uso general de la explotación de datos.
� Las metodologías del Explotación de Datos (CRISP-DM, P3TQ, SEMMA) mencionan la necesidad de la comprensión del negocio como punto de partida para cualquier desarrollo de este tipo de proyecto.
� Una suposición en la Ingeniería de Requisitos para este tipo de proyectos es que el recurso humano implicado tiene suficiente conocimiento para saber los requisitos.
� La tarea de compresión entre clientes y usuarios y los equipos del desarrollo es realizada por los Ingenieros de Requerimientos y los Analista de Negocio que usan diversas notaciones.
� Sin embargo, esto es muy complejo debido a diversidad de los modelos con que se especifican estos sistemas y la experiencia de los recursos humanos implicados.
� En este contexto, la fase del elicitación de los requisitos de las metodologías existentes no cubre todos los conceptos necesarios ni la documentación necesaria.
12
Hoja 23
Marco para la educción de requerimientos
PROBLEMAS
� Los clientes no entienden el lenguaje utilizado por el grupo de DM-BI.� El grupo de DM BI no entiende el lenguaje que utiliza el cliente.� Al grupo de DM-BI le es difícil de entender como puede ayudar al cliente
porque no conoce el dominio del problema.
� El cliente no esta seguro de a que se refieren los proyectos de DM-BI, o que se puede hacer.
� Los modelos definidos por el grupo de DM-BI son diferentes a la situación percibida por el cliente.
� El cliente tiene un grupo de trabajo impredecible, no comprometido con el proyecto.
� El cliente no conoce la necesidad de información de la organización ni su condición.
� Los datos que conciernen a los requerimientos no son los correctos.
� Cuando un proyecto de DM -BI es modelados (solución a los requerimientos) y el grupo de DM-Bi detecta un problema en los datos (por ejemplo: los datos que involucran a los requerimientos no son los correctos), es necesario redefinir el requerimiento.
� Los requerimientos de un proyecto de DM-BI definidos incorrectamente implican una incorrecta selección de la herramienta de modelado.
CONCEPTOS A SER EDUCIDO
Definiciones, acrónimos y abreviaturas.
Objetivos del proyectos.Criterios de éxito del proyecto.Expectativas del proyecto.Suposiciones del proyecto.
Recursos humanos involucrados.
Restricciones del proyecto.Riesgo del proyecto.Plan de contingencia.
Objetivo del requerimiento.Información del requerimiento o fuente de datos.Atributos relacionados con los requerimientos.
Suposiciones de los requerimientos.Restricciones de los requerimientos.Riegos de los requerimientos.Plan de contingencia de los requerimientos.
Evaluación de herramientas de DM-BI
Hoja 24
Comparación de metodologías
�El análisis de las metodologías existentes permiten analizar las necesidades de educir los puntos planteados durante la fase de entendimiento del negocio:�CRISP-DM presta atención a 10 sobre 17 conceptos necesarios.
�P3TQ presta atención a 4 sobre 17 . �SEMMA no le presta atención a ningún concepto.
�En general: �Los conceptos relativo a determinar los objetivos de negocio y son atendidos al menos por una metodología, y
�Los conceptos relativos a la determinación de los objetivos del proyecto de DM y la planificación del mismo no son tenidos en cuenta.
13
Hoja 25
█Evaluacion de herramientas
Contingencias de los requerimientos
Riesgos de los requerimientos
Atributos relativos a los requerimientos
Restricciones de los requerimientos
Suposiciones de los requerimientos
█Fuente de informacion de los requerimientos
██Objetivos de los requerimientos
█Definiciones, acronimos y abreviaturas
█Plan de contingencia
█Riesgos del proyecto
█Restricciones del proyecto
█Suposiciones del proyecto
█Expectativas del proyecto
█Recursos humanos
█Criterios de éxito del proyecto
██Objetivos del proyecto
SEMMA[SAS, 2008]
P3TQ[Pyle, 2003]
CRISP-DM[Chapman et al. 2000]
CONCEPTOS A EDUCIR
Comparación de metodologías
Hoja 26
Método propuestoProceso
El propósito del:� Paso 1: Consiste en establecer un lenguaje en común con la gente involucrada
en el proyecto. � Paso 2: Consiste en establecer los requerimientos del proyecto; los datos que
necesitan esos requerimientos, su localización, los riesgos involucrados, las restricciones y finalmente las suposiciones.
� Paso 3: Consiste en definir los objetivos del proyecto de DM-BI, sus limitaciones, expectativas y riesgos.
� Paso 4: Consiste en conocer los recursos humanos involucrados, sus restricciones, riesgos y responsabilidades.
� Paso 5: Consiste en seleccionar la herramienta adecuada que permita cumplir con los pasos anteriores.
Una necesidad de los conceptos que tienen que ser identificados es establecer pasos de educción entre los conceptos. Para las fases de entendimiento del negocio de las metodologías de DM-BI proponemos un proceso de elicitación de requerimientos que consta de 5 pasos:
14
Hoja 27
Método propuestoProceso
� La dependencia conceptual entre los conceptos debe existir, la referencia cruzada entre conceptos esta dada por las plantillas.
Hoja 28
Métodos propuestosProductos
�Se definen un conjunto de plantillas. �Cada plantilla esta asociada a un concepto. �Estas plantillas contienen la descripción de los conceptos a ser educidos.
�Los conceptos de las plantillas evolucionan a través del proceso de elicitación de requerimientos.
�La relación entre los conceptos educidos como productos y los pasos del proceso planteado se muestra en el cuadro:
15
Hoja 29█Evaluación de herramientas
█Plan de contingencia de los requerimientos
█Riesgos de los requerimientos
██Atributos de los requerimientos
██Restricciones de los requerimientos
█Suposiciones de los requerimientos
█Fuentes de información los requerimientos
██Objetivos de los requerimientos
█████Recursos humanos
█Plan de contingencia
█Riesgos del proyecto
█Restricciones del proyecto
█Suposiciones del proyecto
█Expectativas del proyecto
█Criterios de éxito
█Objetivos del proyecto
█████Definiciones acrónimos y abreviaturas
Seleccionar las herramientas de explotación de
datos
Identificar los recursos humanos
Entender los objetivos del proyecto
Conocer los datos del dominio del proyecto
Entender el dominio del proyecto
PASOS
PRODUCTOS(conceptos a ser educidos)
Hoja 30
Uso de las plantillas
� Para el uso de las plantillas propuesta un tesista de magíster realizó el primer prototipo de una herramienta software que las contienen (http://tdmbi.plugit.com.ar/)