34
TUTORIAL BÁSICO DE MINERÍA DE DATOS Este es el Tutorial básico de minería de datos de Microsoft SQL Server 2008 Analysis Services (SSAS). Microsoft SQL Server proporciona un entorno integrado para crear modelos de minería de datos y trabajar con ellos. En este tutorial, completará un escenario de una campaña de distribución de correo directo en el que se crean tres modelos para analizar el comportamiento de compra de los clientes y buscar a compradores potenciales. El tutorial demuestra cómo utilizar los algoritmos de minería de datos, los visores del modelo de minería de datos y las herramientas de minería de datos que se incluyen en MicrosoftSQL ServerAnalysis Services. La compañía ficticia, Adventure Works Cycles, se utiliza en todos los ejemplos. Cuando tenga más confianza usando las herramientas de minería de datos, recomendamos que también complete el Tutorial intermedio de minería de datos, que demuestra cómo utilizar la previsión, el análisis de la cesta de la compra, series temporales, modelos de asociación, tablas anidadas y clústeres de secuencias. Escenario del tutorial En este tutorial, será un empleado de Adventure Works Cycles con la tarea de obtener más información sobre los clientes de la compañía basándose en el historial de compras y utilizando a continuación esos datos históricos para realizar predicciones que se puedan utilizar en el mercado. La compañía no ha trabajado previamente con minería de datos, por lo que debe crear una nueva base de datos específica para minería de datos y configurar varios modelos de minería de datos. Aprendizaje Este tutorial le enseñará a crear diferentes tipos de modelos de minería de datos y a trabajar con ellos. También enseña cómo crear una copia de un modelo de minería de datos y aplicarle un filtro. A continuación, procesa el modelo nuevo y lo evalúa usando un gráfico de mejora respecto al modelo predictivo. Cuando el modelo está completo, utiliza la obtención de detalles para recuperar los datos adicionales de la estructura de minería de datos subyacente. En SQL Server 2008, Microsoft proporciona varias características nuevas que ayudan a desarrollar modelos de minería de datos personalizados y usar los resultados más eficazmente. Conjuntos de pruebas de parámetros de exclusión: al crear una estructura de minería de datos, ahora puede dividir los datos de la estructura en conjuntos de prueba y de entrenamiento. Filtros de modelo de minería de datos: ahora puede asociar filtros a un modelo de minería de datos y aplicar el filtro durante el entrenamiento y también en las pruebas.

Tutorial Básico de Minería de Datos

Embed Size (px)

Citation preview

Page 1: Tutorial Básico de Minería de Datos

TUTORIAL BÁSICO DE MINERÍA DE DATOS

Este es el Tutorial básico de minería de datos de Microsoft SQL Server 2008 Analysis Services (SSAS). Microsoft SQL Server proporciona un entorno integrado para crear modelos de minería de datos y trabajar con ellos. En este tutorial, completará un escenario de una campaña de distribución de correo directo en el que se crean tres modelos para analizar el comportamiento de compra de los clientes y buscar a compradores potenciales. El tutorial demuestra cómo utilizar los algoritmos de minería de datos, los visores del modelo de minería de datos y las herramientas de minería de datos que se incluyen en MicrosoftSQL ServerAnalysis Services. La compañía ficticia, Adventure Works Cycles, se utiliza en todos los ejemplos.Cuando tenga más confianza usando las herramientas de minería de datos, recomendamos que también complete el Tutorial intermedio de minería de datos, que demuestra cómo utilizar la previsión, el análisis de la cesta de la compra, series temporales, modelos de asociación, tablas anidadas y clústeres de secuencias.

Escenario del tutorialEn este tutorial, será un empleado de Adventure Works Cycles con la tarea de obtener más información sobre los clientes de la compañía basándose en el historial de compras y utilizando a continuación esos datos históricos para realizar predicciones que se puedan utilizar en el mercado. La compañía no ha trabajado previamente con minería de datos, por lo que debe crear una nueva base de datos específica para minería de datos y configurar varios modelos de minería de datos.

AprendizajeEste tutorial le enseñará a crear diferentes tipos de modelos de minería de datos y a trabajar con ellos. También enseña cómo crear una copia de un modelo de minería de datos y aplicarle un filtro. A continuación, procesa el modelo nuevo y lo evalúa usando un gráfico de mejora respecto al modelo predictivo. Cuando el modelo está completo, utiliza la obtención de detalles para recuperar los datos adicionales de la estructura de minería de datos subyacente.En SQL Server 2008, Microsoft proporciona varias características nuevas que ayudan a desarrollar modelos de minería de datos personalizados y usar los resultados más eficazmente.

Conjuntos de pruebas de parámetros de exclusión: al crear una estructura de minería de datos, ahora puede dividir los datos de la estructura en conjuntos de prueba y de entrenamiento.

Filtros de modelo de minería de datos: ahora puede asociar filtros a un modelo de minería de datos y aplicar el filtro durante el entrenamiento y también en las pruebas.

Obtención de detalles para casos de estructura y columnas de estructura: ahora puede pasar con facilidad de los patrones generales del modelo de minería de datos al detalle procesable en el origen de datos.

El tutorial está compuesto por las lecciones siguientes:

Lección 1: Preparar la base de datos de Analysis Services (tutorial básico de minería de datos)En esta lección, aprenderá a crear una nueva base de datos de Analysis Services, agregar un origen de datos y una vista de origen de datos, y preparar la nueva base de datos que se va a utilizar para la minería de datos.

Lección 2: Generar una estructura de distribución de correo directo (Tutorial básico de minería de datos)En esta lección, aprenderá a crear una estructura de modelos de minería de datos que se puede utilizar como parte de un escenario de distribución de correo directo.

Lección 3: Agregar y procesar los modelosEn esta lección obtendrá información sobre cómo agregar modelos a una estructura. Los modelos que crea se generan con los algoritmos siguientes:

Page 2: Tutorial Básico de Minería de Datos

Árboles de decisión de Microsoft Clústeres de Microsoft Bayes naive de Microsoft

Lección 4: Explorar los modelos de correo directo (tutorial básico de minería de datos)En esta lección obtendrá información sobre cómo explorar e interpretar los hallazgos de cada modelo usando los visores.

Lección 5: Probar los modelos (Tutorial básico de minería de datos)En esta lección, realiza una copia de uno de los modelos de distribución de correo directo, agrega un filtro de modelo de minería de datos para restringir los datos de entrenamiento a un conjunto determinado de clientes y, a continuación, evalúa la viabilidad del modelo.

Lección 6: Crear y trabajar con predicciones (Tutorial básico de minería de datos)En esta lección final del Tutorial básico de minería de datos, utiliza el modelo para predecir qué clientes tienen más probabilidad de comprar una bicicleta. A continuación, obtiene detalles de los casos subyacentes para conseguir información de contacto.

RequisitosAsegúrese de que los siguientes componentes estén instalados:

Microsoft SQL Server 2008 Microsoft SQL Server Analysis Services La base de datos AdventureWorks2008.

LECCIÓN 1: PREPARAR LA BASE DE DATOS DE ANALYSIS SERVICES (TUTORIAL BÁSICO DE MINERÍA DE DATOS)

Suponga que es un nuevo empleado de Adventure Works Cycles que se le ha encargado la tarea de diseñar una aplicación de inteligencia empresarial en SQL Server 2008. Adventure Works Cycles espera aprovechar su experiencia en minería de datos de Analysis Services para descubrir información interesante y procesable sobre las personas que han comprado bicicletas. Quieren que prevea qué clientes tienen más probabilidad de comprar una bicicleta en el futuro. El diseño de esta aplicación en SQL Server comienza por la creación en Business Intelligence Development Studio de un proyecto de SQL ServerAnalysis Services basado en una plantilla de proyecto de Analysis Services. Después de crear un proyecto de Analysis Services, tiene que definir uno o varios orígenes de datos. A continuación, definirá una sola vista de los metadatos denominada vista de origen de datos, a partir de las tablas y vistas seleccionadas en los orígenes de datos.En esta lección, creará un proyecto de Analysis Services, definirá un solo origen de datos y agregará un subconjunto de tablas a una vista de origen de datos. Esta lección incluye las tareas siguientes:

Crear un proyecto de Analysis Services (Tutorial básico de minería de datos) Crear un origen de datos (Tutorial básico de minería de datos) Crear una vista del origen de datos (Tutorial básico de minería de datos)

Primera tarea de la lección Crear un proyecto de Analysis Services (Tutorial básico de minería de datos)

Cada proyecto de MicrosoftSQL ServerAnalysis Services define el esquema para los objetos de una base de datos de Analysis Services individual. Una base de datos de Analysis Services contiene estructuras de minería de datos y modelos de minería de datos, cubos OLAP (Procesamiento analítico en línea) y objetos complementarios tales como orígenes de datos y vistas de orígenes de datos. En este tutorial se utilizará la base de datos AdventureWorksDW2008.

Page 3: Tutorial Básico de Minería de Datos

De forma predeterminada, Analysis Services utiliza la instancialocalhost para los proyectos nuevos. Si está utilizando una instancia con nombre o un servidor diferente, debe crear y abrir el proyecto primero y, a continuación, cambiar el nombre de instancia.

Para crear un proyecto de Analysis Services1. Abra Business Intelligence Development Studio.2. En el menú Archivo, seleccione Nuevo y haga clic enProyecto.3. Compruebe que la opción Proyectos de Business Intelligence está seleccionado en el

panel Tipos de proyecto.4. Compruebe que Proyecto de Analysis Services está seleccionado en el panel Plantillas.5. En el cuadro Nombre, escriba ASDataMining2008como nombre del nuevo proyecto.6. Haga clic en Aceptar.

Para cambiar la instancia donde se almacenan los objetos de minería de datos1. En Business Intelligence Development Studio, en el menú Proyecto,

seleccione Propiedades.2. En el lado izquierdo del panel Páginas de propiedades, en Propiedades de configuración,

haga clic en Implementación.3. En el lado derecho del panel Páginas de propiedades, en Destino, compruebe que el

nombre de Servidor eslocalhost. Si usa una instancia diferente, escriba el nombre de la instancia. Haga clic en Aceptar.

Crear un origen de datos (Tutorial básico de minería de datos)Un origen de datos es una conexión de datos que se almacena y se administra en el proyecto y se implementa en la base de datos de MicrosoftSQL ServerAnalysis Services. El origen de datos contiene los nombres del servidor y la base de datos donde residen los datos de origen, además de otras propiedades de conexión necesarias.

Importante

El nombre de la base de datos es AdventureWorksDW2008.

Para crear un origen de datos1. En el Explorador de soluciones, haga clic con el botón secundario en la carpeta Orígenes de

datos y seleccione Nuevo origen de datos.2. En la página de inicio del Asistente para orígenes de datos, haga clic en Siguiente.3. En la página Seleccionar cómo definir la conexión, haga clic en Nueva para agregar una

conexión a la base de datos de Adventure Works.4. En la lista Proveedor del Administrador de conexiones, seleccione OLE DB nativo\SQL

Server Native Client 10.0.5. En el cuadro Nombre del servidor, escriba o seleccione el nombre del servidor en el que

instaló Adventure Works DW2008.Por ejemplo, escriba localhost, si la base de datos se hospeda en el servidor local.

6. En el grupo Iniciar sesión en el servidor, seleccioneUtilizar autenticación de Windows.

Page 4: Tutorial Básico de Minería de Datos

Importante

Siempre que sea posible, los implementadores deberían utilizar la autenticación de Windows, ya que proporciona un método de autenticación más seguro que la autenticación de SOL Server. Sin embargo, la autenticación de SQL Server se proporciona por motivos de compatibilidad con versiones anteriores.

7. En la lista Seleccione o escriba un nombre de base de datos, seleccione AdventureWorksDW2008 y, a continuación, haga clic en Aceptar.

8. Haga clic en Siguiente.9. En la página Información de suplantación, haga clic en Utilizar la cuenta de servicio y, a

continuación, haga clic en Siguiente.10. Observe que en la página Finalización del asistente, el origen de datos tendrá el nombre

Adventure Works DW2008 de forma predeterminada.11. Haga clic en Finalizar.

El nuevo origen de datos, Adventure Works DW2008, aparece en la carpeta Orígenes de datos del Explorador de soluciones.

Crear una vista del origen de datos (Tutorial básico de minería de datos)Una vista del origen de datos se genera en un origen de datos y define un subconjunto de los datos que rellenan un almacén de datos. De esta forma se puede modificar la estructura de los datos para que sean más significativos en el contexto del proyecto. Mediante el uso de vistas de origen de datos, puede seleccionar las tablas relacionadas con un proyecto concreto, establecer relaciones entre ellas e incorporar columnas calculadas y vistas con nombre sin modificar el origen de datos original.

Para crear una vista de origen de datos1. En el Explorador de soluciones, haga clic con el botón secundario en Vistas de origen de

datos y seleccioneNueva vista de origen de datos.2. En la página de inicio del Asistente para vistas de origen de datos, haga clic en Siguiente.3. En la página Seleccionar un origen de datos, enOrígenes de datos relacionales, seleccione

el origen de datos AdventureWorks DW2008 que creó en la última tarea. Haga clic en Siguiente.

Nota

Si desea crear un nuevo origen de datos, haga clic en Nuevo origen de datos para iniciar el Asistente para orígenes de datos.

4. En la página Seleccionar tablas y vistas, seleccione los objetos siguientes y, a continuación, haga clic en la flecha derecha para incluirlos en la nueva vista del origen de datos:

o ProspectiveBuyer (dbo): la tabla de compradores probables de una bicicletao vTargetMail (dbo): la vista de datos históricos sobre los compradores de una

bicicleta en el pasado5. Haga clic en Siguiente.6. En la página Finalizando el asistente, la vista del origen de datos tendrá el nombre

Adventure Works DW2008 de forma predeterminada. Cambie el nombre por Targeted Mailing y, a continuación, haga clic enFinalizar.La nueva vista del origen de datos se abre en la fichaTargeted Mailing.dsv [Design].

Page 5: Tutorial Básico de Minería de Datos

LECCIÓN 2: GENERAR UNA ESTRUCTURA DE DISTRIBUCIÓN DE CORREO DIRECTO (TUTORIAL BÁSICO DE MINERÍA DE DATOS)El departamento de marketing de Adventure Works Cycles desea aumentar las ventas dirigiendo una campaña de correo directo a clientes específicos. La base de datos de la empresa, AdventureWorks DW2008, contiene una lista de clientes antiguos y otra de clientes nuevos potenciales. Mediante el análisis de los atributos de compradores anteriores de bicicletas, la empresa espera detectar los patrones que posteriormente se aplicarán a los clientes potenciales. La empresa pretende utilizar los patrones detectados para predecir qué clientes potenciales tienen más probabilidades de comprar una bicicleta de Adventure Works Cycles.En esta lección utilizará el Asistente para minería de datoscon el fin de crear la estructura de distribución de correo directo. Después de completar las tareas de esta lección, tendrá una estructura de minería de datos con un modelo sencillo. Dado que la creación de una estructura conlleva muchos pasos y conceptos importantes, hemos separado este proceso en las tres tareas siguientes:

Crear una estructura del modelo de minería de datos de distribución de correo directo (Tutorial básico de minería de datos)

Especificar el tipo de datos y el tipo de contenido (Tutorial básico de minería de datos) Especificar un conjunto de datos de pruebas para la estructura (Tutorial básico de minería de datos)

Primera tarea de la lecciónCrear una estructura del modelo de minería de datos de distribución de correo directo (Tutorial básico de minería de datos)

Crear una estructura del modelo de minería de datos de distribución de correo directo (Tutorial básico de minería de datos)El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en utilizar el Asistente para minería de datos de Business Intelligence Development Studio con el fin de crear una estructura de minería de datos y un modelo de minería de datos de árbol de decisión.En esta tarea creará la estructura de minería de datos inicial, basada en el algoritmo de árboles de decisión de Microsoft. Para crear la estructura, primero seleccionará las tablas y vistas, y a continuación identificará qué columnas se utilizarán para el entrenamiento y cuáles para pruebas.Para crear una estructura de minería de datos para un escenario de distribución de correo directo

1. En el Explorador de soluciones, haga clic con el botón secundario en Estructuras de minería de datos y seleccione Nueva estructura de minería de datos para iniciar el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.3. En la página Seleccionar el método de definición, compruebe que la opción A partir de una

base de datos relacional o un almacén de datos se ha seleccionado y, a continuación, haga clic en Siguiente.

4. En la página Crear la estructura de minería de datos, en ¿Qué técnica de minería de datos desea utilizar?, seleccione Árboles de decisión de Microsoft.

Nota

Si aparece una advertencia de que no se puede encontrar ningún algoritmo de minería de datos, puede que las propiedades del proyecto no estén configuradas correctamente. Esta advertencia se produce cuando el proyecto intenta recuperar una lista de algoritmos de minería de datos del servidor de Analysis Services y no puede encontrarlo. De forma predeterminada, BI Development Studio utilizará el host local como servidor. Si está utilizando una instancia diferente o una instancia con nombre, debe cambiar las propiedades del proyecto.

Page 6: Tutorial Básico de Minería de Datos

5. Haga clic en Siguiente.6. En la página Seleccionar vista del origen de datos, en el panel Vistas del origen de datos

disponibles, seleccione Targeted Mailing. Puede hacer clic en Explorar para ver las tablas de la vista del origen de datos y, a continuación, hacer clic en Cerrar para volver al asistente.

7. Haga clic en Siguiente.8. En la página Especificar tipos de tablas, active la casilla de la columna Caso,

correspondiente a vTarget Mail para usarla como tabla de casos y, a continuación, haga clic en Siguiente. Utilizará la tabla Prospective Buyer posteriormente para pruebas; pásela por alto por ahora.

9. En la página Especificar los datos de aprendizaje, identificará al menos una columna de predicción, una columna de clave y una columna de entrada para el modelo. Active la casilla de la columna De predicción en la fila Bike Buyer.

Nota

Observe la advertencia en la parte inferior de la ventana. No podrá navegar a la página siguiente hasta que seleccione una columna De predicción y Entrada, como mínimo.

10. Haga clic en Sugerir para abrir el cuadro de diálogo Sugerir columnas relacionadas.El botón Sugerir está habilitado siempre que se haya seleccionado al menos un atributo predecible. El cuadro de diálogo Sugerir columnas relacionadas enumera en una lista las columnas más relacionadas con la columna predecible y ordena los atributos por su correlación con el atributo predecible. Las columnas con una correlación significativa (con una confianza mayor del 95%) se seleccionan automáticamente para incluirse en el modelo.Revise las sugerencias y, a continuación, haga clic en Cancelar para omitirlas.

Nota

Si hace clic en Aceptar, todas las sugerencias enumeradas se marcarán como columnas de entrada en el asistente. Si está de acuerdo sólo con algunas de las sugerencias, debe cambiar los valores manualmente.

11. Compruebe que la casilla de la columna Key está seleccionada en la fila CustomerKey.

Nota

Si la tabla de origen de la vista de origen de datos muestra una clave, el Asistente para minería de datos elegirá automáticamente esa columna como clave para el modelo.

12. Active las casillas de la columna Entrada en las filas siguientes. Puede activar varias columnas resaltando un rango de celdas y presionando CTRL mientras activa una casilla.

o Ageo CommuteDistanceo EnglishEducationo EnglishOccupationo Gendero GeographyKeyo HouseOwnerFlago MaritalStatuso NumberCarsOwnedo NumberChildrenAtHomeo Regiono TotalChildren

Page 7: Tutorial Básico de Minería de Datos

o YearlyIncome13. En la columna izquierda de la página, active las casillas de las filas siguientes.

o AddressLine1o AddressLine2o DateFirstPurchaseo EmailAddresso FirstNameo LastName.

Asegúrese de que estas filas sólo tienen marcas en la columna izquierda. Estas columnas se agregarán a la estructura pero no se incluirán en el modelo. Sin embargo, una vez generado el modelo, estarán disponibles para la obtención de detalles y las pruebas.

14. Haga clic en Siguiente.

Especificar el tipo de datos y el tipo de contenido (Tutorial básico de minería de datos)Ahora que ha seleccionado qué columnas utilizar para generar la estructura y entrenar los modelos, realice los cambios necesarios en los datos predeterminados y tipos de contenido que establece el asistente.Revisar y modificar el tipo de contenido y el tipo de datos de cada columna

1. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic en Detectar para ejecutar un algoritmo que determine los tipos de contenido y los datos predeterminados de cada columna.

2. Revise las entradas de las columnas Tipo de contenido y Tipo de datos, y cámbielas si es necesario para asegurarse de que la configuración es igual que la que se muestra en la tabla siguiente.Normalmente, el asistente detectará números y asignará un tipo de datos numérico adecuado, pero hay varias situaciones en las que podría desear tratar un número como texto. Por ejemplo, GeographyKey se debería tratar como texto, porque no sería apropiado realizar operaciones matemáticas en este identificador.

Columna Tipo de contenido Tipo de datos

Address Line1 Discrete Text

Address Line2 Discrete Text

Age Continuous Long

Bike Buyer Discrete Long

Commute Distance Discrete Text

CustomerKey Key Long

DateLastPurchase Continuous Date

Email Address Discrete Text

Page 8: Tutorial Básico de Minería de Datos

English Education Discrete Text

English Occupation Discrete Text

FirstName Discrete Text

Gender Discrete Text

Geography Key Discrete Text

House Owner Flag Discrete Text

Last Name Discrete Text

Marital Status Discrete Text

Number Cars Owned Discrete Long

Number Children At Home Discrete Long

Region Discrete Text

Total Children Discrete Long

Yearly Income Continuous Double

3. Haga clic en Siguiente.

Especificar un conjunto de datos de pruebas para la estructura (Tutorial básico de minería de datos)En las pantallas finales del Asistente para minería de datos dividirá los datos en un conjunto de pruebas y en un conjunto de entrenamiento. Después, denominará su estructura y habilitará la obtención de datos en el modelo.Especificar un conjunto de pruebasAl separar los datos en conjuntos de entrenamiento y de pruebas cuando se crea una estructura de minería de datos, es posible evaluar inmediatamente la exactitud de los modelos de minería de datos que se crean después.Para especificar el conjunto de pruebas

1. En la página Crear conjunto de pruebas, enPorcentaje de datos para pruebas, deje el valor predeterminado 30.

2. En Número máximo de casos en el conjunto de datos de prueba, escriba 1000.3. Haga clic en Siguiente.

Especificar la obtención de detallesLa obtención de detalles puede habilitarse en los modelos y en las estructuras. La casilla de esta ventana habilita la obtención de detalles en el modelo con nombre y le permite recuperar información detallada de los casos del modelo que se usaron para entrenarlo.

Page 9: Tutorial Básico de Minería de Datos

Si la estructura de minería de datos subyacente también se ha configurado para permitir la obtención de detalles, puede recuperar información detallada de los casos de modelos y de la estructura, incluyendo las columnas que no estaban incluidas en el modelo de minería de datos.Para denominar el modelo y la estructura, y especificar la obtención de detalles

1. En la página Finalización del asistente, en Nombre de la estructura de minería de datos, escriba Targeted Mailing.

2. En Nombre del modelo de minería de datos, escriba TM_Decision_Tree.3. Active la casilla Permitir obtención de detalles.4. Revise el panel Vista previa. Observe que se muestran sólo las columnas seleccionadas

como Clave, Entrada o De predicción. Las otras columnas que seleccionó (por ejemplo, AddressLine1) no se utilizan para generar el modelo, pero estarán disponibles en la estructura subyacente y se pueden consultar una vez procesado e implementado el modelo.

5. Haga clic en Finalizar.

LECCIÓN 3: AGREGAR Y PROCESAR LOS MODELOS

La estructura de minería de datos que creó en la lección anterior contiene un modelo de minería de datos individual que se basa en el algoritmo de árboles de decisión de Microsoft. Para identificar a los clientes para la distribución de correo directo, creará dos modelos adicionales y, a continuación, procesará e implementará los modelos.En esta lección, creará un conjunto de modelos de minería de datos que sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista de clientes potenciales.Para completar las tareas de esta lección, utilizará elAlgoritmo de clústeres de Microsoft y el Algoritmo Bayes naive de Microsoft.Esta lección incluye las tareas siguientes:

Agregar modelos nuevos a la estructura de correo de destino (tutorial básico de minería de datos) Procesar los modelos de la estructura de distribución de correo directo (Tutorial básico de minería

de datos)

Agregar modelos nuevos a la estructura de correo de destino (tutorial básico de minería de datos)En esta tarea, definirán dos modelos adicionales mediante la ficha Modelos de minería de datos del Diseñador de minería de datos. Para crear los modelos, se usarán el algoritmo Bayes naive y el algoritmo de clústeres de Microsoft. Estos dos algoritmos se han seleccionado debido a su capacidad de predecir un valor discreto (por ejemplo, la compra de una bicicleta).Dado que esta tarea se genera una vez que el trabajo de la tarea anterior se ha completado, se recomienda completar este tutorial en orden.Para crear un modelo de minería de datos de agrupación en clústeres

1. Cambie a la ficha Modelos de minería de datos del Diseñador de minería de datos en Business Intelligence Development Studio.Observe que el diseñador muestra dos columnas: una para la estructura de minería de datos y otra para el modelo de minería de datos TM_Decision_Tree, que creó en la tarea anterior de esta lección.

2. Haga clic con el botón secundario en la columna Estructura y seleccione Nuevo modelo de minería de datos.

3. En el cuadro de diálogo Nuevo modelo de minería de datos, en Nombre del modelo, escribaTM_Clustering.

4. En Nombre del algoritmo, seleccione Agrupación en clústeres de Microsoft.

Page 10: Tutorial Básico de Minería de Datos

5. Haga clic en Aceptar.Ahora aparece el modelo nuevo en la ficha Modelos de minería de datos del Diseñador de minería de datos. Este modelo, integrado con el algoritmo de clústeres de Microsoft, agrupa los clientes con características similares en clústeres y predice la compra de una bicicleta en cada clúster. Aunque puede modificar el uso y las propiedades de la columna para el modelo nuevo, en este tutorial no es necesario hacer cambios en el modelo TM_Clustering.Para crear un modelo de minería de datos Bayes naive

1. En la ficha Modelos de minería de datos del Diseñador de minería de datos, haga clic con el botón secundario enla columna Estructura y seleccioneNuevo modelo de minería de datos.

2. En el cuadro de diálogo Nuevo modelo de minería de datos, en Nombre del modelo, escribaTM_NaiveBayes.

3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y haga clic en Aceptar.Aparece un mensaje que indica que el algoritmo Bayes naive de Microsoft no admite las columnas Age yYearly Income, que son continuas.

4. Haga clic en Sí para confirmar el mensaje y continuar.Aparece un modelo nuevo en la ficha Modelos de minería de datos del Diseñador de minería de datos. Aunque puede modificar el uso y las propiedades de las columnas para todos los modelos de la ficha, en este tutorial no es necesario hacer cambios en el modelo TM_NaiveBayes.

Procesar los modelos de la estructura de distribución de correo directo (Tutorial básico de minería de datos)Para poder examinar o trabajar con los modelos de minería de datos que ha creado, se debe implementar el proyecto de Analysis Services y procesar la estructura y los modelos de minería de datos. En la implementación se envía el proyecto a un servidor y se crean en el servidor los objetos de ese proyecto. El procesamiento es el paso, o la serie de pasos, que rellena los objetos de Analysis Services con datos de orígenes de datos relacionales. Los modelos no se pueden utilizar hasta que se hayan implementado y procesado.Asegurarse de la coherencia con HoldoutSeedAl implementar un proyecto y procesar la estructura y los modelos, a las filas individuales de la estructura de datos se les asigna de forma aleatoria el conjunto de pruebas y entrenamiento a partir de un valor de inicialización del número aleatorio. Normalmente, el valor de inicialización del número aleatorio se calcula con los atributos de la estructura de datos. Teniendo en cuenta los fines de este tutorial, para asegurarse de que los resultados son los mismos que los descritos aquí, asignaremos arbitrariamente un valor de inicialización de exclusión fijo de12. El valor de inicialización de exclusión se utiliza para inicializar el muestreo aleatorio y asegurarse de que los datos se dividen aproximadamente de la misma manera para todas las estructuras de minería de datos y sus modelos.Este valor no afecta al número de casos del conjunto de entrenamiento; sino que sirve para asegurarse de que la partición se puede repetir.Para establecer el valor de inicialización de exclusión

1. Haga clic en la ficha Estructuras de minería de datos o Modelos de minería de datos en el Diseñador de minería de datos de Business Intelligence Development Studio.Estructura de minería de datos Targeted Mailing aparece en el panel Propiedades.

2. Asegúrese de que el panel Propiedades está abierto presionando F4.3. Asegúrese de que CacheMode está establecido enKeepTrainingCases.4. Escriba 12 en HoldoutSeed.

Implementar y procesar los modelosEn el Diseñador de minería de datos, puede procesar una estructura de minería de datos, un modelo de minería de datos específico que esté asociado a una estructura de minería de datos, o

Page 11: Tutorial Básico de Minería de Datos

bien procesar la estructura y todos los modelos que estén asociados a esa estructura. Para esta tarea, procesaremos la estructura y todos los modelos al mismo tiempo.Para implementar el proyecto y procesar todos los modelos de minería de datos

1. En el menú Modelo de minería de datos, seleccione Procesar estructura de minería de datos y todos los modelos.Si ha realizado cambios en la estructura, se le pedirá que genere e implemente el proyecto antes de procesar los modelos. Haga clic en Sí.

2. En el cuadro de diálogo Procesando estructura de minería de datos: Targeted Mailing, haga clic enEjecutar.Se abre el cuadro de diálogo Progreso del proceso para mostrar los detalles del procesamiento del modelo. El procesamiento del modelo podría tardar algún tiempo, según el equipo.

3. Haga clic en Cerrar en el cuadro de diálogo Progreso del proceso cuando el procesamiento de los modelos se haya completado.

4. Haga clic en Cerrar en el cuadro de diálogo Procesando estructura de minería de datos - <estructura>.

Hay varias maneras de procesar un modelo y una estructura

LECCIÓN 4: EXPLORAR LOS MODELOS DE CORREO DIRECTO (TUTORIAL BÁSICO DE MINERÍA DE DATOS)

Una vez procesados los modelos en su proyecto, puede examinarlos en Business Intelligence Development Studio para buscar tendencias interesantes. Como los resultados de los modelos de minería de datos son complejos y pueden resultar difíciles de comprender sin formato, examinar los datos visualmente suele ser la manera más fácil de entender las reglas y relaciones que los algoritmos descubren en los datos. La exploración le ayudará a entender también el comportamiento del modelo y a detectar qué modelo se comporta mejor antes de implementarlo.

Cada modelo creado se muestra en la ficha Visor de modelos de minería de datos en el Diseñador de minería de datos. Cada algoritmo utilizado para crear un modelo en Analysis Services devuelve un tipo de resultado diferente. Por consiguiente, Analysis Services proporciona un visor independiente para cada algoritmo. Analysis Services proporciona también un visor genérico que funciona con todos los tipos de modelo. El Visor de árbol de contenido genérico muestra información detallada sobre el contenido del modelo, que varía en función del algoritmo utilizado.

En esta lección examinará los mismos datos utilizando los tres modelos. Cada tipo de modelo se basa en un algoritmo diferente y proporciona visiones diferentes de los datos. El modelo Árbol de decisión le indica los factores que influyen en la compra de bicicletas. El modelo Agrupación en clústeres agrupa los clientes por atributos, como el comportamiento de compra de bicicletas y otros atributos seleccionados. El modelo Bayes naive le permite examinar las relaciones entre los diferentes atributos. Por último, el Visor de árbol de contenido genérico muestra la estructura del modelo y proporciona datos más detallados como las fórmulas, los patrones extraídos y un recuento de casos en un clúster o árbol determinado.

Haga clic en los temas siguientes para examinar los visores del modelo de minería.

Explorar el modelo de árbol de decisión (tutorial básico de minería de datos) Explorar el modelo de agrupación en clústeres (Tutorial básico de minería de datos) Explorar el modelo Bayes naive (Tutorial básico de minería de datos)

Page 12: Tutorial Básico de Minería de Datos

Explorar el modelo de árbol de decisión (tutorial básico de minería de datos)El algoritmo de árboles de decisión de Microsoft predice qué columnas influyen en la decisión de comprar una bicicleta en función de las columnas restantes del conjunto de entrenamiento.El Visor de árbol de decisión de Microsoft proporciona las fichas siguientes para la exploración de los modelos de minería de datos de árbol de decisión:

o Árbol de decisión o Red de dependencias

En las secciones siguientes se describe cómo seleccionar el visor adecuado y explorar los otros modelos de minería de datos.

Explorar el modelo de agrupación en clústeres (Tutorial básico de minería de datos) El algoritmo de agrupación en clústeres de Microsoft agrupa los casos en clústeres que contienen características similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de anomalías en los datos y la creación de predicciones.El Visor de clústeres de Microsoft ofrece las siguientes fichas para la exploración de modelos de minería de datos de agrupación en clústeres:

Diagrama del clúster Perfiles del clúster Características del clúster Distinción del clúster

En las secciones siguientes se describe cómo seleccionar el visor adecuado y explorar los otros modelos de minería de datos.

Explorar el modelo de árbol de decisión (tutorial básico de minería de datos) Explorar el modelo Bayes naive (Tutorial básico de minería de datos)

Ficha Diagrama del clústerLa ficha Diagrama del clúster muestra todos los clústeres de un modelo de minería de datos. Las líneas entre los clústeres representan la "proximidad" y aparecen sombreadas en función de la similitud entre los clústeres. El color de cada clúster representa la frecuencia de la variable y el estado del clúster.Para explorar el modelo en la ficha Diagrama del clúster

1. Utilice la lista Modelo de minería de datos de la parte superior de la ficha Visor de modelos de minería de datos para cambiar al modeloTM_Clustering.

2. En la lista Visor, seleccione Visor de clústeres de Microsoft.3. En el cuadro Variable de sombreado, seleccioneBike Buyer.

La variable predeterminada es Población, pero puede cambiarla a cualquier atributo del modelo con el fin de determinar los clústeres que contienen miembros con los atributos que desea.

4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se compró una bicicleta.La leyenda Densidad describe la densidad del par de estados del atributo que se selecciona en Variable de sombreado y Estado. En este ejemplo se indica que el clúster con el sombreado más oscuro tiene el porcentaje superior de compradores de bicicleta.

5. Pause su mouse sobre el clúster con el sombreado más oscuro.Una información sobre herramientas muestra el porcentaje de casos que tienen el atributo, Bike Buyer = 1.

6. Elija el clúster con mayor densidad, haga clic con el botón secundario en él, seleccione Cambiar nombre de clúster y escriba Bike Buyers High para una identificación posterior. Haga clic en Aceptar.

7. Busque el clúster que tiene el sombreado más ligero (y la densidad más baja). Haga clic con el botón secundario en el clúster, seleccione Cambiar nombre de clúster y escriba Bike Buyers Low. Haga clic en Aceptar.

Page 13: Tutorial Básico de Minería de Datos

8. Haga clic en el clúster Bike Buyers High y arrástrelo hacia una área del panel que le dará una vista clara de sus conexiones a los otros clústeres.Al seleccionar un clúster, se resaltan las líneas que conectan este clúster con otros para que pueda ver todas las relaciones existentes para el mismo. Cuando el clúster no está seleccionado, puede saber por la oscuridad de las líneas la intensidad de las relaciones entre todos los clústeres del diagrama. Si el sombreado es claro o inexistente, los clústeres no son muy similares.

9. Use el control deslizante situado en la parte izquierda de la red para filtrar los vínculos de menor intensidad y encontrar los clústeres con las relaciones más próximas. El departamento comercial de Adventure Works Cycles podría desear combinar los clústeres similares al determinar el mejor método para entregar el envío de correo directo.

Ficha Perfiles del clústerLa ficha Perfiles del clúster proporciona una vista global del modelo TM_Clustering. La ficha Perfiles del clústercontiene una columna para cada clúster del modelo. La primera columna enumera los atributos asociados a un clúster como mínimo. El resto del visor contiene la distribución de estados de un atributo por cada clúster. La distribución de una variable discreta se muestra como una barra coloreada y el número máximo de barras aparece en la lista Barras de histograma. Los atributos continuos se muestran con un diagrama de rombo, que representa la desviación media y estándar en cada clúster.Para explorar el modelo en la ficha Perfiles del clúster

1. Establezca las barras Histograma en 5.En nuestro modelo, 5 es el número máximo de estados para cualquier variable.

2. Si la Leyenda de minería de datos bloquea la presentación de los Perfiles del atributo, retírela.

3. Seleccione la columna Bike Buyers High y arrástrela hacia la derecha de la columna Población

4. Seleccione la columna Bike Buyers Low y arrástrela a la derecha de la columna Bike Buyers High.

5. Haga clic en la columna Bike Buyers High.La columna Variables está ordenada por orden de importancia para ese clúster. Desplácese por la columna y revise las características del clúster Bike Buyer High. Por ejemplo, es muy probable que en todas ellas la característica común sea que la distancia al trabajo sea corta.

6. Haga doble clic en la celda Age en la columnaBike Buyers High.Leyenda de minería de datos muestra una vista más detallada donde se puede ver el intervalo de edad de esos clientes así como su edad media.

7. Haga clic con el botón secundario en la columnaBike Buyers Low y seleccione Ocultar columna.

Ficha Características del clústerLa ficha Características del clúster le permite examinar con más detalle las características que forman un clúster. En lugar de comparar las características de todos los clústeres (como en la ficha Perfiles del clúster), puede explorar un clúster a la vez. Por ejemplo, si seleccionaBike Buyers High en la lista Clúster puede ver las características de los clientes en este clúster. Aunque la presentación es diferente del visor Perfiles del clúster, los resultados son los mismos.

Nota

A menos que establezca un valor inicial paraholdoutseed, los resultados variarán cada vez que procese el modelo.

Page 14: Tutorial Básico de Minería de Datos

Ficha Distinción del clústerLa ficha Distinción del clúster le permite explorar las características que diferencian a un clúster de otro. Después de seleccionar dos clústeres, uno de la listaClúster 1 y otro de la lista Clúster 2, el visor calcula las diferencias existentes entre los clústeres y muestra una lista de los atributos que más distinguen a los clústeres.Para explorar el modelo en la ficha Distinción del clúster

1. En el cuadro Clúster 1, seleccioneBike Buyers High.2. En el cuadro Clúster 2, seleccione Bike Buyers Low.3. Haga clic en Variables para ordenar alfabéticamente.

Algunas de las diferencias sustanciales entre clientes de los clústeres Bike Buyers Low yBike Buyers High son la edad, la posesión de un vehículo, el número de hijos y la región.

Explorar el modelo Bayes naive (Tutorial básico de minería de datos) El algoritmo Bayes naive de Microsoft proporciona varios métodos para mostrar la interacción entre los atributos de entrada y la compra de bicicletas.El Visor Naive Bayes de Microsoft ofrece las siguientes fichas para la exploración de modelos de minería de datos Bayes naive:Dependency NetworkAttribute ProfilesAttribute CharacteristicsAttribute DiscriminationLas secciones siguientes describen cómo explorar los demás modelos de minería de datos.

Explorar el modelo de árbol de decisión (tutorial básico de minería de datos) Explorar el modelo de agrupación en clústeres (Tutorial básico de minería de datos)

Red de dependenciasLa ficha Red de dependencias funciona igual que la ficha del mismo nombre del Visor de árboles de Microsoft. Cada nodo del visor representa un atributo y las líneas entre los nodos representan relaciones. En el visor, puede ver todos los atributos que afectan al estado del atributo de predicción, Bike Buyer.Para explorar el modelo en la ficha Red de dependencias

1. Utilice la lista Modelo de minería de datos de la parte superior de la ficha Visor de modelos de minería de datos para cambiar al modeloTM_NaiveBayes.

2. Utilice la lista Visor para cambiar a Visor Bayes naive de Microsoft.3. Haga clic en el nodo Bike Buyer para identificar sus dependencias.

El sombreado rosa indica que todos los atributos influyen en la compra de bicicletas.

4. Ajuste el control deslizante para identificar el atributo más influyente.Conforme baja el control deslizante, sólo permanecen los atributos que afectan en mayor medida a la columna [Bike Buyer]. Ajustando el control deslizante, puede detectar que algunos de los atributos más influyentes son el número de automóviles que se posee, la distancia al lugar de trabajo y el número total de hijos.

Perfiles del atributoLa ficha Perfiles del atributo describe la forma en que los diferentes estados de los atributos de entrada afectan al resultado del atributo de predicción.Para explorar el modelo en la ficha Perfiles del atributo

1. En el cuadro De predicción, compruebe que se ha seleccionado Bike Buyer.2. Si la Leyenda de minería de datos está evitando la presentación de los Perfiles del

atributo, retírela.3. En el cuadro de barras Histograma, seleccione 5.

En nuestro modelo, 5 es el número máximo de estados para cualquier variable.

Page 15: Tutorial Básico de Minería de Datos

Los atributos que afectan al estado de este atributo de predicción aparecen enumerados junto a los valores de cada estado de los atributos de entrada y sus distribuciones en cada estado del atributo de predicción.

4. En la columna Atributos, busque Number Cars Owned. Observe las diferencias en los histogramas de los compradores de bicicletas (la columna con la etiqueta 1) y los no compradores (la columna con la etiqueta 0). Una persona que no tenga automóvil o que tenga uno tiene mucha más probabilidad de comprar una bicicleta.

5. Haga doble clic en la celda Number Cars Owned en la columna de comprador de bicicletas (la columna con la etiqueta 1).La Leyenda de minería de datos muestra una vista más detallada.

Características del atributoMediante la ficha Características del atributo, puede seleccionar un atributo y un valor para ver la frecuencia con la que aparecen los valores de otros atributos en el caso de los valores seleccionados.Para explorar el modelo en la ficha Características del atributo

1. En la lista Atributo, compruebe que Bike Buyer está seleccionado.2. Establezca el Valor en 1.

En el visor, verá que los clientes que no tienen ningún hijo conviviendo con ellos, una distancia corta al trabajo y que viven en la región de Norteamérica tienen más probabilidad de comprar una bicicleta.

Distinción del atributoLa ficha Distinción del atributo le permite examinar las relaciones entre dos valores discretos de la compra de una bicicleta y otros valores del atributo. Dado que el modeloTM_NaiveBayes sólo tiene dos estados, 1 y 0, no tiene que hacer ningún cambio en el visor.En el visor, podrá ver que las personas que no tienen un automóvil tienden a comprar bicicletas y las personas que tienen dos no suelen comprarlas.

Ficha Árbol de decisiónEn la ficha Árbol de decisión, puede examinar los tres modelos de árbol que componen un modelo de minería de datos.Dado que el modelo de correo directo incluido en este proyecto de tutorial contiene un único atributo de predicción, Bike Buyer, sólo se puede ver un árbol. Si hubiera más árboles, podría utilizar el cuadro Árbol para elegir uno diferente.Al examinar el modelo TM_Decision_Tree en el Visor de árbol de decisión observamos que la edad es el único factor más importante a la hora de predecir la compra de bicicletas. Es interesante ver que al agrupar los clientes por edad, la siguiente rama del árbol es diferente para cada nodo de edad. Al explorar la ficha Árbol de decisión podemos concluir que los compradores con una edad comprendida entre 34 y 40 años con uno o varios automóviles tienen más probabilidades de comprar una bicicleta, al igual que los clientes jóvenes y solteros que viven en la región del Pacífico y que no tienen automóvil o tienen uno.Para explorar el modelo en la ficha Árbol de decisión

1. Seleccione la ficha Visor de modelo de minería de datos en Diseñador de minería de datos.De forma predeterminada, el diseñador se abre en el primer modelo que se agregó a la estructura (en este caso, TM_Decision_Tree).

2. Utilice los botones de lupa para ajustar el tamaño de presentación del árbol.De manera predeterminada, el Visor de árboles de Microsoft sólo muestra los primeros tres niveles del árbol. Si el árbol contiene menos de tres niveles, el visor mostrará sólo los

Page 16: Tutorial Básico de Minería de Datos

niveles existentes. Puede ver más niveles si utiliza el control deslizante Mostrar nivel o la lista Expansión predeterminada.

3. Deslice Mostrar nivel hasta la cuarta barra.4. Cambie el valor de la lista Fondo a 1.

Al cambiar la configuración de Fondo, podrá ver rápidamente el número de casos de cada nodo que tienen el valor de destino de 1 para [Bike Buyer]. Recuerde que en este escenario en concreto, cada caso representa un cliente. El valor 1 indica que el cliente compró anteriormente una bicicleta; el valor0 indica que el cliente no ha comprado una bicicleta. Cuanto más oscuro sea el sombreado del nodo, mayor será el porcentaje de casos del nodo que tienen el valor de destino.

5. Coloque el cursor sobre el nodo Todos. Se mostrará información sobre herramientas con los siguientes datos:

o Número total de casoso Número de casos de personas que no han comprado bicicletaso Número de casos de personas que han comprado bicicletaso Número de casos con valores que faltan para [Bike Buyer]

También puede colocar el cursor sobre cualquier nodo del árbol para ver la condición necesaria para alcanzar ese nodo desde el nodo anterior. Esa misma información se puede ver también en la Leyenda de minería de datos.

6. Haga clic en el nodo de Edad >= 34 y < 41. El histograma se muestra como una barra horizontal delgada a lo largo del nodo y representa la distribución de los clientes con este intervalo de edad que anteriormente compraron (rosa) o no compraron (azul) una bicicleta. El visor nos muestra que es probable que los clientes con edades comprendidas entre 34 y 40 años sin automóvil o con uno compren una bicicleta. Si vamos un poco más lejos, vemos que la probabilidad de comprar una bicicleta aumenta si el cliente tiene una edad comprendida entre 38 y 40 años.

Como habilitó la obtención de detalles cuando creó la estructura y el modelo, puede recuperar información detallada de los casos del modelo y de la estructura de minería de datos, incluidas las columnas que no se incluyeron en el modelo de minería de datos (por ejemplo, email Address y First Name).Para obtener información detallada de los datos del caso

1. Haga clic con el botón secundario en un nodo y seleccione Obtener detalles y Sólo columnas de modelos.Los detalles de cada caso de entrenamiento se muestran en formato de hoja de cálculo. Estos detalles proceden de la vista vTargetMail que seleccionó como la tabla de casos al generar la estructura de minería de datos.

2. Haga clic con el botón secundario en un nodo y seleccione Obtener detalles y Columnas de modelo y estructura.Se muestra la misma hoja de cálculo con las columnas de estructura anexadas al final.

Ficha Red de dependenciasLa ficha Red de dependencias muestra las relaciones entre los atributos que contribuyen a la capacidad de predicción del modelo de minería de datos. El visor Red de dependencias reafirma nuestra conclusión de que la edad y la región son factores importantes para predecir la compra de bicicletas.Para explorar el modelo en la ficha Red de dependencias

1. Haga clic en el nodo Bike Buyer para identificar sus dependencias.El nodo central de la red de dependencias, Bike Buyer, representa el atributo de predicción del modelo de minería de datos. El sombreado rosa indica que todos los atributos influyen en la compra de bicicletas.

2. Ajuste el control deslizante Todos los vínculos para identificar el atributo más influyente.

Page 17: Tutorial Básico de Minería de Datos

Conforme baja el control deslizante, sólo permanecen los atributos que afectan en mayor medida a la columna [Bike Buyer]. Ajustando el control deslizante, descubrirá que la edad y la región son los factores más importantes para predecir si alguien ha comprado una bicicleta.

LECCIÓN 5: PROBAR LOS MODELOS (TUTORIAL BÁSICO DE MINERÍA DE DATOS)

Ahora que ha procesado el modelo utilizando el conjunto de entrenamiento del escenario de distribución de correo directo, probará sus modelos con el conjunto de pruebas. Dado que los datos del conjunto de pruebas ya contienen valores conocidos para la compra de bicicletas, es fácil determinar si las predicciones del modelo son correctas. El departamento de marketing de Adventure Works Cycles usará el modelo que mejor se comporte para identificar a los clientes para su campaña de distribución de correo directo.En esta lección probará primero sus modelos realizando predicciones con el conjunto de pruebas. Luego, probará sus modelos en un subconjunto filtrado de los datos. Analysis Services proporciona diversos métodos para determinar la exactitud de los modelos de minería de datos. En esta lección examinaremos un gráfico de elevación.La validación es un paso importante del proceso de minería de datos. Es importante conocer cómo se comportan con datos reales los modelos de minería de datos de distribución de correo directo antes de implementarlos en un entorno de producción. Esta lección incluye las tareas siguientes:

Probar la exactitud con gráficos de elevación (Tutorial básico de minería de datos) Probar un modelo filtrado (Tutorial básico de minería de datos)

Probar la exactitud con gráficos de elevación (Tutorial básico de minería de datos)En la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos, puede calcular la precisión de las predicciones de sus modelos y comparar los resultados de diferentes modelos. Este método de comparación se conoce como gráfico de elevación. Normalmente, la exactitud de la predicción de un modelo de minería de datos se cuantifica mediante la elevación o la exactitud de la clasificación.En este tema, realizará las tareas siguientes:

Elegir datos de entrada Seleccionar modelos, columnas de predicción y valores

Elegir los datos de entradaEl primer paso a la hora de probar la precisión de los modelos de minería de datos consiste en seleccionar el origen de datos que usará para realizar las pruebas. Probará la exactitud de los modelos con sus datos de prueba y, a continuación, los utilizará con datos externos.

Para seleccionar el conjunto de datos1. Cambie a la ficha Gráfico de precisión de minería de datos del Diseñador de minería de

datos de Business Intelligence Development Studio y seleccione la ficha Selección de entrada.

2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en un gráfico de precisión, seleccione Usar casos de prueba de estructura de minería de datos para probar los modelos utilizando los datos de prueba que apartó cuando creó la estructura de minería de datos.

Page 18: Tutorial Básico de Minería de Datos

Seleccionar modelos, columnas de predicción y valoresEl siguiente paso consiste en seleccionar los modelos que desea incluir en el gráfico de elevación, la columna de predicción con la que va a comparar los modelos y el valor que se va a predecir.

Nota

Las columnas del modelo de minería de datos que se enumeran en la lista Nombre de columna de predicción se limitan a las columnas cuyo tipo de uso se ha establecido en Predict o Predict Only, y su tipo de contenido es Discrete o Discretized.

Para mostrar la elevación de los modelos1. En la ficha Selección de entrada del Diseñador de minería de datos, en Seleccione las

columnas del modelo de minería de datos de predicción que se mostrarán en el gráfico de elevación, active la casilla correspondiente a Sincronizar valores y columnas de predicción.

2. En la columna Nombre de columna de predicción, compruebe que Bike Buyer está seleccionado para cada modelo.

3. En la columna Mostrar, seleccione cada uno de los modelos.De forma predeterminada, todos los modelos de la estructura de minería de datos aparecen seleccionados. Puede decidir no incluir un modelo específico, pero para este tutorial deje todos los modelos seleccionados.

4. En la columna Valor de predicción, seleccione 1. El mismo valor se rellena automáticamente para cada modelo que tiene la misma columna de predicción.

5. Seleccione la ficha Gráfico de elevación para mostrar el gráfico de mejora.Cuando haga clic en la ficha, se ejecutará una consulta de predicción en el servidor y en la base de datos para la estructura de minería de datos y la tabla de entrada o los datos de prueba. Los resultados se trazan en el gráfico.Al escribir un Valor de predicción, el gráfico de elevación traza un modelo de suposición aleatorio así como un modelo ideal. Los modelos de minería de datos que creó se situarán entre estos dos extremos, entre una suposición aleatoria y una predicción perfecta. Cualquier mejora en la suposición aleatoria se considera una elevación.

6. Utilice la leyenda para buscar las líneas coloreadas que representan el modelo ideal y el modelo de suposición aleatoria.Observará que el modelo TM_Decision_Treeproporciona la mayor elevación, superando tanto al modelo de clústeres como al de Bayes naive.

Probar un modelo filtrado (Tutorial básico de minería de datos)Ahora que ha determinado que el modelo TM_Decision_Treees el más preciso, debería evaluarlo en el contexto de la campaña de distribución de correo directo de Adventure Works Cycles. El departamento de marketing de desea saber si hay alguna diferencia en las características de los compradores y las compradoras de bicicletas. Esta información les ayudará a decidir qué revistas utilizar para los anuncios y qué productos ofrecer en sus campañas.En esta lección, crearemos un modelo que se filtra por el género. A continuación, puede realizar fácilmente una copia de ese modelo y cambiar la condición de filtro para generar un nuevo modelo basado en el género.

Usar filtrosEl filtrado permite crear con facilidad modelos basados en subconjuntos de datos. El filtro se aplica sólo al modelo y no cambia el origen de datos subyacente.

Page 19: Tutorial Básico de Minería de Datos

Filtros en tablas de casosPrimero realizará una copia del modelo TM_Decision_Tree.Para copiar el modelo del árbol de decisión

1. En Business Intelligence Development Studio, en el Explorador de soluciones, seleccioneASDataMining2008.

2. Haga clic en la ficha Modelos de minería de datos.3. Haga clic con el botón secundario en el modelo TM_Decision_Tree y seleccione Nuevo

modelo de minería de datos.4. En el campo Nombre del modelo, escriba TM_Decision_Tree_Male.5. Haga clic en Aceptar.

Luego, cree un filtro para seleccionar los clientes para el modelo basados en su género.Para crear un filtro de casos en un modelo de minería de datos

1. Haga clic con el botón secundario en el modelo de minería de datos TM_Decision_Tree_Male para abrir el menú contextual.O bienSeleccione el modelo. En el menú Minería de datos, seleccione Establecer filtro de modelos.

2. En el cuadro de diálogo Filtro del modelo, haga clic en la fila superior de la cuadrícula en el cuadro de texto Columna de la estructura de minería de datos.La lista desplegable muestra sólo los nombres de las columnas de esa tabla.

3. En el cuadro de texto Columna de la estructura de minería de datos, seleccione Gender.El icono en la parte izquierda del cuadro de texto cambia para indicar que el elemento seleccionado es una tabla o una columna.

4. Haga clic en el cuadro de texto Operador y seleccione el operador igual (=) en la lista.5. Haga clic en el cuadro de texto Valor y escriba M.6. Haga clic en la siguiente fila de la cuadrícula.7. Haga clic en Aceptar para cerrar el filtro del modelo.

El filtro se muestra en la ventana Propiedades. Como alternativa, puede iniciar el cuadro de diálogoFiltro del modelo de la ventana Propiedades.

8. Repita los pasos anteriores, pero esta vez asigne al modelo el nombre TM_Decision_Tree_Female y escriba F en el cuadro de texto Valor.

Ahora tiene dos modelos nuevos que se muestran en la ficha Modelos de minería de datos.Procesar los modelos filtradosLos modelos no se pueden utilizar hasta que se hayan implementado y procesado. Para obtener más información acerca de los modelos de procesamiento, vea Procesar los modelos de la estructura de distribución de correo directo (Tutorial básico de minería de datos).Para procesar el modelo filtrado

1. Hacer clic con el botón secundario en el modeloTM_Decision_Tree_Male y seleccione Procesar estructura de minería de datos y todos los modelos.

2. Haga clic en Ejecutar para procesar los nuevos modelos.3. Una vez completado el procesamiento, haga clic enCerrar en ambas ventanas de

procesamiento.Evaluar los resultadosVea los resultados y evalúe la exactitud de los modelos filtrados de la misma manera que hizo con los tres modelos anteriores. Para obtener más información, vea:Explorar el modelo de árbol de decisión (tutorial básico de minería de datos)Probar la exactitud con gráficos de elevación (Tutorial básico de minería de datos)Para explorar los modelos filtrados

1. Seleccione la ficha Visor de modelo de minería de datos en Diseñador de minería de datos.

Page 20: Tutorial Básico de Minería de Datos

2. En el cuadro Modelo de minería de datos, seleccione TM_Decision_Tree_Male.3. Deslice Mostrar nivel hasta 3.4. Cambie el valor de la lista Fondo por 1.5. Coloque el cursor sobre el nodo con la etiquetaTodos para ver el número de compradores

de bicicleta con respecto a los no compradores.6. Repita los pasos 1 al 5 conTM_Decision_Tree_Female.7. Explore los resultados para TM_Decision_Tree y los modelos filtrados por el género. Si se

comparan todos los compradores de bicicletas, los compradores masculinos y femeninos comparten algunas de las mismas características de los compradores de bicicletas sin filtrar, pero los tres también presentan diferencias interesantes. Ésta es información útil que Adventure Works Cycles puede utilizar para desarrollar su campaña de marketing.

Para probar la mejora en la predicción de los modelos filtrados1. Cambie a la ficha Gráfico de precisión de minería de datos del Diseñador de minería de

datos de Business Intelligence Development Studio y seleccione la ficha Selección de entrada.

2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en un gráfico de precisión, seleccione Usar casos de prueba de estructura de minería de datos.

3. En la ficha Selección de entrada del Diseñador de minería de datos, en Seleccione las columnas del modelo de minería de datos de predicción que se mostrarán en el gráfico de elevación, active la casilla correspondiente a Sincronizar valores y columnas de predicción.

4. En la columna Nombre de columna de predicción, compruebe que Bike Buyer está seleccionado para cada modelo.

5. En la columna Mostrar, seleccione cada uno de los modelos.6. En la columna Valor de predicción, seleccione 1.7. Seleccione la ficha Gráfico de mejora respecto al modelo predictivo para mostrar el gráfico

de mejora.Observará ahora que los tres modelos de árbol de decisión proporcionan una mejora significativa respecto al modelo de predicción de suposición aleatoria, además de superar a los modelos de clústeres y Bayes naive.

LECCIÓN 6: CREAR Y TRABAJAR CON PREDICCIONES (TUTORIAL BÁSICO DE MINERÍA DE DATOS)

Ha entrenado, probado y explorado los modelos de minería de datos que creó. Ahora está en disposición de utilizar los modelos con el objeto de identificar a los destinatarios de la campaña de distribución de correo directo de Adventure Works Cycles. En esta lección creará una consulta para predecir qué clientes tienen más probabilidad de comprar una bicicleta. También recuperará la probabilidad de que la predicción sea correcta para poder decidir si se debe presentar o no la recomendación al departamento de marketing o no.

Cuando haya identificado a los clientes con una probabilidad alta de comprar una bicicleta, obtendrá detalles de los casos del modelo de minería de datos para recuperar los nombres y la información de contacto correspondiente.

En esta lección se incluyen los temas siguientes: Crear predicciones (Tutorial básico de minería de datos) Usar la obtención de detalles en datos de estructura (Tutorial básico de minería de datos)

Page 21: Tutorial Básico de Minería de Datos

Crear predicciones (Tutorial básico de minería de datos)Una vez que haya probado la precisión de los modelos de minería de datos y esté satisfecho con los resultados, puede crear consultas de predicción de Extensiones de minería de datos (DMX) por medio del Generador de consultas de predicción en la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos.El Generador de consultas de predicción tiene tres vistas. Mediante las vistas Diseño y Consulta, puede crear y examinar una consulta. A continuación, puede ejecutar la consulta y ver los resultados en la vista Resultado.

Crear la consultaEl primer paso para crear una consulta de predicción consiste en seleccionar una modelo de minería de datos y una tabla de entrada.Para seleccionar un modelo de minería de datos y una tabla de entrada

1. En la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos, en el cuadro Modelo de minería de datos, haga clic enSeleccionar modelo.

2. En el cuadro de diálogo Seleccionar modelo de minería de datos, navegue por el árbol hasta la estructura Targeted Mailing, expándala, seleccioneTM_Decision_Tree y, a continuación, haga clic enAceptar.

3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla de casos.4. En el cuadro de diálogo Seleccionar tabla, en la lista Origen de datos, seleccione Adventure

Works DW2008.5. En la lista Nombre de tabla o vista, seleccione la tabla ProspectiveBuyer (dbo) y, a

continuación, haga clic en Aceptar.La tabla ProspectiveBuyer se parece mucho a la tabla de casos vTargetMail.

Asignar las columnasDespués de seleccionar la tabla de entrada, el Generador de consultas de predicción crea una asignación predeterminada entre el modelo de minería de datos y la tabla de entrada, en función de los nombres de las columnas. Al menos una columna de la estructura debe coincidir con una columna de los datos externos.

Importante

Los datos que usa para determinar la precisión de los modelos deben contener una columna que se puede asignar a la columna de predicción.

Para asignar las columnas de la estructura a las columnas de la tabla de entrada1. Haga clic con el botón secundario en las líneas que conectan la ventana Modelo de minería

de datos a la ventana Seleccionar tabla de entrada y seleccione Modificar conexiones.Observe que no todas las columnas están asignadas. Agregaremos asignaciones para variasColumnas de la tabla.

2. En Columna de la tabla, haga clic en la celda Bike Buyer y seleccione ProspectiveBuyer.Unknown en el cuadro desplegable.De esta forma se asigna la columna de predicción, [Bike Buyer], a una columna de la tabla de entrada.

3. Haga clic en Aceptar.4. En el Explorador de soluciones, haga clic con el botón secundario en la vista del origen de

datos Targeted Mailing y seleccione Diseñador de vistas.5. Haga clic con el botón secundario en el título de tabla ProspectiveBuyer y seleccione Nuevo

cálculo con nombre.

Page 22: Tutorial Básico de Minería de Datos

6. En el cuadro Nombre de columna, escriba calcAge.7. En el cuadro Expresión, escriba DATEDIFF(AAAA,[BirdthDate],getdate()) y haga clic

en Aceptar.La tabla de entrada no tiene ninguna columnaAntigüedad correspondiente. Esta expresión calculará la edad del cliente a partir de la columna BirthDate de la tabla de entrada. Puesto queAntigüedad se identificó como la columna más influyente para predecir la compra de una bicicleta, debe existir en el modelo y en la tabla de entrada.

8. En el Diseñador de minería de datos, seleccione la ficha Predicción de modelo de minería de datos y vuelva a abrir la ventana Modificar conexiones.

9. En Columna de la tabla, haga clic en la celdaAntigüedad y seleccione ProspectiveBuyer.calcAge en el cuadro desplegable.

10. Haga clic en Aceptar.

Diseñar la consulta de predicción

Para diseñar la consulta de predicción1. El primer botón de la barra de herramientas de la ficha Predicción de modelo de minería

de datoses el botón Cambiar a vista de diseño de consulta / Cambiar a vista de resultado / Cambiar a vista de consulta. Haga clic en la flecha abajo en este botón y seleccione Diseño.

2. En la cuadrícula de la ficha Predicción de modelo de minería de datos, haga clic en la celda de la primera fila vacía de la columna Origen y, a continuación, seleccione Función de predicción.De esta forma, se especificará la columna de destino para la función PredictProbability.

3. En la fila Función de predicción, de la columnaCampo, seleccione PredictProbability.4. En la ventana Modelo de minería de datos anterior, seleccione y arrastre [Bike Buyer]

hasta la celdaCriterios o argumento.Cuando lo coloca, [TM_Decision_Tree].[Bike Buyer] aparece en la celda Criterios o argumento.

5. Haga clic en la siguiente fila vacía de la columnaOrigen y, a continuación, seleccione TM_Decision_Tree.

6. En la fila TM_Decision_Tree, en la columna Campo, seleccione Bike Buyer.7. En la fila TM_Decision_Tree, en la columna Criterios o argumento, escriba = 1.8. Haga clic en la siguiente fila vacía de la columnaOrigen y, a continuación,

seleccioneProspectiveBuyer.9. En la fila ProspectiveBuyer, en la columna Campo, seleccione ProspectiveBuyerKey.

De esta forma, se agregará un identificador único a la consulta de predicción para que pueda identificar quién es más y menos probable que compre una bicicleta.

10. Agregue cinco filas más a la cuadrícula. Para cada fila, seleccione ProspectiveBuyer como Origen y, a continuación, agregue las columnas siguientes en las celdas Campo:

o calcAgeo LastNameo FirstNameo AddressLine1o AddressLine2

Finalmente, ejecute la consulta y examine los resultados.Para ejecutar la consulta y ver los resultados

1. En la ficha Predicción de modelo de minería de datos, seleccione el botón Resultado.2. Una vez que la consulta se ejecute y se muestren los resultados, puede revisarlos.

La ficha Predicción de modelo de minería de datos muestra información de contacto para los clientes potenciales que son probables compradores de bicicletas. La

Page 23: Tutorial Básico de Minería de Datos

columna Expresiónindica la probabilidad de que la predicción sea correcta. Puede utilizar estos resultados para determinar a qué clientes potenciales debe dirigirse en el correo.

3. Haga clic en el botón Guardar para guardar los resultados.

Usar la obtención de detalles en datos de estructura (Tutorial básico de minería de datos)Adventure Works Cycles está enviando un formulario a los clientes potenciales de entre 34 y 40 años de edad como parte de su campaña de publicidad. El departamento de marketing ha decidido que les gustaría enviar también el formulario a los clientes que compraron bicicletas de Adventure Works Cycles hace más de cinco años. En esta lección, identificará los clientes con bicicletas anteriores y recuperará su información de contacto. Esta información no está incluida en el modelo, pero se incluye en la estructura. Para recuperar la información de contacto, primero se asegurará de que la obtención de detalles está habilitada para la estructura y, a continuación, la utilizará para revelar los nombres y direcciones de los clientes con bicicletas anteriores.Para habilitar la obtención de detalles en un modelo de minería de datos

1. En Business Intelligence Development Studio, en la ficha Modelos de minería de datos del Diseñador de minería de datos, haga clic con el botón secundario en el modelo TM_Decision_Tree y seleccionePropiedades.

2. En las ventanas Propiedades, haga clic enAllowDrillThroughy seleccione True.3. En la ficha Modelos de minería de datos, haga clic con el botón secundario en el modelo y

seleccioneProcesar modelo.

Para ver los datos de obtención de detalles de un modelo de minería de datos1. En el Diseñador de minería de datos, haga clic en la ficha Visor de modelo de minería de

datos.2. Seleccione el modelo TM_Decision_Tree en la listaModelo de minería de datos.3. Cambie el valor de la lista Fondo por 1.4. Seleccione el visor de árboles de Microsoft en la listaVisor y haga clic con el botón

secundario en el nodoAge >= 34 y <41.5. Seleccione Obtener detalles, después seleccioneColumnas de modelo y estructura para

abrir la ventana Obtener detalles.6. Desplácese a la columna Structure.Date First Purchase para ver la fecha de compra de las

bicicletas anteriores.7. Para copiar los datos en el Portapapeles, haga clic con el botón secundario en cualquier fila

de la tabla y seleccione Copiar todo.

Felicidades, ha completado el Tutorial básico de minería de datos. Ahora que conoce más las herramientas de minería de datos, recomendamos que también complete el Tutorial intermedio de minería de datos, que demuestra cómo crear modelos de pronóstico, análisis de la cesta de la compra y clústeres de secuencias.