Iemdsql server2008

1

Preparar: Proyecto de Analysis Service, Origen de datos y Vista al origen de datos.

El primer paso para poder implementar los escenarios de minería de datos es preparar el

Proyecto de Analysis Service, Origen de datos y Vista al origen de datos. Dicho proceso se

muestra a continuación.

1. Crear Proyecto de Analysis Service

Ejecutamos SQL Server Business Intelligence Development Studio ubicado en inicio,

todos los programas, Microsoft SQL Server 2008 (esta ubicación puede variar dependiendo

de la versión de Windows).

Generar un nuevo Proyecto de Analysis Services y definir un nombre. (Archivo, Nuevo,

Proyecto…)

Figura 1

Hacer click en Aceptar. Ahora ya esta creado el Proyecto de Analysis Service.

2

Figura 2

2. Preparar origen de datos

Hacer click con el botón derecho sobre “Origenes de Datos” y seguidamente en “Nuevo

Origen de Datos”.

Figura 3

Seleccionar la base de datos de donde se leerán los datos, en este caso

“AdventureWorksDW2008”.

3

Figura 4

Proporcionar los datos con los cuales nos conectaremos a la base de datos (en este caso

se utilizara la cuenta de servicio)

Figura 5

Asignar un nombre al origen de datos (AdventureWorksDW2008) y finalizar.

4

Figura 6

Con esto ya se encuentra listo el origen de datos.

5

3. Crear vista al origen de datos

Realizar click con el botón derecho sobre “Vistas del Origen de Datos” y a continuación

click sobre “Nueva Vista del Origen de Datos…”.

Figura 7

Seleccionar el origen de datos (creado con anterioridad) y realizar click en siguiente.

Figura 8

6

Ahora aparecerá un listado que contiene las tablas y vistas de la base de datos

seleccionada, debe seleccionar las tablas y vistas necesarias para llevar a cabo los escenarios

de minería de datos (FactCallCenter, ProspectiveBuyer, vAssocSeqLineItems,

vAssocSeqOrders, vTargetMail y vTimeSeries).

Figura 9

Una vez realizado esto hacer click en siguiente.

Asignar un nombre a la vista del origen de datos (AdventureWorksDW2008) y

finalizamos.

7

Figura 10

Ahora se hay que relacionar el atributo OrderNumber de la vista vAssocSeqLineItems

con la vista vAssocSeqOrders. Esto se realiza arrastrando el atributo OrderNumber de la tabla

vAssocSeqLineItems al atributo OrderNumber de la tabla vAssocSeqOrders.

Figura 11

Así debería lucir el proyecto con la relación entre las vistas, el origen de datos y la vista

al origen de datos creados.

8

Figura 12

9

Implementación de escenarios de minería de datos permitidos por SQL Server 2008

Este anexo tiene por objetivo mostrar el paso a paso de la implementación de los distintos

escenarios de minería de datos permitidos por SQL Server, los cuales son: escenario de correo

directo, escenario de previsión, escenario de la cesta de compra, escenario de clústeres de

secuencia, escenario de red neuronal y de regresión logística.

Escenario de correo directo

El departamento de marketing de Adventure Works desea aumentar las ventas dirigiendo

una campaña de correo directo a clientes específicos. Mediante el análisis de los atributos de

clientes conocidos, la empresa espera determinar los patrones que posteriormente se aplicarán

a clientes potenciales. La empresa pretende utilizar los patrones hallados para predecir qué

clientes potenciales tienen más probabilidades de comprar un producto.

Algoritmos a utilizar:

• Árboles de decisión de Microsoft

• Clústeres de Microsoft

• Bayes naive de Microsoft

Árboles de decisión de Microsoft

Preparamos el origen de datos y la vista al origen de datos.

Seleccionamos una nueva estructura de minería de datos.

10

Figura 13

Seleccionamos el método a utilizar para crear la definición de la estructura, en este caso a

partir de una base de datos relacional.

Figura 14

Seleccionamos la técnica de minería de datos a utilizar en este caso Árboles de decisión de

Microsoft.

11

Figura 15

Seleccionamos la vista del origen de datos que se realizo con anterioridad.

Figura 16

Seleccionamos las tablas de la siguiente manera:

En tabla vTargetMail activamos la casilla escenario.

12

Figura 17

En la página Especificar los datos de aprendizaje debemos seleccionar:

Columna clave: CustomerKey

Columna predicción: BikeBuyer

Columna entrada: BikeBuyer, Age, CommuteDistance, EnglishEducation,

EnglishOccupation, FirstName, Gender, GeographyKey, HouseOwnerFlag, LastName,

MaritalStatus, NumberCarsOwned, NumberChildrenAtHome, Region, TotalChildren y

YearlyIncome.

13

Figura 18

En la página Especificar el contenido y el tipo de datos de las columnas, haga clic en Detectar

para ejecutar un algoritmo que ejecute los datos numéricos de los ejemplos y determine si las

columnas numéricas contienen valores continuos o discretos. Por ejemplo, una columna puede

contener información salarial como valores de sueldo actuales, que son continuos, o bien

integrales que representan rangos de sueldo codificados, como 1 = < $25.000; 2 = de $25.000

a $50.000, que son discretos.

Figura 19

14

Después de hacer clic en Detectar, debemos revisar las entradas de las columnas Tipo de

contenido y Tipo de datos, y cambiarlas si es necesario para asegurarse de que la

configuración es igual que la que se muestra en la tabla siguiente.

Columna Tipo de contenido Tipo de datos Age Continuous Long

BikeBuyer Discrete Long

CommuteDistance Discrete Text

CustomerKey Key Long

EnglishEducation Discrete Text

EnglishOccupation Discrete Text

FirstName Discrete Text

Gender Discrete Text

GeographyKey Discrete Text

HouseOwnerFlag Discrete Text

LastName Discrete Text

MaritalStatus Discrete Text

NumberCarsOwned Discrete Long

NumberChildrenAtHome Discrete Long

Region Discrete Text

TotalChildren Discrete Long

YearlyIncome Continuous Double

Tabla 1

Una vez que hemos verificado esto podemos hacer click en siguiente.

15

En la página Crear Conjunto de Pruebas debemos dejar el porcentaje de datos para pruebas por

defecto (30%) y debemos fijar el Número máximo de casos en el conjunto de datos de prueba

en 1000.

Clic en siguiente.

Figura 20

Especificamos el nombre de la estructura de minería de datos y el nombre del modelo de

minería de datos, además debemos marcar la casilla Permitir obtención de detalles.

Finalizar

16

Figura 21

17

Al terminar los pasos anteriores debemos tener lo siguiente.

Figura 22

Ahora es el momento de procesar nuestra estructura de minería de datos, haciendo clic en

Procesar estructuras de minería de datos y todos los modelos…

Figura 23

18

Aparecerá la siguiente ventana, en la cual hacemos clic en ejecutar.

Figura 24

Seguidamente nos aparecerá una ventana que nos indica el progreso del proceso, el cual una

vez que finalice lo cerramos. Además debemos cerrar la ventana anteriormente.

Figura 25

Una vez terminados los pasos anteriores estamos en condiciones de explorar nuestro proyecto

de minería de datos recién creado.

19

Ahora nos vamos a la pestaña de visor de modelos de minería de datos, en la cual podemos

observar lo siguiente:

Figura 26

20

Clústeres de Microsoft

Debido a que para nuestro escenario de correo directo ya tenemos configurados los datos de

entrada (como se realizo en el punto a), lo único que tenemos que modificar a nuestro

escenario es agregar una nueva estructura de minería de datos. Para lo cual realizamos lo

siguiente:

Nos vamos a la ficha Modelos de Minería de Datos, luego a la columna Estructura y sobre esta

realizamos un click con el botón derecho del mouse y seleccionamos Nuevo Modelo de

Minería de Datos.

Figura 27

Especificamos el Nombre del modelo y el Algoritmo a utilizar que en este caso es Microsoft

Clustering.

Figura 28

21

Click en Aceptar y ahora tendremos lo siguiente:

Figura 29

A nuestro Escenario de correo directo le agregamos otro modelo de minería de datos, por lo

tanto en el mismo escenario tenemos dos modelos de minería de datos Árboles de decisión de

Microsoft y Clústeres de Microsoft.

Ahora para procesar nuestro nuevo modelo de minería de datos realizamos un click con el

botón derecho sobre la columna Clústeres de Microsoft y después hacemos click sobre la

opción Procesar modelo ...

22

Figura 30

Ahora nos aparecerá la siguiente ventana, en la cual presionamos Ejecutar.

Figura 31


vez que finalice lo cerramos. Además debemos cerrar la ventana mostrada anteriormente.



23



En algunos casos debemos especificar el Modelo de minería “Clústeres de Microsoft”, ya que

es posible que nos muestre el modelo anterior (Árboles de decisión).

Figura 32

24

Bayes naive de Microsoft

Como ya vimos en el caso anterior debido a que para nuestro escenario de correo directo ya

tenemos configurados los datos de entrada (como se realizo en el punto a), lo único que

tenemos que modificar a nuestro escenario es agregar una nueva estructura de minería de

datos. Para lo cual realizamos lo siguiente:



Minería de Datos.

Figura 33

Especificamos el Nombre del modelo y el Algoritmo a utilizar que en este caso es Bayes naive

de Microsoft.

Figura 34

25

Click en aceptar y nos mostrara el mensaje que este algoritmo no admite el tipo de contenido

de ciertas columnas, además nos preguntara si deseamos continuar.

Figura 35

Click en Sí y ahora tendremos lo siguiente:

Figura 36

A nuestro Escenario de correo directo le agregamos otro modelo de minería de datos, por lo

tanto en el mismo escenario tenemos tres modelos de minería de datos Árboles de decisión de

Microsoft, Clústeres de Microsoft y Bayes Naive Microsoft.

26


botón derecho sobre la columna Bayes naive de Microsoft y después hacemos click sobre la

opción Procesar modelo ...

Figura 37


Figura 38

Gigo

Sticky Note

aki me ke de

27





En algunos casos debemos especificar el Modelo de minería “Bayes naive de Microsoft”, ya

que es posible que nos muestre algunos de los modelos anteriores (Árboles de decisión o

Clústeres de Microsoft).

Figura 39

28

Escenario de previsión.

Como analista de ventas de Adventure Works, se ha solicitado una previsión de las

ventas de modelos individuales de bicicletas para el “próximo año”. En concreto, se debe

obtener los altos en las ventas de bicicletas y determinar qué regiones lideran las ventas y

cuáles van por detrás. Además, se debe determinar si las ventas de diferentes modelos varían

en función de la época del año.

Algoritmo a utilizar: Serie temporal de Microsoft.

Preparamos el origen de datos y la vista al origen de datos (Ver anexo A).


Figura 40



29

Figura 41

Seleccionamos la técnica de minería de datos a utilizar en este caso serie temporal de

Microsoft.

Figura 42


30

Figura 43

31

Activamos la casilla escenario de la tabla vtimeSeries

Figura 44

Especificamos las columnas que utilizaremos en el análisis como se observa en la figura.

Figura 45

32

Siguiente

Figura 46

En este paso debemos especificar el nombre de la estructura de minería de datos y el nombre

del modelo de minería de datos.

Finalizar

Figura 47

33


Figura 48

Ahora es el momento de procesar nuestra estructura de minería de datos de la siguiente forma:

Figura 49

34

Aparecerá la siguiente ventana, en la cual colocamos ejecutar.

Figura 50

Seguidamente los aparecerá una ventana que nos indica el progreso del proceso, el cual una


Figura 51

35


observar la predicción realizada.

Figura 52

36

Escenario de la cesta de compra

El departamento de marketing de Adventure Works desea mejorar el sitio Web de la

empresa para promover las ventas cruzadas.

Antes de actualizar el sitio, necesitan crear un modelo de minería de datos que pueda

predecir los productos cuya adquisición podría interesar a los clientes, basándose en otros

productos que ya se encuentran en las cestas de la compra en línea de los clientes. Estas

predicciones también ayudarán al departamento de marketing a agrupar en el sitio Web

aquellos artículos que los clientes suelen comprar juntos.

Algoritmo a utilizar: Reglas de asociación de Microsoft.



Figura 53



37

Figura 54

38

Seleccionamos la técnica de minería de datos a utilizar en este caso Reglas de asociación de

Microsoft.

Figura 55


Figura 56

39


En tabla vAssocSeqOrders actibamos la casilla escenario.

En tabla vAssocSeqLineItems activamos la casilla anidado.

Figura 57

Debemos seleccionar las columnas de las tablas seleccionadas como se muestra en la figura.

Figura 58 Dado que el propósito del análisis de la cesta de la compra es determinar qué productos están incluidos en una transacción única, no tiene que usar el campo CustomerKey. En su lugar, usaremos OrderNumber como la clave para la tabla de casos. No tiene que usar LineNumber

40

como una clave para la tabla anidada. Para este modelo de asociación, todo lo que necesita es OrderNumber porque combina la tabla de pedidos con la tabla anidada de productos comprados.

En esta ventana solo hacemos clic en siguiente

Figura 59

Aceptamos el porcentaje de datos de prueba (30%).

Solo hacemos clic en siguiente.

Figura 60

41


minería de datos, ademas debemos marcar la casilla Permitir obtención de detalles.

Finalizar

Figura 61


Figura 62

42

Ahora es el momento de procesar nuestra estructura de minería de datos de la siguiente forma:

Figura 63

Aparecerá la siguiente ventana, en la cual colocamos ejecutar.

Figura 64

43

Seguidamente los aparecerá una ventana que nos indica el progreso del proceso, el cual una


Figura 65


observar la predicción realizada.

Figura 66

44

Figura 67

45

Escenario de clústeres de secuencia

El departamento de marketing de Adventure Works desea saber cómo se mueven los

clientes por el sitio Web de Adventure Works. La empresa cree que existe un patrón según el

cual los clientes incluyen productos en las cestas de la compra. Con el algoritmo de Clústeres

de secuencia de Microsoft, pueden buscar secuencias que proporcionen información sobre la

manera en la que los clientes agregan elementos relacionados a sus cestas. Posteriormente,

esta información se puede utilizar para mejorar el flujo del sitio Web y propiciar que los

clientes adquieran productos adicionales.

Algoritmo a utilizar: Clústeres de secuencia de Microsoft.



Figura 68



46

Figura 69

47

Seleccionamos la técnica de minería de datos a utilizar en este caso Clústeres de secuencia de

Microsoft.

Figura 70


Figura 71

48


En tabla vAssocSeqOrders actibamos la casilla escenario.

En tabla vAssocSeqLineItems activamos la casilla anidado.

Figura 72

En la página Especificar los datos de aprendizaje debemos seleccionar las columnas de las

tablas seleccionadas como se muestra en la figura.

Figura 73

49

En la página Especificar el contenido y el tipo de datos de las columnas, compruebe que la

cuadrícula contiene los tipos de contenido y las columnas siguientes y, a continuación, haga

clic en Siguiente.

Figura 74

En esta página debemos modificar el porcentaje de datos para pruebas de 30% a 20%.

Clic en siguiente.

Figura 75

50


minería de datos, además debemos marcar la casilla Permitir obtención de detalles.

Finalizar

Figura 76


Figura 77

51



Figura 78


Figura 79

52



Figura 80



53



Figura 81

El visor de clústeres de secuencia de Microsoft contiene cinco fichas: Diagrama del clúster,

Perfiles del clúster, Características del clúster, Distinción del clúster y Transiciones de estado.

54

Escenario de red neuronal y de regresión logística

El departamento de operaciones de Adventure Works está ocupado en un proyecto para

mejorar la satisfacción del cliente con su centro de llamadas. Han contratado a un proveedor

para administrar el centro de llamadas y proporcionar métricas sobre la efectividad del centro

de llamadas, y han solicitado el análisis de algunos datos preliminares que proporciona el

proveedor con el fin de encontrar hallazgos interesantes. En particular, desean saber si los

datos sugieren algún problema con el personal o métodos para mejorar el tipo de respuesta.

El conjunto de datos cubre un período de 30 días en el funcionamiento del centro de

llamadas. Los datos realizan el seguimiento del número de operadores en cada turno, el

número de llamadas y pedidos, el tiempo de respuestas y una métrica de grado de servicio

basado en la tasa de abandono, un indicador de la frustración del cliente.

Puesto que no se cuenta con expectativas a priori sobre lo que mostrarán los datos, se

decide usar un modelo de red neuronal para explorar posibles correlaciones. En la detección de

conocimiento se suelen utilizar modelos de red neuronal que pueden analizar relaciones

complejas entre un alto número de entradas y salidas.

Cuando se determinen los factores que contribuyen a la satisfacción del cliente con el

centro de llamadas, se generará un modelo de regresión que se pueda utilizar para realizar

predicciones sobre cómo el personal y otras decisiones comerciales cotidianas.

Algoritmos a utilizar:

• Red Neuronal de Microsoft

• Regresión logística de Microsoft

Escenario de Red Neuronal de Microsoft



55

Figura 82

56



Figura 83

Seleccionamos la técnica de minería de datos a utilizar en este caso Red Neuronal de

Microsoft.

Figura 84

57


Figura 85


En tabla FactCallCenter la casilla escenario.

Figura 86

58

En la página Especificar los datos de aprendizaje debemos seleccionar las columnas de la tabla

seleccionada de la siguiente forma:

Clave: FactCallCentreID

Entrada: AutomaticResponses, AverageTimePerIssue, Calls, IssuesRaised,

LevelOneOperators, LevelTwoOperators, Orders, ServiceGrade, Shift y WageType.

De predicción: AverageTimePerIssue, LevelOneOperators, Orders, ServiceGrade.

Figura 87

59

En la página Especificar el contenido y el tipo de datos de las columnas, compruebe que la

cuadrícula contiene los tipos de contenido y las columnas siguientes y, a continuación, haga

clic en Siguiente.

Figura 88

En la página Crear conjunto de pruebas, debemos modificar el porcentaje de datos para

pruebas de 30% a 20%.

Clic en siguiente.

Figura 89

60


minería de datos.

Finalizar

Figura 90


Figura 91

61



Figura 92


Figura 93

62



Figura 94





Figura 95

63

Escenario de regresión logística de Microsoft

Debido a que para nuestro escenario de red neuronal y regresión logística ya tenemos

configurados los datos de entrada (como se realizo en el punto a), lo único que tenemos que

modificar a nuestro escenario es agregar una nueva estructura de minería de datos. Para lo cual

realizamos lo siguiente:



Minería de Datos.

Figura 96

Especificamos el Nombre del modelo y el Algoritmo a utilizar que en este caso es Microsoft

Logistic Regression.

Figura 97

64

Click en Aceptar y ahora tendremos lo siguiente:

Figura 98

Al Escenario de red neuronal y regresión logística se le ha agregado otro modelo de minería de

datos, por lo tanto en el mismo escenario tenemos dos modelos de minería de datos Redes

Neuronales y Regresión Logística.


botón derecho sobre la columna Regresión Logística y después hacemos click sobre la opción

Procesar modelo ...

Figura 99

65


Figura 100


vez que finalice lo cerramos. Además debemos cerrar la ventana anteriormente.



66



En algunos casos debemos especificar el Modelo de minería “Regresión Logística”, ya que es

posible que nos muestre el modelo anterior (Red neuronal).

Figura 101

Documents

Iemdsql server2008