Taller - Análisis de asociaciones

Embed Size (px)

Citation preview

  • 8/17/2019 Taller - Análisis de asociaciones

    1/3

     

    Minería de Datos Aplicada

    Taller: Análisis de Asociaciones

    Plazo máximo de entrega: 29 de abril de 2016

    1.  En la tabla #1 se muestra información sobre un conjunto de e-mail que las personas envían a unos

    recibidores para cada e-mail. Un sistema de e-mail puede usar recibidores de e-mail pasados para sugerirrecibidores de nuevos e-mails. Gmail hace algo parecido cuando nos sugiere que “Considere incluir X

    persona”.

    Conteste las siguientes preguntas basados en los datos de la tabla 1:

    Email No Recibidor

    1 Esteban, Andrea, Pablo, Alexander, Jessica

    2 Jessica, Alexander

    3 Esteban, Sara, Pablo

    4 Andrea, Pablo, Alexander

    5 Pablo, Alexander

    Tabla 1

    a) 

    Liste al menos dos reglas que pueda inferir sobre os primeros recibidores

    b)  ¿Cuál es el soporte de itemset {Andrea, Pablo}?

    c)  ¿Cuál es el soporte de itemset {Esteban, Alexander}?

    d) 

    ¿Cuál es el tamaño del itemset que tiene mayor soporte?

    e) 

    ¿Cuál es la confianza para la regla {Pablo, Andrea} => {Alexander}?

    f) 

    ¿Cuál es la confianza para la regla {Pablo,} => {Alexander, Andrea}?g)  ¿Por qué las confianzas de las dos reglas anteriores difieren si tiene los mismos ítems?

    h) 

    ¿Cuál es el lift de la regla {Pablo} => {Alexander}?

    i) 

    ¿Cuál es el lift de la regla {Pablo, Andrea} => {Alexander}?

    j)  Cual regla tiene a {Andrea} como consecuente y además tiene exactamente un único ítem en

    su antecedente que tenga el máximo lift.

  • 8/17/2019 Taller - Análisis de asociaciones

    2/3

     

    2.  Bajo qué condiciones una regla puede tener un lift muy alto pero que esta no sea útil

    3. 

    Suponga que se tiene una regla con soporte 1, ¿Cuál debería ser la confianza y el lift?

    4.  Suponga que se tiene la regla { A } => { B } que tiene una confianza cercana a 1. Esto podría

    significar que donde se produce A con certeza se dará B. Bajo qué condiciones Podrían esto no

    ser un buen indicador de que estos dos elementos no estén cercanamente asociados.

    Ejercicios prácticos:

    1. 

    Una universidad quiere hace el sistema de registro a curso on-line mucho más amigable.

    Para esto quiere aumentar los registros de los cursos mediante un sistema derecomendación de cursos para los estudiantes. Donde los estudiantes que se han registrado

    en un curso, el sistema le sugiera otro basado en información histórica donde otros

    estudiantes han tomados cursos en el pasado. El archivo Estudintes.Cursos.csv contienen

    información sobre lo que los estudiantes han tomado en el pasado.

    a)  Cree patrones usando Soporte=0.02 y confianza = 0.3

    b)  Cuantas reglas genero el sistema.

    c) 

    Organízalas y despliéguelas en orden descendente de lift.

    d) 

    Observe la primera regla. ¿Cuál es el valor de soporte, confusión, lift?. Interprete

    los valores y la regla.

    e) 

    Use una de estas medidas para encontrar los siguiente, sin ir a los datos originales:Del total de los 1645 estudiantes, aproximadamente cuantos han tomado todos

    los cursos que involucran la primera regla en pantalla.

    f)  Infiera, sin ir al conjunto de datos, cuantos estudiantes han tomado los cursos que

    aparecen en el antecedente de la primera regla.

    g) 

    Si un estudiante ha tomado AC104 y usted le tendría que recomendar un solo

    curso, cual le recomendaría ¿Por qué?

    h)  Si un estudiante ha tomado AC104 y FI201 durante la actual sección y su sistema

    le tendría que recomendar solo un curso, ¿cuál recomendaría? ¿por qué?

    i) 

    En la pregunta anterior, si pudiera recomendarle 2 cursos ¿cuáles serían y por qué?

    2. 

    Diseñe un sistema de soporte a la decisión del diagnóstico médico para la diabetes de las

    mujeres indígenas PIMA. Use la técnica de análisis de asaciones y discuta como esta puede

    ayudar a diagnosticar la enfermedad. Saque su propios análisis y conclusiones.

    Los datos y metadatos los puede hallar en :

    https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes 

  • 8/17/2019 Taller - Análisis de asociaciones

    3/3

    Notas:

      Categorice las variables con conocimiento experto. Considere, por ejemplo,

    Que rangos de presión sistólica se consideran como” Normal”, “Bajo “o

    “alto”.

      Si desea puede crear las categorizaciones en Excel u otra hoja de cálculo.

     

    El código siguiente es solo una recomendación para la obtención de datos. El

    trabajo no necesariamente tiene que ser en R.

    Carga de datos:

    #Leer el conjunto de datos 

    Diabetes = read.csv ("https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes

    .data") 

    #Adicionar los nombres de las columnas 

    names(Diabetes) = c("Embarazos","Plas","Pres"," Tríceps.Espesor "," Insulina.Sérica ","BMI","Pedi","Edad","TieneDiabetes")