4
UNIVERSIDAD NACIONAL JOSÉ MARÍA ARGUEDAS Ervin Lewis | tópicos especiales | 22 de mayo de 2015 Haciendo Recomendaciones INVESTIGACION

Ervin Lewis

Embed Size (px)

DESCRIPTION

mitrabajo

Citation preview

Haciendo Recomendaciones

UNIVERSIDAD NACIONAL JOS MARA ARGUEDAS

1. COEFICIENTE DE SIMILARIDAD DE TANIMOTO

El coeficiente de Tanimoto es una de las mtricas utilizadas para comparar la similaridad y diversidad de conjuntos de pruebas. Utiliza la razn del conjunto interceptante al conjunto de unin como la medida de similaridad. Es decir, es igual a cero si no hay elementos que intercepten e igual a uno si todos los elementos interceptan.

2 En qu casos puede ser usada como una mtrica de similaridad en lugar de la Distancia Euclidiana?La distancia eucldea es la disimilaridad ms conocida y ms sencilla de comprender, pues su definicin coincide con el concepto ms comn de distancia.Su expresin es la siguiente: d (i,j) = (Wi- Wj)' (Wi- Wj)La distancia eucldea, a pesar de su sencillez de clculo y de que verifica algunas propiedades interesantes tiene dos graves inconvenientes: El primero de ellos es que la eucldea es una distancia sensible a las unidades de medida de las variables: las diferencias entre los valores de variables medidas con valores altos contribuirn en mucha mayor medida que las diferencias entre los valores de las variables con valores bajos. Como consecuencia de ello, los cambios de escala determinarn, tambin, cambios en la distancia entre los individuos. Una posible va de solucin de este problema es la tipificacin previa de las variables, o la utilizacin de la distancia eucldea normalizada. El segundo inconveniente no se deriva directamente de la utilizacin de este tipo de distancia, sino de la naturaleza de las variables. Si las variables utilizadas estn correlacionadas, estas variables nos darn una informacin, en gran medida redundante. Parte de las diferencias entre los valores individuales de algunas variables podran explicarse por las diferencias en otras variables. Como consecuencia de ello la distancia eucldea inflar la disimilaridad o divergencia entre los individuos.La solucin a este problema pasa por analizar las componentes principales (que estn incorrelacionadas) en vez de las variables originales. Otra posible solucin es ponderar la contribucin de cada par de variables con pesos inversamente proporcionales a las correlaciones, lo que nos lleva, como veremos a la utilizacin de la distancia de Mahalanobis.La distancia eucldea ser, en consecuencia, recomendable cuando las variables sean homogneas y estn medidas en unidades similares y/o cuando se desconozca la matriz de varianzasLa distancia de Tanimoto se podra utilizar para medidas de asociacin para variables y la distancia euclidiana para medidas de asociacin para individuos.Adems tanimoto realiza las comparaciones solo con ceros y unos en el caso de las pelculas lo vio o no lo vio.

3 Implementacin en python# Inputs: two lists# Output: the Tanimoto Coefficientdef tanimoto (list1, list2): intersection = [common_item for common_item in list1 if common_item in list2] return float(len(c))/(len(a) + len(b) - len(c))

Pgina 1