15
1 *Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de ingeniería informática -Computación- Minería de opiniones Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Marzo 2015 Resumen La minería de opiniones es un campo de las ciencias de la computación referido al proceso que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de información que los ciudadanos exponen en las redes sociales como Twitter, además de 2 artículos en los que se analizarán la adquisición de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semánticas a nivel de lemas para diversos idiomas. PALABRAS CLAVE: opiniones, análisis, minería de opiniones Abstract Opinions mining is a field of computer science referred to the process that attempts to discover opinions on large volumes of data sets to process and use them for making strategic decisions. In this document we will make a summary of a set of documents related to the published area number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the trends and issues through opinions and feelings and the storage, analysis and visualization of the large amount of information that citizens are exposed in social networks such as Twitter as well as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level of slogans for different languages. KEYWORDS: opinions, analysis, opinions mining

Minería de opiniones

Embed Size (px)

Citation preview

Page 1: Minería de opiniones

1 *Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de ingeniería informática -Computación-

Minería de opiniones

Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo*

Departamento de Sistemas Informáticos y Computación

Universidad Politécnica de Valencia

Marzo 2015

Resumen La minería de opiniones es un campo de las ciencias de la computación referido al proceso que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de información que los ciudadanos exponen en las redes sociales como Twitter, además de 2 artículos en los que se analizarán la adquisición de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semánticas a nivel de lemas para diversos idiomas.

PALABRAS CLAVE: opiniones, análisis, minería de opiniones

Abstract Opinions mining is a field of computer science referred to the process that attempts to discover

opinions on large volumes of data sets to process and use them for making strategic decisions.

In this document we will make a summary of a set of documents related to the published area

number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the

trends and issues through opinions and feelings and the storage, analysis and visualization of the

large amount of information that citizens are exposed in social networks such as Twitter as well

as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and

a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level

of slogans for different languages.

KEYWORDS: opinions, analysis, opinions mining

Page 2: Minería de opiniones

2

Índice

1. Artículos

1.1 Adquisición no supervisada de términos para minería de opiniones 1.1.1 SemEval 2014 Task 4 1.1.2 Enfoque para generación de listas de aspectos 1.1.2.1 Obtención de textos 1.1.2.2 Doble propagación

1.1.2.3 Reglas de propagación 1.1.3 Ranking - filtrado

1.1.4 Términos multipalabra 1.2 ML-SentiCon 1.2.1 Otros métodos 1.2.2 Synsets,ventajas y desventajas 1.2.3 Lexicones en español 1.2.4 Polaridad en synsets 1.2.4.1 Nivel individual 1.2.4.2 Nivel global 1.2.5 ML-SentiCon 1.2.5.1 Capas 2. Proyectos 2.1 Análisis semántico de la opinión en las redes sociales

2.1.1 Arquitectura

2.1.2 Análisis de datos 2.1.3 Output del sistema

2.2 Proyecto ATTOS

2.2.1 Objetivos 2.2.2 Subproyectos 2.2.3 Arquitectura 2.2.4 Resultados y contribuciones 3. Conclusiones

4. Bibliografía

Page 3: Minería de opiniones

3

1. Artículos Comenzaremos el presente trabajo realizando una síntesis de los artículos a analizar, publicados en el número 53 de la revista SEPLN. Primero trataremos la adquisición no supervisada de términos de aspecto en diversos dominios para minería de opiniones basada en aspectos, lo que permitirá detectar aspectos de opinión, su categoría y su polaridad (págs. 121-128 del número 53 del SEPLN) y continuaremos realizando una síntesis de ML-SentiCon, un lexicón multilingüe de polaridades semánticas a nivel de lemas (págs. 113-120 del número 53 del SEPLN), viendo, aparte de sus características básicas, su utilidad para el análisis de la subjetividad.

1.1 Adquisición no supervisada de

términos para minería de

opiniones

Existen dos tipos de sistemas de minería

de opiniones: los supervisados y los no-

supervisados o semi-supervisados.

Debido a la cantidad de trabajo necesario

para la preparación en aquellos que son

supervisados, la dificultad que presentan

para aplicarlos en otros dominios o

lenguajes es muy grande, por lo que se

pretende utilizar aquellos no-

supervisados, que se basan en aspectos.

Utilizando SemEval 2014 Task 4 es

posible detectar esos aspectos de

opinión, así como su categoría y

polaridad, en frases; lo que permite

generar una lista de aspectos de dominio

para un nuevo dominio usando una

colección de documentos.

1.1.1. SemEval 2014 Task 4 SemEval consiste en una serie de evaluaciones sobre tareas de análisis semántico computacional que evolucionó desde la serie de evaluaciones Senseval.

Como se ha comentado en la introducción, nos centraremos en sistemas no supervisados basados en aspectos (debido a la complejidad de aplicación de aquellos sistemas supervisados), empleando las 4 tareas presentadas en el taller SemEval 2014 (Task 4) que nos permitirán detectar aspectos de opinión en diversos dominios. Para ello, provee de 2 conjuntos de datos para entrenamiento (training datasets) relacionados con opiniones sobre restaurantes y opiniones sobre ordenadores portátiles, constando ambos de más de 3000 frases. La tarea de procesamiento de dichos conjuntos, como hemos dicho, se dividirá en 4 subtareas entre las que encontramos:

Subtarea 1: Extracción de términos de aspecto, que identificará entidades en las frases y retornará una lista con los términos de aspecto detectados.

Subtarea 2: Detección de la polaridad en diversos niveles (postivo, negativo, neutral y conflictivo)

Subtarea 3: Clasificación de los términos de aspecto obtenidos en la subtarea 1 en una serie de categorías predefinidas (comida, servicio, precio, ambiente, anécdotas y misceláneo)

Subtarea 4: Análoga a la tarea 2, pero determinando la polaridad en función de las categorías de aspecto.

1.1.2. Enfoque para generación de listas de aspectos

El principal objetivo consiste en poder

construir una lista de términos de

aspecto para un dominio nuevo, así como

los objetivos de opinión. Esta lista será

un recurso potencial con la función de

Page 4: Minería de opiniones

4

realizar un análisis de sentimientos

basado en los objetivos de opinión y los

términos de aspecto. Como ejemplo, en

un texto relacionado con restaurantes,

una lista de vinos o el menú del

restaurante pueden ser aspectos. O en un

dominio de telefonía, el procesador y la

batería. Como vemos, dependiendo del

dominio, el conjunto de términos de

aspecto va cambiando. Para poder

extraer la lista de aspectos,

necesitaremos una gran colección de

textos sin etiquetar referentes al dominio

que queramos analizar.

1.1.2.1. Obtención de textos

Como se ha comentado en el apartado

1.1.1. se partirá de 2 conjuntos de datos

de entrenamiento basados en revisiones

de restaurantes y de laptops. Tales

conjuntos de datos han sido obtenidos

mediante software de extracción de

información de sitios web que simulan el

comportamiento del humano durante la

navegación (conocido como web-

scraping, algo similar al web-spidering

ejecutado por los robots de los motores

de búsqueda encargados de indexar

contenido web) de sitios web de críticas

de restaurantes y laptops. No se ha

realizado ningún tipo de preproceso

sobre los textos extraídos, extrayendo de

los propios textos un conjunto de listas

de entidades. Para ello se han dividido

las frases utilizando las herramientas

Stanford NLP y se han almacenado los

resultados en ficheros XML, obteniendo

un conjunto de 25,000 frases que serán

usadas junto con las 6,000 mencionadas

en apartados anteriores (3,000 de

restaurantes y 3,000 laptops) para

extraer listas de términos de aspecto.

1.1.2.2. Doble propagación Para realizar la obtención/ampliación de objetivos de opinión utilizaremos la

doble propagación. Este método consiste en utilizar una lista de semillas inicial de términos de aspecto y de objetivos de opinión para propagarlas a través de un conjunto de datos cumpliendo una serie de reglas respecto a la propagación (las cuales comentaremos en el próximo apartado). El método recibe el nombre de doble propagación porque se emplean los términos de aspecto para descubrir nuevos objetivos de opinión, y a su vez se emplean los objetivos de opinión para descubrir nuevos términos de aspecto. El objetivo es extraer los aspectos y las palabras de opinión y clasificarlas como palabras de polaridad de sentimiento negativo o positivo. En este caso, solo se usarán sustantivos como términos de aspecto, y adjetivos como objetivos de opinión. Esta es una importante restricción que limita al proceso, puesto que se basará tan solo en la obtención de opiniones explícitas (por ejemplo: “el procesador del móvil es rápido”) y dejará de lado aquellas opiniones que se encuentren implícitamente en el texto (como pudiera ser: “el teléfono cabe en el bolsillo”, lo que claramente es una buena opinión referente al tamaño y a su movilidad). Para poder extraer esas opiniones explícitas se deberá usar otro conjunto de técnicas y enfoques. Durante el proceso de propagación se aplican varias reglas para obtener nuevos términos de aspecto o objetivos de opinión, los cuales serán añadidos al conjunto inicial determinado para expandirlo. Cuando se descubren nuevas palabras, éstas son utilizadas para la activación de las reglas de propagación, así que en la siguiente iteración pueden aparecer palabras nuevas. El proceso está guiado por las reglas de propagación. Cuando una palabra coincide con una regla y la activa, la palabra se añade al conjunto correspondiente. El proceso termina cuando no se descubre ninguna palabra durante una iteración. 1.1.2.3. Reglas de propagación Las reglas de propagación serán empleadas para extraer nuevos términos

Page 5: Minería de opiniones

5

de aspecto y nuevas palabras de opinión, si una determinada palabra no encaja en ninguna de estas categorías se considerará como any word - cualquier palabra -. Tales reglas de propagación están basadas en relaciones de dependencia y en restricciones que modelan el discurso (POS) y su aplicación puede ser observada en la figura Table 1.

Primero será necesario comentar la tabla, en ella , T significa términos de aspecto, O hace referencia a las palabras de opinión y W a cualquier palabra. La primera columna identifica unívocamente a cada regla asociándole un identificador.

En la segunda columna se observan las dependencias y se emplean varios tipos de dependencias: amod (adjetivo modificador), dobj (objeto directo), sub (sujeto) y conj (conjunción).

En la tercera, identificamos las restricciones adicionales asociadas a cada regla (POS).

Finalmente, en la cuarta columna se representa el conjunto de nuevas palabras (palabras de opinión o términos de aspecto) que será añadido.

Para obtener los árboles de dependencia, los lemas y las etiquetas de las restricciones (POS) se han empleado, como en apartados anteriores, las herramientas Stanford NLP. Las palabras semilla empleadas para iniciar el proceso son good y bad, añadidas inicialmente al conjunto de palabras de opinión (los términos de aspecto inicialmente están vacíos), de esta forma la inicialización no es dependiente del dominio y las reglas

de propagación funcionan correctamente.

El proceso es iterativo y funciona de la siguiente forma. Se analiza cada frase de conjunto de datos, obteniendo su árbol de dependencia, es entonces cuando se lanzarán las reglas. Si alguna palabra y su dependencia disparan la regla y se cumplen las condiciones necesarias, la palabra se añadirá al conjunto correspondiente (términos de aspecto o palabras de opinión). Así, el proceso continúa linea a linea realizando el mismo proceso y añadiendo palabras a sus respectivos conjuntos hasta que se procesen todas las frases, cuando esto ocurra, si los conjuntos siguen igual que en la iteración anterior (no se ha añadido ninguna palabra) el proceso finaliza, en caso contrario se vuelve a repetir el mismo proceso desde la primera frase pero ahora con los conjuntos “enriquecidos” (ya no solo con las palabras good y bad).

1.1.3 Ranking - filtrado

Aunque el algoritmo nos permite obtener la lista tanto de términos de aspecto como de los objetivos de opinión, vamos a centrarnos en los términos de aspecto. Puesto que obtendremos una gran cantidad de términos, incluidos aquellos que son muy poco usuales ,por ejemplo porque son términos muy específicos y en un idioma distinto al analizado, es necesario realizar un ranking de todos los términos de aspecto para mantener los más importantes al comienzo y los menos importantes al final de la lista. Para poder hacer el ranking de la lista de aspectos, es necesario modelar las reglas de propagación como un grafo. Cada nueva palabra que se descubre mediante una regla de propagación se añade al grafo como un nuevo vértice, y esa regla utilizada se añade como una conexión entre la palabra origen y la palabra que ha sido descubierta.

Page 6: Minería de opiniones

6

La imagen anterior representa una pequeña porción de un grafo obtenido por el proceso de doble propagación. Si observamos la imagen, podemos ver que los aspectos y los objetivos de opinión se diferencian unos vértices de otros mediante diferenciación de colores. Además contando los vértices que contienen una misma palabra es posible saber las veces que ha aparecido en los textos. Las palabras se identifican mediante su lema y una etiqueta de la posición en la que aparecen. Además, contando las veces que aparece una conexión con una regla podemos saber la veces que esa regla se ha aplicado. El grafo es tratado como un grafo bidireccional puesto que en una conexión la regla se puede aplicar en ambas direcciones. Al grafo se le aplica el algoritmo PageRank para asignar a cada vértice un valor, de forma que los términos de aspecto son ordenados en base a ese valor asociado siendo el término más importante aquel que tenga un valor asociado mayor al resto (ejemplo de tabla de ranking en la imagen “Table 2” del siguiente apartado). El algoritmo PageRank utiliza la siguiente fórmula de asignación de valor:

donde PR(A) será el valor asociado al

vértice ‘A’, PR(i) serán los valores

asociados a cada vértice ‘i’ que está

conectado con el vértice ‘A’, C(i) es el

número de conexiones del vértice ‘i’ y d

es un valor de amortiguación entre 0 y 1.

El proceso de doble propagación

introduce en el conjunto términos no

deseados, como pudieran ser términos

que tienen una alta frecuencia de

aparición y que están relacionados con

muchos términos, por lo que tienen un

valor asociado muy alto y aparecen en las

primeras posiciones del ranking (por

ejemplo: la palabra “cosa” aparece en

multitud de ocasiones, “es una cosa

buena”). Para deshacernos de esos

términos es necesario realizar un filtrado

que elimine estos términos de forma

automática. Una opción simple es

realizar el pesado de los términos por

TF-IDF para identificar los términos y

posteriormente añadirlos a la lista

modificable de stopwords. Esta lista

contendrá, además de las stopwords

básicas, los términos que no deberán ser

términos de aspecto en ningún dominio.

De esta forma, sólo será necesario pasar

a los textos la lista de stopwords

modificada y quedarnos con aquellos

términos potencialmente interesantes.

1.1.4 Términos multipalabra

Hasta ahora no habíamos considerado esta casuística, sin embargo es posible que los términos de opinión no estén formados por una única palabra, situación que puede ser crítica en algunos dominios e irrelevante en otros. Por ejemplo, en uno de los dominios que se han tratado en el taller (laptops), como se puede observar en la figura Table 2, el término de opinión con un mayor ranking es battery life.

Page 7: Minería de opiniones

7

Esto es común que ocurra en dominios muy especializados debido al amplio vocabulario técnico que usualmente combina varias palabras e.g. disco duro, memoria principal, …

Para mejorar la efectividad en términos

de precisión y cobertura de los conjuntos

generados, dichos términos de aspecto

compuestos por más de una palabra

deben ser detectados e incluidos en los

conjuntos resultados. Para ello ya se han

empleado diversas técnicas que tienen

como objetivo incrementar la cobertura

evitando añadir términos incorrectos,

como podrían ser los términos de

aspecto compuestos fragmentados en las

palabras que los componen.

Una de esas técnicas es usar WordNet (gran base de datos de palabras del Inglés - sustantivos, verbos, adjetivos, adverbios -) y unas reglas simples. Cada vez que se va a procesar una palabra en el algoritmo de doble propagación se comprueba la combinación de esa palabra con la siguiente. Si alguna condición de las siguientes se satisface entonces se trata ambas palabras como si fuera una única:

Si la palabra n y la palabra n+1 son sustantivos y la combinación es una entrada de WordNet o de Wikipedia. (Ej.: battery life)

Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la combinación de ambas es una entrada en WordNet. (Ej.: hot dog).

Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la palabra n es un adjetivo relacional en WordNet. (Ej.: Indian food).

Es posible utilizar la técnica empleando una base de datos de palabras distintas de WordNet dependiendo del lenguaje que vayamos a analizar.

Otra técnica puede ser la utilización de patrones simples. De manera que se pueden guardar combinaciones de 2, 3 o más términos para su tratamiento como una única palabra. Una regla referente a esta técnica puede ser: A de N, que indica que cuando dos sustantivos se encuentren separados por “de”, esos términos se tratarán como uno solo.

1.2 ML-SentiCon

Hoy en día la cantidad de opiniones en

internet con valor para organizaciones y

empresas es inmensa y siempre esta en

aumento esto hace que su procesamiento

se imposible de forma manual, lo que ha

hecho necesario el desarrollo de métodos

para poder analizar estas opiniones y

poder clasificarlas según su polaridad

(Negativa/Positiva), para ello se utilizan

lexicones, estos clasifican las palabras

con una polaridad a priori resultado de

analizar las palabras sin ningún contexto,

los lexicones se organizan por capas con

una relación cantidad de

palabras/seguridad, teniendo pocas

palabras las primeras capas pero

asegurando que la polaridad asignada a

estas sea más segura.

Page 8: Minería de opiniones

8

1.2.1. Otros métodos Muchos métodos se han utilizado para la clasificación de la polaridad de las palabrasa lo largo de los años cada uno con diferentes métodos para ello a continuación pasaremos a analizarlos.

General Inquirer: primer lexicon con valores subjetivos , formado por lemas(unidades semánticas), es construido de forma manual y contiene aproximadamente 4206 lemas etiquetados con una polaridad dependiendo de la información que se posee de dicho lema, esta es sintactica, semantica y pragmatica.

MPQA Subjectivity Lexicon: utiliza, General Inquirer para obtener palabras con valor subjetivo a partir de los lemas de General Inquirer y un tesaurus (lista de sinónimos), la obtención de las palabras es automática pero la polaridades fueron anotadas manualmente, pese a ser una mejora al introducir palabras flexionadas y no solo lemas, no posee términos formados por más de una palabra.

Bing Liu’s Opinión Lexicon: esta construido de forma automática pero la polaridad de las palabras son actualizadas de forma manual, contiene palabras flexionadas con faltas de ortografía y expresiones informales de internet .

SentiWordNet: está construido sobre WordNet por lo que utiliza synsets(conjunto de palabras con un mismo significado) a los cuales asigna un valor para medir su negatividad o positividad este proceso se hace de forma automática mediante unos conjuntos de synsets que se utilizan de ejemplo, el hecho de

que este método esté basado en synsets hace que a los textos se les tenga que aplicar una herramienta de desambiguación aunque estos tienen poca tasa de éxito, otra solución es calcular la polaridad utilizando todos los synsets posibles.

1.2.2. Synsets, ventajas y desventajas A continuación vamos a comentar la ventajas y desventajas que presenta la utilización de synsets en los lexicones.

Ventajas: Los synsets nos aportan muchas ventajas a la hora de calcular la polaridad de las palabras, por ejemplo el hecho de que todas las palabras y lemas en un mismo synset tienen el mismo significado por lo que podemos asignar una misma polaridad a un gran conjunto de palabras lo cual es mucho más eficaz que tener que ir asignando polaridad a palabras una a una , además estos synsets pueden actualizarse añadiendo más palabras porque el número de palabras de las cuales se tiene una polaridad definida no para de aumentar y se adapta a la aparición de nuevas palabras o términos, cuando la polaridad de una palabra debe ser cambiada se puede cambiar la del synset y así cambiar al mismo tiempo todas las palabras con el mismo significado semántico

Desventajas: El principal problema es la polisemia es decir la dificultad de considerar una palabra en un synset u otro ya que una misma palabra puede tener diferentes significados por tanto pertenecer a diferentes synsets, para solucionar esto se pueden usar diferentes métodos el primero sería aplicar una herramienta para saber de forma

Page 9: Minería de opiniones

9

clara qué significado tiene la palabra en cuestión, la mayoría de estas herramientas son poco eficaces, otra solución pasa por utilizar todos los synsets donde esta palabra aparece y calcular una polaridad diferente a nivel de palabra o lema.

1.2.3. Lexicones en español A continuación comentaremos la expansión de los lexicones en otros idiomas son por ejemplo el frances, hindu, arabe, alemán y particularmente en español.

En español se han intentado muchos métodos para crear lexicones, por ejemplo la utilización de un diccionario bilingüe y de google translator, no se aportaron los resultados de estos dos lexicones, también se intentó la creación de un lexicón en español mediante la traducción del Bing Liu’s Opinión Lexicon corrigiendo manualmente la expresiones informales, tampoco se reportaron los resultados de su prueba, por último se utilizó el MPQA Subjectivity Lexicon y el SentiWordNet pero tomando un WordNet en español , el resultado fue 90% de accuracy para MPQA Subjectivity Lexicon y 74% para SentiWordNet. 1.2.4. Polaridad en synsets Se han introducido mejoras significativas en cada una de las etapas del método SentiWordNet 3.0. Basándose en el método empleado por (Baccianella, Esuli, y Sebastiani, 2010), el método se divide en dos partes: cálculo individual de la polaridad, y cálculo global de la polaridad a partir de los valores obtenidos en la primera etapa.

Una vez obtenido este recurso, se evalúa el lexicon tanto a nivel de synsets, como a nivel de lemas, con valores de precisión y volumen para el lexicon en español superiores a los de (Pérez-Rosas, Banea, y Mihalcea, 2012).

Se han calculado valores reales entre 0 y 1 de positividad, negatividad y objetividad para cada uno de los synsets de WordNet 3.0. 1.2.4.1. Nivel individual Se parte de distintos conjuntos de synsets considerados a priori positivos, negativos o neutros (se ha utilizado también WordNet-Affect como fuente de semillas positivas y negativas). Los clasificadores entrenados a partir de las distintas fuentes de información, fueron combinados en una etapa de meta-aprendizaje, y usando dos algoritmos de clasificación distintos, llega a la construcción de clasificadores ternarios, capaces de decidir si un synset es positivo, negativo o neutro a partir de los textos de sus glosas Finalmente se obtienen tres clasificadores regresionales capaces de inducir valores de positividad, negatividad y objetividad en el intervalo [0, 1].

1.2.4.2. Nivel global Trata de refinar los valores de positividad y negatividad asignados a cada synset, a partir de distintos tipos de relaciones entre ellos. Estas relaciones se modelan mediante un grafo en el que los synsets son nodos y las aristas dirigidas indican la relación entre los valores de positividad y negatividad de dichos synsets. De hecho se construyen dos tipos de grafos distintos: uno a partir de las glosas y otro a partir de las relaciones semánticas.

Los grafos incluyen aristas con peso positivo, que representan una transferencia directa entre los valores de positividad y negatividad de los synsets conectados, y aristas con peso negativo, que indican una transferencia cruzada entre ambos tipos de valores. Se aplica entonces al grafo un algoritmo de recorrido aleatorio (cada nodo es un

Page 10: Minería de opiniones

10

valor numérico), que permite computar los valores finales de positividad y negatividad en una sola ejecución. Los valores “fluyen” a lo largo del grafo a través de las aristas, hasta que el algoritmo obtenga valores finales para los nodos, que dependen de los valores iniciales y de las relaciones existentes entre los nodos a nivel global.

1.2.5. ML-SentiCon Por último vamos a explicar el funcionamiento de ML-SentiCon y su organización mediante capas, ML-SentiCon es un conjunto de lexicones de diferentes idiomas conseguidos gracias a la conexión de lemas en otros idiomas a sysnsets ya presentes, con una jerarquía de capas para clasificar los lemas en orden de fiabilidad.

1.2.5.1. Capas En WordNet cada synset representa un conjunto de lemas, estos lemas tienen asignada una polaridad que es el resultado de la polaridad positiva menos la polaridad negativa, una vez conseguida esta polaridad se le asigna a cada lema formando una tupla lemas-polaridad, a su vez cada lema puede tener más de un synset asociado en este caso su polaridad será la media de la polaridad de los synsets que lo referencian, estos lemas formarán las capas siendo las dos primeras formadas por lemas pertenecientes a synsets usados en entrenamiento por lo que tienen una fiabilidad mayor, el resto de capas se forman por lemas con valores de polaridad tanto negativos como positivos, a la hora de asignar un lema a una capa o a otra lo que se valora es su valor absoluto así la cantidad de lemas que componen cada capa sigue una progresión geométrica, para conseguir lexicones del resto de idiomas es necesario utilizar WordNets de otros idiomas en este caso los synsets se encuentran en Multilingual Central Repository 3.0 además se ha utilizado

EuroWordNet para conseguir una cantidad mayor de lemas

Una vez realizadas las pruebas de fiabilidad en dos lexicones uno en inglés y el otro español podemos obtener conclusiones interesantes, el lexicon en ingles es mas fiable lo cual es un resultado lógico ya que la obtención del lexicon español ha sido realizada por métodos semi-automáticos sin embargo esta diferencia es bastante reducida en las primeras capas estando entre el 1% y el 2% en la primera y entre 12% y 13% en la última, además si comparamos el número de palabras de cada lema la la impresión es aún más positiva.

2. Proyectos

Una vez mencionados los artículos de

referencia cuyos conceptos dan lugar a

una serie de aplicaciones fuera del

ámbito académico, realizaremos una

síntesis de 2 proyectos que representan

el panorama actual de la minería de

opiniones, entre los que se encuentran el

proyecto ATTOS con la intención de

procesar de forma automática la gran

cantidad de información existente en la

web y emplearla en la toma de decisiones

estratégicas, así como el análisis

semántico de la opinión de los

ciudadanos en redes sociales en la ciudad

del futuro cuyo objetivo final es

proporcionar a los administradores

públicos una herramienta potente para

entender las tendencias de

comportamiento y la opinión acerca de

los servicios que ofrecen.

2.1. Análisis semántico de la opinión en las redes sociales El ciudadano es el principal usuario de los servicios de la ciudad pero también es un sensor proactivo capaz de generar grandes cantidades de datos con información útil de su grado de satisfacción sobre su entorno. Sin embargo se necesita procesar y anotar

Page 11: Minería de opiniones

11

los datos de forma automatizada para lograr que estos sean relevantes y poder utilizar un modelo de abstracción. El objetivo último es proporcionar a los administradores públicos una herramienta potente para entender las tendencias de comportamiento, la opinión acerca de los servicios que ofrecen y proveer de un sistema de alerta que consiga mejorar la eficiencia de los servicios de emergencia.

2.1.1. Arquitectura La arquitectura es muy sencilla. El "datawarehouse" es el componente principal basado sobre Elasticsearch donde se almacenan todos los datos. Los "recolectores" son un conjunto de procesos que sirven para acceder a las APIs de Twitter y filtrar los datos según diferentes parámetros de búsqueda y luego hay los "consumidores" que anotan los mensajes de Twitter utilizando las APIs de Textalytic. Este proceso de anotación semántica constituye el cuello de botella del sistema por lo tanto se utiliza una cola con prioridad a la información más reciente. El último componente es el "sistema de visualización" que explota los datos generados.

2.1.2. Análisis de datos Primero se hace un etiquetado semántico para el caso particular: fragmentos cortos de texto, con capitalización inadecuada, faltas de ortografía, emoticonos, abreviaturas, etc.

El segundo paso es la clasificación automática que sigue dos modelos específicos: "SocialMedia" que define los temas generales de clasificación, proporcionando mayor precisión cuando se evalúan textos que proceden de redes sociales y "CitizenSensor" orientado a las características propias del ciudadano como sensor de eventos de la ciudad, teniendo en cuenta aspectos como su ubicación, eventos que ocurren en la ciudad o posibles catástrofes o alertas.

La extracción de entidades combina varias técnicas de procesamiento de lenguaje natural y permite al sistema de identificar distintos tipos de elementos: entidades nombradas (personas, organizaciones, lugares, etc.), conceptos, expresiones temporales, expresiones monetarias y URIs. En otro nivel de análisis semántico, se realiza el análisis de sentimiento que determina si el texto expresa un sentimiento positivo, neutral o negativo. También se utiliza la información del usuario en Twitter para analizar las características demográficas, basándose en n-gramas.

2.1.3. Output del sistema Las capacidades de almacenamiento del sistema permiten analizar los datos en tiempo real, aplicar algoritmos de minería de datos sobre los datos almacenados mediante técnicas de perfilado y clustering para identificar distintos grupos de ciudadanos que se encuentran en la ciudad, comparar singularidades entre los grupos detectados, etc.

Los mensajes anotados por el sistema se almacenan en formato JSON y las consultas se realizan a través de una interfaz web que permite ejecutar consultas complejas de manera estructurada y presenta información de alto nivel, agregada y resumida. Además se puede personalizar la consola según necesidades específicas, trámite el utilizo de widget. Actualmente se está investigando para explorar el análisis de movilidad en la ciudad, la detección de los temas más relevantes a nivel de barrios o zonas, y realizar un análisis de reputación o personalidad de marca.

Page 12: Minería de opiniones

12

2.2 Proyecto ATTOS Es necesario afrontar el tratamiento de la gran cantidad de información existente en la web, información textual en formatos muy variados y expresada de forma espontánea y subjetiva sin la corrección de los textos normativos. Con la intención de procesar de forma automática toda esta información y utilizarla en la toma de decisiones estratégicas surge el proyecto ATTOS (análisis de tendencias y temáticas a través de opiniones y sentimientos), con 3 grandes objetivos: creación y mejora de técnicas y herramientas de modelado de lenguaje subjetivo, desarrollo de sistemas inteligentes que recuperen, traten y comprendan este lenguaje y la unificación de dichos recursos en una plataforma web de monitorización. El seguimiento del proyecto se puede visualizar en: ATTOS.

2.2.1 Objetivos ATTOS plantea 3 objetivos específicos para la consecución de un objetivo global. Estos objetivos son:

Crear, adaptar y mejorar las técnicas y herramientas de modelado del lenguaje informal y subjetivo, - empleado en la expresión de opiniones y lejos de ser similar a los textos normativos - así como el tratamiento del lenguaje emocional y la aplicación de dichas técnicas en entornos reales y concretos.

Desarrollar sistemas inteligentes

capaces de recuperar, tratar, comprender y descubrir información subjetiva valorando el contexto en el que se ha expuesto tal información.

Integrar todos los recursos anteriores en una plataforma web de monitorización, demostrando su validez sobre

ámbitos concretos, promoviendo además las líneas de investigación que surjan del proyecto mediante la organización de actividades académicas, congresos y talleres.

2.2.2 Subproyectos Se propusieron 3 subproyectos complementarios entre si para la consecución de los objetivos mencionados en el apartado anterior, un subproyecto para el cumplimiento de cada objetivo.

El subproyecto ATTOS - Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos - se encargará del 3º objetivo, construyendo la plataforma de procesamiento que integrará las técnicas y recursos desarrolladas por todos los equipos del proyecto global (contando los demás subproyectos) para la explotación de la información subjetiva.

El subproyecto SOTTA - Semantic Opinion Techniques for Tendencies Analysis - se encargará del 1º objetivo, pretendiendo desarrollar una herramienta de análisis de tendencias en función a los diferentes usuarios que incorpore un conjunto de técnicas que permitan identificar características de los textos subjetivos.

El subproyecto ACOGEUS - Análisis de COntenidos GEnerados por USuarios - encargado del 2º objetivo, pretenderá desarrollar sistemas que identifiquen y recuperen información subjetiva de diversos dominios.

2.2.3 Arquitectura El sistema comentado debe incorporar técnicas y métodos que descubran la subjetividad en distintas dimensiones (emocional, temporal, espacial, …), para su desarrollo se ha optado por una arquitectura modular capaz de extraer indicadores de utilidad mediante el

Page 13: Minería de opiniones

13

proceso de diversas fuentes online empleando técnicas de lenguaje natural. Los distintos módulos que componen el sistema son los siguientes:

Se partirá de diversas fuentes online de las que se extraerán opiniones, véase Twitter,Amazon, etc en la parte izquierda de la figura 1.

Posteriormente, mediante el desarrollo y la adaptación de recursos, herramientas y técnicas de PLH (preprocesamiento y subsistemas) se realizará un tratamiento de la información subjetiva así como su especialización en diversos dominios de aplicación, teniendo en cuenta también características de los perfiles de usuario que exponen dichas opiniones (reputación, opiniones de otros usuarios, …). Algunos de estos subsistemas ya han sido tratados en otras asignaturas o en el presente trabajo como puede ser la extracción de características y la detección de la polaridad.

Finalmente se desarrollará una plataforma online de visualización y presentación de los resultados, planteando también actividades de evaluación de la utilidad de la plataforma (promoción, coordinación, foros de evaluación) y creando un plan de diseminación de los resultados obtenidos para lograr un nivel aceptable de difusión. A pesar de la sencillez aparente de la arquitectura, hay que afrontar diversos problemas como la creciente cantidad de información, siendo ésta muy variada y sin la precisión y correctitud de los textos

ortográficamente correctos y por tanto difícil de procesar. 2.2.4 Resultados y contribuciones

Los trabajos realizados durante el desarrollo del proyecto han dado lugar a una serie contribuciones en revistas, congresos y eventos. Entre ellos podemos destacar:

La definición de un método para obtener de forma automática consultas que varíen en función de un conjunto de hashtags semilla obtenidos de Twitter. Interesante para obtener tweets relacionados con temáticas específicas.

Un sistema de identificación de opiniones con su valoración (positividad o negatividad) correspondiente.

Una metodología que permite adaptar lexicones de palabras de opinión a un dominio concreto.

Un método de desambiguación (a nivel de sentido de las palabras) que tiene en cuenta la información del contexto, útil para clasificadores de polaridad.

Un método de detección de la

subjetividad a nivel de oraciones

basado en la desambiguación del

sentido de las palabras que

conforman la oración.

3. Conclusiones La minería de opiniones o análisis de sentimientos es un área de conocimiento que se encuentra en constante crecimiento, a pesar de encontrarse en un estado todavía prematuro debido a la complejidad de las técnicas necesarias para conseguir los objetivos perseguidos como la generación de lexicones en

Page 14: Minería de opiniones

14

idiomas diferentes del inglés (ML-Senticon) , definir reglas adecuadas para la extracción de términos de aspecto o determinar la subjetividad, la polaridad y las tendencias en un determinado texto no normativo, incluyendo también la dificultad de procesar dicho texto Así, ya que la denominada Web 2.0 lo ha socializado todo, se ha observado un nicho de aplicación de estas técnicas sobre redes sociales como Twitter para tareas como recomendaciones en función de las preferencias de usuarios y determinación de estados de ánimo, así como la utilización por parte de las empresas de dichas técnicas para tomar decisiones estratégicas en base a los resultados obtenidos. Con todo lo dicho, se ha puesto de manifiesto a lo largo de este artículo que no hay duda sobre la revolución que implicarán estas tecnologías en el desarrollo de Internet cuando alcancen un nivel de desarrollo considerable, sin embargo, ¿será para beneficio de los usuarios o irá orientada la utilización de éstas técnicas para incrementar más aun el control sobre nosotros?. 4. Bibliografía

Androutsopoulos, I., Galanis,

D.,Manandhar, S., Papageorgiou, H.,

Pavlopoulos, J. & Pontiki, A. (2014) Task

Description: Aspect Based Sentiment

Analysis (ABSA). SemEval-2014. Task 4.

Recuperado el 13 de Abril de 2015 de:

http://alt.qcri.org/semeval2014/task4/

Boldrini, E., Cruz Marta, F., Díaz Galiano,

M.c., Díaz Madrigal, V. J., De Salamanca

Ros, F., García Cumbreras, M.A., García

Vallejo, F. C., García Vega, M., Gómez

Soriano, J.M., Guillén Espejo, A., Gutierrez

Vazquez, Y., Jiménez Zafra, S.M..,

Martínez Cámara, E., Martín Valdivia, M.,

Monroy Tenorio, F., Montejo Ráez, A.,

Moreda Pozo, P., Muñoz Guillena, R.,

Navarro Colado, B., Ortega Rodríguez, F.J.,

Perea Ortega, J.M., Suárez Cueto, A.,

Troyano Jiménez, J.A. y Ureña López, L.A.

(2013) ATTOS: Análisis de Tendencias y

Temáticas a través de Opiniones y

Sentimientos. Recuperado el 13 de Abril

de 2015, de: http://gplsi.dlsi.ua.es/attos/

García Pablos, A., Cuadros, M., Rigau, G., &

Gaines, S. (2014). Unsupervised

acquisition of domain aspect terms for

Aspect Based Opinion Mining.

Procesamiento Del Lenguaje Natural, 53,

121-128. Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/inde

x.php/pln/article/view/5044/2932

Cruz, F., Troyano, J., Pontes, B., & Ortega,

F. (2014). ML-SentiCon: Un lexicón

multilingüe de polaridades semánticas a

nivel de lemas. Procesamiento Del

Lenguaje Natural, 53, 113-120.

Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/inde

x.php/pln/article/view/5041/2929

PageRank (n.d) En Wikipedia.

Recuperado el 13 de Abril de 2015, de:

http://es.wikipedia.org/wiki/PageRank#

Algoritmo

Page 15: Minería de opiniones

15

Princeton University (2015) What is

WordNet? WordNet. A lexical datbase for

English. Recuperado el 13 de Abril de

2015, de:

https://wordnet.princeton.edu/

SemEval (n.d) En Wikipedia. Recuperado

el 13 de Abril de 2015 de:

http://en.wikipedia.org/wiki/SemEval

Ureña López, L., Muñoz Guillena, R.,

Troyano Jiménez, J., & Martín Valdivia, M.

(2014). ATTOS: Análisis de Tendencias y

Temáticas a través de Opiniones y

Sentimientos. Procesamiento Del

Lenguaje Natural, 53, 151-154.

Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/i

ndex.php/pln/article/view/5062/2950

Villena-Román, J., Luna-Cobos, A., &

González Cristóbal, J. (2014). Análisis

Semántico de la Opinión de los

Ciudadanos en Redes Sociales en la

Ciudad del Futuro. Procesamiento Del

Lenguaje Natural, 53, 159-162.

Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/i

ndex.php/pln/article/view/5064/2952