Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Un enfoque inteligente para la selección degrupos de expertos mediante redes sociales
Lic. Eduardo Zamudio
Autor
Prof. Dra. Analía A. Amandi
Director
Prof. Dr. Luis S. Berdún
Co-Director
Facultad de Ciencias Exactas
Departamento de Computación y Sistemas
Universidad Nacional del Centro de la Pcia. de Bs. As.
Resumen
Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna materia.
Los grupos de expertos se constituyen para el tratamiento de temas específicos, definición de
políticas, asignación de recursos, y asesoramiento, entre otros.
La selección de grupos de expertos se realiza mediante algún proceso de selección de gru-
pos. Estos procesos consideran la evaluación de los criterios de selección que deben cumplir los
candidatos y los grupos en sí mismos.
Los criterios de selección representan un aspecto clave de los procesos de selección de exper-
tos, ya que son estos criterios los que establecen qué candidato es un experto, o cómo se debe
conformar un grupo de expertos. Sin embargo, en contextos donde los criterios de selección no
están disponibles, resulta dificultoso determinar cuáles son los criterios de selección aplicados.
La falta de acceso a los criterios de selección, o su falta de definción, limitan la posibilidad
de realizar análisis objetivos de dichos procesos, principalmente en relación con las fuentes de
información disponibles.
En ocasiones, la única fuente de información disponible son las evaluaciones de los candi-
datos. Estas evaluaciones son documentos de texto en los que los evaluadores del proceso de
selección de expertos exponen los argumentos por los que justifican la adecuación del candidato
a los criterios de selección.
Por otra parte, en la selección de grupos de expertos, es frecuente que la única fuente de in-
formación disponible se limite a un listado de los miembros del grupo seleccionado. Sin embargo,
la naturaleza relacional de los grupos de personas representa una gran fuente de información
para el análisis de los procesos de selección de grupos en general, y de la selección de grupos de
expertos en particular.
En esta tesis se propone un enfoque para el problema de la selección de grupos de expertos,
el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de candida-
tos a ocupar posiciones de experto, mediante un método para la identificación y evaluación de
criterios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, se propone
un método para la selección óptima de conformaciones de grupos de expertos, basada en las
relaciones sociales de candidatos elegibles.
II
El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad
a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en forma
individual, como así también del análisis de las conformaciones de grupos de expertos.
Esta tesis introduce importantes contribuciones en el área de selección de expertos, incluyen-
do:
Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,
como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.
Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-
minar la similitud del contenido semántico de criterios de selección de expertos.
Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia
de grupos.
Un método de selección óptima de grupos a partir de la integración de métricas de selección
de grupos mediante redes sociales mediante la implementación de un algoritmo genético.
La evaluación del método de elegibilidad de candidatos incluyó 3 tipos de criterios de selección
de referencia, generados a partir de un documento de referencia para la selección de comisio-
nes asesoras, de las definiciones de misión y visión de un conjunto de dependencias, y de las
funciones de cargos directivos de una oficina estatal.
El método de selección de grupos mediante redes sociales fue evaluado con un conjunto
de datos públicos de una agencia pública para el financiamiento de investigaciones científicas.
En la evaluación se analizó la aplicación de las métricas propuestas en los grupos de expertos,
representados por comisiones de un área de la organización. Asimismo, se analizó la aplicación
de las mismas métricas en los grupos generados.
Los resultados obtenidos indican que la elegibilidad de un conjunto de candidatos puede ser
determinada a partir del nivel de concordancia entre las evaluaciones de los candidatos y los
criterios de selección de referencia.
Los resultados en la evaluación del método de selección de grupos de expertos con la mé-
trica de independencia de grupos propuesta, permitió generar grupos que presentaron un mejor
III
desempeño al compararlos con los comités actuales. Esta situación se reiteró al evaluar la inte-
gración de varias métricas en el método propuesto.
Agradecimientos
Agradezco a toda la gente que me apoyó e incentivó para el desarrollo de esta tesis.
Ante todo, agradezco a mis directores, Analía Amandi y Luis Berdún, quienes me motivaron
y guiaron durante los últimos años de estudio, búsqueda, aprendizaje y desarrollo.
Agradezco haber tenido la oportunidad de ser parte del ISISTAN durante el desarrollo de
mi doctorado, y en especial a mis compañeros y docentes con quienes he compartido tantos
momentos memorables.
Agradezco al Concejo Nacional de Investigaciones Científicas y Técnicas por la asistencia
económica durante el desarrollo de mi doctorado.
Agradezco a toda mi familia, en especial a mi papá Antonio, mi hermana Patricia, mi hermano
Raúl, por estar siempre. A mis amigos, los de siempre, y los tantos que encontré en este camino.
Finalmente, mi más profundo y eterno agradecimiento a Vanina por los años compartidos, y
por haber creído y confiado en este proyecto de vida juntos. Por nuestros hijos hermosos, Emma
y Tomás, que motivan cada día de mi vida.
A todos ustedes, muchas gracias!
Eduardo Zamudio
Universidad Nacional del Centro de la Provincia de Buenos Aires
Diciembre de 2016
Índice
1. Introducción 1
1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Marco teórico 7
2.1. Aprendizaje de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Etiquetado de Roles Semánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Análisis de Redes Sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1. Importancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2. Grupos cohesivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.3. Posiciones y roles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4. Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3. Trabajos relacionados 17
3.1. Recuperación de expertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Extracción de sentencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3. Detección y selección de grupos en redes sociales . . . . . . . . . . . . . . . . . . 20
3.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Enfoque para la selección de grupos de expertos mediante redes sociales 23
4.1. Visión general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2. Elegibilidad de candidatos mediante criterios de selección de expertos . . . . . . 25
4.3. Selección de grupos de expertos mediante redes sociales . . . . . . . . . . . . . . 28
VIII ÍNDICE
4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5. Elegibilidad de candidatos mediante criterios de selección 33
5.1. Similitud semántica entre criterios de selección . . . . . . . . . . . . . . . . . . . 33
5.1.1. Propiedades semánticas de criterios de selección . . . . . . . . . . . . . . 34
5.1.2. Relevancia de propiedades semánticas . . . . . . . . . . . . . . . . . . . . 37
5.1.3. Correspondencia entre conjuntos de criterios de selección . . . . . . . . . 39
5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Clasificación de descripciones . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.2.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2.2. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2.3. Conformidad de evaluaciones a los criterios de selección . . . . . . . . . . 45
5.2.3.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2.3.2. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6. Selección de grupos de expertos mediante redes sociales 61
6.1. Criterios de selección de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.1.1. Representación mediante redes sociales . . . . . . . . . . . . . . . . . . . 62
6.1.2. Grupos con miembros independientes . . . . . . . . . . . . . . . . . . . . 63
6.1.3. Integración de criterios para la selección de grupos . . . . . . . . . . . . . 65
6.2. Optimización en la selección de grupos mediante redes sociales . . . . . . . . . . 67
6.2.1. Representación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.2. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2.3. Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3.1. Selección de padres . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3.2. Cruce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3.3. Mutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2.3.4. Selección de sobrevivientes . . . . . . . . . . . . . . . . . . . . . 71
6.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.3.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.3.2. Configuración del algoritmo genético . . . . . . . . . . . . . . . . . . . . . 72
6.3.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3.3.1. Fitness de comisiones actuales . . . . . . . . . . . . . . . . . . . 73
6.3.3.2. Comisiones con miembros independientes . . . . . . . . . . . . . 74
6.3.3.3. Comisiones con múltiples criterios . . . . . . . . . . . . . . . . . 83
6.3.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ÍNDICE IX
7. Conclusiones 87
7.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.2. Principales contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.3. Limitaciones encontradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A. Conjuntos de datos 93
A.1. Audiencias de nominación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Índice de Tablas
2.1. Enfoques top-down y bottom-up para la identificación de grupos cohesivos. . . . . 13
2.2. Características de las equivalencias para la identificación de posiciones y roles. . . 14
5.1. SRL de un conjunto de criterios de selección explícitos(5.1a) e implícitos(5.1b). . 38
5.2. Matriz de confusión (5.2a) y métricas (5.2b) para el modelo de clasificación. . . . 43
6.1. Matriz de decisión para la evaluación de alternativas a partir de múltiples criterios. 66
6.2. Configuraciones del Algoritmo Genético, operadores y mecanismos de selección. . 70
6.3. Métricas de centralidad de los miembros de las comisiones actuales. . . . . . . . . 75
6.4. Cuadro de fitness de comisiones actuales. . . . . . . . . . . . . . . . . . . . . . . 76
6.5. Fitness promedio por configuración para comisiones de 3 miembros. . . . . . . . 77
6.6. Fitness promedio por configuración para comisiones de 4 miembros. . . . . . . . 78
6.7. Fitness promedio por configuración para comisiones de 5 miembros. . . . . . . . 79
A.1. Comandos para el preprocesamiento del conjunto de datos. . . . . . . . . . . . . 94
Índice de Figuras
2.1. Ejemplo de Etiquetado de Roles Semánticos (SRL) . . . . . . . . . . . . . . . . . 8
4.1. Proceso típico de selección de grupos de expertos. . . . . . . . . . . . . . . . . . . 24
4.2. Enfoque general propuesto de selección de grupos de expertos. . . . . . . . . . . 25
4.3. Enfoque general propuesto para el análisis de criterios de selección. . . . . . . . . 29
4.4. Ejemplos de representaciones de criterios de selección con redes sociales. . . . . 30
5.1. Ejemplo de SRL sobre un criterio de selección. . . . . . . . . . . . . . . . . . . . . 34
5.2. Distribución de clases del conjunto de datos de descripciones. . . . . . . . . . . . 41
5.3. Matriz de confusión normalizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4. Métricas de evaluación del clasificador . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Curva ROC del modelo de clasificación de descripciones basado en SVM. . . . . . 44
5.6. Distribución (5.6a) y Caja (5.6b) de χ2 para features del clasificador. . . . . . . . 46
5.7. Curvas de aprendizaje del modelo entrenado para la clasificación de descripciones. 47
5.8. Similitud entre criterios implícitos y criterios explícitos para el segmento Comité. 48
5.9. Similitud entre criterios para la dependencia DHS del segmento Departamento. . 49
5.10.Similitud entre criterios implícitos y criterios explícitos para la dependencia DOC. 50
5.11.Similitud entre criterios implícitos y criterios explícitos para la dependencia DOT. 50
5.12.Similitud entre criterios implícitos y criterios explícitos para la dependencia NASA. 51
5.13.Similitud entre criterios implícitos y criterios explícitos para la dependencia OSTP. 52
5.14.Estadísticas de similitud de criterios para el segmento Departamento. . . . . . . . 53
5.15.Boxplot por departamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.16.Similitud entre criterios implícitos y criterios explícitos para el segmento Directivo. 55
5.17.Similitud entre criterios implícitos y explícitos para la OSTP por segmento. . . . . 56
5.18.Boxplot para OSTP en los segmentos Departamento y Directivo . . . . . . . . . . 57
5.19.Diagramas de caja para los segmentos Comité, Departamento, y Directivo. . . . . 57
5.20.Similitud entre criterios implícitos, evaluaciones previas, y criterios explícitos. . . 58
XIV ÍNDICE DE FIGURAS
6.1. Ejemplo de simplificación de dos tipos de relaciones en un grafo unificado. . . . . 63
6.2. Diferencia entre un grupo balanceado (6.2a) y no balanceado (6.2b). . . . . . . . 64
6.3. Conjunto de candidatos de ejemplo para la conformación de un grupo. . . . . . . 64
6.4. Esquema general de integración de criterios de selección con suma ponderada. . 67
6.5. Representación soluciones en la codificación del Algoritmo Genético. . . . . . . . 68
6.6. Captura de pantalla de la herramienta de selección de grupos. . . . . . . . . . . . 73
6.7. Gráfico de fitness de comisiones actuales. . . . . . . . . . . . . . . . . . . . . . . 76
6.8. Fitness promedio para comisiones generadas de 3, 4, y 5 miembros. . . . . . . . 80
6.9. Tiempos más cortos para comisiones generadas de 3, 4, y 5 miembros. . . . . . . 81
6.10.Desviaciones estándar para las comisiones de 3, 4, y 5 miembros. . . . . . . . . . 81
6.11.Comisiones actuales (círculos grandes) y comisiones generadas (estrellas). . . . . 82
6.12.Pesos de criterios de selección determinados mediante Entropía. . . . . . . . . . . 83
6.13.Fitness multicriterio de comisiones generadas y comisiones actuales. . . . . . . . 84
Lista de Acrónimos
ATS Resumen Automático de Textos
AUC Área Bajo la Curva
CONICET Consejo Nacional de Investigaciones Científicas y Técnicas
DHS Department of Homeland Security
DOC Department of Commerce
DOT Department of Transportantion
ER Recuperación de Expertos
FACA Federal Advisory Committee Act
GA Algoritmos Genéticos
GS-CV Grid Search Cross Validation
IR Recuperación de Información
KPP Key Player Problem
LDA Latent Dirichlet Allocation
MADM Toma de Decisiones con Múltiples Atributos
ML Aprendizaje de Máquina
NASA National Aeronautics and Space Administration
NLP Procesamiento de Leguaje Natural
OSTP Office of Science and Technology Policy
XVI ÍNDICE DE FIGURAS
OX Ordered Crossover
PMX Partially Mapped Crossover
ROC Receiver Operating Characteristic
SE Extracción de Sentencias
SNA Análisis de Redes Sociales
SRL Etiquetado de Roles Semánticos
SUS Stochastic Universal Sampling
SVM Support Vector Machines
Capıtulo 1
Introducción
Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna materia.
Los grupos de expertos se constituyen para el tratamiento de temas específicos, definición de
políticas, asignación de recursos, y asesoramiento, entre otros. Algunos de los nombres con los
que frecuentemente se suele designar a grupos de expertos, incluyen: comisión, comité, consejo,
mesa directiva, grupo asesor o de asesores, fuerza de tareas.
La selección de grupos de expertos se realiza mediante algún proceso de selección de gru-
pos. Estos procesos consideran la evaluación de los criterios de selección que deben cumplir los
candidatos y los grupos en sí mismos.
Los criterios de selección son un aspecto clave de los procesos de selección de expertos, ya
que son los que establecen qué candidato es un experto, o cómo se debe conformar un grupo de
expertos. Sin embargo, en contextos donde los criterios de selección no están disponibles, resulta
dificultoso determinar cuáles son los criterios de selección aplicados.
En este capítulo se presentan los fundamentos que dan origen al desarrollo de esta tesis, la
hipótesis general de la misma, las contribuciones logradas durante el desarrollo del trabajo, y
esquema general de las partes del documento.
Este capítulo se organiza de la siguiente manera. En la sección 1.1 se presenta la motivación
para el desarrollo de un enfoque para la selección de grupos de expertos mediante redes sociales.
En la sección 1.2 se presenta el problema que se pretende resolver, junto con la hipótesis general
2 Introducción
del trabajo. En la sección 1.3 se presentan las contribuciones logradas en el ámbito de la selección
de expertos. En la sección 1.4 se presenta un esquema general de los contenidos del documento.
Finalmente, en la sección 1.5 se presenta un resumen del capítulo.
1.1. Motivación
En contextos de selección de expertos, la falta de acceso a los criterios de selección, o la
subjetividad con la que éstos son definidos, limitan la posibilidad de realizar análisis objetivos de
dichos procesos.
Esto implica un desafío, principalmente en relación con las fuentes de información disponi-
bles para realizar cualquier análisis sobre procesos de selección.
En varios procesos de selección de expertos, la única fuente de información disponible se
constituye a partir de las evaluaciones de los candidatos. Estas evaluaciones son documentos
de texto en los que los evaluadores argumentan la adecuación del candidato a los criterios de
selección.
Las evaluaciones de los candidatos en formato de documentos de texto pueden ser procesadas
mediante técnicas de Procesamiento de Lenguaje Natural (NLP). Estas técnicas permiten proce-
sar grandes cantidades de texto no estructurado, a la vez que permiten analizar el contenido
semántico de éstos.
En este sentido, el análisis semántico de las evaluaciones constituye una estrategia posible
para determinar el contenido semántico de las evaluaciones y su similitud con el contenido
semántico de los criterios del proceso de selección.
Por otra parte, la selección de grupos de expertos es más desafiante que la selección de
expertos en forma individual, ya que la selección de grupos difícilmente se acompañe de un
documento que describa la evaluación de los criterios de selección del grupo. En estos casos, la
única fuente de información disponible se constituye a partir del listado de miembros del grupo
seleccionado. Sin embargo, la naturaleza relacional de los grupos de personas representa una
fuente importante de información para el análisis de los procesos de selección de grupos en
general, y de la selección de grupos de expertos en particular.
La información relacional de los grupos puede ser analizada mediante técnicas del Análisis de
1.2 Tesis 3
Redes Sociales (SNA). Las técnicas actuales del SNA permiten evaluar métricas relacionadas con
las propiedades estructurales de las redes sociales. Adicionalmente, las redes sociales permiten
una gran versatilidad de la representación de información relacional.
En este sentido, la representación de las relaciones sociales de los miembros, o posibles miem-
bros, de un grupo representa una poderosa fuente de información para analizar los criterios de
selección que determinan cómo son conformados los grupos.
1.2. Tesis
En esta tesis se propone un enfoque inteligente para el problema de la selección de grupos de
expertos, el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de
candidatos a ocupar posiciones de experto, mediante un método para la identificación y evalua-
ción de criterios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, se
propone un método para la selección óptima de conformaciones de grupos de expertos, basada
en las relaciones sociales de candidatos elegibles.
La hipótesis general de esta tesis sostiene que es posible desarrollar un método objetivo de
selección de grupos de expertos utilizando la información relacional del conjunto de candidatos
para la conformación de dichos grupos.
El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad a
los procesos de selección de expertos, a partir del análisis de los candidatos en forma individual,
como así también del análisis de las conformaciones de estos grupos.
1.3. Contribuciones
Esta tesis introduce importantes contribuciones en el área de selección de expertos, incluyen-
do:
Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,
como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.
Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-
4 Introducción
minar la similitud del contenido semántico de criterios de selección de expertos.
Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia
de grupos.
Un método de selección óptima de grupos a partir de la integración de métricas de selección
de grupos mediante redes sociales y la implementación de un algoritmo genético.
1.4. Organización del documento
El resto de este documento se encuentra organizado de la siguiente manera.
El capítulo 2 presenta el marco teórico de esta tesis en la que se describen los conceptos
relacionados con el Procesamiento de Lenguaje Natural (NLP) y el Análisis de Redes Sociales
(SNA).
El capítulo 3 presenta los trabajos relacionados con la Recuperación de Expertos, las técnicas
para la extracción automática de sentencias, y la detección y selección de grupos mediante redes
sociales.
El capítulo 4 presenta el enfoque general de la propuesta para la selección de grupos de
expertos mediante redes sociales. La sección describe brevemente cada una de las partes de la
propuesta.
El capítulo 5 presenta la primera parte de la propuesta en la que se describe el método
propuesto para determinar la elegibilidad de candidatos para la conformación de grupos de
expertos. La sección también presenta la evaluación experimental a partir de un conjunto de
evaluaciones de candidatos para la conformación de grupos de expertos en dependencias de
organismos públicos.
El capítulo 6 presenta la segunda parte de la propuesta en la que se describe el método
propuesto para la selección de grupos de expertos mediante redes sociales. En la sección se
describe la evaluación del método propuesto en la conformación de grupos de expertos para una
agencia pública de financiamiento de investigaciones científicas.
Por último, el capítulo 7 presenta las conclusiones de la tesis en la que se describen las prin-
cipales contribuciones, las limitaciones del enfoque actual, y las futuras líneas de investigación.
1.5 Resumen 5
1.5. Resumen
En este capítulo se introduce el contexto general del problema de la selección de expertos y
la selección de grupos de expertos, en relación con la evaluación de los criterios de selección.
La motivación de la tesis se resume en que la información relacionada con los criterios de
selección por los cuales se evalúan los expertos o los grupos de expertos, dificulta un análisis
objetivo de su aplicación. En consecuencia, los procesos de selección de expertos donde no se
dispone de información sobre los criterios de selección o su aplicación resultan poco transparen-
tes.
En esta tesis se propone un enfoque para la selección de grupos de expertos, a partir de la
identificación y evaluación de criterios de selección aplicados en procesos de selección de exper-
tos. Para ello se propone utilizar como fuentes de información, la evaluación de los candidatos a
conformar grupos de expertos, y la información relacional de estos candidatos.
El trabajo de tesis introduce importantes contribuciones en el área de selección de expertos
relacionada con la aplicación de técnicas de Aprendizaje de Máquina (ML), Procesamiento de
Lenguaje Natural (NLP), Análisis de Redes Sociales (SNA), y Algoritmos Genéticos (GA).
Capıtulo 2
Marco teórico
Este capítulo introduce los conceptos más importantes utilizados en el presente trabajo. Estos
conceptos incluyen la definición de Aprendizaje de Máquina y una clasificación general de la
misma, el Etiquetado de Roles Semánticos (SRL) como estrategia de análisis semántico de textos,
los conceptos y técnicas asociados con el Análisis de Redes Sociales, y la definición y componentes
de los Algoritmos Genéticos.
Este capítulo se organiza de la siguiente manera. En la sección 2.1 se describe el concepto de
Aprendizaje de máquina, y una clasificación general de sus técnicas. En la sección 2.2 se describe
la estrategia de análisis semántico de textos a partir del Etiquetado de Roles Semánticos. En la
sección 2.3 se describen los conceptos fundamentales del SNA, sus métricas más importantes, las
estrategias para la identificación de grupos, y la identificación de equivalencias en redes sociales.
En la sección 2.4 se presenta el concepto de Algoritmos Genéticos y sus componentes principales.
Finalmente, en la sección 2.5 se presenta un resumen del capítulo.
2.1. Aprendizaje de Máquina
El Aprendizaje de Máquina o Aprendizaje Automático es el área de las ciencias de la compu-
tación que pretende dotar a las computadoras de la habilidad de aprender. El objetivo de este
aprendizaje es la resolución de problemas, sin expresar todas las posibles situaciones que lo re-
suelvan. Así, se pretende que la máquina aprenda de la experiencia para resolver casos nuevos
para lo cual no fue programada (Mitchell, 1997).
Los orígenes del Aprendizaje de Máquina vienen asociados al reconocimeinto de patrones. En
la actualidad, el área generalmente se encarga del entrenamiento de modelos matemáticos que
permitan descubrir los patrones de un conjunto de datos para resolver distintas tareas.
En el Aprendizaje de Máquina, las tareas suelen agruparse en las estrategias que definen
cómo aprende la máquina (Bishop, 2006). Estas tareas se pueden agrupar en:
8 Marco teórico
(a) (b)
Figura 2.1: Ejemplo de Etiquetado de Roles Semánticos (SRL)
Aprendizaje Supervisado: Es el proceso de aprendizaje en el cual se indica explícitamente
cuál es la clasificación resultante de un conjunto de datos. De esta manera, el conjunto de
datos de entrada del proceso define la clase para el entrenamiento del modelo. Luego, este
modelo entrenado intentará predecir las clases de nuevos conjuntos de datos.
Aprendizaje No supervisado: Es el proceso de aprendizaje en el que se pretende agrupar un
conjunto de datos sin indicar explícitamente el grupo al que pertenecen. Este agrupamiento
se utiliza generalmente para el análisis descriptivo de los datos, la detección de anomalías
en los datos, o la identificación de grupos para los cuales no se conocen previamente las
clases.
Aprendizaje Semi-supervisado: Es el proceso de aprendizaje en el que sólo una porción,
por lo general pequeña, de los datos indica una clase. En este tipo de aprendizaje, se
pretende obtener los beneficios de ambos enfoques, supervisado y no supervisado, cuando
el aprendizaje completamente supervisado resulta costoso.
2.2. Etiquetado de Roles Semánticos
El Etiquetado de Roles Semánticos (SRL) (Gildea & Jurafsky, 2002) es el área que se ocupa
de la identificación de las relaciones semánticas, o roles, generadas a partir de los elementos de
una sentencia en un marco semántico. Los marcos semánticos tienen origen en la propuesta de
(Fillmore, 1976), la cual introduce el concepto de “marcos” para identificar la forma en que las
personas interpretan el lenguaje a partir de su propio ambiente, sus mensajes con otras personas,
y la creación de un modelo interno de su mundo.
La figura 2.1 presenta dos sentencias distintas pero que comparten un mismo significado. La
frase indica que los agentes (John y Claire) percibieron un evento (vieron una película). El marco
semántico correspondiente al ejemplo es “Perception_active”, que identifica los agentes que diri-
gen su atención a un evento (“Perceiver_agentive”), y el evento en sí mismo. (“Phenomenon”).
Una de las instancias más desarrolladas de marcos semánticos es Framenet (Baker et al.,
1998; Fillmore & Baker, 2009), el cual es una base de datos léxica que contiene almacenados un
amplio conjunto de marcos semánticos. Esta base de datos es utilizada por herramientas de SRL
en forma automática, como por ejemplo SEMAFOR (Das et al., 2010, 2014).
2.3 Análisis de Redes Sociales 9
2.3. Análisis de Redes Sociales
El Análisis de Redes Sociales (SNA) estudia las propiedades estructurales de las denominadas
redes sociales, conformadas por entidades sociales y las relaciones entre ellas.
En (Wasserman & Faust, 1994) se define una red social como “... un conjunto o conjuntos
finitos de actores y la relación o relaciones definidas sobre ellos”. Sobre la misma, agregan que
“La presencia de información relacional es una característica crítica y determinante de una red
social”. En esta definición, el actor representa una entidad social, y la red social representa los
actores que se encuentran relacionados entre sí. Por su parte, en (Wellman, 1983) se sostiene que
esta representación posibilita su análisis, permitiendo responder a ciertas preguntas, desarrollar
métodos, y organizar la recolección de datos relacionados con estas estructuras.
Los conceptos principales asociados a las redes sociales incluyen el de actor y el de enlace
relacional, los cuales constituyen las unidades fundamentales que permiten la conformación de
las estructuras estudiadas.
Un actor -o nodo- es una entidad social que puede presentar relaciones con otros actores.
Estos actores son unidades sociales discretas que se pueden definir de acuerdo a distintos niveles,
por ejemplo: personas, grupos, departamentos, organizaciones, ciudades, o estados-naciones. Es
habitual que los estudios sobre redes sociales analicen uno o dos tipos de actores en una misma
red.
Un enlace relacional -o relación- es un vínculo social entre un par de actores. Estos vínculos
pueden presentarse en una amplia variedad de rangos y tipos, que junto con los actores confor-
man las estructuras de las redes sociales. Algunos ejemplos incluyen relaciones de evaluación de
una persona sobre otra, de transferencia de recursos entre organizaciones o estados-naciones,
de asociación o afiliación a clubes, de interacción entre personas, de movimiento entre lugares o
cambio de estatus, de conexiones físicas, y de relaciones formales o biológicas.
En esta sección se describen algunas de las propiedades estructurales de las redes sociales
agrupadas de acuerdo a la determinación de la importancia de los actores, la identificación de
grupos, y la identificación de equivalencias entre actores a partir de las posiciones y roles de
éstos.
2.3.1. Importancia
Las redes sociales conforman estructuras en las que en ocasiones, es deseable analizar cuáles
son los actores, o grupos de actores, de mayor importancia en toda la red o algún sector de ésta.
Con objeto de analizar la importancia de dichos actores o grupos, se han desarrollado varios
enfoques y varias métricas que permitan determinar cuáles de estos actores o grupos, y en qué
medida, son considerados importantes para el resto de los actores y la estructura que conforman.
En (Hanneman & Riddle, 2005) se identifican la importancia de los actores como la promi-
nencia de éstos clasificada en dos categorías: centralidad y prestigio. A continuación se describen
ambas categorías.
10 Marco teórico
Métricas de centralidad
La centralidad de los actores establece en qué medida los actores se encuentran conectados
con otros, dentro de la red social.
En general, las métricas de centralidad están diseñadas para aplicarse sobre redes con rela-
ciones no dirigidas, aunque en algunos casos pueden modificarse para ser utilizadas en aquellas
con relaciones dirigidas.
Entre las métricas de centralidad más importantes se incluyen degree, closeness, y betweenness.
Degree, puede determinarse mediante un índice que contemple las relaciones directas de un actor
en particular. Closeness evalúa qué tan cerca se encuentran el resto de los nodos respecto de uno
en particular. Mientras que betweenness, considera que los nodos presentes en el geodesic -camino
más corto- entre dos nodos no adyacentes pueden disponer de algún control sobre la relación
entre ellos.
Una característica de estas métricas es que en general, pueden normalizarse de modo que
permitan su comparación entre sí. Asimismo, se puede decir que estas métricas son adecuadas
también, para determinar la centralidad de la red en su conjunto, o bien, de un subconjunto de
ella.
Adicionalmente, existen otras métricas que proponen variantes a las métricas ya comentadas.
Por ejemplo, en (Opsahl et al., 2010) se propone la medición de la centralidad de actores en
redes con relaciones ponderadas, basándose en los pesos y la cantidad de las relaciones. Este
aspecto es tratado también en ambientes de redes dinámicas (Klemm et al., 2012).
En general, las métricas de centralidad son aplicables a redes estáticas, aunque se han pro-
puesto enfoques alternativos de centralidad para redes dinámicas (Lerman et al., 2010; Tang et al.,
2010).
Otros enfoques de centralidad se basan en los caminos existentes entre los actores (Bonacich,
1987; Ghosh & Lerman, 2011; De Meo et al., 2012).
Métricas de prestigio
El otro concepto relacionado con la importancia es el de prestigio, el cual está asociado a las
elecciones que realizan los actores de una red sobre otros actores.
El prestigio de un actor es representado mediante métricas en las que se analizan las relacio-
nes dirigidas hacia un actor determinado de la red, donde estas relaciones pueden provenir de
actores adyacentes, o bien a través de intermediarios. El uso de grafos dirigidos en métricas de
prestigio se debe a su capacidad de representación de enlaces con dirección entre nodos.
En general, se recomienda el uso de métricas tanto de centralidad como también de prestigio
(teniendo en cuenta que este último no siempre puede determinarse), ya que ambos grupos
analizan distintas propiedades estructurales. Asimismo, se indica que la cantidad de métricas
para la determinación del prestigio de actores es más amplia que para el caso de grupos de
actores.
2.3 Análisis de Redes Sociales 11
Entre las métricas de prestigio más analizadas se encuentran proximity y status -o rank-.
Proximity de un actor es representado por la distancia de los actores de la red hacia un actor en
particular de la misma. Y el status de un actor está basado en los valores de status de los actores
que lo eligen.
En términos generales, las métricas o índices desarrollados para identificar la importancia de
los actores o grupos (Everett & Borgatti, 1999, 2005) han utilizado la representación mediante
grafos (Estrada & Rodríguez-Velázquez, 2005; Borgatti & Everett, 2006), en la que se tienen en
cuenta no sólo las relaciones inmediatas entre los nodos, sino también los caminos indirectos
junto con sus intermediarios. En (Freeman, 1979) se presenta una de las primeras caracteriza-
ciones del concepto de centralidad en redes sociales, mientras que en (Everett et al., 2004) se
presentan algunas correcciones a sus resultados. Por otra parte, en (Landherr et al., 2010) se
presenta una revisión de varias métricas de centralidad.
2.3.2. Grupos cohesivos
Junto con el estudio de la importancia de actores o grupos de actores, el SNA estudia lo que
denomina grupos cohesivos o comunidades. Esta área trata la definición y el estudio de técnicas
que permitan descubrir grupos o las propiedades de los mismos, definidos en términos estructu-
rales de la red que conforman.
En (Freeman & Webster, 1994) se sostiene que las personas eligen con quién interactuar y
esa interacción está dada por patrones, lo que implica que esta situación no es al azar. Así, las
personas conforman grupos, en los cuales sus integrantes se dan soporte a sí mismos y a la vez,
los miembros de grupos distintos se vuelven competitivos.
Con objeto de definir el concepto de cohesión social, en (Moody & White, 2003) se define la
cohesión estructural como “...el número mínimo de actores que, si son removidos de un grupo,
desconectarían al grupo...”, y cohesión de integración como “...el anidamiento jerárquico de las
estructuras cohesivas...”.
Una estrategia para la clasificación de grupos cohesivos puede presentarse examinando sus
características. En (Wasserman & Faust, 1994) se indica que estos grupos presentan mutualidad
de enlaces, alto índice de closeness entre sus miembros, como así también una frecuencia relativa
de enlaces entre los miembros de subgrupos, comparados con aquellos actores que no forman
parte del grupo.
El análisis estructural de las redes sociales se interesa por sus subestructuras. Particularmente
en lo que se refiere a grupos cohesivos, se hace referencia a estructuras más conectadas que los
dyads (pares de nodos), triads (tríadas de nodos), o redes de tipo ego-centered (redes centradas
en un nodo y sus relaciones directas).
En (Freeman, 2011) se mencionan varios enfoques para la identificación de grupos cohesi-
vos, incluyendo modelos algebraicos, basados en teoría de grafos, teoría de probabilidades, y
permutación de matrices.
Alternativamente, en (Hanneman & Riddle, 2005) se clasifican los enfoques de identificación
12 Marco teórico
de grupos cohesivos en bottom-up y top-down, donde estos enfoques bien pueden ser comple-
mentarios. A continuación se describen estos enfoques.
Enfoques bottom-up
Los enfoques bottom-up para la identificación de grupos cohesivos parten de las estructuras
más simples, como por ejemplo los dyads, y van construyendo la red a medida que van agregando
nodos que se encuentran relacionados a estas estructuras.
Algunos enfoques incluyen cliques, en los que todos los miembros se encuentran completa-
mente conectados. En ocasiones esta condición es demasiado restrictiva, por lo cual se plantean
modificaciones como N-cliques. Éstos definen como parte del clique a aquellos nodos que se en-
cuentren a una longitud máxima N del camino entre dos nodos del clique. Por otra parte, N-clans
modifica a N-clique limitando los enlaces exclusivamente entre miembros del clique. K-plexes es
una variante del clique, en el que se admite que todos los nodos del grupo se encuentren conec-
tados a todos los otros miembros del grupo, excepto a K de ellos. Finalmente, K-cores indica que
un nodo es miembro del grupo mientras que esté conectado a al menos otros K miembros del
grupo.
Enfoques top-down
Los enfoques top-down buscan identificar las subestructuras a partir de toda la dimensión
de la red desde una visión general. Esta estrategia intenta identificar las partes más densas en
términos de relaciones entre los nodos de una red, y a su vez identificar las conexiones más
débiles entre estas subestructuras.
En la identificación de grupos, es importante el concepto de componente en el que un conjunto
de nodos se encuentra conectado entre sí, pero no con el resto de la red. Por otra parte, pueden
existir componentes potenciales, los cuales se formarían en caso de eliminar un nodo denominado
cutpoint, que conecta este conjunto de nodos con los otros nodos de la red. La eliminación de
cutpoints genera subestructuras de la red denominadas bloques.
Adicionalmente, al eliminar ciertos enlaces, se podría generar una subestructura que la des-
conecte de la red. En este caso, estos enlaces reciben el nombre de bridges. Otros roles asociados
con la identificación de grupos son los de hub y gateway (Chou & Suzuki, 2010).
Alternativamente, mediante el enfoque de facciones se pueden generar particiones en la red,
basándose en la similitud de las conexiones entre los miembros de facciones. Esta estrategia
maximiza la similitud entre los miembros de una partición y la minimiza entre miembros de
particiones distintas.
En (Chin & Chignell, 2010) se propone un método para la identificación de grupos mediante
un análisis de similitud de dichos grupos y su evolución en el tiempo.
El cuadro 2.1 presenta una descripción de algunos de los enfoques para detección de grupos
cohesivos en redes sociales.
2.3 Análisis de Redes Sociales 13
Enfoque Forman parte del grupo
top-down
clique todos los miembros completamente conectados
N-clique nodos que se encuentran a una longitud máxima N del nodoparticular
N-clans limita a N-clique a miembros del clique
N-plexes nodos conectados a todo el grupo, excepto a K de ellos
K-cores nodos conectados a al menos K miembros del grupo
bottom-up
componentes nodos conectados entre sí pero no al resto de la red
componentespotenciales
se forman componentes si se eliminan ciertos nodos (cutpoints)
bloque subestructura que se genera al eliminar enlaces
Cuadro 2.1: Enfoques top-down y bottom-up para la identificación de grupos cohesivos.
2.3.3. Posiciones y roles
El estudio de la importancia de los actores individuales, así como el de la determinación de
grupos cohesivos, permiten analizar las propiedades estructurales de la red en base a los actores
y los grupos que conforman.
Sin embargo, es posible considerar los actores como ejemplos de categorías, ya que los mis-
mos presentan atributos que permiten esta clasificación. Así una persona puede clasificarse de
acuerdo a su edad, sexo, ubicación geográfica, etc., lo que en definitiva constituyen categorías
de las personas.
Basándose en las categorías, es posible realizar un análisis de las posiciones o roles que
desempeñan los actores, y así analizar las relaciones entre las distintas categorías.
Clasificación del análisis de posición y roles
En (Freeman, 2011) se distinguen cuatro tipos de análisis de posiciones clasificados en grupos,
roles sociales, estructuras jerárquicas, y centralidad de los nodos en las redes.
El estudio de posiciones en grupos analiza la ubicación de actores en los núcleos o bien en la
periferia de grupos, considerando que el núcleo está compuesto por actores más relacionados, y
ubica en la periferia a aquellos actores que interactúan con el núcleo, pero menos frecuentemen-
te.
El concepto de rol social se encuentra vinculado con las propiedades de ciertos actores y su
desempeño en la red, los cuales son propios de alguna categoría, un rol, permitiendo clasificar
los actores en los mencionados roles y determinar su incidencia en la red.
14 Marco teórico
Equivalencia Basada en Ejemplos de métodos
Estructural los actores equivalentes seconsideran sustituibles
correlation, squared Euclideandistances, matches, positive
matches (Jaccard coefficients)
Automórfica similitud entre grupos de actores geodesic equivalence, maxsim,tabu search
Regular clases o roles de actores y susrelaciones con actores de otros
grupos
REGE
Cuadro 2.2: Características de las equivalencias para la identificación de posiciones y roles.
Las estructuras jerárquicas tienen por objeto principal de estudio, la identificación de los ór-
denes de dominio entre los actores de una red.
Finalmente los estudios sobre centralidad intentan determinar la importancia de actores o
conjuntos de actores en una red.
Parte de la investigación en relación a posiciones y roles tiene que ver con la formalización de
estos conceptos. Como resultado, se encuentran definiciones algebraicas (White & Reitz, 1983),
como así también basadas en teoría de grafos (Everett, 1985). El concepto de posición ha sido
asociado a varias áreas, algunas propias del SNA, como así también algunas pertenecientes a
otras disciplinas. Algunos ejemplos incluyen el descubrimiento de roles asociado a la identifica-
ción de temas o tópicos (McCallum et al., 2005), y la preferencia de la equivalencia por sobre el
del cohesión en el descubrimiento de grupos (Burt, 1978, 1987).
Equivalencia
El análisis de posiciones y roles se interesa en la similitud o equivalencia entre las categorías
de la red. En (Borgatti & Everettt, 1992) se clasifica esta equivalencia en estructural, automórfica
y regular. Estructural, en la que los actores equivalentes son considerados sustituibles entre sí
por presentar las mismas relaciones con otras categorías. Automórfica, en la que se analiza la
similitud entre subgrupos de actores. Regular, en la que se intenta determinar cuáles son las
clases de actores o roles, de acuerdo a los conjuntos a los que pertenecen y las relaciones entre
actores de otros conjuntos. A su vez, las equivalencias pueden comparase, como así también sus
métodos de detección (Doreian, 1988).
El cuadro 2.2 presenta un resumen de las equivalencias junto con sus características y algunos
ejemplos de métodos para su determinación.
2.4 Algoritmos Genéticos 15
2.4. Algoritmos Genéticos
Los Algoritmos Genéticos forman parte de los llamados Algoritmos Evolutivos. Éste consiste
en una alternativa al problema de optimización mediante una heurística. Un algoritmo genéti-
co tiene por objetivo principal, la búsqueda de soluciones utilizando como base el modelo de
selección natural (Goldberg, 1989; Mitchell, 1997).
Un Algoritmo Genético contiene dos componentes esenciales. El primero es la representación
del espacio de soluciones. El segundo es una función de fitness o aptitud, la cual es utilizada
como la función objetivo del problema de optimización.
Las soluciones posibles se representan mediante una población de individuos, los cuales son
condificaciones, generalmente dadas a partir de vectores, y reciben el nombre de cromosomas o
genotipos.
El Algoritmo Genético emula el proceso de selección natural a partir de la aplicación de
un conjunto de operadores sobre las soluciones posibles . Éstos se agrupan en operadores de
mutación, cruce, y selección de las soluciones. Asimismo, el Algoritmo Genético aplica estos
operadores para producir nuevas soluciones en lo que se denominan generaciones. Finalmente,
luego de superado un umbral en la evolución de las generaciones, se establece un corte en el
proceso evolutivo, produciendo un conjunto de soluciones que optimzan la función de fitness.
2.5. Resumen
En este capítulo se presentan los conceptos fundamentales para el desarrollo de este traba-
jo. Éstos incluyen la definición de Aprendizaje de Máquina como estrategia para la predicción
de un conjunto de datos, junto con una descripción general de las estrategias de aprendizaje
clasificadas en Aprendizaje Supervisado, No Supervisado, y Semi-Supervisado. El Etiquetado de
Roles Semánticos, como estrategia de análisis semántico de texto a partir del concepto de Mar-
cos Semánticos. El concepto de redes sociales y sus elementos principales, junto con un resumen
general de las técnicas de Análisis de Redes Sociales, agrupadas en estrategias para determinar
la importancia de nodos, el descrubrimiento de grupos cohesivos o comunidades, y el análisis
de posiciones y roles. Finalmente, se incluye el concepto de Algoritmo Genético como estrategia
para la optimización de problemas de búsqueda de soluciones posibles.
Capıtulo 3
Trabajos relacionados
Los procesos de selección de grupos de expertos mediante redes sociales implican varias acti-
vidades relacionadas con el procesamiento de información relacionada con la experiencia de las
personas. Estas actividades incluyen la creación de perfiles de expertos, la definición de procesos
de búsqueda y recuperación de expertos, la generación de modelos para extraer información re-
lacionada con la experiencia, y la definición de estrategias para la selección de grupos mediante
el análisis de las redes sociales de un conjunto de personas. Este capítulo presenta un estudio
del estado del arte en relación a la Recuperación de Expertos, la extracción de evidencia de
experiencia a partir de documentos de texto, y la detección de grupos en redes sociales.
Este capítulo se organiza de la siguiente manera. La sección 3.1 presenta trabajos relaciona-
dos con la Recuperación de Expertos, las estrategias para este fin, junto con los enfoques para
la extracción de evidencia de experiencia a partir de propiedades sintácticas y semánticas de
documentos de texto. También se incluye un apartado en relación a los criterios de selección de
expertos. La sección 3.2 presenta estrategias para el procesamiento de documentos de textos con
objeto de extraer sentencias importantes de éstos. La sección 3.3 presenta las estrategias para
la detección de grupos en redes sociales, como herramientas para la selección de grupos. Final-
mente, la sección 3.4 presenta un resumen de los trabajos relacionados, junto con una discusión
de los enfoques.
3.1. Recuperación de expertos
El área de Recuperación de Expertos (ER), una subárea de Recuperación de Información (IR),
define dos objetivos relacionados con el descubrimiento de asociaciones entre expertos y áreas
de conocimiento (Balog & De Rijke, 2007): el Perfilado de Expertos (Expert Profiling) y Hallazgo
de Expertos (Expert Finding). Sin embargo, el objetivo de los sistemas de Hallazgo de Expertos es
asociar expertos en un tema dado, mientras que el objetivo del Perfilado de Expertos es descubrir
18 Trabajos relacionados
temas asociados a un experto.
Independientemente de su objetivo, los sistemas de RE necesitan encontrar temas o áreas
de conocimiento mediante el análisis de evidencia que demuestre la experiencia del experto.
En RE, esta evidencia de experiencia es generalmente representada mediante documentos como
curriculum vitae, publicaciones científicas, y listas de áreas de conocimiento, entre otras.
La importancia de la evidencia de experiencia, así como el contexto, son requeridos para
asistir a los usuarios de los sistemas de RE. En (Balog et al., 2009) se introduce la tarea de de-
terminar los perfiles de expertos y proponen dos modelos para su resolución. Ambos modelos se
basan en la construcción de perfiles basados en evidencia de experiencia tales como documentos
y áreas de conocimiento.
La evidencia de experiencia es usualmente almacenada en documentos de texto en forma
estructurada o semi estructurada. Por lo tanto, la extracción de evidencia de experiencia es uno
de los principales desafíos de la RE. En (Neshati et al., 2014) se reconoce la necesidad de trans-
formar descripciones textuales de proyectos en un conjunto de habilidades que los candidatos
expertos deben cumplir para ser seleccionados. Los autores proponen el concepto de noción im-
plícita de experiencia en descripciones de proyectos.
La mayoría de los enfoques para la extracción de evidencia de experiencia están basados
en propiedades sintácticas de los documentos. En (Ribeiro et al., 2015) se usan los curriculum
vitaes de un grupo de investigadores, como evidencia de experiencia en un modelo de recupe-
ración de expertos basado en etiquetas. Los autores comparan el algoritmo utilizado con otros
algoritmos para la recomendación de etiquetas que utilizan títulos, resúmenes, y palabras claves
de contribuciones científicas. Otros trabajos se enfocan en la extracción de temas o tópicos, como
representativos de áreas de conocimiento. En este sentido, En (Silvello et al., 2016) se propone la
extracción de temas de experiencia usando una adaptación de otros enfoques basados en extrac-
ción de términos y en extracción de frases clave. En (Momtazi & Naumann, 2013) se argumenta
que los enfoques actuales de RE, basados en la extracción de temas a partir de documentos, no
consideran las relaciones ocultas entre los candidatos y las consultas. Con este fin, los autores
proponen un enfoque para el Hallazgo de Expertos basado en Latent Dirichlet Allocation (LDA).
Otros trabajos en la extracción de experiencia tienen en cuenta otras propiedades de los
documentos, además de las sintácticas o las semánticas. En (Serdyukov et al., 2011) se aplica ML
a la tarea de Perfilado de Expertos mediante el etiquetado automático de personas dentro de un
contexto empresarial. Los autores proponen un listado de etiquetas con un orden de relevancia
o ranking. Este enfoque utiliza un vocabulario de etiquetas creado por un conjunto de usuarios
para este problema en particular.
Además de la evidencia de experiencia, otro aspecto importante sobre la creación de perfiles
de expertos radica en la organización de los datos de dichos perfiles, así como de su inherente
cambio. En (Rybak et al., 2014) se introduce la tarea de identificar y caracterizar los cambios
en la experiencia de los individuos en el tiempo. Los autores proponen el concepto de perfil de
experiencia jerárquica para organizar la taxonomía de la experiencia, representada mediante un
3.2 Extracción de sentencias 19
árbol ponderado. En esta línea, En (Wu et al., 2015) se considera la estructura jerárquica de las
áreas de conocimiento relacionadas a un experto mediante un modelo de clasificación.
Algunos trabajos explotan particularidades del dominio de aplicación para la RE. En este sen-
tido, en (Liu et al., 2013) se utilizan aspectos específícos del dominio de los sitios de pregunta-
respuesta. Entre estos aspectos se incluyen la relevancia del tema, reputación del usuario, y la
autoridad de una categoría. En (Karimzadehgan et al., 2008; Karimzadehgan & Zhai, 2012) se
modelan múltiples aspectos de la experiencia de personas en el marco del problema de Asigna-
ción de Revisores en Comités (CRA). Los autores proponen la extracción de temas a partir de
documentos asociados a los candidatos expertos, como el caso de las contribuciones científicas.
Criterios de selección de expertos
En (Rowe et al., 2013) se identifican un conjunto de criterios de selección, tanto incluyentes
como excluyentes, de expertos para la conformación de paneles de asesores (advisory panels) en
el contexto de la salud de varias organizaciones organizaciones internacionales. Enfatizan en el
conflicto de intereses de los miembros de los comités, siendo estos conflictos, financieros o de
otros tipos, como religiosos, políticos, o ideológicos, entre otros.
Proponen un conjunto de principios para la selección de miembros de paneles de expertos.
Entre los principios, se menciona que los criterios de elegibilidad y selección deben ser transpa-
rentes, estar disponibles y ser de acceso público. Sin embargo, no se menciona si los resultados
de las evaluaciones deben presentar las mismas características. El aporte principal de este trabajo
radica en la identificación de criterios de selección y la propuesta de un conjunto de principios
para la selección de expertos. Sin embargo, esta identificación de criterios se realiza sobre los
lineamientos de las organizaciones relevadas, sin considerar la opinión de los responsables del
proceso de selección. Por otra parte, los autores reconocen la importancia de la parcialidad (bias),
y menciona algunas alternativas para su tratamiento, entre las que se encuentra el análisis de las
declaraciones públicas de los candidatos. Esta alternativa implica un análisis de los candidatos y
sus propiedades, mas no se considera cuál es el resultado de la evaluación de los responsables
del proceso de selección sobre ese candidato.
3.2. Extracción de sentencias
El problema de la Extracción de Sentencias (SE) forma parte del área para la generación auto-
mática de resúmenes de texto (Automatic Text Summarization) (Paice, 1990; Salton et al., 1997;
Mani & Maybury, 1999). El objetivo de la SE es clasificar sentencias relevantes de otros conte-
nidos en documentos de texto. En (Kupiec et al., 1995) se propone un generador de resúmenes
de documentos entrenable basado en propiedades estadísticas de los textos. En este sentido, en
(Teufel & Moens, 1997) se entrenó un modelo de clasificación para la generación automática de
resúmenes de publicaciones científicas. Este modelo usa la evaluación de expertos para selec-
20 Trabajos relacionados
cionar las sentencias, y se basa en la similitud del contenido semántico entre las sentencias de
los resúmenes y de los documentos. A pesar de la subjetividad introducida por el componen-
te humano en la selección de las sentencias, los autores alcanzan resultados destacables en la
generación de resúmenes.
Adicionalmente a los enfoques mencionados, se ha evaluado la generación automática de
resúmenes de texto no estructurado a partir de las propiedades semánticas de éstos. En este
sentido, en (Suanmali et al., 2011) se utiliza el Etiquetado de Roles Semánticos (SRL) para iden-
tificar el contenido semántico de documentos de texto y generar los resúmenes a partir de éstos
en modelos difusos.
En el área de Aprendizaje de Máquina (ML), en (Fattah, 2014) se aplica el algoritmo SVM
para la clasificación de sentencias. Los autores probaron que este enfoque mejora el desempeño
de la generación de resúmenes al compararlo con otras estrategias de clasificación, tales como
Maximum Entropy o Naive-Bayes.
3.3. Detección y selección de grupos en redes sociales
En el contexto de las redes sociales, se pueden diferenciar dos problemas relacionados con las
estructuras que conforman los grupos. Por una parte, la detección de grupos trata el problema
del descubrimiento de conjuntos de nodos, denominados grupos o comunidades, a partir del
análisis de las propiedades estructurales de las redes que conforman. Por otra parte, la selección
de grupos trata el problema de identificar conjuntos de nodos de acuerdo a ciertos criterios de
selección.
Pese a esta distinción en los conceptos de selección y detección de grupos, es frecuente que
la selección haga uso de la detección para la evaluación de los criterios de selección. Por este
motivo, resulta relevante una revisión de las estrategias de detección de grupos en redes sociales.
Las estrategias de detección de grupos en redes sociales se valen de las propiedades estruc-
turales de éstas, como la métricas de centralidad o las métricas de cohesión. Estas estrategias
difieren principalmente de acuerdo al objetivo de la selección del grupo. Por ejemplo, en algunos
casos el objetivo consiste en maximizar la difusión en la red, fragmentar la red, seleccionar el
conjunto de nodos más influyentes, o bien recomendar nuevos enlaces en la red social.
Desde la perspectiva de la difusión y la fragmentación, en (Borgatti, 2006) se plantea el
problema de detección de grupos de actores claves de la red (Key Player Problem), estableciendo
dos objetivos principales. Por un lado, la detección de actores claves para la difusión en la red
(KPP-Pos), y por el otro, la fragmentación de la red a partir de la eliminación de dichos actores
clave (KPP-Neg). En ambos casos, el problema plantea la utilización de métricas de centralidad
de un conjunto de nodos de la red para su evaluación.
Otro objetivo plantea la detección de grupos de nodos que maximicen la influencia de éstos
en el resto de la red. Esto implica seleccionar un conjunto de nodos que maximicen el poder
ejercido sobre otros nodos de la red. En este sentido, en (Cao et al., 2011) se propone la selección
3.3 Detección y selección de grupos en redes sociales 21
de grupos de nodos con el objeto de maximizar la influencia en el resto de la red, mediante la
representación del problema como una asignación óptima de recursos.
Por otra parte, en (Wi et al., 2009b,a) se seleccionan miembros de equipos basados en su fa-
miliaridad, mediante métricas de centralidad y la aplicación de algoritmos genéticos. En (Kolaczyk et al.,
2009) se seleccionan conjuntos de nodos mediante la definición de una variante de la métrica
de centralidad betweenness.
Estas estrategias de detección de actores clave, maximización de influencia, y optimización de
alguna propiedad estructural, establecen únicos criterios de selección de los grupos. Sin embargo,
estas estrategias no preveen la incorporación de otros criterios para la selección de grupos de
nodos.
Respecto de los intentos por consolidar varios criterios en la selección de grupos en redes
sociales. En (Hinds et al., 2000) se propone la selección de compañeros de grupos de trabajo,
mediante un modelo combinado de atributos de nodos, atributos de relaciones y propiedades
estructurales de los candidatos. En (Morgan & Carley, 2014) se presenta un modelo organiza-
cional para el análisis de procesos de contratación de personas, en el que se realiza el análisis de
un conjunto de factores para la selección de los candidatos (Morgan & Carley, 2011).
También en selección de grupos, en (Kazienko et al., 2006) se propone un enfoque a partir
de redes sociales denominado "human filtering". Mediante este enfoque pretenden resolver el
problema de selección de target groups, o grupos de personas para publicidad o recomendación.
Para ello, definen un proceso de selección basado en un modo tradicional de selección de perso-
nas, considerando características demográficas y otros intereses, junto con la detección de grupos
cohesivos mediante SNA. Si bien el trabajo utiliza SNA para la selección de grupos, no indica un
modo de representar otros criterios de selección de grupos mediante SNA, o bien de combinar
otras propiedades del SNA en el proceso de selección.
Detección de grupos en redes complejas
Las redes complejas incluyen redes sociales con múltiples tipos de relaciones (multi-capas),
de gran tamaño, y dinámicas.
Particularmente en relación a las redes con múltiples relaciones, en (Bródka et al., 2013) se
presenta un enfoque para la detección de comunidades en redes multi-capas mediante una trans-
formación de la red. Si bien el enfoque pretende detectar comunidades mediante técnicas como
la agrupamiento (clustering), las múltiples capas de la red social podrían resultar adecuadas para
la representación de múltiples criterios de selección de grupos.
Respecto de la utilización de las propiedades estructurales de redes complejas para la detec-
ción de grupos, en (Vasudevan & Deo, 2012) se propone un algoritmo basado en la maximización
del degree promedio para el descubrimiento de comunidades en una red. Sin embargo, la con-
cepción de red compleja utilizada es la de grafos grandes, dinámicos y aleatorios, sin describir la
aplicación del algoritmo en un escenario de representación de múltiples tipos de relaciones.
En relación con el seguimiento de los grupos en el tiempo, en (Chin & Chignell, 2010) se
22 Trabajos relacionados
propone un método para la detección de grupos mediante un análisis de similitud de dichos
grupos, así como un análisis de su evolución.
3.4. Resumen
En este capítulo se presentan los trabajos relacionados con la selección de grupos de personas,
mediante redes sociales. En particular, se relevaron aquellos trabajos vinculados con la Recupe-
ración de Expertos, la extracción de evidencia de experiencia, la importancia de los criterios de
selección, y las estrategias de detección de grupos basados en redes sociales.
Como resultado del estudio, se identificó que el procesamiento de la evidencia es clave en la
evaluación de la experiencia de las personas. Asimismo, los proceso de Recuperación de Expertos
dependen fundamentalmente de esta evidencia de experiencia para la generación de perfiles de
los expertos.
Por otra parte, se identificó que los enfoques de detección de grupos en redes sociales se
basan generalmente en alguna propiedad estructural de centralidad como degree, betweenness
o closeness, entre otros. Esto implica que la representación de los criterios para la selección de
grupos suelen utilizar un único tipo de relación o propiedad de la red. Sin embargo, se encontra-
ron trabajos relacionados con la detección de grupos en redes complejas, los cuales incorporan
características como múltiples capas, o tipos de relaciones, y redes dinámicas.
Las características de las redes complejas permiten la representación de múltiples relaciones
como criterios de selección. Sin embargo, no se han encontrado alternativas que permitan la
representación y evaluación de múltiples criterios de selección de grupos en redes sociales.
En resumen, el problema de selección de grupos de expertos a partir de redes sociales implica
definir un mecanismo que permita la representación de múltiples criterios de selección; definir
un proceso de selección de grupos en base a los criterios establecidos; y la automatización del
proceso de evaluación y selección. En este sentido, un mecanismo de selección de grupos debe-
ría abordar algunos aspectos clave. Inicialmente, es necesario identificar criterios de selección
por los cuales se realiza la selección de expertos para la conformación de grupos. Asimismo, es
necesario establecer una alternativa de representación de múltiples criterios para la selección
de grupos. Esta representación debe tener en cuenta que los criterios pueden ser varios, hete-
rogéneos, y posiblemente conflictivos. Finalmente, el proceso de selección de grupos a partir de
criterios de selección debe considerar la posibilidad de automatización para la evaluación de
dichos criterios.
Capıtulo 4
Enfoque para la selección de grupos
de expertos mediante redes sociales
En este capítulo se presenta el enfoque propuesto para la selección de grupos de expertos
mediante redes sociales. Este enfoque propone un método que utiliza técnicas de Procesamien-
to de Lenguaje Natural (NLP), con el objetivo de generar información que permita identificar
candidatos expertos para la conformación de grupos. Asimismo, el enfoque también propone un
método que utiliza técnicas de Análisis de Redes Sociales (SNA) y de computación evolutiva, con
el objetivo de generar conformaciones posibles de grupos de expertos.
En la sección 4.1 se presenta una visión general del método propuesto. La sección presenta
el problema que se pretende resolver, junto con una breve descripción de las partes del método
propuesto. La sección 4.2 introduce la primera parte del método, la cual trata la identificación
de candidatos expertos elegibles para la conformación de grupos, desde la perspectiva de los
criterios aplicados en la selección de los candidatos. La sección 4.3 introduce la segunda parte
del método, la cual propone una representación del problema de selección de grupos mediante
redes sociales, y propone un método de computación evolutiva para optimizar la búsqueda de
conformaciones posibles de grupos de expertos. Finalmente, en la sección 4.4 se presenta un
resumen de este capítulo.
4.1. Visión general
Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna ma-
teria. Los grupos de expertos se constituyen por varios motivos, como el tratamiento de temas
específicos, definición de políticas, asignación de recursos, y asesoramiento, entre otros.
Por lo general, los grupos de expertos son seleccionados mediante algún proceso de selección
de grupos, en el cual se evalúan tanto los requisitos que deben cumplir los candidatos, como
24 Enfoque para la selección de grupos de expertos mediante redes sociales
Candidatos Grupos
Criterios de selección
Selección degrupos de expertos
Figura 4.1: Proceso típico de selección de grupos de expertos.
así también los requisitos de los grupos en sí mismos. Estos requisitos se definen a partir de
los criterios de selección que, cuando están disponibles, se pueden encontrar definidos en los
lineamientos generales de los mismos procesos de selección. La figura 4.1 presenta un proceso
típico de selección de grupos de expertos, en el que un conjunto de candidatos es evaluado,
para luego seleccionar la conformación adecuada a los criterios de selección definidos dentro del
proceso de selección.
Estos procesos de selección de expertos presenta dos problemas importantes, relacionados
con los siguientes interrogantes:
1. ¿Cómo determinar la elegibilidad (aptitud) de un candidato para conformar un grupo de
expertos?
2. ¿Cómo seleccionar el mejor grupo de expertos posible a partir de un conjunto de candidatos
elegibles?
El primer interrogante se refiere la condición de elegibilidad de un candidato para cubrir una
posición de experto, dada a partir de la evaluación de un conjunto de criterios de selección. Esto
puede implicar que el conjunto de candidatos a conformar los grupos se asumen como expertos,
o que su condición de expertos se evalúa dentro del mismo proceso de selección de grupos. En
cualquier caso, en alguna parte del proceso se debe considerar quién es considerado un experto
elegible para conformar un grupo de expertos. El interrogante plantea un problema importante
asociado a la elegibilidad de un candidato, ya que los criterios de selección de expertos suelen
ser subjetivos, poco descriptivos, escasos, o inclusive no estar disponibles para ser consultados.
Esta situación limita la posibilidad de demostrar objetivamente el nivel de experiencia de un
candidato, y por lo tanto su elegibilidad para la conformación de grupos de expertos.
4.2 Elegibilidad de candidatos mediante criterios de selección de expertos 25
Candidatoselegibles
Candidatos Grupos
Elegibilidad de
candidatos
Figura 4.2: Enfoque general propuesto de selección de grupos de expertos.
El segundo interrogante se refiere a las posibles conformaciones de grupos de expertos. La
selección de grupos implica un elevado costo en la evaluación de las posibles conformaciones.
Este costo está asociado al número de miembros y sus relaciones, los candidatos a conformar
los grupos, y los criterios de selección. En particular, esto se evidencia en organizaciones que
requieren seleccionar grupos de expertos a partir de un gran número de candidatos.
En este capítulo se describe un enfoque para el problema de la selección de expertos, el cual
consiste de dos partes. Por una parte, con objeto de determinar la elegibilidad de candidatos a
ocupar posiciones de experto, se propone un método para la identificación y evaluación de crite-
rios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, con objeto de
seleccionar grupos de expertos, se propone un método para la selección óptima de conformacio-
nes, basada en las relaciones sociales de sus miembros.
La figura 4.2 presenta el enfoque general de la propuesta con sus procesos principales. El pro-
ceso de elegibilidad de candidatos toma información de los candidatos a conformar los grupos
de expertos, junto con información de los criterios de selección. La salida de este proceso es un
subconjunto de candidatos elegibles, los cuales cumplen con los criterios del proceso de selección
de expertos. Luego, el proceso de selección de grupos de expertos toma la información del sub-
conjunto de candidatos elegibles, y de las relaciones sociales de éstos, con objeto de determinar
las mejores conformaciones posibles.
El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad
a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en forma
individual, como así también del análisis de las conformaciones de grupos de expertos.
4.2. Elegibilidad de candidatos mediante criterios de selec-
ción de expertos
Los criterios de selección de expertos describen las habilidades o características de los can-
didatos, requeridas para cubrir una posición determinada en el ámbito de una organización.
Estos criterios son la base para la evaluación de los candidatos, y en consecuencia, permiten
26 Enfoque para la selección de grupos de expertos mediante redes sociales
determinar si un candidato es adecuado para una posición determinada.
Los criterios de selección representan un aspecto fundamental de los procesos de selección.
Sin embargo, los criterios de selección no siempre se encuentran disponibles en forma explícita,
o bien son de naturaleza subjetiva, lo que implica una dificultad para su análisis. Por ejemplo,
Naciones Unidas en una de sus dependencias1, define una guía para conformar grupos de exper-
tos. Esta guía incluye un conjunto de criterios de selección para la nominación de candidatos a
conformar dichos grupos2. Uno de estos criterios indica que los candidatos deben posser:
“Internationally recognized expertise ... to be demonstrated by: (i) A record of
scientific publications ... (iii) Experience at a high level in the design and manage-
ment ... in marine science ... “
donde se indica de forma explícita cómo se demuestra la “experiencia reconocida internacional-
mente” de un candidato. Sin embargo, otro de los criterios indica:
“The ability to serve in an independent, individual capacity”
donde se evidencia la subjetividad del criterio, ya que a diferencia del primer ejemplo, no se
aclara cómo puede ser demostrado.
Los criterios de selección subjetivos, frecuentes en varios procesos de selección de expertos,
impiden realizar un análisis objetivo de dichos procesos. A su vez, generan el siguiente interro-
gante:
¿cuáles son los criterios de selección aplicados en un proceso de selección de
expertos?
Esta pregunta presenta dos problemas relacionados con los criterios de selección de expertos.
Primero, la necesidad de identificar criterios de selección cuando éstos no están disponibles (no
explícitos). Segundo, la necesidad de diseñar instrumentos que permitan medir la aplicación de
los criterios de selección.
La necesidad de identificar criterios de selección no explícitos, obliga a buscar una fuente de
información que pueda contener estos criterios. Así es que se identifica que el resultado de un
proceso de selección de expertos, suele acompañar una evaluación de los candidatos. En este
sentido, es de suponer que las evaluaciones de los candidatos reflejen los criterios de selección
definidos para el proceso de selección de expertos. Las evaluaciones de los candidatos, cuando
son expresadas en lenguaje natural, suelen contener descripciones, las cuales definimos como las
características destacadas de los candidatos desde el punto de vista de la persona responsable de
la evaluación. Estas descripciones, son una suerte de argumentos del evaluador para justificar la
conformidad (o inconformidad) del candidato a los criterios de selección definidos para cubrir
una posición de experto. Por ejemplo, una descripción en la evaluación de un candidato podría
ser:1http://www.un.org/depts/los2http://www.un.org/depts/los/global_reporting/Criteria_for_Appointment.pdf
4.2 Elegibilidad de candidatos mediante criterios de selección de expertos 27
“The candidate have demonstrated a great capacity in conflict resolution”
Por lo tanto, sería posible identificar los criterios de selección de expertos mediante un análisis
de las descripciones de los candidatos. Esta situación conduce a la siguiente hipótesis:
Los criterios de selección (explícitos o no) se encuentran implícitos en las descripcio-
nes de los candidatos contenidas en sus evaluaciones.
Se establece entonces una distinción entre los criterios de selección explícitos e implícitos. Defi-
nimos como explícitos a aquellos criterios descriptos explícitamente en los procesos de selección
(por ej. guías, estatutos, lineamientos, etc.). Asimismo, definimos como implícitos a aquellos cri-
terios contenidos implícitamente en las descripciones de los candidatos, en el contexto de sus
evaluaciones.
Adicionalmente, se requiere una alternativa para medir la aplicación de los criterios de selec-
ción. Esto implica determinar en qué medida se asemejan dos conjuntos de criterios de selección,
uno correspondiente a criterios de referencia (como los explícitos) y otro correspondiente a los
criterios a comparar (como los implícitos). Esta situación conduce a la siguiente hipótesis:
Los criterios de selección explícitos e implícitos (de un mismo proceso de selec-
ción) presentan un contenido semántico similar entre sí.
De esta manera, sería posible analizar la similitud semántica entre criterios (explícitos e implíci-
tos), y así determinar en qué medida se aplican en la evaluación de candidatos.
En esta primera parte del enfoque propuesto, se presenta una alternativa para el análisis de
similitud entre criterios de selección explícitos e implícitos. Esta alternativa está dada a partir
de la frecuencia de conceptos semánticos identificados en cada grupo de criterios de selección.
Para ello, se propone también un proceso de clasificación para la extracción de descripciones de
candidatos como elementos contenedores de criterios implícitos.
Con esta propuesta, se pretende determinar la conformidad de las evaluaciones, definida co-
mo la medida en que las evaluaciones de candidatos aplican los criterios de selección de un
proceso de selección de expertos. Esta conformidad pemitiría determinar la aplicación de crite-
rios de selección en evaluaciones de candidatos. El objetivo principal de esta propuesta radica en
determinar la elegibilidad de los candidatos para conformar grupos de expertos, definida como
la medida en que la evaluación de un candidato aplica los criterios de selección de un proceso de
selección de expertos. Así, la elegibilidad de un candidato es dada cuando los criterios implícitos
en sus evaluaciones alcanzan un nivel de similitud con el conjunto de criterios de selección de
referencia, sean éstos criterios explícitos o implícitos.
La figura 4.3 presenta un esquema general del enfoque propuesto, cuyo proceso principal es
el análisis de similitud de criterios de selección. Este análisis de similitud tiene como datos de
entrada al conjunto de criterios explícitos, extraídos en forma manual a partir de documentos,
tales como guías, estatutos, lineamientos, y otros documentos que definan los requerimientos
de las posiciones de expertos. El análisis de similitud también toma como datos de entrada al
28 Enfoque para la selección de grupos de expertos mediante redes sociales
conjunto de contenidos con criterios implícitos (descripciones), extraídos en forma automática a
partir de las evaluaciones de los candidatos. El análisis de similitud extrae un conjunto de con-
ceptos semánticos de cada conjunto de criterios (explícitos e implícitos), y calcula la frecuencia
de los mismos. Finalmente, se determina el nivel de correlación de frecuencias de los concep-
tos semánticos correspondientes a cada grupo de criterios. El resultado final es un puntaje de
similitud, asociado al nivel de correlación entre criterios explícitos e implícitos, o entre criterios
implícitos.
4.3. Selección de grupos de expertos mediante redes sociales
La selección de grupos de expertos tiene por objetivo la conformación de conjuntos de can-
didatos expertos. Esta selección implica evaluar criterios de selección específicos de grupos, en
base a las relaciones entre los miembros de los grupos. Por ejemplo, cuando se requiere selec-
cionar un grupo de expertos interdisciplinario, se deben definir las disciplinas que deben cubrir
los expertos, y luego evaluar la medida en que los miembros de grupo posible se relacionan con
las disciplinas requeridas. En este ejemplo, la medida de conformidad del criterio de interdisci-
plinaridad del grupo, será evaluada considerando las relaciones entre los miembros del grupo y
las disciplinas requeridas para el grupo en su conjunto.
Al igual que en la selección de candidatos expertos, la selección de grupos de expertos tam-
bién define criterios de selección. Por ejemplo, es frecuente encontrar procesos de selección de
grupos de expertos que incluyan criterios para la selección de sus miembros, tales como “repre-
sentativos”, “independientes”, o “importantes”, entre otros. Desafortunadamente, resulta poco
frecuente encontrar criterios de selección instrumentados por métodos que permitan demostrar
el nivel de conformidad de dichos criterios. Por otra parte, a diferencia de la selección de can-
didatos, la selección de grupos no suele estar acompañada por evaluaciones de los grupos, que
permitan analizar la aplicación de los criterios de selección. Inclusive, en ocasiones, la única in-
formación disponible radica en el listado de miembros de los grupos conformados previamente.
Sin embargo, una característica importante de los procesos de selección de grupos, es que los
criterios de selección suelen considerar las relaciones entre los miembros del grupo. Por ejemplo,
un grupo interdisciplinario con miembros “representativos” se encontraría relacionado en sus
miembros y también en sus disciplinas. Las disciplinas en sí mismas también pueden contener
información que las relacione entre sí, al igual que los miembros del grupo pueden presentar
relaciones entre sí, o en relación a estas disciplinas. La figura 4.4 presenta un ejemplo hipotético
de la versatilidad de representación de criterios a partir información relacional. La figura pre-
senta tres tipos de representación para un mismo criterio de selección. El primero, presenta una
matriz de incidencia entre los candidatos a conformar el grupo, y las disciplinas asociadas a cada
candidato. El segundo, presenta una jerarquía entre las disciplinas. El tercero, presenta un grafo
con relaciones entre los candidatos representando un mínimo de disciplinas en común. Esta ver-
satilidad de la información relacional es una alternativa importante ante la falta de información
4.3 Selección de grupos de expertos mediante redes sociales 29
Figura 4.3: Enfoque general propuesto para el análisis de criterios de selección.
30 Enfoque para la selección de grupos de expertos mediante redes sociales
A
B C(a) Candidatos con relaciones de 2 omás disciplinas en común.
1
2 3 4
5(b) Jerarquía de disciplinas
Candidatos
Disciplinas asociadas
1 2 3 4 5
A
B
C
(c) Matriz de adyacencia entre candidatos y disciplinas
Figura 4.4: Ejemplos de representaciones de criterios de selección con redes sociales.
para la evaluación de criterios de selección de grupos de expertos.
Finalmente, la selección de grupos de expertos implica evaluar varias conformaciones posi-
bles de candidatos. Esta situación representa un elevado costo de procesamiento por la natu-
raleza combinatoria del problema. Por ejemplo, dado un conjunto de candidatos de tamaño n,
y grupos de tamaño r, el número posible de soluciones queda determinado por el coeficiente
binomial nCr, con complejidad O(n!), para el que no se conoce función polinomial que lo resuel-
va. Esta situación implica la necesidad de optar por un método no determinístico que permita
aproximar soluciones posibles.
Por lo tanto, se requieren instrumentos que permitan evaluar criterios de selección de grupos
en forma objetiva y eficiente, con el fin de dar claridad a los procesos de selección de grupos.
En esta segunda parte del enfoque propuesto, se presenta un método para la selección de
grupos de expertos, a partir del análisis de las redes sociales de un conjunto de candidatos (ele-
gibles). El método propuesto, utiliza un conjunto de métricas de SNA que permiten evaluar la
conformidad de grupos a ciertos criterios de selección de grupos. Asimismo, el método propo-
ne una estrategia de optimización para la búsqueda de conformaciones óptimas, mediante la
implementación de un algoritmo genético.
Inicialmente se presenta una métrica alternativa para determinar la independencia entre los
4.4 Resumen 31
miembros de un grupo. Luego, se propone una estrategia para la integración de un conjunto de
métricas, a partir de la aplicación de técnicas de Toma de Decisiones con Múltiples Atributos
(MADM). Finalmente, se propone una estrategia de optimización para la búsqueda de grupos,
basada en la implementación de un Algoritmo Genético.
4.4. Resumen
En este capítulo se presenta el método propuesto para la selección de grupos de expertos
mediante redes sociales. El capítulo inicia con una visión general del método, junto con una
breve descripción de cada una de sus partes.
El descripción del método propuesto inicia con una alternativa para la identificación de can-
didatos expertos, a partir del análisis de los criterios de selección utilizados en la evaluación de
éstos. Para ello se propone un método para determinar la similitud entre criterios de selección
a partir de sus propiedades semánticas. La descripción del método propuesto continúa con una
alternativa para representar información relacional de los grupos de expertos, junto con la defi-
nición de un algoritmo genético, como estrategias para la selección óptima de conformaciones
posibles de grupos de expertos.
En los capítulos siguientes se presentan en detalle las dos partes del método propuesto.
Capıtulo 5
Elegibilidad de candidatos mediante
criterios de selección
El conjunto de candidatos disponibles es determinante para la selección de grupos de exper-
tos. Sin embargo, la elegibilidad de un candidato para conformar un grupo de expertos no se
restringe a la condición de experto de los candidatos. Adicionalmente, la elegibilidad del can-
didato se encuentra determinada por los criterios de selección por los que los candidatos son
evaluados para conformar grupos de expertos. En este capítulo se describe un método para de-
terminar la elegibilidad de un candidato, a partir de la similitud semántica entre los criterios de
selección aplicados en la evaluación de los candidatos y los criterios del proceso de selección
de expertos. La condición de elegibilidad es posteriormente utilizada en la segunda parte de la
propuesta, con objeto de conformar grupos de expertos a partir de candidatos que cumplan con
la condición de elegibilidad.
La sección 5.1 presenta el método propuesto para determinar la similitud semántica entre
dos conjuntos de criterios de selección. Este método contempla la extracción de criterios de
selección a partir de las evaluaciones de candidatos a conformar grupos de expertos. Asimismo,
se describe la estrategia propuesta para extraer las propiedades semánticas de un conjunto de
criterios de selección, determinar su relevancia y la correspondencia entre conjuntos de criterios
de selección. La sección 5.2 presenta la evaluación empírica del método propuesto. Finalmente,
en la sección 5.3 se presenta un resumen del capítulo.
5.1. Similitud semántica entre criterios de selección
En esta sección se describe el proceso propuesto para determinar la similitud entre conjuntos
de criterios de selección mediante un análisis de las propiedades semánticas de éstos.
Con este objetivo se plantean tres etapas. La primera etapa, describe el proceso para la iden-
34 Elegibilidad de candidatos mediante criterios de selección
Figura 5.1: Ejemplo de SRL sobre un criterio de selección.
tificación de las propiedades semánticas de los criterios de selección. En esta etapa se describe
también un proceso para la extracción de descripciones de candidatos, como contenedores de
criterios de selección implícitos. La segunda etapa, describe una estrategia para evaluar la rele-
vancia de las propiedades semánticas de los criterios de selección a partir de su frecuencia de
ocurrencia. Finalmente, la tercera etapa, describe el proceso para evaluar la similitud entre cri-
terios mediante la correspondencia de la relevancia de las propiedades semánticas asociadas a
cada conjunto de criterios de selección.
5.1.1. Propiedades semánticas de criterios de selección
Un criterio de selección suele estar representado como una expresión en lenguaje natural.
Esto es válido para los criterios de selección tanto explícitos como implícitos. Por lo tanto, la
similitud entre criterios de selección es posible sólo si éstos pueden compararse entre sí. Con
este objetivo, es necesario un proceso de análisis que permita extraer propiedades comunes de
ambos tipos de criterios. Asimismo, estas propiedades deben ser representativas del contenido
semántico de dichos criterios.
Considerando que los criterios de selección, tanto explícitos como implícitos, son expresiones
en lenguaje natural, se propone extraer el contenido semántico de éstos mediante la utilización
de técnicas de Procesamiento de Lenguaje Natural (NLP). En particular, se propone la utiliza-
ción de la técnica de Etiquetado de Roles Semánticos (SRL) para la extracción de propiedades
semánticas de los criterios de selección. El SRL tiene por objetivo la identificación de relaciones
entre elementos de una oración, para su posterior clasificación en los denominados roles semán-
ticos (por ejemplo, los Marcos Semánticos (Semantic Frames) (Fillmore, 2006)). El SRL se puede
realizar de modo automático mediante la aplicación de alguna herramienta para tal fin.
La aplicación de SRL sobre criterios de selección explícitos es directa, ya que los datos de
entrada de la herramienta de SRL son las sentencias que corresponden a dichos criterios. La
figura 5.1 presenta un ejemplo de SRL para una sentencia correspondiente a un criterio de se-
lección explícito. En ésta, se observa que la frase “Teaching experience with the development,
implementation and evaluation of curricula” tiene asociados los roles semánticos Expertise, Per-
ception_Experience, Cause_To_Make_Progress, Execute_Plan, y Assessing. Cada una de estas
etiquetas tiene su definición1. Sin embargo, el objetivo en este trabajo es identificar los roles
asociados a este criterio de selección, no así el significado de estos roles en la oración.
A diferencia de los criterios explícitos, en este trabajo se sostiene que los criterios implícitos
se encuentran contenidos implícitamente en las descripciones los candidatos. Sin embargo, una
1https://framenet.icsi.berkeley.edu/fndrupal/index.php?q=frameIndex
5.1 Similitud semántica entre criterios de selección 35
evaluación típica de un candidato presenta distintos contenidos además de las descripciones, por
lo que resulta necesario un proceso de extracción de las mismas.
Extracción de descripciones contenedoras de criterios implícitos
Una descripción es una sentencia expresada en lenguaje natural que refiere a las habilidades
o características de un candidato. En contextos de evaluación de candidatos para la selección de
expertos, una descripción es especialmente importante ya que se espera que esté relacionada con
la posición para la cual el candidato es evaluado. En otras palabras, una descripción debe estar
basada en los criterios de selección definidos para la posición a la que aspira el candidato. Por
ejemplo, la sentencia
“El candidato ha demostrado ser un miembro calificado y enérgico de esta agencia
federal”
es una descripción, ya que expresa características relevantes del candidato desde el punto de vista
del evaluador. Es de suponer entonces, que los criterios de selección definidos para la posición
a la que aspira el candidato, incluyen las características mencionadas en la descripción. Por el
contrario, y a modo de contra ejemplo, la sentencia
“Me encuentro aquí para apoyar la nominación del candidato”
no presenta características del candidato por lo que no es considerada una descripción del mismo.
En este trabajo se considera que las descripciones de candidatos son elementos representati-
vos de los criterios de selección implícitos de un proceso de selección de expertos. Por lo tanto,
las descripciones son importantes fuentes de información para mejorar la comprensión de los
procesos de selección. Esto se debe a que las descripciones en contextos de evaluación de los
candidatos, expresan el punto de vista de los evaluadores. Sin embargo, los contextos de evalua-
ción suelen presentar otros contenidos además de las descripciones. Por ejemplo, un contexto de
evaluación podría ser la transcripción de una audiencia para la confirmación de un candidato en
una posición. En este ejemplo, la audiencia puede contener palabras introductorias, comentarios
de otros oradores, etc. Por lo que resulta necesario extraer las descripciones de los candidatos
del resto del contexto de evaluación.
En esta sección, se presenta un proceso de clasificación de descripciones, a partir de eva-
luaciones de candidatos en procesos de selección de expertos. Este proceso de clasificación de
descripciones es modelado como un problema de aprendizaje supervisado para problemas de
clasificación binaria, es decir, con dos salidas posibles: “descripciones” y “no descripciones”.
Mediante el proceso de clasificación de descripciones, se pretende disponer de un conjunto
de contenedores de criterios de selección implícitos que puedan ser utilizados para determinar
la similitud entre criterios de selección de un proceso de selección de expertos.
A continuación se presenta el proceso propuesto para la clasificación de descripciones de
candidatos en contextos de evaluación.
36 Elegibilidad de candidatos mediante criterios de selección
Clasificación de descripciones Los contextos de evaluación que mencionamos en este trabajo
son por lo general, documentos de texto que transcriben las declaraciones de los evaluadores y
otros actores, en relación a la evaluación de un candidato a ocupar una posición de experto. En
este marco, resulta necesario separar aquellas declaraciones de los evaluadores que correspon-
dan a las descripciones de los candidatos, de otros contenidos.
Con este objetivo, es necesario diseñar e implementar un proceso que permita clasificar las
descripciones de los candidatos, de otros contenidos del documento que no lo son.
El proceso propuesto para la extracción de descripciones consiste en el entrenamiento de un
modelo de aprendizaje supervisado de clasificación binaria, cuyo objetivo es etiquetar sentencias
en dos clases distintas: “descripciones” y “no descripciones”.
Formalmente, un documento de texto correspondiente a la evaluación de un candidato con-
tiene un conjunto de sentencias S. El objetivo de la tarea de clasificación es seleccionar un
subconjunto de Sdesc que contenga sentencias descripciones, tal que Sdesc ⊂ S. Para ello, entre-
namos un modelo de clasificación binaria mediante el cual sea posible determinar descripciones
si tal que s ∈ Sdesc.
El proceso de clasificación de descripciones consiste de dos etapas diferentes, una para el
entrenamiento del modelo, y otra para la clasificación de las sentencias.
La etapa de entrenamiento del modelo requiere un conjunto de datos previamente etiqueta-
dos. Si éstos datos no están disponibles, es necesario recurrir a un experto para que realice una
clasificación manual de las sentencias del conjunto de datos de entrenamiento. Las etapa del
entrenamiento incluye:
1. Preprocesamiento: Los documentos de texto con las evaluaciones de los candidatos son
procesados para extraer un conjunto de sentencias S.
2. Extracción de características (feature extraction): Un conjunto de features F es extraído a
partir del conjunto de sentencias S. Se propone un enfoque de bolsa de palabras (bag of
words) con objeto de extraer n-gramas.
3. Selección de características (feature selection): Un subconjunto Fs ⊂ F es seleccionado
por medio de un test estadístico, de acuerdo a las propiedades del conjunto de features.
4. Entrenamiento del modelo: Un algoritmo de clasificación es elegido, el cual debe ser ade-
cuado para la clasificación binaria. Además, debe ser capaz de manejar el tamaño del
conjunto de datos.
5. Optimización del modelo: Los parámetros del algoritmo de clasificación son ajustados para
mejorar el desempeño del modelo. El modelo resultante es usado para la clasificación de
las descripciones.
La etapa de clasificación incluye:
1. Preprocesamiento y Extracción de características (1 y 2 en la etapa de entrenamiento).
5.1 Similitud semántica entre criterios de selección 37
2. Clasificación: El modelo entrenado es usado para clasificar las descripciones de los candi-
datos.
El buen desempeño del clasificador es importante para determinar el nivel de similitud entre
criterios de selección. Por ello se propone la evaluación del modelo mediante la aplicación de
las métricas de recuperación de información: F1-score, precision, y recall, las cuales se definen
como:
F1 score =2 ∗ precision ∗ recall
precision+ recall(5.1.1)
precision =#de descripciones correctamente clasificadas
#de descripciones clasificadas(5.1.2)
recall =#de descripciones correctamente clasificadas
#de descripciones(5.1.3)
Adicionalmente, se propone evaluar el clasificador mediante el cálculo de la Receiver Opera-
ting Characteristic (ROC) ya que resulta adecuado para modelos de clasificación binaria.
5.1.2. Relevancia de propiedades semánticas
La segunda etapa de la propuesta para determina la similitud entre criterios de selección,
tiene por objetivo determinar la relevancia de cada una de propiedades semánticas de los crite-
rios de selección. Con este fin, se propone la utilización de la frecuencia de ocurrencia de cada
propiedad semántica en cada conjunto de criterios.
Por ejemplo, dado un conjunto de criterios de selección explícitos, se identifica el conjunto
de propiedades semánticas del cuadro 5.1a. Asimismo, dado un conjunto de criterios implícitos,
se identifican las propiedades semánticas del cuadro 5.1b. En este ejemplo hipotético, se destaca
que las propiedades del conjunto de criterios implícitos presentan mayor frecuencia de ocurren-
cia que el conjunto de criterios explícitos. Esto es esperable ya que el por lo general, el cuerpo
del texto de los criterios implícitos contenidos en la descripciones es mayor que el de los criterios
explícitos.
Formalmente, se propone extraer un conjunto de Roles Semánticos R a partir de un conjunto
de sentencias S, correspondientes a criterios de selección (explícitos o implícitos).
Las frecuencias de ocurrencias de las propiedades semánticas son necesarias para determinar
la correspondencia entre conjuntos de criterios de selección. A continuación se presenta la estra-
tegia utilizada para determinar la correspondencia entre frecuencias de propiedades semánticas
de un par de conjuntos de criterios de selección.
38
Ele
gibil
idad
de
can
did
atos
med
ian
tecr
iter
ios
de
sele
cció
n
Propiedad semántica Frecuencia de ocurrencia
Locale_by_use 5Awareness 4
Perception_experience 3Intentionally_act 2
Research 2Assessing 1Buildings 1
Cause_to_make_progress 1Cognitive_connection 1
Dimension 1Execute_plan 1
Expertise 1Law 1
Political_locales 1Rewards_and_punishments 1
(a)
Propiedad semántica Frecuencia de ocurrencia
Assessing 39Awareness 38Buildings 37
Cause_to_make_progress 36Cognitive_connection 31
Dimension 27Execute_plan 18
Expertise 18Intentionally_act 15
Law 12Locale_by_use 7
Perception_experience 4Political_locales 4
Research 3Rewards_and_punishments 2
(b)
Cuadro 5.1: SRL de un conjunto de criterios de selección explícitos(5.1a) e implícitos(5.1b).
5.2 Experimentos 39
5.1.3. Correspondencia entre conjuntos de criterios de selección
Finalmente, con objeto de completar el enfoque de similitud entre dos conjuntos de criterios
de selección, se propone evaluar la correspondencia de sus respectivas propiedades semánticas.
Para ello, la propuesta incluye la utilización de un coeficiente de correlación de rankings sobre
las frecuencias de las propiedades semánticas de los criterios de selección (como las del cuadro
5.1). Un coeficiente de correlación de rankings toma la información de una lista ordenada y
evalúa el nivel de la correspondencia con el orden de una segunda lista.
En el caso de los criterios de selección, los rankings a correlacionar se generan a partir de las
frecuencias de las propiedades semánticas de dos conjuntos de criterios de selección. Por ejemplo,
el primero de los conjuntos podrá contener los criterios explícitos, mientras que el segundo, los
criterios implícitos.
En este trabajo proponemos la utilización del coeficiente de correlación de rankings de Spear-
man rs, utilizado frecuentemente en el área de Recuperación de Información (IR). Este coeficien-
te se define como:
rs = 1−6∑
d2in(n2 − 1)
(5.1.4)
donde di es la diferencia entre dos elementos rankeados de cada observación, y n es el núme-
ro de observaciones. Este coeficiente se aplica en el caso en que todos los elementos rankeados
son enteros distintos.
Los resultados del coeficiente de Spearman se interpretan en el rango [−1, 1], en el que un
valor rs = 0 implica que no existe correlación, y rs = 1 ó rs = −1 indican una correlación
absoluta entre ambos rankings. Para la similitud de criterios de selección, interesa la correlación
positiva cuando rs tiende a 1, ya que esto implica una correlación positiva entre dos conjuntos
de criterios de selección. A modo de ejemplo, los rankings del cuadro 5.1 presentan un nivel de
correlación de Spearman de 0,253571.
5.2. Experimentos
Con objeto de evaluar el método propuesto, se diseñaron e implementaron un conjunto de
experimentos. En la sección 5.2.1 se describe el conjunto de datos utilizados en la evaluación
experimental. La sección 5.2.2 presenta los resultados del desempeño del clasificador para la
extracción de descripciones de candidatos. Finalmente, en la sección 5.2.3 se presentan la apli-
cación del método de similitud semántica sobre los conjuntos de criterios de selección, para
determinar la elegibilidad de los candidatos.
40 Elegibilidad de candidatos mediante criterios de selección
5.2.1. Datos
La propuesta demandó la definición de un conjunto de requisitos para los datos destinados a
la evaluación experimental. Estos requisitos incluyeron:
representar evaluaciones de candidatos en un proceso de selección de expertos
contener descripciones de candidatos, expresadas por los evaluadores
los candidatos no sólo debían ser evaluados para cubrir posiciones de expertos, sino tam-
bién para la conformación de grupos de expertos
los evaluadores debían representar a un mismo perfil de evaluador
el contenido debía ser de acceso público, en formato digital, y en lenguaje natural de
idioma inglés
Los requisitos para el conjunto de datos motivaron el desarrollo de un nuevo conjunto de datos,
ya que los conjuntos de datos actuales en el área de Expertise Retrieval no resultaron adecuados,
puesto que no cumplían con los requisitos mencionados.
El nuevo conjunto de datos se desarrolló a partir de 65 documentos de texto correspondien-
tes a audiencias de nominación del Committee of Commerce, Science, and Transportation del
Congreso de los Estados Unidos.
Una audiencia de nominación2 corresponde a la evaluación de un candidato propuesto para
cubrir una posición directiva, en un organismo en el que tiene participación el estado.
Los documentos correspondientes a estas nominaciones tuvieron lugar desde marzo de 2000
hasta julio de 2013. Los documentos fueron obtenidos en formato de texto plano en mayo de
2015, a través del Sistema Digital Federal3.
Cada documento registra una audiencia de nominación sobre el proceso de conformación de
uno o varios candidatos. Estos candidatos fueron nominados para cubrir posiciones ejecutivas
para diferentes dependencias del estado. Estas dependencias incluyeron la Office of Science and
Technology Policy (OSTP), Department of Commerce (DOC), Department of Transportantion
(DOT), Department of Homeland Security (DHS), National Aeronautics and Space Administra-
tion (NASA), y varias mesas directivas de empresas y comités de asesoramiento.
Los documentos suelen presentar una estructura común entre sí. Esta estructura se define
por las secciones: encabezado, índice de contenidos, declaraciones de la sesión (de senadores,
de candidatos, y de terceros), curriculum vitae (CV) de los candidatos, preguntas al candidato, y
apéndices. Adicionalmente, los documentos presentan pocos errores sintácticos o gramaticales.
2http://www.commerce.senate.gov/public/index.cfm/nominations (en línea en octubre de 2016)3http://www.gpo.gov/fdsysinfo/aboutfdsys.htm (en línea en octubre de 2016)
5.2 Experimentos 41
Figura 5.2: Distribución de clases del conjunto de datos de descripciones.
Preprocesamiento
Se filtraron las sentencias correspondientes a los senadores, ya que éstos representan el rol
de evaluadores en la audiencia de nominación. Adicionalmente, las sentencias de los senadores
contenían las descripciones de los candidatos desde el punto de vista de los evaluadores.
El filtrado de las sentencias se realizó mediante un proceso de extracción de sentencias. En es-
te proceso se utilizaron herramientas de procesamiento de texto mediante expresiones regulares.
Luego, se dividió el cuerpo de cada documento en sentencias individuales, las cuales se filtraron
de acuerdo a un umbral mínimo de longitud. Las herramientas utilizadas en el preprocesamiento,
junto con las expresiones regulares, se listan en el apéndice A.
El conjunto de datos se constituyó de 7738 sentencias extraídas de las declaraciones de los
senadores en los 65 documentos de las audiencias de nominación.
Posteriormente, cada sentencia del conjunto de datos se etiquetó en clases positivas (descrip-
ciones) y no negativas (no descripciones). El etiquetado se realizó en forma manual por un grupo
de expertos en el dominio.
Finalmente, el conjunto de datos se constituyó de 1001 (≈ 87%) sentencias de positiva, y
6737 (≈ 13%) sentencias de clase negativa, representando una distribución de clases asimétrica.
La figura 5.2 presenta la distribución de clases del conjunto de datos en la que se evidencia la
condición de distribución asimétrica.
5.2.2. Clasificación de descripciones
Inicialmente se dividió el conjunto de datos en entrenamiento (60%) y evaluación (40%). La
división se realizó en forma aleatoria con objeto de preservar las distribuciones de cada clase en
42 Elegibilidad de candidatos mediante criterios de selección
ambos subconjuntos.
Se realizó la extracción de features mediante la aplicación del enfoque bag of words al con-
junto de datos. Se extrajeron features basados en n-gramas para n={2,3,4}. Como resultado, se
obtuvieron 415176 n-gramas para el conjunto de datos.
Se realizó la selección de features mediante la aplicación de un ranking, basado en Chi cua-
drado χ2, ya que este método resultó adecuado para las frecuencias de los features extraídos.
Como estrategia de compensación entre el tiempo requerido para el entrenamiento y el desem-
peño del clasificador, de optó por limitar el ranking de features a 1000 elementos.
Se utilizó el algoritmo Support Vector Machines (SVM) junto con el kernel Radial Basis Fun-
ction (RBF), ya que en evaluaciones exploratorias se obtuvo un mejor desempeño en compara-
ción con los kernels lineal y polynomial.
El modelo de clasificación se optimizó mediante la puesta a punto de los parámetros C y
gamma del algoritmo SVM. Esta optimización se realizó mediante el método Grid Search Cross
Validation (GS-CV) en el cual se evaluaron las métricas f1_score, precision, y recall. El método
GS-CV se configuró de la siguiente manera:
C y gamma: valores en la escala 2n, para −10 ≤ n ≤ 10 y n∈ Z
Cross fold validation: 5 folds
Adicionalmente, se calculó el Área Bajo la Curva (AUC) del Receiver Operating Characteristic
(ROC). Asimismo, se utilizó la curva ROC ya que se recomienda evaluar el desempeño del modelo
de clasificación con una métrica distinta a la utilizada en la puesta a punto.
5.2.2.1. Resultados
El tiempo total requerido para el entrenamiento del modelo demandó 270 segundos (4,5
minutos) aproximadamente en una computadora de escritorio estandar, compuesta por un pro-
cesador Intel I3 530 de 2.93GHz.
El cuadro 5.2 presenta la matriz de confusión y las métricas para el total de 3096 muestras
utilizadas en el entrenamiento del modelo de clasificación. El cuadro incluye las métricas de pre-
cisión y recall, aunque no se recomienda su consideración en conjuntos de datos desbalanceados
o con distribución asimétrica, como es el caso. Asimismo, la figura 5.3 presenta la matriz de con-
fusión normalizada, y la figura 5.4 presenta una comparación gráfica de las métricas por cada
clase.
El entrenamiento del modelo de clasificación propuesto alcanzó un desempeño de f1 score =
0,92 y ROC AUC = 0,88 con los parámetros C = 2 y gamma = 2e3. La figura 5.5 presenta la
curva ROC obtenida por el modelo entrenado para la clasificación de descripciones.
5.2 Experimentos 43
Predicción0 1
Actual0 2473 2111 67 345
(a)
clase precision recall f1-score sup.
0 0.97 0.92 0.95 26841 0.62 0.84 0.71 412
avg 0.93 0.91 0.92 3096(b)
Cuadro 5.2: Matriz de confusión (5.2a) y métricas (5.2b) para el modelo de clasificación.
No Descripción DescripciónPositivos Predecidos
No Descripción
Descripción
Positiv
os Verda
deros
0.92139 0.07861
0.16262 0.83738
Matriz de confusión normalizada
250
500
750
1000
1250
1500
1750
2000
2250
Figura 5.3: Matriz de confusión normalizada.
44 Elegibilidad de candidatos mediante criterios de selección
No Descripción DescripciónClase
0.0
0.2
0.4
0.6
0.8
1.0
Score
Métricaprecisionrecallf1-score
Figura 5.4: Métricas de evaluación del clasificador
0.0 0.2 0.4 0.6 0.8 1.0Positivos Falsos
0.0
0.2
0.4
0.6
0.8
1.0
Positivos Verda
deros
Receiver Operating Characteristic (ROC)
Curva ROC (area = 0.89)
Figura 5.5: Curva ROC del modelo de clasificación de descripciones basado en SVM.
5.2 Experimentos 45
5.2.2.2. Discusión
Un análisis del modelo permitió observar que algunos features pueden sobreajustar (overfit)
el modelo de clasificación de descripciones. Esta condición se asocia con features correspondien-
tes a fechas, nombres de personas, o de lugares. Sin embargo, estos features presentaron un bajo
índice de relevancia en el modelo. Por ejemplo, los valores de χ2 para algunos de los features
más representativos fueron “1971 he” χ2 = 1,796386, “admiral barrett” χ2 = 2,723211, “dr jane
lubchenco” χ2 = 2,087884, and “george washington university” χ2 = 2,643248, donde los valores
estadísticos de χ2 para el modelo fueron min = 1,694171, max = 26,651837, media = 2,516049,
y variancia = 2,431031.
La figura 5.6 presenta una distribución de χ2 para las features del clasificador. A partir de
esta figura se observa que los features mencionados se encuentran debajo del tercer cuartil de la
distribución de valores de χ2.
Finalmente, la figura 5.7 presenta un análisis del desempeño del modelo a partir de las cur-
vas de aprendizaje (learning curves). Asimismo, se observa que el incremento en el tamaño del
conjunto de entrenamiento produjo una tendencia a reducir la brecha entre el score del entrena-
miento y el score del cross-validation. Esto sugiere que el modelo puede mejorar su desempeño
con mayor cantidad de datos para el entrenamiento.
A partir del análisis de desempeño del clasificador de descripciones, se concluye que los
features que pueden sobreajustar (overfit) no son representativos de la variabilidad en el modelo.
Sin embargo, el modelo puede mejorar su desempeño mediante el incremento del conjunto de
datos utilizado en su entrenamiento.
5.2.3. Conformidad de evaluaciones a los criterios de selección
Al inicio de este capítulo se planteó el objetivo de determinar la elegibilidad de candidatos, el
cual establece la necesidad de determinar en qué medida las evaluaciones de candidatos aplican
los criterios de selección para cubrir una posición de experto.
Con este objetivo, se dispuso aplicar la propuesta de similitud de criterios de selección entre
los criterios explícitos de las dependencias para las cuales dichos candidatos fueron evaluados
en las audiencias de nominación, y los criterios implícitos en las descripciones de los candidatos.
En este sentido se utilizaron dos conjuntos de datos, el de referencia asociado a los criterios
explícitos, y el de correspondencia asociado a los criterios implícitos. El conjunto de datos de
criterios explícitos, se generó a partir de la información relacionada con las posiciones a cubrir
por los candidatos. Mientras que el conjunto de datos de criterios implícitos, se generó a partir
de las descripciones extraídas de las audiencias de nominación.
El conjunto de criterios implícitos se agrupó en los siguientes segmentos: Comités, con nomi-
naciones a mesas directivas o grupos consultivos, en la que todas las posiciones tienen iguales
responsabilidades; Departamentos, con nominaciones correspondientes a la dirección de sectores
dentro de la misma dependencia; y Directivo, con nominaciones correspondientes a posiciones
46 Elegibilidad de candidatos mediante criterios de selección
(a)
(b)
Figura 5.6: Distribución (5.6a) y Caja (5.6b) de χ2 para features del clasificador.
5.2 Experimentos 47
Figura 5.7: Curvas de aprendizaje del modelo entrenado para la clasificación de descripciones.
dentro de una junta directiva, cuyos miembros son responsables de varias subdependencias.
El conjunto de criterios explícitos se segmentó al igual que los criterios implícitos. Para el
segmento Comités, se utilizó el Federal Advisory Committee Act (FACA)4, el cual incluye entre
otros, la formalización del proceso para establecer cuerpos consultivos, generalmente represen-
tados a partir de comités. Este proceso define un conjunto de criterios de selección que deben
cumplir los miembros de dichos comités. El segmento Departamentos, se conformó a partir de
las definiciones de visión y misión de las dependencias correspondientes a las posiciones de las
audiencias de nominación. Finalmente, el segmento Directivo utilizó información del estatuto de
la OSTP, correspondiente a responsabilidades de las posiciones de las audiencias de nominación.
A continuación se presentan los resultados de la aplicación de la propuesta de similitud para
los criterios explícitos e implícitos de los segmentos Comité, Departamentos y Directivo.
5.2.3.1. Resultados
Se evaluó la similitud entre los criterios implícitos en referencia a los criterios explícitos de
cada segmento definido (Comité, Departamento, y Directivo). La evaluación del coeficiente de
similitud sobre los segmentos de los criterios de selección produjo los siguientes resultados.
En el segmento Comité, representado en la figura 5.8, se observa que de las descripciones
contenidas en las 27 audiencias de nominación, 22 (≈ 85%) de ellas presentaron una corre-
lación positiva con los criterios explícitos definidos en la FACA. Mientras que las restantes 4
(≈ 15%) presentaron una correlación negativa, y en ningún caso se presentó una correlación
nula. Las variables estadísticas de los niveles de similitud obtenidos se calcularon en media≈ 0,2,
mediana≈ 0,15 y desviación estandar≈ 0,35.
4www.gsa.gov/faca
48 Elegibilidad de candidatos mediante criterios de selección
(a)
(b)
Figura 5.8: Similitud entre criterios implícitos y criterios explícitos para el segmento Comité.
5.2 Experimentos 49
Figura 5.9: Similitud entre criterios para la dependencia DHS del segmento Departamento.
En el segmento Departamento, se mantuvo la separación de las dependencias, ya que el
conjunto de criterios explícitos se generó en base a las declaraciones de visión y misión de cada
dependencia.
En la figura 5.9, correspondiente a la dependencia DHS, se observa que de las descripciones
contenidas en las 5 audiencias de nominación, el total de ellas presentaron una correlación
positiva con los criterios explícitos. Las variables estadísticas de los niveles de similitud obtenidos
se estimaron en media≈ 0,2, mediana≈ 0,25 y desviación estandar≈ 0,1.
En la figura 5.10, correspondiente a la dependencia DOC, se observa que de las descripciones
contenidas en las 25 audiencias de nominación, 20 (≈ 80%) de ellas presentaron una correlación
positiva con los criterios explícitos. Mientras que de las restantes, 3 (≈ 12%) presentaron una
correlación negativa, y 2 (8 %) presentaron una correlación nula. Las variables estadísticas de
los niveles de similitud obtenidos se estimaron en media≈ 0,15, mediana≈ 0,13 y desviación
estandar≈ 0,18.
En la figura 5.11, correspondiente a la dependencia DOT, se observa que de las descripciones
contenidas en las 22 audiencias de nominación, 19 (≈ 86%) de ellas presentaron una correlación
positiva con los criterios explícitos. Mientras que las restantes 3 (≈ 14%) presentaron una co-
rrelación negativa, y en ningún caso se presentó una correlación nula. Las variables estadísticas
de los niveles de similitud obtenidos se estimaron en media≈ 0,22, mediana≈ 0,21 y desviación
estandar≈ 0,20 .
En la figura 5.12, correspondiente a la dependencia NASA, se observa que de las descripciones
contenidas en las 7 audiencias de nominación, 6 (≈ 86%) de ellas presentaron una correlación
positiva con los criterios explícitos. Mientras que la restante (≈ 14%) presentó una correla-
ción negativa, y en ningún caso se presentó una correlación nula. Las variables estadísticas de
50 Elegibilidad de candidatos mediante criterios de selección
Figura 5.10: Similitud entre criterios implícitos y criterios explícitos para la dependencia DOC.
Figura 5.11: Similitud entre criterios implícitos y criterios explícitos para la dependencia DOT.
5.2 Experimentos 51
Figura 5.12: Similitud entre criterios implícitos y criterios explícitos para la dependencia NASA.
los niveles de similitud obtenidos se estimaron en media≈ 0,20, mediana≈ 0,29 y desviación
estandar≈ 0,19.
En el caso de la OSTP, se optó por incluir el mismo dentro del segmento Departamento, ya
que el mismo presenta una definición de misión y visión. En la figura 5.13, se observa que de
las descripciones contenidas en las 5 audiencias de nominación, el total de ellas presentaron
una correlación positiva con los criterios explícitos. En ningún caso se presentó una correlación
negativa o nula. Las variables estadísticas de los niveles de similitud obtenidos se estimaron en
media≈ 0,34, mediana≈ 0,34 y desviación estandar≈ 0,20.
La figura 5.14 presenta las variables estadísticas media, mediana, y desviación estándar para
el segmento Departamento. En la figura se observa que el mejor desempeño de similitud entre
criterios de selección se obtuvo el caso de la OSTP, en la que la media≈ 0,35, y donde no se obtu-
vieron correlaciones negativas. Asimismo, en el caso de las DHS, se obtuvo la menor desviación
estandar≈ 0,1. En promedio, el segmento Departamento obtuvo una correlación entre criterios
de selección con media≈ 0,22, mediana= 0,24, y desviación estandar= 0,18.
La figura 5.15 presenta una comparativa de los Diagramas de Caja (Boxplot) para las de-
pendencias del segmento Departamento. A partir de esta figura se observa que en todas las
dependencias, los cuartiles se encuentran en el intervalo de scores de similitud [0, 0,5]
El segmento Directivo representado en la figura 5.16, al igual que en la evaluación de simi-
litud de OSTP en el segmento Departamento, se observa que de las descripciones contenidas en
las 5 audiencias de nominación, el total de ellas presentaron una correlación positiva con los
criterios explícitos. En ningún caso se presentó una correlación negativa o nula. Las variables
estadísticas de los niveles de similitud obtenidos se estimaron en media≈ 0,15, mediana≈ 0,16 y
desviación estandar≈ 0,05.
52 Elegibilidad de candidatos mediante criterios de selección
Figura 5.13: Similitud entre criterios implícitos y criterios explícitos para la dependencia OSTP.
La figura 5.17 presenta una comparativa de la similitud obtenida en el caso de la OSTP cuan-
do es comparada respecto de los criterios explícitos definidos en el segmento Departamento y en
el segmento Directivo. En la figura se observa que el desempeño en el caso del segmento Depar-
tamento, prácticamente duplica el desempeño obtenido en el segmento Directivo, sin embargo,
la desviación estándar también aumenta.
La figura 5.19 presenta los diagramas de caja para los segmentos Comité, Departamento, y
Directivo. En la figura se observa un mejor desempeño en la similitud de los criterios de selección
del segmento Departamento. La desviación estándar de los segmentos Comité (≈ 0,35) y Directi-
vo (≈ 0,05) presentan una amplia diferencia. Sin embargo, debe considerarse la diferencia en la
cantidad de nominaciones correspondientes a cada segmento (27 en Comité y 5 en Directivo).
Finalmente, se evaluó la similitud entre los criterios implícitos de un conjunto de evaluaciones
de candidatos, y los conjuntos de criterios implícitos y explícitos de su segmento correspondiente.
La figura 5.20 presenta la similitud entre criterios de selección aplicados en las evaluaciones de
1 candidato en el segmento Comité, y 3 candidatos en el segmento Departamento. En el caso del
segmento Comité, la similitud fue positiva al compararla con los criterios implícitos, y negativa
al compararla con los criterios explícitos. En el caso del segmento Departamento, la similitud de
los criterios implícitos en las evaluaciones resultó ser superior (al menos el doble) al compararlos
con los criterios explícitos del segmento, que al compararlo con el conjunto de criterios implícitos
de su segmento.
5.2.3.2. Discusión
Mediante la evaluación experimental, se pretendió demostrar la aplicación del método pro-
puesto de similitud de contenido semántico entre las evaluaciones de candidatos y los criterios
5.2 Experimentos 53
(a)
(b)
Figura 5.14: Estadísticas de similitud de criterios para el segmento Departamento.
54 Elegibilidad de candidatos mediante criterios de selección
Figura 5.15: Boxplot por departamento
de selección de expertos. El objetivo de los experimentos consistió en determinar la condición
de elegible de un candidato para conformar un grupo de expertos. Con este objetivo se analizó el
nivel de correspondencia en términos de la relevancia del contenido semántico, entre conjuntos
de criterios de selección.
Inicialmente se evaluó la correspondencia entre criterios de selección explícitos y criterios
implícitos de las evaluaciones individuales de los candidatos. Se observó que en el segmento
Comité que compara los criterios de selección del FACA y las descripciones de los candidatos en
sus evaluaciones, presentaron una similitud promedio de rho ≈ 0,2 de acuerdo al coeficiente de
correlación de Spearman. Éste índice se mantuvo en el segmento Departamento que compara
las definiciones de misión y visíón de los departamentos y las descripciones de los candidatos.
Finalmente, en el caso del segmento Directivo que compara criterios definidos en las funciones
de los directivos y las descripciones de los candidatos, la similitud promedio fue de rho ≈ 1,5,
aunque debe considerarse que en este último segmento sólo se evaluaron 5 casos, lo que repre-
senta un 18% del número de casos del segmento Comité, y un 6% de los casos del segmento
Departamento.
Posteriormente, se evaluó la correspondencia entre criterios de selección implícitos de eva-
luaciones previas de candidatos en forma conjunta, y los criterios implícitos de candidatos de
nuevas instancias de evaluación en forma individual. En el segmento Departamento, las similitu-
des fueron considerablemente inferiores al compararlas con criterios implícitos de evaluaciones
previas, que al compararlas con criterios explícitos del segmento. Sin embargo, en todos los ca-
sos, la similitud fue positiva. No siendo así en el caso del segmento Comité, en el que se obtuvo
una similitud negativa al compararlo con los criterios explícitos.
La evaluación experimental del método propuesto, permitió analizar los niveles de similitud
5.2 Experimentos 55
(a)
(b)
Figura 5.16: Similitud entre criterios implícitos y criterios explícitos para el segmento Directivo.
56 Elegibilidad de candidatos mediante criterios de selección
(a)
(b)
Figura 5.17: Similitud entre criterios implícitos y explícitos para la OSTP por segmento.
5.2 Experimentos 57
Figura 5.18: Boxplot para OSTP en los segmentos Departamento y Directivo
Figura 5.19: Diagramas de caja para los segmentos Comité, Departamento, y Directivo.
58 Elegibilidad de candidatos mediante criterios de selección
Figura 5.20: Similitud entre criterios implícitos, evaluaciones previas, y criterios explícitos.
alcanzados en las evaluaciones de los candidatos al compararlo con criterios de selección. Sin
embargo, la condición de elegibilidad de un candidato queda determinada por el alcance de un
umbral, en el nivel de similitud de la evaluación de dicho candidato, establecido por el respon-
sable del proceso de selección. Asimismo, la condición de elegibilidad de un candidato indica
el nivel en que los criterios de selección de la evaluación del candidato se corresponden con los
criterios de referencia. Sin embargo, el hecho de no alcanzar el umbral de similitud no necesaria-
mente implicaría descartar el candidato, sino que podría conducir a la reevaluación del mismo
con objeto de dar conformidad a los criterios de selección referencia.
Por otra parte, pese a que el proceso propuesto para la clasificación de descripciones utilizó
técnicas del área de Resumen Automático de Textos (ATS), los conjuntos utilizados frecuente-
mente en esta área no resultaron adecuados para evaluar este trabajo. Esto se debió a que las
descripciones presentan un contenido específico relacionado con los candidatos y los evaluadores
de los procesos de selección de expertos.
En este sentido, el área de ATS utiliza los conceptos de métricas de desempeño y significancia
de sentencias. Las métricas de desempeño evalúan el desempeño del generador de resúmenes.
Una familia de estas métricas son las denominadas ROUGE (Lin, 2004). Sin embargo, estas mé-
tricas no resultaron adecuadas para la evaluación del proceso propuesto ya que éstas comparan
resúmenes generados automáticamente contra resúmenes generados por humanos, mientras que
el proceso propuesto no lo requiere. Por este motivo, se utilizaron métricas de desempeño de cla-
sificación binaria para evaluar el clasificador de descripciones. Por su parte, la significancia de
sentencias en la generación de resúmenes de texto utiliza diferentes enfoques para seleccionar
sentencias. Estos enfoques incluyen métricas tales como pistas, frecuencia de palabras clave,
coincidencia con palabras en el título, y ubicación de sentencias, entre otros. En este trabajo se
5.3 Resumen 59
aplicó la estrategia de longitud de sentencias en el filtrado de las sentencias extraídas, por lo que
no se requirieron heurísticas.
En relación a la clasificación de descripciones, ésta se realizó mediante la implementación del
algoritmo SVM, a pesar de que el mismo puede no escalar adecuadamente en grandes conjuntos
de datos. Sin embargo, el tamaño del conjunto de datos utilizados en la experimentación no
se consideró una limitación, ya que el mismo se encontró por debajo de las 10000 muestras.
Adicionalmente, luego de un análisis del desempeño del clasificador, se observó que el mismo
presentó un alto nivel de varianza. Una estrategia para evitar esta condición pudiera haber sido
incorporar documentos de otros comités, además del CCST. Sin embargo, se optó por utilizar
audiencias correspondientes a un único comité, ante la suposición de que los criterios utilizados
en la selección de los expertos podrían ser más homogéneos cuando se analizaran sobre un único
comité.
5.3. Resumen
En este capítulo se presenta el método propuesto para determinar la elegibilidad de candi-
datos para la conformación de grupos de expertos. El método descripto propone determinar la
elegibilidad de un candidato a partir de la correspondencia entre los criterios del proceso de se-
lección de expertos y los criterios aplicados en la evaluación del candidato. Esta correspondencia
entre criterios es evaluada mediante un análisis de similitud semántica, en base a la aplicación
de un algoritmo de rankings sobre las propiedades semánticas de cada conjunto de criterios de
selección. Adicionalmente, se presenta la implementación de un clasificador para la extracción
de criterios implícitos en descripciones de los candidatos, presentes en sus evaluaciones.
La evaluación del método demandó la generación de un nuevo conjunto de datos, el cual
permitió evaluar la propuesta respecto de 3 tipos de criterios de selección, generados a partir
de un documento de referencia para la selección de comisiones asesoras, de las definiciones de
misión y visión de un conjunto de dependencias, y de las funciones de cargos directivos de una
oficina estatal.
Los resultados obtenidos indican que la conformidad de las evaluaciones, respecto de los
criterios de los procesos de selección de expertos, generan la información necesaria para deter-
minar un umbral de aceptación para determinar la elegibilidad de un conjunto de candidatos.
De esta manera, es posible determinar la elegibilidad de los candidatos para cubrir posiciones de
expertos, y en consecuencia, la conformación de grupos de expertos.
Capıtulo 6
Selección de grupos de expertos
mediante redes sociales
La selección de grupos de expertos requiere evaluar un conjunto de criterios de selección de
grupos, a partir de las relaciones de un conjunto de candidatos elegibles. Es importante definir
procesos objetivos y eficientes de estas evaluaciones, con objeto de dar claridad a los procesos
de selección. En este capítulo se describe la segunda parte del enfoque propuesto, en el que
se describe un método para la selección eficiente de grupos de expertos, a partir de las redes
sociales de los candidatos elegibles.
En la sección 6.1 se presenta una estrategia para el análisis de los criterios de selección de
grupos, a partir de métricas de Análisis de Redes Sociales (SNA). Esta estrategia incluye una al-
ternativa de representación de la información relacional de los candidatos, la propuesta de una
métrica para evaluar la independencia entre los miembros de grupos, y una estrategia de inte-
gración de criterios de selección basada en información de conformaciones previas. La sección
6.2 presenta una estrategia de optimización en la selección de grupos de expertos mediante la
definición de un Algoritmo Genético (GA). La sección 6.3 presenta la evaluación experimental
del método propuesto. Finalmente, en la sección 6.4 se presenta un resumen del capítulo.
6.1. Criterios de selección de grupos
Los criterios de selección de grupos de expertos suelen ser más generales y abstractos que los
criterios de selección de expertos en forma individual. Por ejemplo, es frecuente encontrar crite-
rios de selección indicando que los miembros del grupo deben ser “representativos”, “indepen-
dientes”, o “balanceados”. Este tipo de criterios de selección representa un desafío relacionado
con su instrumentación, ya que para diseñar procesos de selección objetivos, se requieren definir
los instrumentos que permitan evaluar el nivel de conformidad de un grupo a dichos criterios.
62 Selección de grupos de expertos mediante redes sociales
En este sentido, los criterios de selección de grupos de expertos presentan la particularidad
de considerar las relaciones entre los miembros del grupo. Por este motivo, el análisis de las
relaciones entre los miembros de un grupo, resulta adecuado para representar y evaluar algu-
nos criterios de selección de grupos. Por ejemplo, un criterio de selección de grupos de expertos
podría requerir que sus miembros optimicen la proximidad al resto de las personas de una comu-
nidad. En este ejemplo, se podría aplicar el Key Player Problem (KPP) el cual define como uno
de sus objetivos, encontrar el grupo de nodos que maximicen la difusión de un elemento en una
red social.
En esta sección se presenta una estrategia para evaluar criterios de selección de grupos en
base a las relaciones sociales de sus miembros. Esta estrategia implica la representación de infor-
mación relacional de los candidatos a conformar grupos de expertos. Asimismo, esta represen-
tación es utilizada para la evaluación una métrica propuesta para determinar la independencia
entre los miembros de un grupo, como uno de los criterios más importantes para la selección de
grupos de expertos. Finalmente, se presenta una estrategia para la integración de varios tipos
de criterios de selección de grupos basados en redes sociales, mediante un enfoque de Toma de
Decisiones con Múltiples Atributos (MADM).
6.1.1. Representación mediante redes sociales
Un criterio de selección de grupos basado en redes sociales requiere disponer de una red
social de los candidatos a conformar dichos grupos. Esta red social es una representación gráfica
(un grafo) de las relaciones sociales de los candidatos, constituida por un conjunto de indivi-
duos (nodos) y relaciones entre ellos (enlaces). Sin embargo, ciertas métricas del Análisis de
Redes Sociales (SNA) requieren que la red social presente ciertas características respecto de su
estructura. Estas características pueden considerar: la cantidad del tipo de relaciones; el tipo de
relaciones en términos de su peso o su dirección; los tipos de nodos; entre otros.
Una representación simple de la red social en términos de las características mencionadas,
presenta mejores oportunidades para la implementación de las métricas actuales del SNA. Por
ejemplo, la figura 6.1 presenta un grafo de ejemplo en el que se presenta una estrategia de sim-
plificación de una red social, mediante la unificación de sus relaciones. En el ejemplo, se presenta
un grafo con dos tipos de relaciones (tipo 1 y tipo 2) para 5 nodos (A, B, C, D, y E) donde las
relaciones son binarias (la relación está presente o no), no dirigidas (no se considera la dirección
del enlace), e irreflexiva (un nodo no se relaciona consigo mismo). Adicionalmente, la figura pre-
senta una estrategia de unificación de los dos tipos de relaciones mediante la aplicación de una
operación análoga a la operación lógica OR. Esto implica que el grafo unificado contendrá todas
las relaciones entre los nodos de dos grafos distintos, pero sin nodos duplicados, ni relaciones
duplicadas.
En la selección de grupos de expertos, la unificación de tipos de relaciones (ver figura 6.1), es
importante para la aplicación de varias de las métricas actuales de SNA, las cuales que pueden
evaluar un único tipo de relación a la vez. Este es el caso de la métrica para determinar caminos
6.1 Criterios de selección de grupos 63
A
B C
D E
A
B C
D E
A
B C
D E
Tipo 1 Tipo 2 Unificada
Figure 6.1: Ejemplo de simplificación de dos tipos de relaciones en un grafo unificado.
más cortos o shortest path, o algunas de las métricas de centralidad como degree, closeness, y
betweenness.
6.1.2. Grupos con miembros independientes
Uno de los desafíos más importantes en la selección de grupos de expertos consiste en esta-
blecer instrumentos objetivos para la evaluación de criterios subjetivos. Uno de estos criterios,
presente en varios procesos de selección, es el del conflicto de intereses entre los miembros de
un grupo.
Reducir el riesgo de conflicto de intereses entre los miembros del grupo es quizás uno de los
criterios de selección más importantes al momento de elegir grupos. Por este motivo, la selección
de grupos debe considerar como criterio de selección fundamental, la selección de grupos con
miembros independientes entre sí. Asimismo, uno de los requisitos de la independencia entre
miembros de un grupo, es que ésta se encuentre balanceada respecto de todos los miembros del
grupo.
Por ejemplo, la figura 6.2 presenta una red social en la que se presenta la diferencia entre un
grupo balanceado y uno no balanceado, de acuerdo a la independencia entre sus miembros. En
el ejemplo, resulta sencillo distinguir entre un grupo con distribución balanceada, de un grupo
con distribución no balanceada. Sin embargo, en situaciones en las que la cantidad de candidatos
supera cierto número (ver figura 6.3), resulta dificultoso determinar de forma precisa, en qué
medida un grupo se encuentra balanceado o no.
Pese a la importancia del problema, las técnicas actuales de selección de grupos mediante
redes sociales, no consideran la independencia entre los miembros de un grupo.
En este contexto es que se propone una métrica de independencia para grupos, basada en la
optimización de la distancia social de los miembros del grupo. Esta métrica utiliza técnicas del
Análisis de Redes Sociales (SNA) sobre la red social de los candidatos. Asimismo, el objetivo de
esta métrica está dirigido a la selección de grupos balanceados en términos de la independencia
de sus miembros.
La métrica propuesta de independencia para grupos define una función, cuyo objetivo es
64 Selección de grupos de expertos mediante redes sociales
(a) (b)
Figure 6.2: Diferencia entre un grupo balanceado (6.2a) y no balanceado (6.2b).
Figure 6.3: Conjunto de candidatos de ejemplo para la conformación de un grupo.
6.1 Criterios de selección de grupos 65
determinar las distancias sociales acumuladas entre cada par de miembros del grupo.
El componente principal de esta métrica está dado por la distancia social promedio de las
distancias geodésicas, la cual representa la distancia social del camino más corto entre dos nodos
de un grafo.
Así, la distancia geodésica promedio d entre miembros de un grupo, se define por
(
k∑
i,j=0
dij
)
/k,
donde i y j son miembros del grupo, y k es la cantidad de distancias entre miembros de grupo.
El número de distancias se determina mediante el coeficiente binomial k =(
nr
)
para grupos de n
miembros, sobre el que se calculan distancias entre pares r = 2.
Con objeto de mantener el grupo balanceado, esta función agrega una variable de regu-
larización m, definida por la distancia mínima para cualquier par nodos del grupo, dada por
m = min(dij). Finalmente, las distancias sociales acumuladas, junto con la variable de regulari-
zación, son normalizadas por el diámetro de la red. Así, la función para la métrica de grupos con
miembros independientes queda definida como:
f =
[(
k∑
i,j=0
dij
)
/k
]
+m
2 ∗D(6.1.1)
donde d es la distancia geodésica entre dos miembros i y j del grupo, para ∀i, j / i 6= j y
i, j ∈ N , dado un conjunto de nodos N , donde k es el número de distancias entre miembros
del grupo, D es el diámetro de la red, y m es la mínima distancia geodésica entre cada par de
miembros del grupo.
La métrica propuesta optimiza la independencia entre los miembros del grupo, mediante la
maximización de su distancia social. Para calcular la distancia social entre los miembros del grupo
se utilizan las propiedades de las redes sociales: camino más corto (shortest path) y distancia
geodésica (longitud del camino más corto) (Freeman, 1977). La métrica propuesta tiene como
datos de entrada a la matriz de proximidad de un grafo, la cual contiene las distancias entre cada
par de nodos de la red social, y cuyas relaciones son no valuadas y no dirigidas. Esta matriz se
obtiene aplicando la operación de potencia a la matriz de adyacencia de la red.
Finalmente, la métrica propuesta se encuentra sujeta a ciertas consideraciones. Entre ellas, se
identifica que la utilización del camino más corto requiere una representación gráfica simplifica-
da de la red social (ver figura 6.1). Asimismo, la métrica propuesta requiere que todos los nodos
sean alcanzables desde cualquier otro nodo de la red, es decir, que la red presente un único
componente. Esta última condición puede determinarse a partir de una matriz de alcanzabilidad
(Wasserman & Faust, 1994), obtenida mediante multiplicación de matrices.
6.1.3. Integración de criterios para la selección de grupos
La selección de grupos de expertos requiere la integración de varios criterios de selección que
permitan evaluar dichos grupos en forma conjunta. Con este objetivo, se propone la aplicación
66 Selección de grupos de expertos mediante redes sociales
AlternativasCriterios
c1 c2 ... cma1 p11 p12 p1ma2 p21 p22 p2m...an pn1 pn2 pnm
Cuadro 6.1: Matriz de decisión para la evaluación de alternativas a partir de múltiples criterios.
de una estrategia de Toma de Decisiones con Múltiples Atributos (MADM) sobre un conjunto de
métricas de SNA, para la evaluación de grupos.
La estrategia de MADM elegida se basa en una suma ponderada. Esta estrategia requiere
definir un conjunto de m criterios de selección, conformado por métricas de SNA, seleccionadas
para la evaluación de alternativas (representadas por grupos en este caso). La ecuación de la
suma ponderada se define como:
w1c1 + w2c2 + ...+ wmcm (6.1.2)
donde cj corresponde a la evaluación del criterio j, y wj el peso asociado a dicho criterio,
teniendo en cuenta que la suma de los pesos debe estar normalizada, es decir∑m
j=1wj = 1.
Adicionalmente, se deben determinar los pesos de cada criterio de selección, para lo cual
se pueden aplicar una variedad de estrategias. En este sentido, y para mantener la objetividad
del proceso de evaluación, se propone determinar los pesos de la suma ponderada mediante el
método de Entropía (Xu, 2004). Este método utiliza una matriz de decisión P , como la presente
en el cuadro 6.1. Esta matriz contiene los resultados de evaluación pij de la alternativa i para
el criterio j, para un conjunto de n alternativas y m criterios. Adicionalmente, la matriz P es
normalizada por columnas, por lo que∑n
i=1pij = 1. De acuerdo a este método, los pesos de
cada criterio pueden obtenerse mediante
wj = dj/
m∑
j=1
dj (6.1.3)
tal que dij = 1− Ej (1 ≤ j ≤ m),
y
Ej = −
(
n∑
i=1
pij ln pij
)
/ lnn (6.1.4)
El método propuesto utiliza la información de grupos de expertos ya establecidos como alter-
nativas de decisión. La utilización de grupos de expertos ya establecidos, es una estrategia para
identificar la relevancia que los responsables de los procesos de selección asignan a cada criterio.
La figura 6.4 presenta un esquema general de la propuesta de integración de criterios de
selección de grupos. El enfoque presenta la aplicación de una suma ponderada, junto con la
6.2 Optimización en la selección de grupos mediante redes sociales 67
Figura 6.4: Esquema general de integración de criterios de selección con suma ponderada.
identificación de pesos asignados a cada criterio mediante el método de Entropía. Este método
evalúa los criterios en grupos seleccionados previamente, con el fin de determinar objetivamente
los pesos de los criterios por el que serán evaluados los nuevos grupos.
6.2. Optimización en la selección de grupos mediante redes
sociales
En esta sección se propone una alternativa al problema de selección de grupos de expertos
en redes sociales mediante la implementación de un Algoritmo Genético (GA). El GA propuesto
tiene por objetivo la búsqueda de conformaciones óptimas de grupos, mediante la evaluación de
una función basada en métricas de SNA.
A pesar de no existir un algoritmo genético definitivo, es posible adaptar uno usando repre-
sentaciones y operadores considerados adecuados para el problema a modelar. Como analogía
del modelo biológico, los cromosomas son los elementos usados por los algoritmos genéticos
para representar las configuraciones, las cuales contienen la información genética que indica la
ubicación y valor de sus genes. Estos cromosomas representan las soluciones para el problema
modelado.
68 Selección de grupos de expertos mediante redes sociales
Figura 6.5: Representación soluciones en la codificación del Algoritmo Genético.
Un GA requiere definir elementos como la representación de las soluciones, la función obje-
tivo (también llamada función de aptitud o fitness), y los mecanismos de selección de padres y
selección de sobrevivientes para el problema que se pretende resolver. A continuación se definen
estos elementos.
6.2.1. Representación
En el problema de selección de grupos de expertos, una solución se define como la conforma-
ción de un conjunto de candidatos en un grupo. Para ello se propone una solución representada
por dos vectores. El primero, ~V es un vector de enteros, el cual contiene los índices de los nodos
candidatos de la solución. El segundo,~S es un vector, de igual tamaño que ~V , que codifica en
forma binaria {1 = Sı, 0 = No}, la inclusión o no del nodo en el grupo solución.
La figura 6.5 presenta un esquema de la representación de las soluciones utilizadas para
procesar el algoritmo genético. En esta representación, un vector de enteros contiene el índice de
nodos de la red social conformada por los candidatos, y el vector binario contiene la información
de inclusión en el grupo por parte de cada candidato.
De esta manera, el objetivo del GA consiste en aplicar operadores sobre el vector ~S, de modo
tal que permita generar nuevas soluciones en la conformación de los grupos, de acuerdo la infor-
mación de inclusión de cada posición del vector ~S, respecto de las posiciones correspondientes
en el vector ~V .
6.2.2. Función objetivo
El GA evalúa una función objetivo para determinar la aptitud de una solución. El método pro-
puesto de selección de grupos de expertos, permite la integración de métricas (ver figura 6.1.3).
Esta integración permite a su vez, la aplicación de una función objetivo que evalúe posibles so-
luciones a partir de múltiples criterios de selección, como así también la evaluación de criterios
6.2 Optimización en la selección de grupos mediante redes sociales 69
en forma independiente.
6.2.3. Operadores
Los operadores del GA, junto con la función objetivo, definen el desempeño del mismo a
partir del proceso evolutivo de las soluciones. Estos operadores deben ser compatibles con la
representación de las soluciones. A continuación se presentan las configuraciones seleccionadas
para el problema de selección de grupos mediante SNA. El cuadro 6.2 presenta una grilla con las
combinaciones de las posibles configuraciones seleccionadas.
A continuación se describen los operadores seleccionados junto con una breve descripción de
la motivación para la adopción de los mismos.
6.2.3.1. Selección de padres
La información genética es obtenida de los padres, los cuales son cromosomas (soluciones)
de las generaciones previas. Con este fin, se requiere definir una estrategia de selección de padres
mediante la adopción de uno de los mecanismos adecuados para el problema modelado. En este
trabajo, los mecanismos propuestos incluyen Stochastic Universal Sampling (SUS), ya que se
requiere elegir varios padres de un conjunto de éstos; y Tournament ya que en ambos casos, el
valor de aptitud (fitness) global es desconocido.
6.2.3.2. Cruce
La información genética de las nuevas generaciones es determinada por sus padres. Este
proceso llamado recombinación es producido a partir de mecanismos de cruce. Por ejemplo,
teniendo dos cromosomas que representan distintas soluciones, el cruce implica que la nueva
generación heredará la información genética de ambos padres.
Para mantener una permutación válida, se proponen los operadores de recombinación Par-
tially Mapped Crossover (PMX), y Ordered Crossover (OX). Debido a que PMX es un algoritmo
diseñado para problemas de adyacencia, resulta adecuado para el problema modelado. Por otra
parte, pese a que OX fue diseñado para problemas de orden, el orden en el segundo padre puede
resultar beneficioso en la producción de nuevos cromosomas.
6.2.3.3. Mutación
El otro mecanismo elegido para la recombinación genética es el de mutación, el cual implica
alterar los genes dentro del cromosoma. En permutaciones, la mutación altera la ubicación de
los valores en el vector solución de la nueva generación.
Para el problema modelado, se proponen los operadores Swap Mutation e Insert Mutation,
ya que ambos son aceptados para mantener la permutación válida.
70
Selección
de
grup
os
de
experto
sm
edian
tered
esso
ciales
ConfiguraciónCruce Mutación Selección de padres Selección de sobrevivientes
PMX OX Swap Insert SUS Tournament Steady-state Generational
1 X X X X
2 X X X X
3 X X X X
4 X X X X
5 X X X X
6 X X X X
7 X X X X
8 X X X X
9 X X X X
10 X X X X
11 X X X X
12 X X X X
13 X X X X
14 X X X X
15 X X X X
16 X X X X
Cuadro
6.2:C
onfiguracionesdelA
lgoritmo
Genético,operadores
ym
ecanismos
deselección.
6.3 Experimentos 71
6.2.3.4. Selección de sobrevivientes
Una vez que la nueva generación es producida, los sobrevivientes deben ser seleccionados
con objeto de mantener el número de soluciones en cada generación.
Se proponen los mecanismos Steady-state y Generational para mantener las soluciones con
mejor aptitud en las sucesivas generaciones.
6.3. Experimentos
Con objeto de evaluar el enfoque propuesto de selección de grupos mediante SNA, se imple-
mentó una red social basada en información pública de investigadores, publicada por el Con-
sejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Esta organización establece
grupos de expertos para áreas específicas, llamadas comisiones, las cuales presentan distintas
responsabilidades. Por ejemplo, en el área de Informática y Comunicaciones existen 3 comisio-
nes para evaluar Ingresos, Reportes, y Becas. La renovación de los miembros de los comités se
realiza mediante una selección de candidatos a partir de un conjunto de expertos en el área. Este
conjunto incluye expertos internos y también externos a la organización.
Para la evaluación experimental se definieron dos funciones de fitness, basadas en las métri-
cas de evaluación de grupos dentro del área del SNA. La primera función de fitness se basó en la
métrica propuesta para independencia de grupos. La segunda función de fitness se basó en una
integración de métricas de SNA, mediante una suma ponderada de las métricas KPP-Pos (difu-
sión), y la métrica propuesta de Independencia de grupos. Estas funciones de fitness se evaluaron
con distintas configuraciones del GA.
Esta sección inicia con una definición del conjunto de datos utilizados para la evaluación
experimental. Luego se presentan los parámetros de configuración para las ejecuciones del GA.
Finalmente, se presentan los resultados de la evaluación experimental de acuerdo a las dos
funciones de fitness aplicadas en la generación de comisiones.
6.3.1. Datos
Con objeto de establecer un caso de estudio que permita evaluar la propuesta de selección
de grupos de expertos, se implementó una red social de investigadores a partir de información
pública extraída del sitio web de CONICET. La extracción de la información se realizó mediante la
técnica de web scrapping, la cual consiste en obtener información de secciones específicas de los
contenidos de un sitio web. Se utilizó la información básica para caracterizar los investigadores,
junto con información sobre sus contribuciones científicas y lugares de trabajo, con objeto de
establecer relaciones entre dichos investigadores. El proceso requirió la aplicación de estrategias
de unificación y desambiguación, ya que la mayor parte de la información disponible en el sitio
web es ingresada por los mismos investigadores, en particular cuando se refiere a la información
sobre contribuciones científicas.
72 Selección de grupos de expertos mediante redes sociales
Adicionalmente a los candidatos elegibles para conformar los grupos, en la red social se in-
cluyó a otros investigadores, que por diversos motivos no son considerados elegibles para formar
parte de las comisiones, como así también becarios relacionados con los candidatos elegibles.
La elegibilidad de los candidatos, para la evaluación del enfoque propuesto de selección de
grupos, se determinó a partir un listado de candidatos elegibles que cumplían con los requisitos
para conformar las comisiones. Como ejemplo, un requisito es que el investigador a conformar
una comisión debe poseer una determinada jerarquía en la carrera de investigador. Requisitos
como el mencionado, limitan la cantidad de candidatos elegibles para conformar las comisiones,
sin embargo, se mantuvo la información de las relaciones con otros investigadores no elegibles,
ya que todos ellos conforman la estructura de la red social.
Finalmente, la red social para el caso de estudio quedó conformada por un conjunto de
1293 nodos (investigadores) y 4322 enlaces (publicaciones y lugares de trabajo en común).
La red presentó 74 componentes (subgrupos de investigadores desconectados del resto de la
red). El componente de mayor tamaño incluyó 1058 (≈ 82%) de los investigadores (75 de ellos
calificados para conformar comisiones), y 3878 (≈ 90%) de relaciones.
6.3.2. Configuración del algoritmo genético
Con objeto de evaluar la propuesta, se implementó una herramienta (ver figura 6.6) y se
establecieron un conjunto de configuraciones para el algoritmo genético. Estas configuraciones
se ajustaron de acuerdo a un conjunto de parámetros, los cuales se definen a continuación.
Tamaño de la población: El número de soluciones en todo momento estuvo dado por P/n,
donde P es el conjunto de todos los investigadores, y n el tamaño de las comisiones.
Probabilidad de cruce: Un parámetro generacional elegido del rango [0,6; 0,9].
Probabilidad de mutación: Un parámetro del operador de mutación elegido del rango
[0,01; 0,15].
Condición de corte: Un parámetro generacional establecido en 25 generaciones.
Configuraciones: 16 configuraciones obtenidas a partir de la combinación de los meca-
nismos seleccionados en el enfoque (selección de padres, de sobrevivientes, mutación, y
cruce).
Ejecuciones: 5 ejecuciones por configuración, para las que se calcularon los valores prome-
dio y desviación estándar de los resultados obtenidos de aplicar las funciones de fitness.
6.3.3. Resultados
En la evaluación experimental del método propuesto para la selección de grupos de expertos,
se analizaron las conformaciones de comisiones actuales del área de Informática y Comunica-
6.3 Experimentos 73
Figura 6.6: Captura de pantalla de la herramienta de selección de grupos.
ciones de CONICET. En este análisis, se evaluaron dos criterios de selección de grupos mediante
métricas de SNA.
Luego del análisis de las comisiones actuales, se configuró y ejecutó el algoritmo genético para
la generación de comisiones. Este proceso inició con la generación de comisiones mediante el
criterio de independencia de grupos, a partir de la métrica propuesta. Posteriormente, se evaluó
la generación de comisiones mediante múltiples criterios, los cuales incluyeron la independecia
de los grupos de la primera evaluación, junto con un criterio de difusión, a partir de una métrica
ya establecida de SNA.
6.3.3.1. Fitness de comisiones actuales
El primer objetivo de la evaluación consistió en determinar el fitness de las comisiones ac-
tuales. Sin embargo, este enfoque se modificó debido a que algunos miembros de las comisiones
actuales no se encontraban presentes en el conjunto de datos. Esta situación se debió al bajo
número de candidatos elegibles o especialistas, en el área que pertenezcan a CONICET (sólo 87
candidatos estaban etiquetados como especialistas en el área de Informática y Comunicaciones),
lo que significó que las comisiones incorporaran investigadores externos de otras áreas. Por lo
tanto, se decidió identificar a los miembros de las comisiones actuales en el mayor componen-
te de la red social utilizada en la experimentación. De la comisión actual de Ingresos, sólo 3/6
miembros formaban parte de la red social; de la comisión de Informes, sólo 4/6 miembros for-
maban parte de la red social; y de la comisión de Becas, sólo 5/6 miembros formaban parte de
la red social. Debido a que los nombres de los miembros de las comisiones no resultaron rele-
74 Selección de grupos de expertos mediante redes sociales
vantes para la evaluación de la propuesta, éstos se reemplazaron por identificadores anónimos
constituídos por una letra correspondiente a la comisión (A-Ingresos, R-Informes, F-Becas), y un
número correspondiente al miembro de la comisión. Por ejemplo, “A1” se utilizó para identificar
al primer miembro de la comisión de Ingresos.
La comisión de Ingresos se evaluó con los miembros A1-A3, ya que el miembro A4 se encontró
presente en otro componente y los miembros A5-A6 no estaban identificados como especialistas.
Las otras comisiones presentaron características similares. La comisión de Informes se evaluó
con los miembros R1-R4, ya que los otros miembros de la comisión no pertenecían a CONICET
(R5) o no estaban identificados como especialistas (R6). Finalmente, la comisión de Becas se
evaluó con los miembros F1-F5, ya que F6 no pertenecía a CONICET. El cuadro 6.3 presenta
los miembros de las comisiones actuales con la evaluación de las métricas de centralidad para
aquellos miembros presentes en el mayor componente de la red social.
Las métricas de redes sociales para las comisiones actuales presentadas en el cuadro 6.3 pue-
den ser comparadas con las métricas del componente, cuyo degree promedio = 7316, diámetro
de red = 11, y longitud promedio = 5.76. Esto indica que al menos cada miembro (excepto
F2) de las comisiones actuales tiene un degree mayor al degree promedio del componente, pero
alejado del mayor degree (80) del componente. Algunos miembros de las comisiones (A3 y F2)
presentan muy bajo betweenness, pero su closeness es más balanceado entre ellos.
Luego, se evaluaron los fitness de las comisiones actuales a partir de dos métricas de grupos
de SNA, la métrica propuesta de independencia de grupos que maximiza la distancia entre miem-
bros del grupo en la red, y KPP-Pos que maximiza la difusión en la red. El cuadro 6.4 presenta
los resultados de los fitness obtenidos con las comisiones actuales (ver figura 6.7).
6.3.3.2. Comisiones con miembros independientes
La primera evaluación experimental se realizó con la métrica de independencia de grupos
como función de fitness del GA. Con objeto de comparar el fitness de las comisiones actuales con
el fitness de las comisiones generadas por el algoritmo genético, se generaron comisiones de 3,
4, y 5 miembros.
Para la comisión de Ingresos, se configuró el GA con la intención de generar comisiones con
3 miembros. El cuadro 6.5 presenta los resultados donde se obtuvo el fitness máximo promedio
≈ 0,72727 y la mínima σv = 0 para las configuraciones 9 y 11. El máximo finess ≈ 0,72727 se
obtuvo con las configuraciones 9, 11, 12, y 13, a partir de lo cual se infiere que se puede haber
obtenido un óptimo local en estos casos.
Comparado con el fitness de la comisión actual ≈ 0,65152, el máximo fitness promedio pre-
senta una mejora de ≈ 8 puntos.
Para la comisión de Informes, se configuró el GA con la intención de generar comités de 4
miembros. El cuadro 6.6 presenta los resultados donde se obtuvo el fitness máximo promedio
6.3
Exp
erimen
tos
75
Nodo Degree (D) Betweenness (B) Closeness (C)
A1 49 0.05293 0.22404
A2 21 0.02593 0.17283
A3 5 0.00001 0.15606
***A4 - - -
**A5 - - -
**A6 - - -
(a) Ingresos
Nodo D B C
R1 35 0.11858 0.20596
R2 51 0.11909 0.25101
R3 37 0.03512 0.19495
R4 34 0.14864 0.20989
*R5 - - -
**R6 - - -
(b) Informes
Nodo D B C
F1 22 0.01246 0.15696
F2 6 0.00001 0.16307
F3 19 0.00595 0.19317
F4 42 0.07272 0.22751
F5 46 0.06920 0.23731
*F6 - - -
(c) Becas*No pertenece a CONICET**No etiquetado como especialista***Presente en otro componente
Table 6.3: Métricas de centralidad de los miembros de las comisiones actuales.
76 Selección de grupos de expertos mediante redes sociales
Comisión Independencia KPP-Pos (Difusión)
Ingresos 0.375000 0.360173Informes 0.270833 0.474156
Becas 0.312500 0.451673
Table 6.4: Cuadro de fitness de comisiones actuales.
Figura 6.7: Gráfico de fitness de comisiones actuales.
6.3 Experimentos 77
Configuración Fitnesspromedio
(ejecuciones=5)
σv Fitness máximo y tiempo máscorto en segundos
1 0.58788 0.01134 0.59091 1.548 s.
2 0.57879 0.01134 0.59091 1.510 s.
3 0.60303 0.02607 0.65152 1.563 s.
4 0.60909 0.02938 0.66667 1.537 s.
5 0.61818 0.02938 0.65152 1.625 s.
6 0.62424 0.03090 0.66667 1.468 s.
7 0.62121 0.02710 0.65152 1.544 s.
8 0.62121 0.03711 0.66667 1.504 s.
9 0.72727 0.00000 0.72727 31.135 s.
10 0.64545 0.00742 0.65152 31.493 s.
11 0.72727 0.00000 0.72727 30.744 s.
12 0.67879 0.02607 0.72727 31.325 s.
13 0.70606 0.02642 0.72727 31.024 s.
14 0.63939 0.02607 0.66667 32.174 s.
15 0.67879 0.00606 0.68182 33.181 s.
16 0.61515 0.02642 0.65152 38.198 s.
Cuadro 6.5: Fitness promedio por configuración para comisiones de 3 miembros.
78 Selección de grupos de expertos mediante redes sociales
Configuración Fitnesspromedio
(ejecuciones=5)
σv Fitness máximo y tiempo máscorto en segundos
1 0.54242 0.03090 0.57576 2.51 s.
2 0.54545 0.02752 0.57576 2.38 s.
3 0.53636 0.02415 0.56818 2.66 s.
4 0.51061 0.02376 0.54545 2.69 s.
5 0.54394 0.02769 0.57576 2.73 s.
6 0.53788 0.02535 0.56818 2.70 s.
7 0.54697 0.02810 0.58333 2.72 s.
8 0.54091 0.03408 0.58333 2.95 s.
9 0.60455 0.00303 0.60606 52.12 s.
10 0.55303 0.02914 0.59848 55.56 s.
11 0.60606 0.00000 0.60606 46.57 s.
12 0.57273 0.00606 0.57576 45.78 s.
13 0.56970 0.01303 0.58333 53.36 s.
14 0.54545 0.02088 0.57576 55.73 s.
15 0.59697 0.01113 0.60606 53.82 s.
16 0.53030 0.01589 0.56061 55.63 s.
Cuadro 6.6: Fitness promedio por configuración para comisiones de 4 miembros.
≈ 0,60606 y un mínimo σv = 0 para la configuración 11. El máximo fitness ≈ 0,60606 se obtuvo
con las configuraciones 9, 11, y 15, a partir de lo cual se infiere que se puede haber alcanzado
un óptimo local en estos casos.
Comparado con el fitness de la comisión actual ≈ 0,36364, el máximo fitness promedio pre-
senta una mejora de ≈ 24 puntos.
Para la comisión de Becas, se configuró el GA para generar comités con 5 miembros. El cuadro
6.7 presenta los resultados donde se obtuvo un fitness máximo promedio ≈ 0,57091 para la
configuración 9, un mínimo σv ≈ 0,00530 para la configuración 4, y un máximo fitness ≈ 0,59091
para las configuraciones 9 y 11.
Comparado con el fitness de la comisión actual ≈ 0,38636, el fitness máximo promedio pre-
senta una mejora de ≈ 20 puntos.
Como se muestra en la figura 6.8, el mecanismo de selección Generational (configuraciones
9-16) generó mejores resultados que Steady-state (configuraciones 1-8). Sin embargo, la figura
6.9 demuestra que el mecanismo Generational requirió mayor tiempo de proceso que las otras
configuraciones. Por ejemplo, en comisiones de 5 miembros, el tiempo mínimo para el mecanis-
6.3 Experimentos 79
Configuración Fitnesspromedio
(ejecuciones=5)
σv Fitness máximo y tiempo máscorto en segundos
1 0.45273 0.00979 0.46818 4.40 s.
2 0.46182 0.02182 0.50455 4.10 s.
3 0.46364 0.01795 0.49545 4.18 s.
4 0.45091 0.00530 0.45909 4.28 s.
5 0.46818 0.02555 0.50909 4.34 s.
6 0.45727 0.01809 0.48182 4.07 s.
7 0.45455 0.02151 0.49545 4.13 s.
8 0.45000 0.00761 0.45909 4.07 s.
9 0.57091 0.02238 0.59091 83.00 s.
10 0.49636 0.01611 0.51818 71.97 s.
11 0.55545 0.02578 0.59091 81.15 s.
12 0.47818 0.02562 0.51818 80.80 s.
13 0.49909 0.02178 0.52273 74.95 s.
14 0.45273 0.00793 0.45909 67.14 s.
15 0.50182 0.01854 0.52273 67.05 s.
16 0.46909 0.01449 0.49545 68.78 s.
Cuadro 6.7: Fitness promedio por configuración para comisiones de 5 miembros.
80 Selección de grupos de expertos mediante redes sociales
Figura 6.8: Fitness promedio para comisiones generadas de 3, 4, y 5 miembros.
mo Steady-state =4.73s (segundos) y para Generational=67.049s. Esta situación es similar para
las comisiones de 3 y 4 miembros. Con objeto de alcanzar el tiempo requerido por las configu-
raciones con mecanismo Generational, se extendió la condición de corte de las configuraciones
con Steady-state a 25000 generaciones, resultados siempre en un menor fitness que aquellos
obtenidos por las configuraciones con mecanismo Generational.
Para el caso de comisiones generadas con 3 y 5 miembros, la configuración 9 presentó el
mayor fitness promedio. Para las comisiones con 3, 4, y 5 miembros, las configuraciones 9 y 11
presentaron el mayor fitness, a partir de lo cual se infiera que para casos similares, se prefieren
el mecanismo de selección Generational en conjunto con el operador PMX. Adicionalmente, en
los casos mencionados, el operador de mutación no produjo diferencias relevantes. Sin embargo,
en redes de mayor tamaño o complejidad, el costo computacional puede ser un requerimiento,
en cuyo caso podría preferirse el mecanismo de selección Steady-state en lugar del mecanis-
mo Generational. Adicionalmente, la figura 6.10 muestra que en comisiones de 3 miembros, las
configuraciones 9 y 11 alcanzaron un σv = 0„ y que en las comisiones de 3 y 4 miembros, la confi-
guración 9 alcanzó σv= 0, a partir de lo cual se identifica la estabilidad de dichas configuraciones,
al menos para comisiones de 3 y 4 miembros.
La figura 6.11 muestra la red social utilizada en la experimentación, en la cual se identifi-
ca que los miembros de las comisiones generadas se encuentran más alejados entre sí que los
miembros de las comisiones actuales. Esta representación muestra una mejora en el balance de
las distancias entre los miembros de las comisiones generadas al compararlas con las comisiones
actuales.
6.3 Experimentos 81
Figura 6.9: Tiempos más cortos para comisiones generadas de 3, 4, y 5 miembros.
Figura 6.10: Desviaciones estándar para las comisiones de 3, 4, y 5 miembros.
82 Selección de grupos de expertos mediante redes sociales
(a) 3 miembros (b) 4 miembros
(c) 5 miembros
Figure 6.11: Comisiones actuales (círculos grandes) y comisiones generadas (estrellas).
6.3 Experimentos 83
Figura 6.12: Pesos de criterios de selección determinados mediante Entropía.
6.3.3.3. Comisiones con múltiples criterios
La segunda evaluación experimental se realizó mediante una suma ponderada de la métrica
propuesta de Independencia de grupos y KPP-Pos. Para ello, se determinaron los pesos corres-
pondientes a cada métrica, mediante la aplicación del método de Entropía a los fitness de las
comisiones actuales (ver cuadro 6.4). Los pesos obtenidos para las métricas evaluadas indican
una mayor relevancia dada a la selección de grupos con miembros independientes, dada por
wIndependencia = 0,567966, que la relevancia dada a la selección de grupos que maximicen la
difusión en la red, dada por wKPP−Pos = 0,432034. La figura 6.12 presenta los pesos de los
criterios de selección de grupos, obtenidos a partir de la evaluación de las métricas evaluadas.
Al igual que en la primera evaluación, se comparó el fitness de las comisiones actuales con el
fitness de las comisiones generadas por el algoritmo genético, por lo que se generaron comisiones
de 3, 4, y 5 miembros.
Para la configuración del GA, se utilizó la configuración que arrojó mejores resultados en la
primera evaluación. Esta configuración utilizó los mecanismos PMX, SWAP, SUS, y Generational.
Posteriormente se comparó el fitness de las comisiones generadas con 3, 4, y 5 miembros
respecto del fitness de las comisiones actuales de Ingresos, Informes, y Becas, respectivamente.
El fitness obtenido en las comisiones generadas de 3 miembros, promedió 0.250958 con una
desviación de 0.003358, mientras que el fitness de la comisión actual de Ingresos se calculó en
0.184297. El fitness de las comisiones generadas de 4 miembros promedió 0.230820 con una
desviación de 0.003372, mientras que la comisión actual de Informes se calculó en 0.179338.
Finalmente, el fitness de las comisiones generadas de 5 miembros promedió 0.222957 con una
desviación de 0.005658, mientras que la comisión actual de Informes se calculó en 0.186314.
La figura 6.13 presenta los fitness promedio, basado en la integración de las métricas KPP-pos e
84 Selección de grupos de expertos mediante redes sociales
Figura 6.13: Fitness multicriterio de comisiones generadas y comisiones actuales.
Independencia, de las comisiones generadas con 3, 4, y 5 miembros, junto con el fitness evaluado
en las comisiones actuales. En la figura se observa que, al igual que en el caso de la evaluación de
la métrica de Independencia en forma individual, al evaluar el fitness con las métricas integradas
el método propuesto generó comisiones con mejores fitness que las comisiones actuales.
6.3.4. Discusión
En la evaluación experimental del método de selección de grupos propuesto, se pretendió
determinar la aptitud del mismo para la selección de grupos de expertos. En particular, se tomó
como caso de estudio, la generación de comisiones para un área determinada de una agencia
pública de financiamiento científico.
Para esta evaluación, se desarrolló una red social de los candidatos elegibles para conformar
estas comisiones, dados a partir de un listado de miembros de la agencia, identificados como
especialistas en el área. La red social de los candidatos se modeló con la unificación de dos tipos
de relaciones entre los candidatos, dadas por la coautoría de publicaciones científicas, y el lugar
de trabajo compartido por los candidatos.
La evaluación experimental incluyó la métrica propuesta de Independencia de grupos, y una
métrica de Difusión del área del SNA, para la evaluación de las comisiones actuales y las comi-
siones generadas por el método propuesto.
Los resultados indicaron que la evaluación de las métricas en forma individual, como así tam-
bién en un enfoque integrado, resultaron adecuadas para evaluar la aptitud de las comisiones
actuales. Asimismo, a partir de la implementación del Algoritmo Genético, se logró generar co-
misiones con mejor nivel aptitud, inclusive, alcanzando conformaciones óptimas en la evaluación
6.4 Resumen 85
de la métrica propuesta de Independencia.
La evaluación de la aptitud de las comisiones generadas a partir de la suma ponderada de
las métricas de Independencia y KPP-Pos, requirió determinar los pesos correspondientes a cada
métrica o criterio. Estos pesos determinados mediante el método de Entropía, evidenciaron que
se asignó una mayor relevancia al criterio de Independencia en la conformación de las comisiones
actuales.
Finalmente, la evaluación experimental del método propuesto de selección de grupos, per-
mitió demostrar que es posible evaluar múltiples criterios de forma objetiva en la selección de
grupos de expertos. Asimismo, se demostró que el enfoque propuesto puede generar conforma-
ciones óptimas en redes sociales de miles de nodos, lo cual representa un escenario típico de
varios ámbitos organizacionales.
6.4. Resumen
En este capítulo se presenta el método propuesto para la selección de grupos de expertos
mediante redes sociales. El método propuesto utiliza la información relacional de los candidatos
elegibles a conformar los grupos y la modela como una red social. Asimismo, se define una
métrica para la evaluación de la independencia entre los miembros de un grupo, dada a partir de
la distancia social de éstos. Posteriormente, se utiliza la métrica propuesta y otra métrica de SNA,
en la implementación de un algoritmo genético para la generación de conformaciones óptimas
de grupos.
El método de selección de grupos mediante redes sociales fue evaluado con un conjunto de
datos públicos del CONICET. En la evaluación se analizó la aplicación de las métricas propuestas
en los grupos de expertos representados por comisiones del área de Informática y Comunicacio-
nes de la organización. Asimismo, se analizó la aplicación de las mismas métricas en los grupos
generados. Los resultados en la evaluación de la métrica propuesta de independencia de grupos
permitió generar grupos con mejor fitness que los comités actuales. Al evaluar la integración de
las métricas propuestas, se observó que al igual que en el caso de la evaluación de la métrica
de independencia en forma aislada, las métricas integradas permitieron generar comisiones con
mejor fitness.
Capıtulo 7
Conclusiones
En este capítulo se resumen las conclusiones generales del trabajo de tesis. El capítulo inicia
con una visión general de los objetivos y logros de este trabajo en la sección 7.1. La sección
7.2 resume las contribuciones del trabajo. En la sección 7.3 se presentan las limitaciones de la
propuesta. Finalmente, en la sección 7.4 se presentan las futuras líneas de investigación.
7.1. Resumen
En este trabajo se propone un enfoque inteligente basado en Aprendizaje Automático (ML)
y Análisis de Redes Sociales (SNA) para el problema de la selección de grupos de expertos.
La hipótesis general del trabajo sostiene que es posible desarrollar un método objetivo para
asistir en procesos de selección de grupos de expertos, utilizando la información relacional del
conjunto de candidatos elegibles para la conformación de dichos grupos. Con este trabajo, se
pretende brindar una estrategia para resolver la costosa tarea de analizar procesos de selección
de expertos, y a su vez, sugerir conformaciones posibles de grupos de expertos. De esta manera,
el enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad
a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en
forma individual, como así también de la evaluación de las conformaciones posibles de grupos
de expertos.
En esta tesis se propone un enfoque para el problema de la selección de grupos de expertos,
el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de candidatos
a ocupar posiciones de experto, mediante un método de análisis basado en la identificación y
evaluación de criterios de selección aplicados en la evaluación de dichos candidatos. Por otra
parte, se propone un método para la selección óptima de conformaciones de grupos de expertos,
basada en las relaciones sociales de candidatos elegibles.
El enfoque inicia con un proceso para determinar la elegibilidad de candidatos a ocupar
posiciones de expertos, a partir del análisis de similitud entre los criterios de selección del proceso
88 Conclusiones
de selección, y los criterios de selección utilizados en las evaluaciones de los candidatos. Para
ello, se calcula la frecuencia de los conceptos semánticos identificados a partir de los criterios de
selección. Con esta información, se genera un ranking de frecuencias de conceptos semánticos
por cada grupo de criterios de selección, los cuales son evaluados mediante un coeficiente de
correlación de rankings. El nivel de correlación entre el contenido semántico de cada grupo de
criterios de selección determina la similitud entre dichos conjuntos de criterios de selección. Así,
la elegibilidad de un candidato queda determinada a partir de un umbral de correlación entre el
contenido semántico de la evaluación del candidato, y el contenido semántico de los criterios de
selección.
El enfoque finaliza con un proceso para determinar posibles conformación óptimas de grupos
de expertos, a partir de la información relacional de los candidatos elegibles. Para ello, se imple-
menta una red social de todos los candidatos, incluyendo los elegibles y los no elegibles. Luego
se define una función de aptitud basada en métricas de Análisis de Redes Sociales. Finalmente,
se optimiza la función de aptitud de las conformaciones posibles mediante la implementación de
un algoritmo genético.
La evaluación del método de elegibilidad de candidatos incluyó 3 tipos de criterios de selec-
ción, generados a partir de un documento de referencia para la selección de comisiones asesoras,
de las definiciones de misión y visión de un conjunto de dependencias, y de las funciones de car-
gos directivos de una oficina estatal.
El método de selección de grupos mediante redes sociales fue evaluado con un conjunto
de datos públicos de una agencia estatal para el financiamiento de investigaciones científicas.
En la evaluación se analizó la aplicación de las métricas propuestas en los grupos de expertos,
representados por comisiones de un área de la organización. Asimismo, se analizó la aplicación
de las mismas métricas en los grupos generados.
Los resultados obtenidos indican que la elegibilidad de un conjunto de candidatos puede ser
determinada a partir del nivel de concordancia entre las evaluaciones de los candidatos y los
criterios de selección de referencia.
Los resultados en la evaluación del método de selección de grupos de expertos con la mé-
trica de independencia de grupos propuesta, permitió generar grupos que presentaron un mejor
desempeño al compararlos con los comités actuales. Esta situación se reiteró al evaluar la inte-
gración de varias métricas en el método propuesto.
7.2. Principales contribuciones
Este trabajo introduce un nuevo enfoque en relación a la selección de grupos de expertos.
Las principales contribuciones del trabajo incluyen la aplicación de técnicas de Procesamiento
de Lenguaje Natural (NLP) y Aprendizaje Automático (ML) para determinar la aplicación de
criterios de selección en procesos de selección de expertos. Asimismo, se incluye la aplicación de
técnicas de Análisis de Redes Sociales (SNA) en la evaluación de grupos de expertos para sugerir
7.3 Limitaciones encontradas 89
conformaciones posibles.
Resumiendo, esta tesis introduce importantes contribuciones en el área de selección de ex-
pertos, entre las que se incluyen:
Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,
como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.
Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-
minar la similitud del contenido semántico de criterios de selección de expertos.
Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia
de grupos (Zamudio et al., 2016).
Un método de selección óptima de grupos a partir de la integración de métricas de selección
de grupos en redes sociales mediante la implementación de un algoritmo genético.
7.3. Limitaciones encontradas
Independientemente de la importancia de las contribuciones alcanzadas en este trabajo en re-
lación con la conocimiento de los procesos de selección de expertos, resulta necesario mencionar
algunas consideraciones.
Inicialmente, el método para determinar la elegibilidad de candidatos a ocupar posiciones de
expertos, implementa un proceso de clasificación de contenido asociado a criterios de selección,
a partir de evaluaciones de los candidatos. Este proceso entrena un modelo de aprendizaje su-
pervisado que resultó satisfactorio en la evaluación. Sin embargo, este proceso resulta costoso
debido al esfuerzo necesario para generar los datos de entrenamiento. Como contrapartida, un
incremento en el tamaño del conjunto de datos disponibles podría mejorar el desempeño del
modelo, y en consecuencia, mejorar el desempeño del análisis de similitud de los criterios de
selección. Adicionalmente, el incremento del tamaño del conjunto de datos de entrenamiento
puede demandar la utilización un algoritmo de clasificación más adecuado que SVM, para el
manejo de grandes volúmenes de datos.
El Etiquetado de Roles Semánticos (SRL), como alternativa para extraer contenido semántico
de los criterios de selección, se encuentra fuertemente relacionado con el idioma, ya que la
herramienta utilizada para este fin implementa un conjunto de Marcos Semánticos en idioma
inglés. Sin embargo, existen conjuntos de Marcos Semánticos en otros idiomas, como español o
francés, sólo que éstos presentan un menor estado de desarrollo. Adicionalmente, el SRL aplica
procesos internos de análisis sintáctico, por lo que la calidad de los textos de las evaluaciones
pueden influir en los resultados.
Finalmente, el método propuesto para la selección de grupos a partir de ARS, se evaluó con
una simplificación de la red social de los candidatos, en relación a las propiedades de los nodos y
enlaces. En este escenario, los enlaces se modelaron como binarios, y los nodos se caracterizaron
90 Conclusiones
a partir de su nombre e identificador. En otros escenarios, las redes sociales pueden representar
mayor complejidad en los aspectos mencionados. Por ejemplo, la red social puede contener otro
tipo de atributos en los nodos y enlaces, distintos tipos de nodos y enlaces, y variabilidad en la
estructura de la red social en el tiempo, entre otros.
Por otra parte, el conjunto de datos utilizado para la construcción de la red social, se basó en
datos públicos disponibles en el sitio web institucional de una agencia estatal. Con motivo de la
evaluación del enfoque propuesto, se utilizaron datos de investigadores correspondientes a una
única área de aplicación (Informática y Comunicaciones). La aplicación del enfoque propuesto
en otras áreas podría requerir la consideración de otros tipos de datos, como así también de otras
métricas para la selección de los grupos, además de aquellas propuestas en este trabajo.
7.4. Trabajos futuros
Este trabajo representa un avance en la conocimiento de los procesos de selección de exper-
tos, mediante el análisis de los criterios de selección aplicados en dichos procesos, y mediante la
generación eficiente de conformaciones posibles en contextos de redes sociales. Sin embargo, la
experiencia adquirida durante el desarrollo de este trabajo genera nuevos interrogantes relacio-
nados con la selección de expertos, los cuales motivan las siguientes líneas de investigación.
Análisis semántico
Adicionalmente al Etiquetado de Roles Semánticos (SRL), utilizado en este trabajo para re-
presentar el contenido semántico de los criterios de selección de expertos, se considera evaluar
otras técnicas de análisis semántico utilizadas en el área de Procesamiento de Lenguaje Natural
(NLP). Estas técnicas incluyen el Latent Semantic Indexing (LSI), como estrategia para gene-
ración de tópicos a partir de la evidencia de experiencia de los expertos y de los criterios de
selección. En esta línea, se evaluará también la aplicabilidad del concepto de Huellas Semánticas
(Semantic Fingerprint), para determinar la similitud entre conjuntos de criterios de selección.
Perfiles de expertos
El Perfilado de Expertos tiene por objetivo general, descubrir asociaciones entre expertos
y áreas de conocimiento. En particular, su objetivo es descubrir temas asociados a un experto
a partir de evidencia de experiencia, generalmente representada mediante documentos como
curriculum vitae, publicaciones científicas, y listas de áreas de conocimiento, entre otras. En este
sentido, las descripciones de candidatos en contextos de evaluación como fuente evidencia de
experiencia a partir de texto no estructurado o semi-estructurado puede resultar beneficiosa en
el perfilado de expertos.
7.4 Trabajos futuros 91
Grandes volúmenes de datos
La masividad y heterogeneidad de las fuentes de evidencia de experiencia, a partir de la
información disponible en internet, requiere definir nuevas estrategias para su tratamiento, y
posterior utilización en sistemas de información relacionados con la selección de expertos. En
particular, grandes volúmenes de datos son deseables para el entrenamientos de modelos de
Aprendizaje de Máquina (ML) basados en Aprendizaje Profundo (Deep Learning).
Por otra parte, mayores cantidades de información relacionada con los expertos, favorece el
desarrollo de representaciones complejas de sus redes sociales. En este sentido, resulta nece-
sario considerar estrategias como el procesamiento distribuido para el tratamiento de grandes
cantidades de datos.
Se espera que las contribuciones en esta línea, colaboren en la optimización de buscadores
de expertos. Asimismo, se espera que las contribuciones en esta área permitan el desarrollo de
nuevas técnicas de selección de expertos.
Apendice A
Conjuntos de datos
A.1. Audiencias de nominación
En el preprocesamiento de las audiencias de nominación, se utilizaron un conjunto de herra-
mientas de procesamiento de texto en conjunto con expresiones regulares.
El cuadro A.1 presenta un conjunto de las órdenes de ejecución de las herramientas junto con
las expresiones regulares utilizadas en el preprocesamiento del conjunto de datos.
94
Con
jun
tos
de
dat
os
Descripción Comando
Extrae sólo los fragmentos de los senadores grep -Pzoi " {4,4}(senator)([\s\S]+?)([ ]{4,4}(dr|ms|mr|answer)|\n\n|\[the)"Quita todos los fines de fragmento que no sirven sed -i -r "s/\s{4,10}(Dr|Ms|Mr|\[The)/\n/g"
Quita las aclaraciones en brackets sed -i -r "s/[\s]*\[.*\]/\n/g"Quita el nombre de la sección apéndice sed -i -r "s/A\s?P\s?P\s?E\s?N\s?D\s?I\s?X/\s/g"Pone cada sentencia en una sóla línea sed -i ’:a;N;$!ba;s/\n/ /g’Quita los nombres de los senadores sed -i -r "s/( {4,4}Senator\s\w+\.|^The Chairman\.)\s//g"
Quita las empty lines sed -i -e ’/^$/ d’Obtiene las sentencias con longitud mayor o igual a n awk ’length >= 50’
Obtiene sentencias aleatorias sort -R input | head -n 100
Cuadro A.1: Comandos para el preprocesamiento del conjunto de datos.
Bibliografía
Baker, C. F., Fillmore, C. J., & Lowe, J. B. (1998). The berkeley framenet project. In Proceedings
of the 17th International Conference on Computational Linguistics, volume 1 of COLING ’98 (pp.
86–90).
Balog, K., Azzopardi, L., & de Rijke, M. (2009). A language modeling framework for expert
finding. Information Processing & Management, 45(1), 1–19.
Balog, K. & De Rijke, M. (2007). Determining Expert Profiles (With an Application to Expert
Finding). In Proceedings of the 20th International Joint Conference on Artificial Intelligence,
volume 7 of IJCAI 2007 (pp. 2657–2662).
Bishop, C. M. (2006). Pattern Recognition and Machine Learning (Information Science and Statis-
tics). Secaucus, NJ, USA: Springer-Verlag New York, Inc.
Bonacich, P. (1987). Power and centrality: A family of measures. American Journal of Sociology,
92(5), 1170–1182.
Borgatti, S. P. (2006). Identifying sets of key players in a social network. Computational &
Mathematical Organization Theory, 12(1), 21–34.
Borgatti, S. P. & Everett, M. G. (2006). A graph-theoretic perspective on centrality. Social Net-
works, 28(4), 466–484.
Borgatti, S. P. & Everettt, M. G. (1992). Notions of position in social network analysis. Sociological
Methodology, 22, 1–35.
Bródka, P., Filipowski, T., & Kazienko, P. (2013). An introduction to community detection in
multi-layered social network. In Information Systems, E-learning, and Knowledge Management
Research, number 278 in Communications in Computer and Information Science (pp. 185–
190). Springer Berlin Heidelberg.
96 BIBLIOGRAFÍA
Burt, R. S. (1978). Cohesion versus structural equivalence as a basis for network subgroups.
Sociological Methods & Research, 7(2), 189–212.
Burt, R. S. (1987). Social contagion and innovation: Cohesion versus structural equivalencel.
Cao, T., Wu, X., Wang, S., & Hu, X. (2011). Maximizing influence spread in modular social
networks by optimal resource allocation. Expert Systems with Applications, 38(10), 13128–
13135.
Chin, A. & Chignell, M. (2010). DISSECT: data-intensive socially similar evolving community
tracker. In A. Abraham, A.-E. Hassanien, & V. Sná¿el (Eds.), Computational Social Network
Analysis, Computer Communications and Networks (pp. 81–105). Springer London.
Chou, B.-H. & Suzuki, E. (2010). Discovering community-oriented roles of nodes in a social
network. In Data Warehousing and Knowledge Discovery (pp. 52–64). Springer.
Das, D., Chen, D., Martins, A. F., Schneider, N., & Smith, N. A. (2014). Frame-semantic parsing.
Computational Linguistics, 40(1), 9–56.
Das, D., Schneider, N., Chen, D., & Smith, N. A. (2010). Probabilistic frame-semantic parsing. In
Human language technologies: The 2010 annual conference of the North American chapter of the
association for computational linguistics, HLT ’10 (pp. 948–956).
De Meo, P., Ferrara, E., Fiumara, G., & Ricciardello, A. (2012). A novel measure of edge centrality
in social networks. Knowledge-Based Systems, 30, 136–150.
Doreian, P. (1988). Equivalence in a social network. The Journal of Mathematical Sociology,
13(3), 243–281.
Estrada, E. & Rodríguez-Velázquez, J. A. (2005). Subgraph centrality in complex networks.
Physical Review E, 71(5).
Everett, M. G. (1985). Role similarity and complexity in social networks. Social Networks, 7(4),
353–359.
Everett, M. G. & Borgatti, S. P. (1999). The centrality of groups and classes. The Journal of
Mathematical Sociology, 23(3), 181–201.
Everett, M. G. & Borgatti, S. P. (2005). Extending centrality. Models and methods in social network
analysis, 35(1), 57–76.
Everett, M. G., Sinclair, P., & Dankelmann, P. (2004). Some centrality results new and old. The
Journal of Mathematical Sociology, 28(4), 215–227.
Fattah, M. A. (2014). A hybrid machine learning model for multi-document summarization.
Applied Intelligence, 40(4), 592–600.
BIBLIOGRAFÍA 97
Fillmore, C. J. (1976). Frame semantics and the nature of language*. Annals of the New York
Academy of Sciences, 280(1), 20–32.
Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings, 34, 373–400.
Fillmore, C. J. & Baker, C. (2009). A Frames Approach to Semantic Analysis.
Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Sociometry, 40(1),
35–41.
Freeman, L. C. (1979). Centrality in social networks conceptual clarification. Social networks,
1(3), 215–239.
Freeman, L. C. (2011). The development of social network analysis–with an emphasis on recent
events. The SAGE Handbook of Social Network Analysis, (pp. 26–39).
Freeman, L. C. & Webster, C. M. (1994). Interpersonal proximity in social and cognitive space.
Social Cognition, 12(3), 223—247.
Ghosh, R. & Lerman, K. (2011). Parameterized centrality metric for network analysis. Physical
Review E, 83(6).
Gildea, D. & Jurafsky, D. (2002). Automatic labeling of semantic roles. Computational linguistics,
28(3), 245–288.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning. Boston,
MA, USA: Addison-Wesley Longman Publishing Co., Inc., 1st edition.
Hanneman, R. A. & Riddle, M. (2005). Introduction to Social Network Methods. University of
California.
Hinds, P. J., Carley, K. M., Krackhardt, D., & Wholey, D. (2000). Choosing Work Group Mem-
bers: Balancing Similarity, Competence, and Familiarity. Organizational Behavior and Human
Decision Processes, 81(2), 226–251.
Karimzadehgan, M. & Zhai, C. (2012). Integer Linear Programming for Constrained Multi-Aspect
Committee Review Assignment. Information processing & management, 48(4), 725–740.
Karimzadehgan, M., Zhai, C., & Belford, G. (2008). Multi-aspect expertise matching for review
assignment. In Proceedings of the 17th ACM conference on Information and knowledge manage-
ment, CIKM ’08 (pp. 1113–1122).
Kazienko, P., Musial, K., & Zgrzywa, A. (2006). Selection of the Target Group based on Social
Network. In Data Analysis Puerto de la Cruz, Tenerife, Spain.
Klemm, K., Serrano, M. Á., Eguíluz, V. M., & Miguel, M. S. (2012). A measure of individual role
in collective dynamics. Scientific Reports, 2.
98 BIBLIOGRAFÍA
Kolaczyk, E. D., Chua, D. B., & Barthélemy, M. (2009). Group betweenness and co-betweenness:
Inter-related notions of coalition centrality. Social Networks, 31(3), 190–203.
Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. In Proceedings of
the 18th Annual International ACM SIGIR Conference on Research and Development in Informa-
tion Retrieval, SIGIR ’95 (pp. 68–73).
Landherr, A., Friedl, B., & Heidemann, J. (2010). A critical review of centrality measures in social
networks. Business & Information Systems Engineering, 2(6), 371–385.
Lerman, K., Ghosh, R., & Kang, J. H. (2010). Centrality metric for dynamic networks. In Procee-
dings of the Eighth Workshop on Mining and Learning with Graphs, MLG ’10 (pp. 70–77). New
York, NY, USA: ACM.
Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In Text summariza-
tion branches out: Proceedings of the ACL-04 workshop, volume 8 of ACL ’04.
Liu, D.-R., Chen, Y.-H., Kao, W.-C., & Wang, H.-W. (2013). Integrating expert profile, reputation
and link analysis for expert finding in question-answering websites. Information Processing &
Management, 49(1), 312–329.
Mani, I. & Maybury, M. T. (1999). Advances in automatic text summarization, volume 293. MIT
press.
McCallum, A., Corrada-Emmanuel, A., & Wang, X. (2005). Topic and role discovery in social
networks. Computer Science Department Faculty Publication Series, (pp.3).
Mitchell, T. M. (1997). Machine Learning. New York, NY, USA: McGraw-Hill, Inc., 1 edition.
Momtazi, S. & Naumann, F. (2013). Topic modeling for expert finding using latent Dirichlet
allocation. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(5), 346–
353.
Moody, J. & White, D. R. (2003). Structural cohesion and embeddedness: A hierarchical concept
of social groups. American Sociological Review, (pp. 103–127).
Morgan, G. P. & Carley, K. M. (2011). Exploring the impact of a stochastic hiring function in
dynamic organizations. Proceedings of BRIMS 2011, (pp. 106–113).
Morgan, G. P. & Carley, K. M. (2014). Comparing hiring strategies in a committee with similarity
biases. Computational and Mathematical Organization Theory, 20(1), 1–19.
Neshati, M., Beigy, H., & Hiemstra, D. (2014). Expert group formation using facility location
analysis. Information Processing & Management, 50(2), 361–383.
Opsahl, T., Agneessens, F., & Skvoretz, J. (2010). Node centrality in weighted networks: Gene-
ralizing degree and shortest paths. Social Networks, 32(3), 245–251.
BIBLIOGRAFÍA 99
Paice, C. D. (1990). Constructing literature abstracts by computer: techniques and prospects.
Information Processing & Management, 26(1), 171–186.
Ribeiro, I. S., Santos, R. L., Gonçalves, M. A., & Laender, A. H. (2015). On tag recommendation
for expertise profiling: A case study in the scientific domain. In Proceedings of the Eighth ACM
International Conference on Web Search and Data Mining, WSDM ’15 (pp. 189–198).: ACM.
Rowe, S., Alexander, N., Weaver, C. M., Dwyer, J. T., Drew, C., Applebaum, R. S., Atkinson, S.,
Clydesdale, F. M., Hentges, E., Higley, N. A., & Westring, M. E. (2013). How experts are chosen
to inform public policy: Can the process be improved? Health Policy, 112(3), 172–178.
Rybak, J., Balog, K., & Nørvåg, K. (2014). Temporal expertise profiling. In European Conference
on Information Retrieval, ECIR ’14 (pp. 540–546).: Springer.
Salton, G., Singhal, A., Mitra, M., & Buckley, C. (1997). Automatic text structuring and summa-
rization. Information Processing & Management, 33(2), 193–207.
Serdyukov, P., Taylor, M., Vinay, V., Richardson, M., & White, R. W. (2011). Automatic people tag-
ging for expertise profiling in the enterprise. In European Conference on Information Retrieval,
ECIR ’11 (pp. 399–410).: Springer.
Silvello, G., Bordea, G., Ferro, N., Buitelaar, P., & Bogers, T. (2016). Semantic representation
and enrichment of information retrieval experimental data. International Journal on Digital
Libraries.
Suanmali, L., Salim, N., & Binwahlan, M. S. (2011). Fuzzy Genetic Semantic Based Text Sum-
marization. In IEEE Ninth International Conference on Dependable, Autonomic and Secure Com-
puting, DASC ’11 (pp. 1184–1191).
Tang, J., Musolesi, M., Mascolo, C., Latora, V., & Nicosia, V. (2010). Analysing information flows
and key mediators through temporal centrality metrics. In Proceedings of the 3rd Workshop on
Social Network Systems, SNS ’10 (pp. 3:1–3:6). New York, NY, USA: ACM.
Teufel, S. & Moens, M. (1997). Sentence extraction as a classification task. In Proceedings of the
ACL, volume 97 of ACL ’97 (pp. 58–65).
Vasudevan, M. & Deo, N. (2012). Efficient community identification in complex networks. Social
Network Analysis and Mining, 2(4), 345–359.
Wasserman, S. & Faust, K. (1994). Social Network Analysis: Methods and Applications. Cambridge
University Press.
Wellman, B. (1983). Network analysis: Some basic principles. Sociological theory, 1(1), 155–200.
White, D. R. & Reitz, K. P. (1983). Graph and semigroup homomorphisms on networks of rela-
tions. Social Networks, 5(2), 193–234.
100 BIBLIOGRAFÍA
Wi, H., Mun, J., Oh, S., & Jung, M. (2009a). Modeling and analysis of project team formation
factors in a project-oriented virtual organization (ProVO). Expert Systems with Applications,
36(3, Part 2), 5775–5783.
Wi, H., Oh, S., Mun, J., & Jung, M. (2009b). A team formation model based on knowledge and
collaboration. Expert Systems with Applications, 36(5), 9121–9134.
Wu, T., Wang, Q., Zhang, Z., & Si, L. (2015). Determining expert research areas with multi-
instance learning of hierarchical multi-label classification model. In Proceedings of the 24th
International Conference on Artificial Intelligence, IJCAI 2007 (pp. 2305–2511).
Xu, X. (2004). A note on the subjective and objective integrated approach to determine attribute
weights. European Journal of Operational Research, 156(2), 530–532.
Zamudio, E., Berdún, L. S., & Amandi, A. A. (2016). Social Networks and Genetic Algorithms to
Choose Committees with Independent Members. Expert Syst. Appl., 43(C), 261–270.