View
221
Download
0
Category
Preview:
Citation preview
Objetivos del proyecto BigData
• ¿Por qué es necesario mejorar el conocimiento del sector TIC?
- Sector muy dinámico y con alto grado de especialización. Dificultad para diseñar políticas
públicas eficaces, especialmente en el fomento de la I+D+i.
- Sector transversal, presente en ámbitos productivos y sociales muy diversos.
- Carencias en el conocimiento estadístico (sector mal censado, retraso medio en la elaboración
de estadísticas 18 meses , granularidad información de las estadísticas muy grosera. Ej CNAE
2009 TIC).
• ¿Por qué mejorar el procedimiento de ayudas a la I+D+i en TIC?
- Evaluación de multitud de tecnologías y proyectos innovadores. En periodos de tiempo de
evaluación muy reducidos. Agrupamiento de solicitudes para su evaluación.
- Necesidad de contrastar el contenido de las ayudas solicitadas con las concedidas por otros
organismos (CDTI, SETSI, SEIDI, …)
Visión general del sistema
3
Técnicas
Vistas
- Contratación pública
- Patentes
- [Corpus], [Corpus]_t
- …
- Ayudas
NLP
Machine Learning
Semántica Tópicos …
- Doc vs. [Corpus]
- [Corpus] vs. [Corpus]’
- - -
Los casos de uso del sistema son la
intersección de:
• Aplicación de ciertas Técnicas
• Sobre uno o varios Corpus
• Eligiendo unas Vistas concretas.
…
- Publicaciones científicas
- Web de empresas, noticias del sector
Algunos corpus documentales
Ayu
das
Ayudas SETSI
2008-201510K
Ayudas CDTI
2013-20143K
Ayudas SEIDI-FECYT2004-2013
58K
Pat
en
tes
Patentes ES TIC2004-2014
43K
Patentes EUEPO
Patentes USPTO TIC2005-2015
779K
Co
ntr
atac
ión
Portal Contratación Pública española
2010-2015
Patentes EUEPO
Contratación Pública Europea TED
1M/año
Otr
os Websites de compañías TIC
2013-201530K
Webs noticias sector TIC
Ofertas de empleo TICInfojobs, tecnoempleo,
monster 9K/mes
Pu
blic
acio
ne
s ci
entí
fica
s
Publicaciones investigaciones españolas objeto de ayudas WoK
Scopus TIC 2008-201510K/año
ETL+NLP
Extracción de datos (ETL)
● Estructurados
● No estructurados
Técnicas procesamiento de lenguaje natural (NLP)
Reducción de dimensión: tópicos (temas, áreas de conocimiento) presentes en el documento:
Similar a la caracterización de un usuario -documentos- que realizan las tiendas online (ej.: Amazon) en
función de los productos -términos- que ha comprado:
Análisis de tópicos (I)
Documentos
x
Términos
Documentos
x
Tópicos
Tópicos
x
Términos= x
T1
T2
T3
T1
T2
T3
=
=
Términos presentes en más de un tópico.
6
Ejemplo de tópicos (LDA-300 SEIDI)
8
Reducción de emisiones contaminantes
gas emisión combustión emisión combustible atmosfera contaminante motor reducción
partícula invernadero aire captura biomasa carbono efecto nox diesel reducir carbón dióxido
metano condición escape gei amoniaco composición operación mezcla comportamiento
Computación paralela
computación algoritmo implementación eficiente alto prestación recurso computacional
ejecución procesador paralelo procesamiento rendimiento distribuido grid arquitectura cloud
computo hardware diseño acceso cluster paralelismo cálculo heterogéneo complejidad
Financiación
financiero gobierno crisis inversión empresa contable corporativo capital información
financiación internacional fondo auditoria valoración riesgo contabilidad inversor actual banco
grado activo bancario finanza economía solvencia contexto empresarial evidencia deuda
Composición de tópicos de un documento
9
Composición peculiar del documento
1000 Tópicos…
AngularVibratingResonantPlate …
SensorSensing…
MagnetizedPolarityMagnetization…
Reducción del espacio:Diccionario -> Tópicos
Caso de aplicación: OEPM
11
Objetivos perseguidos
● Asistir al evaluador en la tarea de examen de patentes
● Mejorar la visión de conjunto de una colección de patentes
Corpus tratados en patentes
● Patentes USPTO Grants (Enero 2005 a febrero 2015)
− Patentes en el sector TIC1 ( ̴779K)
− Subconjunto con IPC G06F Electric Digital Data Processing ( ̴42K)
Se buscaron 141K citas de patentes entre un universo de 779K patentes TIC.
Resultados detallados de la búsqueda de citas:
● 7.5% de las citas buscadas aparecieron como primer resultado
● El 20.8% aparecieron entre los 10 primeros resultados
● El 50% aparecieron entre los 161 primeros resultados
Caso de aplicación: SETSI
Objetivos perseguidos
● Obtener una visión de conjunto sobre las solicitudes de ayuda gestionadas
● Ofrecer herramientas que faciliten el trabajo de los evaluadores de solicitudes
Dar respuesta a preguntas como:
● ¿Cuales son los temas más propuestos? ¿qué volumen de solicitudes llegan por tema? ¿qué
temáticas se financian más?
● Perfil de la empresa, ¿en qué temas caracterizan los proyectos de una empresa?
● Obtención de proyectos por tema, ¿qué proyectos se han presentado en el ámbito de los
videojuegos?
● La evolución temporal de las temáticas.
12
Búsqueda textual enriquecida
Interfaz parametrizable para búsqueda textual enriquecida con filtrado por metadatos
13
Visión global del corpus
Visión global del corpus según los tópicos reconocidos, detalle de palabras más frecuentes del
tópico y documentos del corpus que mejor se adaptan al tópico
14
Evolución temporal de los tópicos (I)
Evolución de la temática contenida en los documentos del corpus.
15
Evolución temporal de los tópicos (II)
Con esta vista se pueden dar respuesta a las siguientes preguntas:
● ¿Qué temas están siendo cada vez más propuestos por las empresas?
● ¿Como evoluciona la financiación de cada temática?
● ¿Qué temas están surgiendo y cuales están desapareciendo en las propuestas de los
investigadores?¿y entre los proyectos financiados?
● Útil para determinar nuevas líneas de trabajo candidatas a ser apoyadas
● ¿Relación entre proyectos financiados y publicaciones científicas, patentes publicadas?
Indicadores anticipados, transferencia de conocimiento a la industria.
16
Búsqueda temática
Permite la búsqueda de documentos más parecidos a un texto dado, empleando una
búsqueda no textual basada en su proyección sobre un modelo de tópicos
La búsqueda temática es útil para los siguientes casos:
● ¿La propuesta a analizar es original? ¿Ha sido presentada en convocatorias anteriores?
● ¿La propuesta es original pero no es innovadora?
● Asignación de evaluadores. ¿Puedo encontrar un evaluador que haya examinado una
propuesta similar o tenga un perfil compatible?
17
Caso de aplicación: SEIDI
Objetivos perseguidos
● Visión de conjunto sobre sus ayudas tramitadas
● Gestión de las ayudas de múltiples organismos
Corpus tratados
● Conjunto de solicitudes admitidas a las convocatorias de proyectos de investigación básica
del Plan Nacional de I+D+i en el periodo 2004-2012, y a las convocatorias “Proyectos de
excelencia” y “Retos de investigación” de 2013, del Plan Estatal 2013-2016
● Conjunto de solicitudes aprobadas en las convocatorias del CDTI de los años 2013 y 2014
● Conjunto de documentos de la base de datos bibliográfica Scopus publicados en el periodo
2008-2014, dentro del área temática de ingeniería, si al menos uno de los autores está
afiliado a una institución española
18
Comparación multicorpus
Modelo de tópicos + clusterización + PCA para representar en un mismo espacio temático las áreas
tratadas por las Ayudas de diferentes organismos. Posibilidad de comparar las áreas temáticas
tratadas por cada organismo, los solapes y las exclusividades.
Ej. SECTOR TIC Español 2013
19
Compartición de modelos
La descomposición en tópicos es una huella del documento
● Cuanto más grande es el modelo más precisa y más exclusiva es la descomposición en
tópicos
● Representa las características temáticas de un documento sin desvelar su contenido
● Posibilidad de comparar documentos cuyo contenido se desconoce
Compartiendo modelo de tópicos entre organizaciones, pero sin compartir las solicitudes, se
podría responder a preguntas como:
● ¿Es una solicitud realmente original o es una reescritura de una solicitud presentada en
otro organismo?
● ¿Qué solicitudes se han presentado sobre un tema independientemente de donde fueron
presentadas?
20
Detección de duplicados
Búsqueda automática de parejas de documentos en el corpus con una similaridad de tópicos
anormalmente alta. Tres posibles escenarios:
● Los proyectos son clones
● Un proyecto es una reescritura de otro
● Los proyectos tratan temáticas similares
21
4. Mejoras y planteamiento futuro
● Incorporación de nuevos corpus documentales (otras publicaciones Elsevier, contenidos
formativos, otros sistema de Ayudas, …)
● Modelos transversales a varias organizaciones
● Uso de datos estructurados para reducir el espacio de búsqueda
● Prospectiva: comparación de modelos de diferentes organizaciones y multidioma
● Uso de técnicas semánticas empleando un conocimiento base
● Empleo de técnicas de aprendizaje automático
● Mejora pipeline NLP, TF-IDF, …
Recommended