[#wmcl2015] Investigando usando Wikipedia

Preview:

Citation preview

Investigando usando Wikipedia: desde aplicaciones lúdicas hasta estudios sociolingüísticosPresentado por: Eduardo Graells-Garrido / @carnbyInvestigador en Telefónica I+D ChileWeb Research Group, Universitat Pompeu Fabra

Trabajo en conjunto con: Luca Chiarandini (Google) Mounia Lalmas (Yahoo Labs London) Filippo Menczer (Yahoo Labs Sunnyvale)

Wikimedia Chile 2015 - 28 de Marzo de 2015Imagen: Margot de Pablo Picasso, 1901.

Sobre @carnby*

Investigo el comportamiento de las personas en mundos físicos y virtuales (pero ambos reales).

Luego propongo maneras de interactuar con esos mundos que puedan cambiar las vidas de las personas.**

* Soy fan absoluto de los zorzales.

** Aunque sea un poquito y no se den cuenta ;)

Ilustración para mi tesis. Por Paula Pérez / Athziri.

¿Por qué Investigar con Wikipedia?

Imagen: https://xkcd.com/285/

Dinámicas de Generación Colectiva de Contenido:

- ¿Cómo se relaciona la comunidad en Wikipedia?

- ¿Cuál es el impacto en el contenido?

Brecha de Género en Wikipedia:- ¿Cuántas mujeres participan en

Wikipedia? (En inglés: 16%)- ¿Cómo incentivar la participación

diversa?

@WikiResearchhttps://meta.wikimedia.org/wiki/Research:Newsletter

Exploración / Serendipia

http://xkcd.com/214/

Todos los caminos llevan a Filosofía

http://www.xefer.com/2011/05/wikipedia

Esta historia comienza en Barcelona, junto a Luca Chiarandini.

Hack4Europe! Realizado el 2011 en Museu Picasso de Barcelona.

Fotos por Kippelboy y Conxa Rodà.

TimebookA Social Network of Historical Figures

¿Cómo acercar el arte a la gente?

¿Qué pasaría si los medios sociales hubiesen existido siglos atrás?

¿Cómo lograrlo? Wikipedia (DBPedia) + spin-offs de Wikipedia (WikiQuote) + Colecciones Culturales (Europeana)

El 2012 presentamos Timebook en MuseumNext, en el CCCB de Barcelona.

A partir de una pregunta muy simple muchas personas, desde directores/as de museos hasta educadores, vieron potenciales aplicaciones para Timebook. ¡Wikipedia fue fundamental!

InterludioMuseumNext marcó el fin de Timebook.

Luca siguió con su tesis, en la que estudió cómo las personas navegaban las páginas dentro de un sitio web.

Yo comencé a estudiar Twitter y la manera en la que las personas se comunican en la red de micro-blogging.

Sin embargo, la historia continuaría...http://auroratwittera.cl/perfil/BNChile

En este Encuentro, Daniela Alarcón Sánchez (@Dany_Passarinho) presentó el artículo “El Rol de la Mujer en la Historia visto a través de los libros de texto de

Educación Básica de las Escuelas Públicas de Chile”

El Rol de la Mujer en la Historia visto a través de los libros de texto de Educación Básica de las Escuelas Públicas de Chile.Daniela Alarcón Sánchez / @Dany_PassarinhoLibro: Socializar Conocimientos II: Observando a Chile desde la Distancia

¿Podemos replicar ese enfoque cualitativo en Wikipedia?¿Puede una máquina detectar sesgos?

Trabajo junto a Mounia Lalmas y Filippo Menczer.

Wikipedia (en inglés) contiene 1,445,021 biografías, de las cuales 893,380 se pueden caracterizar como hombre o mujer. 15.5% de ellas son de mujeres.

El gráfico muestra la proporción de mujeres a lo largo del tiempo.

Infoboxes

El formato determina la clase de una persona.

Clases más comunes:

Atleta 268,632 bios, 8.9% mujeres

Artista 93,840 bios, 25.1% mujeres

OfficeHolder 47,534 bios, 13% mujeres

Político/a 40,209 bios, 8.8% mujeres

Militar 25,607 bios, 1.7% mujeres

1.56% de hombres incluye atributo “spouse”6.86% de mujeres incluye “spouse”.

¿Cómo analizar el lenguaje?

- Pointwise Mutual Information de n-gramas y género para todo n-grama encontrado (“La Serena” es un 2-grama, “Viña del Mar” es un 3-grama) en los abstracts de cada biografía.

- PMI entrega una medida de asociatividad entre los n-gramas (w) y cada género (c).

- Frecuencia de palabras categorizadas semánticamente en los abstracts.

- Los abstracts son, posiblemente, las partes más leídas de una biografía.

- Burstiness (ráfagas) de palabras categorizadas semánticamente en el texto completo de cada biografía.

- Palabras que se repiten varias veces (aparecen en ráfagas) en una misma biografía deben ser importantes.

N-gramas asociados a hombres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.

N-gramas asociados a mujeres. Mayor oscuridad => mayor frecuencia. Mayor tamaño => mayor PMI.

Frecuencia y Burstiness

Categorías semánticas (diccionario LIWC, tienen subcategorías):

- procesos sociales, mecanismos cognitivos, mecanismos biológicos, trabajo, logros.

Frecuencia

- palabras de categoría mecanismos cognitivos tienen tendencia a ser más frecuentes en hombres.

- palabras de categoría sexual (sub. de mecanismos biológicos) tienen tendencia a ser más frecuentes en mujeres.

Burstiness

- palabras de categorías mecanismos cognitivos y trabajo tienen tendencia a aparecer en ráfagas en hombres.

Enlaces y Ranking

Calculamos PageRank sobre la red de enlaces entre biografías, y ordenamos las biografías de acuerdo al ranking.

Repetimos el proceso para diferentes redes artificiales construidas a partir de la red original, para comparar posibles sesgos.

¿Qué significa todo esto?

Sesgos en Meta-datos: infra-representación en cantidad y tiempo.

- Mujeres pre-1900 casi no tienen presencia en Wikipedia. - Para las mujeres es más importante agregar el atributo de pareja que para los

hombres.

Sesgos en Lenguaje

- Para las mujeres, el sexo parece ser más importante que sus propios logros (first woman, women’s, woman, etc). Además, son cosificadas (cat. sexual) y caracterizadas en base a filiaciones (her husband).

- Los hombres son destacados por lo que han hecho (cat. trabajo), concretamente, por cómo lo han hecho (cat. mecanismos cognitivos).

Sesgos en la Red de Enlaces

- Las mujeres son más difíciles de encontrar, sea siguiendo links, o porque en el ranking aparecen en posiciones mucho más bajas que hombres de lo esperado dado el contexto.

Para mayor discusión y detalles vean el paper: http://arxiv.org/abs/1502.02341

¿Terminó la historia? - Aplicaciones Lúdicas

Timebook, a partir de una idea simple, inspiró a personas de todo el mundo...

... y ellos/ellas a nosotros.

No habría sido posible sin Wikipedia, ni Barcelona, ni Picasso (y el Museu).

Lo aprendido: una aplicación (o pregunta) debe ser:

- Interesante: que las personas sepan que aprenderán algo nuevo (sea útil o no).

- Estimulante: que despierte la curiosidad (¿cómo será el perfil de mi artista favorito/a?).

- Cercana: que presente familiaridad con el concepto (Picasso tiene un perfil como el mío).

¿Terminó la historia? - Estudios Sociolingüísticos

Una máquina puede analizar sesgos de manera cualitativa (y cuantitativa): utilizamos técnicas de lingüística computacional y de análisis de redes. (pero necesita ayuda cualitativa - en este caso, LIWC)

El contenido de Wikipedia está sesgado, a pesar de las políticas de neutralidad.

Aunque editores trabajan con fuentes secundarias, utilizan sus propias palabras. El sesgo es compartido.

=> Hay que replantear políticas de notabilidad, neutralidad, y lenguaje.

=> Hay que mejorar la conectividad de las mujeres caracterizadas.

=> Creemos que una mayor presencia de mujeres editoras en Wikipedia NO resolverá el problema si es que no se consideran los dos puntos anteriores.

¡Gracias!

Esta historia aún no termina. ¿Nos ayudan a seguir escribiéndola?

Pueden encontrarnos en:

Luca Chiarandini / http://grupoweb.upf.edu/~luca.chiarandini/

Eduardo Graells-Garrido / @carnby

Mounia Lalmas / @mounialalmas

Filippo Menczer / http://cnets.indiana.edu/people/filippo-menczer/

Extras

¡Casi todo esto ya está en Timebook! :) Falta full biography y gender.

Abstract

Infobox

Meta-data

Full Biography

Impacto

Wikipedia Gender Gap Task Force

https://en.wikipedia.org/wiki/User:GGTF/Writing_about_women