Análisis de propagación de contenidos en redes sociales

UNIVERSIDAD COMPLUTENSE DE MADRID

FACULTAD DE CIENCIAS MATEMTICAS

TRABAJO DE FIN DE MSTER

Anlisis de propagacin de contenidos en redes sociales

Autor: Leonardo TORRES HANSA

Director: Dr. Daniel VLEZ SERRANO Madrid, septiembre de 2013

ndice

Objetivo ............................................................................................................................................................. 2

1 Introduccin .......................................................................................................................................... 3

1.1 Twitter ............................................................................................................................................... 3

2 Planteamiento del proyecto .............................................................................................................. 7

3 Cmo medimos la influencia de usuarios ....................................................................................... 8

3.1 Construccin de las mtricas .......................................................................................................113.1.1 Hashtags ................................................................................................................................113.1.2 Direcciones URL ....................................................................................................................123.1.3 Menciones .............................................................................................................................133.1.4 Replies y retuits ....................................................................................................................14

3.2 Temtica de contenidos ................................................................................................................15

4 Conjunto de datos .............................................................................................................................18

4.1 Variable target ...............................................................................................................................214.1.1 Propagacin ..........................................................................................................................21

4.2 Variables identificadoras ..............................................................................................................224.2.1 Fecha ......................................................................................................................................224.2.2 Followed ................................................................................................................................234.2.3 Follower .................................................................................................................................234.2.4 Contenido ..............................................................................................................................244.2.5 Categora ...............................................................................................................................25

4.3 Variables explicativas ....................................................................................................................254.3.1 Influencia dependiente de la temtica de contenidos ..................................................264.3.2 Influencia independiente de la temtica de contenidos ..............................................264.3.3 Influencia para los retuits y las replies .............................................................................274.3.4 Otras variables de inters ...................................................................................................27

5 Modelizacin .......................................................................................................................................33

5.1 Regresin logstica .........................................................................................................................34

5.2 Modelo .............................................................................................................................................35

6 Conclusiones y consideraciones futuras .......................................................................................40

Agradecimientos ............................................................................................................................................42

Referencias .....................................................................................................................................................43

Objetivo Este Trabajo Fin de Mster se enmarca en el Mster de Ingeniera Matemtica de la Facultad de Matemticas de la UCM de Madrid y aspira a proponer modelos matemticos que ayuden no slo a entender las redes sociales, sino a predecir lo que ocurrir sobre ellas. Adems, describiremos el proceso que hemos seguido para la definicin de unas mtricas representativas de la influencia que ejercen y reciben los usuarios de Twitter a la hora de propagar contenidos por esta red social. En la seccin 1 daremos una introduccin al entorno del problema que se nos ha planteado y explicaremos detalladamente los conceptos asociados a la red de Twitter. La seccin 2 est dedicada a la formulacin del problema al que nos enfrentaremos. Explicaremos de dnde partimos y qu se espera de este proyecto. Se desea construir modelos matemticos que sirvan para predecir la propagacin de contenidos por la red. Para tal propsito necesitaremos un modo de medir cun influyentes son los usuarios, para lo que emplearemos unas mtricas de influencia cuya evaluacin estudiaremos ms adelante y en cuya construccin se ha participado como paso previo a la generacin de los modelos. En la seccin 3 se explica, primero de manera intuitiva y despus ms detalladamente, el proceso de construccin de las mtricas, con especial hincapi en su definicin matemtica. La seccin 4 es la que trata del conjunto de datos que se ha empleado. Daremos datos de toda la informacin con la que se contaba en un principio y expondremos cmo se ha llegado al conjunto de datos empleado para el entrenamiento y la validacin de los modelos de propagacin de contenidos. La seccin 5 contiene todo lo relativo a los modelos empleados y la cerramos con el modelo definitivo: una regresin logstica, cuya interpretacin permite ver si las mtricas previamente definidas son, en efecto, vlidas para cuantificar la influencia de usuarios. Las conclusiones extradas con los resultados de los modelos las exponemos en la seccin 6. Cerramos el Trabajo de Fin de Mster con una seccin de agradecimientos y de referencias utilizadas.


- 3 -

1 Introduccin La sociedad, tal y como siempre ha sido, la podemos representar como a una red. Las interacciones entre los humanos han conformado una red en constante cambio, pero persistente. Las relaciones humanas son de amplia ndole y dos individuos pueden estar relacionados de maneras diferentes, pero relacionados al fin y al cabo. Actualmente, la informacin, independiente de su formato, tipo, tamao, fluye desde su origen hasta prcticamente cualquier punto del planeta, hasta otro punto de la red, y la informacin es un bien preciado. Jos Luis Flrez, responsable mundial de Big Data en Accenture, dijo en una reciente entrevista que la tercera guerra mundial ser de datos vase [1]. Si una empresa sabe cmo fluye la informacin por la red, por cualquier red, es capaz de hacer dinero, de obtener beneficios, principal objetivo de una empresa. Por tanto, si mediante modelos conseguimos explicar el flujo en una red, podremos entender cmo funciona la distribucin de la informacin, adelantarnos a su trayectoria y, quiz, obtener beneficio de ello. Matemticamente, qu es una red? Partamos de un grafo, un conjunto V de nodos interconectados, que podemos denotar como = (,). Supongamos que se trata de un grafo dirigido las conexiones entre los nodos, las aristas del conjunto V, tienen un sentido. Una red ser una estructura compuesta por el grafo y una funcin numrica definida para cada arco , :

() Las telecomunicaciones son un ejemplo cotidiano de red. Hay ms de 5 mil millones de lneas de telfono y todas ellas son nodos en una red de comunicacin interconectados a mayor o menor coste, dado por . Estos nodos comparten informacin constantemente. Por las redes sociales tambin fluye informacin. Los usuarios de las redes se comunican entre s, lo que permite que intercambien informacin. Cmo se distribuye la informacin por una red social? Mediante la ayuda de modelos matemticos seramos capaces de predecir cmo se propagar por la red cierto contenido emitido por un usuario?

1.1 Twitter En 2006, se fund Twitter, Inc., acontecimiento con el que naci una nueva red social. Categorizado como sitio web de microblogging, Twitter ha extendido el uso de las redes sociales a gran parte del mundo y ha ampliado el marco de edades interesadas en el tema.


- 4 -

Los usuarios de Twitter envan mensajes cortos, denominados tweets tambin se ha extendido el trmino tuit entre la comunidad hispana, de a lo sumo 140 caracteres. Los tuits, por defecto, son pblicos y cualquier persona, usuario de Twitter o no, puede leerlos1Twitter aporta una peculiaridad diferenciada de otras redes sociales: no es necesario que un usuario autorice a otro para leer sus publicaciones. A diferencia de Facebook o LinkedIn, en las que los usuarios slo pueden leer lo que publican sus amigos o conexiones

. Adems, un usuario puede suscribirse a los tuits de otro usuario, seguirlo, de forma que, cada vez que el usuario seguido emita un tuit, aparecer en su ventana principal, lo que da un acceso rpido a usuarios de inters. 2Esta caracterstica dota a Twitter de gran facilidad para ser estudiado en relacin al flujo de informacin. Twitter es una red sencilla, en la que los usuarios tienen acceso a la mayor parte del contenido, cuyo formato tan simple recordemos, mensajes de 140 caracteres permite hacer suposiciones poco restrictivas que hagan factible un anlisis matemtico, mientras que en otras redes sera ms complejo. , en Twitter todo es pblico.

Analicemos la nomenclatura de Twitter. Un usuario A puede estar conectado con un usuario B de dos formas. A puede seguir a B, en cuyo caso diremos que A es seguidor (follower) de B; o B puede seguir a A, y diremos que A es seguido (followee) de B. Podemos hacer algunas distinciones de tuits en funcin de su origen y, adems, dentro de un tuit podemos encontrar elementos especiales, muy caractersticos de Twitter. Tipos de tuit. Dado un tuit cualquiera, los usuarios tienen diferentes alternativas a partir de l.

Replies. Cuando un usuario B quiere mantener una conversacin con otro usuario A por un tuit que ste ha emitido, B puede responder directamente a ese tuit (Ilustracin 1). Retweets. Un usuario B puede estar interesado en que un tuit de A se propague tambin entre sus seguidores. Para ello, reutiliza el tuit, lo reenva tal y como A lo emiti, lo retuitea. De esta forma, B ha emitido un nuevo tuit, pero queda grabado que lo que ha hecho realmente es tuitear un tuit que no es suyo. Es un modo cmodo de propagar lo que resulta de inters que hacen otros usuarios (Ilustracin 2).

1 En trminos generales podemos suponer que es as, pero la configuracin de las cuentas se puede alterar de manera que a los tuits emitidos slo tengan acceso determinados usuarios. 2 La nomenclatura de cara a los tipos de conexiones entre usuarios cambia de una red social a otra. As, en Twitter habl aremos de seguidores y seguidos followers y followees; en Facebook o en Tuenti, de amigos; en LinkedIn, de conexiones


- 5 -

Ilustracin 1. Ejemplo de conversacin mediante Replies

Ilustracin 2. Ejemplo de retweet


- 6 -

Tipos de contenido. Un tuit puede estar constituido por unos pocos caracteres de texto sin formato. Ahora bien, con Twitter se facilitan las llamadas a otros usuarios, as como la creacin de temas con la intencin de que se localicen fcilmente cuando otros usuarios hablen de ellos. Hashtags. Cuando una palabra viene precedida por una almohadilla #, Twitter la almacenar en la base de datos de hashtags, y se conseguir, mediante su bsqueda, ver todos los tuits que lo contienen. Es una manera de agrupar mensajes con un mismo contenido. Menciones. Todos los usuarios de Twitter tienen un nombre de usuario precedido por un @. Si se teclea, se obtendr un link que permite ir al perfil del usuario. As, todos los usuarios que lean el tuit podrn ver de qu usuario se est hablando con un click. Adems, el usuario mencionado recibir un aviso de que ha sido mencionado. Los retuits a menudo se realizan haciendo click en la opcin que hay en el propio tuit que se desee retuitear. No obstante, en ocasiones se opta por escribir RT, seguido del usuario emisor original del tuit mencin y el mensaje. Es importante distinguir entre menciones originadas por

retuits y el resto. Direcciones web. Dentro de los 140 caracteres puede venir incluida una URL. Su funcionamiento es el habitual. Multimedia. Un tuit tambin puede contener imgenes, que automticamente quedan subidas al perfil del usuario emisor.

Ilustracin 3. Tuit con imagen, mencin y hashtag


- 7 -

2 Planteamiento del proyecto Twitter ha cobrado importancia en el da a da. Celebridades, empresas, marcas, promueven su nombre y sus productos en Twitter con la intencin de que los usuarios de la red tengan acceso a ellos. Por ello, es de vital importancia entender cmo funciona la distribucin de la informacin en una red de tal repercusin. Si sabemos que un usuario ha empleado cierto contenido un hashtag sobre un producto, una mencin de una empresa, sus seguidores lo emplearn tambin? Les llamar la atencin? Qu puede ser relevante a la hora de predecir si un usuario contribuir a la propagacin de la informacin? Intuitivamente, es razonable pensar que, si un usuario es influyente, cuando emita un contenido ser ms propenso a propagarse que en los casos en los que el emisor no ejerza mucha influencia sobre sus seguidores. Paralelamente, si un usuario es influenciable, aumentar la probabilidad de que reenve lo que ha visto. Cualitativamente, la formulacin es sencilla: cuanto mayor es la influencia, mayor ser la probabilidad de propagacin. Pero cmo podemos cuantificarla? Si quisiramos construir un modelo que ayude a predecir la propagacin de contenidos por la red de Twitter, cmo seran las variables explicativas que representaran la influencia? En el supuesto de que consiguiramos un modo de medirla, unas mtricas de influencia para usuarios de la redtanto en el sentido de capacidad de influir como de facilidad para ser influenciable, seran tiles de cara a la prediccin de flujo de los contenidos? En [2] se propone un mtodo de medir la influencia basado en un anlisis de comunidades en Twitter y en la localizacin de sus lderes. Los autores de [3] plantean el mismo problema en base a la actividad de los usuarios y al nmero de seguidores; adems realizan especial hincapi en el uso de las direcciones URL. En [4] la medida se realiza a partir del nmero de menciones, de retuits y de seguidores. Como herramientas online que miden la influencia de usuarios podemos destacar Klout klout.com que asigna una puntuacin entre 0 y 100 en base a un tema y a cuantos usuarios se influye. PeerIndex da una mtrica de caractersticas similares a Klout, pero lo que tiene en cuenta es la importancia del contenido emitido a lo largo del tiempo. Twitalyzer es otra herramienta web que proporciona mtricas de influencia como, por ejemplo: impacto del contenido emitido, generosidad en relacin a los retuits sobre otros usuarios, comparacin entre un alcance potencial y el real o autoridad. En el presente proyecto buscamos la construccin de modelos analticos que nos ayuden a entender cmo se propagan contenidos por Twitter y que, consecuentemente, nos den un mtodo de predecir dicha propagacin. Habremos de analizar qu es ms susceptible de ser propagado por la red. Estudiaremos la validez de unas mtricas de influencia de usuarios cuya definicin propondremos en la siguiente seccin y cuya implementacin hemos llevado a cabo en SAS, durante los pasos previos a la elaboracin de los modelos. Veremos si son herramientas adecuadas para la prediccin que nos atae y buscaremos los matices ms finos que puedan caracterizar a la influencia. Juzgaremos si otras cualidades de los usuarios o los contenidos tienen cabida en el modelo. Y finalmente, cuando hayamos construido modelos con alta capacidad predictiva sobre la variable objetivo el contenido se propaga o no, los


- 8 -

utilizaremos como herramienta para validar si, en efecto, esas variables explicativas, incluidas las mtricas de influencia alteradas o no, son relevantes. Hay dos maneras principales de considerar la propagacin de contenidos en Twitter: localmente o globalmente. La primera, en la que se centra el inters de este trabajo, se refiere a la propagacin entre pares de usuarios. En este caso, la situacin que se estudia cuenta con un usuario A, que emite un contenido e.g., un hashtag y que tiene un seguidor B, que propaga este contenido. No interesa lo que hacen otros seguidores de A; lo importante de cara al valor de la variable objetivo binaria es si se da propagacin entre el par (,). La propagacin a nivel global busca la estimacin del nmero de propagaciones que tendr un contenido por la red, independientemente de por dnde lo haga, para lo que un enfoque basado en anlisis de series temporales sera ms apropiado. En relacin al caso local, para la construccin de los modelos que buscamos, partiremos de tablas con casos exitosos y fallidos de propagacin de contenidos en la red de Twitter, casos identificados por pares de usuarios y otras variables de las que hablaremos ms adelante, de forma que intentaremos predecir si un contenido se considera propagado desde un usuario a otro, en el sentido de que un usuario llegue a emitir un contenido previamente emitido por uno de los usuarios a los que sigue. El conjunto de datos sobre el que construiremos los modelos destaca por su gran tamao partimos de una tabla de tuits con un nmero de observaciones del orden de 130 millones. En Twitter, de acuerdo a la muestra de la que disponemos, las propagaciones exitosas de contenidos son casos aislados frente al enorme nmero de contenidos que nunca llegan a propagarse, con una proporcin del orden de 1 frente a 400. Un porcentaje de ocurrencia del evento de inters tan bajo hace que los entrenamientos de los modelos sean una ardua tarea ya que no se disponen de suficientes datos como ejemplo. Como veremos en la seccin 4, esta situacin nos ha llevado a realizar un bajomuestreo de la tabla de datos en orden a evitar que el aprendizaje del modelo est descompensado. 3 Cmo medimos la influencia de usuarios Dado un usuario que haya emitido contenidos altamente propagados, parece razonable pensar que ser ms influyente que un usuario cuyas emisiones hubieran tenido un efecto dbil entre sus seguidores. A partir de esta asuncin, se han construido unas mtricas que miden la influencia de usuarios en Twitter. Cul es la idea de estas mtricas? Sean A y B dos usuarios cualesquiera tales que B sigue a A y supongamos que A emite un hashtag concreto, al que denotaremos por #concreto hablaremos de hashtags a ttulo de ejemplo por ahora, aunque las mtricas estarn asociadas a los diferentes tipos de contenidos, como son los ya mencionados hashtags, menciones y direcciones URL. B, seguidor de A, ver el hashtag tuiteado por A, lo que puede hacer que se interese por l. Cmo valoramos el inters de B en el hashtag #concreto? Si B se limita a leer el tuit, no dispondremos de informacin til a la hora de cuantificar el inters de B, pero si la emisin por parte de A


- 9 -

de #concreto acarrea una accin de B asociada al hashtag como puede ser un retuit o la creacin de un tuit original que contenga a #concreto, tendremos una evidencia del inters de B. Observacin. El dinamismo con el que se propaga la informacin en Twitter nos ha llevado a considerar que un contenido se propaga de un usuario A a un usuario B cuando el seguidor reutiliza el contenido emitido por A en un plazo mximo de 24 horas. Si pasado un da desde la emisin del contenido, el seguidor lo utiliza, asumiremos que se trata de generacin espontnea de contenido, independiente de la emisin original. En este caso particular, si se da que B propaga el contenido emitido por A, diremos que la influencia en trminos de hashtags de A sobre B es mxima 3

Segn lo visto hasta ahora, cuando hablamos de influencia partimos siempre de dos usuarios, uno seguidor de otro. Por ello, las que vamos a construir en primer lugar son mtricas de influencia entre pares conectados. Para cada usuario emisor de contenidos, construiremos estas mtricas referentes a pares de usuarios; despus calculamos una media entre todas las mtricas generadas para ese usuario. Sern estas las mtricas de influencia de usuarios cuya validez queremos estudiar mediante un modelo de regresin logstica.

, dado que el nico contenido emitido por A ha sido propagado por B. Equivalentemente, podemos decir que B es altamente influenciable por A. Destaquemos el hecho de que un suceso tan sencillo como el mencionado no debera tener la misma relevancia que un evento de muchas emisiones y propagaciones entre los dos usuarios. Un caso espordico entre dos usuarios no permitira extraer conclusiones sobre el comportamiento de la propagacin de contenidos, pero a partir de una muestra de un tamao considerable, con suficientes datos de eventos de propagacin entre pares de usuarios, s puede permitir el entrenamiento de modelos que expliquen cmo se propagan los contenidos.

De forma equivalente al caso de los hashtags, se ha estudiado la propagacin de URL. Para un tuit que no contenga ningn elemento especial de Twitter hablamos de hashtags, menciones o URL lo que nos interesar saber es si ha sido retuiteado o respondido por un seguidor 4

3 Ms adel ante veremos que estas mtricas estn acotadas entre 0 y 1. . Si a un usuario le retuitean o responden sus tuits

4 En Twitter, se puede ver el contenido emitido por la mayora de los usuarios sin su permiso explcito salvo el de aquellos que han el egido dar un acceso restringido. A diferencia de otras redes como Facebook, LinkedIn o Google+, en las que hace falta permiso del emisor del contenido para acceder a su perfil, para ver lo que publica, en Twitter se puede ver los tuits de cualquier usuario, independientemente de la conexin entre los dos usuarios. No obstante, nos centraremos en los casos de pares de usuarios conectados en el sentido de que al menos uno ser seguidor del otro. No entraremos en diferenciar la propagacin entre usuarios que no estn conectados en trminos de follower-followee dado que, al no requerir permisos especiales para acceder a los contenidos de un usuario, no parece relev ante que el usuario B de la relacin sea seguidor en sentido estricto de A.


- 10 -

frecuentemente, ser un indicio de su influencia en la red. Las menciones a otros usuarios han sido tratadas de manera diferente. Lo vemos despus. Acciones de A Efectos sobre B

A emite un tuit con un hashtag (#concreto) , que es identificado por el usuario B

B emite #concreto posteriormente (en un plazo mximo de 24 horas), en un tuit, retuit o reply

A emite un tuit con un URL (http://dominio.com) , que es identificado por el usuario B

B emite http://dominio.com posteriormente (en un plazo mximo de 24 horas), en un tuit, retuit o reply

A emite un tuit sin elementos especiales, que es ledo por el usuario B

B responde a A (reply) B retuitea el tuit de A

Observacin. Para un tipo de contenido determinado, en el caso de que un usuario A no haya emitido ni propagado tuits asociados a ese tipo, no podremos concluir que A sea o no influyente o influenciable. Slo mediremos la influencia de usuarios cuando dispongamos un histrico de datos sobre l y para el tipo de contenido concreto al que nos estemos refiriendo. No slo nos interesa medir la influencia de los usuarios sino tambin la facilidad de los usuarios para ser influidos. Puede haber usuarios propensos a propagar contenido emitido previamente por otros usuarios e, intuitivamente, parece importante introducir una variable que represente esto en los modelos. La idea es la misma que para la influencia de salida. Se trata de medir el nmero contenidos a cuya propagacin ha contribuido el usuario frente al nmero de contenidos que ha ledo, contenidos que, en principio, podra haber propagado.


- 11 -

3.1 Construccin de las mtricas

3.1.1 Hashtags La emisin de un hashtag por parte de un usuario A puede desembocar en que un seguidor suyo B emita tuits con el mismo hashtag, bien con respuestas, bien con retuits o bien con tuits originales que lo contengan. Desde esta idea, se ha tratado de medir la influencia en el mbito de los hashtags que induce A sobre un seguidor suyo. Se trata de observar la conducta de A en la emisin de hashtags. Concretamente, dado un , se recogen los tweets de A que lo contengan y se escoge el ms antiguo en el periodo de tiempo considerado, de modo que se obtendrn pares de datos con la forma (, ), para cada hashtag emitido por A en el instante . Ahora se recogen los casos en que B ha emitido el hashtag y se construyen los pares de datos homlogos, (, ). A continuacin, diferenciamos dos casos: 1. Con los hashtags tales que < 0 se obtendrn tuits con hashtags de B posteriores a la emisin del tuit de A. 2. Con los para los que no hay tuits emitidos por B equivalentemente, no existe , se obtendrn tuits con hashtags de A que no relacionados con B. As, a partir del total de tuits con hashtags emitidos por A, A AB Bn m+ podremos calcular el ndice de influencia asociado a hashtags que ha ejercido A sobre B, ndice que estar entre 0 y 1, donde 1 representar el caso de influencia mxima. # ( , ) ABA A

B B

nInd A Bn m

=+

Esta mtrica proporciona un mtodo de cuantificar la influencia que A ejerce sobre B en el campo de los hashtags. Lo que interesa ahora es conocer cmo de influyente es el usuario A en general, es decir, cun propensos a propagarse son los hashtags que l emite. Tambin se calcula, a partir de #(,), la facilidad que tiene B para propagar los contenidos que lee, emitidos por otros usuarios. Para el caso del emisor A, el clculo de la mtrica subyace en la media de sus influencias entre pares conectados. Sea nfr el nmero de seguidores de A. Entonces su mtrica de influencia vendr dada por

## 1 ( , )( ) nfrBout Ind A BInd A nfr== , donde el ndice B recorre a cada seguidor de A. Y este valor, acotado entre 0 y 1, es la mtrica de influencia de usuarios en el mbito de los hashtags, en el sentido de qu cantidad de contenido emitido ha llegado a


- 12 -

ser propagado. Anlogamente, se define una mtrica de influencia de entrada nos referiremos habitualmente a la influencia anterior como influencia de salida, es decir, qu cantidad de contenido ledo se ha reenviado y, consecuentemente, propagado permitir medir la facilidad con la que se influye sobre un usuario. Si denotamos por nfd al nmero de seguidos de un usuario, tendremos que la mtrica de influencia de entrada de usuarios ser:

## 1

( , )( )

nfd

Ain

Ind A BInd B

nfd== , donde el ndice A recorre a los seguidos del usuario B.

3.1.2 Direcciones URL De manera similar a lo realizado anteriormente, deseamos medir la influencia asociada a las direcciones URL. Si A emite un tuit con un enlace, qu puede hacer un seguidor suyo B en relacin a dicha emisin? En primer lugar, estudiamos la conducta de A acerca de la emisin de direcciones web, i.e., se recogen los tuits con URL de A a lo largo del tiempo. Si A no ha emitido URL, como hicimos antes, no podremos ni afirmar ni negar la capacidad de influencia, ya que no ha efectuado conducta s podremos decir que no ha ejercido influencia sobre B en lo que a URL se refiere. Cuando tenemos casos de emisin por parte de A de tuits con URL, entonces se recogen todos los tuits con URL y se escoge el tuit ms antiguo en el conjunto de datos, de modo que, de nuevo, tenemos para cada URL el par ,, con el instante en que fue emitido. Ahora buscamos los tuits de B que contengan las URL y nos quedamos de nuevo con el ms antiguo. As quedan construidos tambin los pares ,. Con todo: 1. Con los tales que < 0 se obtienen tuits con URL de B posteriores a la emisin por parte de A. 2. Con los no emitidos por B tenemos tuits con URL de A no tuiteados por B. Finalmente con el total de tuits con URL emitidos por A, +, se calcular el ndice de influencia en el campo de las URL que ha ejercido A sobre B, ndice que, tambin, estar en el intervalo [0,1]: ( , )

AB

A AB

RLB

UnInd A B

n m=

+


- 13 -

A continuacin procedemos de forma similar al caso de los hashtags para obtener una expresin que proporcione la influencia, tanto de entrada como de salida, de los usuarios en lo que a propagacin de direcciones URL se refiere. Recordemos que nfr denota al nmero de seguidores de un usuario y nfd, al nmero de seguidos. As, aplicamos la definicin explicada para el caso de los hashtags: para cada usuario, hacemos la media de las medias entre pares conectados asociadas a l. La influencia de salida ser, fijado un emisor A, la suma de los ndices de red para cada B seguidor suyo, partido por el nmero de seguidores que tiene, nfr: 1

( , )( )

nfr

URLURL Bout

Ind A BInd A

nfr== , valor que nos dar la influencia de salida de A para URL. Para un usuario B, su influencia de entrada ser

1( , )

( )

nfd

URLURL Ain

Ind A BInd B

nfd== Los ndices B y, respectivamente, A recorren a los seguidores de A y, respectivamente, a los seguidos de B.

3.1.3 Menciones Las menciones llevan asociado en Twitter un comportamiento distinto que los hashtags o las direcciones URL. Cuando un usuario menciona a otro, el mencionado recibe una notificacin, pero no se ha entrado en esta alusin a la hora de calcular las mtricas relacionadas con la menciones. Una vez ms, lo que se desea hacer es medir cmo influye el usuario que emite la mencin, A, sobre un seguidor suyo, B. Procedemos de la forma habitual. Tomamos las menciones del usuario emisor A, que denotamos por , y de los tuits que contienen a la mencin nos quedamos con el ms antiguo, as como con su instante, de manera que se construyen los pares ,. Anlogamente, construimos los pares asociados al seguidor B, ,, para esas mismas menciones. Ahora slo faltan los conteos que permitirn la construccin del ndice de influencia en el campo de menciones. 1. Con las menciones tales que < 0 se obtendrn tuits con

hashtags de B posteriores a la emisin del tuit de A. 2. Con los para los que no hay tuits emitidos por B o que no existe , se obtendrn tuits con hashtags de A que no relacionados con B.


- 14 -

Con todo, estamos en condiciones de dar la mtrica de influencia relativa a menciones, que sigue la forma usual. @ ( , )

AB

A AB B

nInd A Bn m

=+

As pues, dado un usuario A, si seguimos el mtodo anterior, su influencia de salida en tuits que contengan menciones podr ser calculada mediante la expresin anloga a la vista en los casos de hashtags y direcciones URL. @

@ 1( , )

(A)

nfr

Bout

Ind A BInd

nfr== Finalmente, para un usuario B, su influencia de entrada ser

@ 1@ ( , )

( )

nfd

Ain

Ind A BInd B

nfd== Cabe destacar que nfr y nfd siguen la notacin habitual y que los ndices A y B recorren los conjuntos usuales.

3.1.4 Replies y retuits Las mtricas construidas para respuestas y retuits siguen un esquema distinto al visto hasta ahora. Lo que se ha hecho es considerar cuntos casos de retuits y respectivamente, replies se han realizado en el par conectado, as como cuntos ha habido asociados a cada usuario. De esta forma, para un par conectado, se relacionan los retuits respectivamente, replies del par con los retuits respectivamente, replies del usuario concreto y se obtiene una mtrica de influencia para el par (,), que posteriormente se usar como ponderacin para el nmero de retuits respectivamente, replies relacionados con todos los tuits del usuario.

(,) = donde j indica que el caso sea de replies o retuits, es el nmero de replies o retuits indicado por j que B ha realizado sobre tuits de A y es el nmero total de replies o retuits que se ha realizado, a lo largo de toda la muestra, sobre tuits emitidos por A.


- 15 -

Finalmente se aplica la media que hemos visto en los apartados anteriores, tanto para el caso de entrada como para el caso de salida. 1 ,

( , )( ) ,

nfr

jj B

out

Ind A BInd A

nfrj retuits replies== =

1

( ,) , ,

)(

nfd

jj A

in

Ind A BInd j retuitsB repl e

fdi

ns== =

Una vez ms, nfr, nfd, A y B siguen la notacin anterior.

Observacin. El valor de todas estas mtricas es calculado el da anterior al que se evala la propagacin del evento. Es decir, si estamos considerando si el evento se propaga o no para un da d, el valor de las mtricas anteriores va referenciado al da 1. 3.2 Temtica de contenidos Una consideracin digna de tener en cuenta es la temtica de la que trata un contenido en cuestin. Un usuario ntimamente ligado al mundo del deporte, puede ser, al menos en Twitter, influyente sobre usuarios especialmente interesados en la poltica? Hemos asumido que la influencia de los usuarios puede tener relacin con el tema del que se trate, por lo que las nuevas mtricas que presentamos dependern de una variable que indique la temtica. Decidimos, para empezar, qu temas aparecen ms habitualmente en Twitter. La empresa americana Pear Analytics public un estudio sobre Twitter [5] en el que, entre otros apuntes, propona seis categoras para las temticas de la red, a partir de 2.000 tuits de cuentas estadounidenses y en ingls, captados en horario de 11 a 17 horas:

Chchara Conversaciones Retuits o mensajes repetidos Autopromocin SPAM Noticias En el proyecto hemos optado por una clasificacin alternativa, desarrollada a partir de una muestra en cuyas caractersticas entraremos en la siguiente seccin. De


- 16 -

todo el conjunto de tuits con el que se contaba, se escogieron hashtags5

que, tras un anlisis pertinente, se concluyeron como bien propagados a lo largo del horizonte temporal, en el sentido de que se observaban frecuentemente en la red en casos de propagacin. A partir de estos hashtags se analiz el contenido de los tuits en los que aparecan y se agruparon todos ellos en catorce categoras temticas: Listas. Categora que hace referencia a los tuits que no tratan de temas en concreto y cuyo principal objetivo es la mofa, burla y humor absurdo. Televisin. Asociada a comentarios sobre los programas de alto share en la parrilla televisiva; categora inspirada en los reality shows, presentadores, celebridades famosas por sus apariciones en la televisin, etctera. Movimientos sociales. Categora que hace referencia a las agrupaciones originadas a raz de protestas sociales causadas por descontento poltico, con el 15M como ejemplo de referencia. Temtica tambin orientada a la convocatoria de huelgas. Poltica. En contraposicin a la temtica anterior, a menudo se observaron en la muestra tuits que hablaban sobre figuras polticas y sus apariciones pblicas o intervenciones en el Congreso, sin referencia a organizacin social. Geografa. Categora relacionada con el turismo y la promocin de elementos culturales nacionales. Noticias. Hashtags sobre temas de actualidad, tratados en prensa frecuentemente. Empresas. Autopromocin de marcas y productos. Ocio. Conciertos, festivales de msica o cine, nuevos estrenos. Deportes. Incluye noticias deportivas, excluidas de la seccin de Noticias. Entran en esta seccin tambin nombres de deportistas. Redes sociales. Twitter es un tema que abunda en la propia red, pero tambin se habla de conocidas redes como Facebook, LinkedIn, Flickr o FourSquares. Ciencia y tecnologa. Temtica con no mucha actividad asociada, pero que supone un tema claro en los tuits. Categora relacionada con noticias de eventos cientficos. Preocupaciones sociales. Temtica relacionada con conceptos como empleo, educacin, salud, sociedad. En un principio estaba incluida en Movimientos Sociales, pero tras el estudio de la toda la muestra, muchos hashtags daban cabida a un grupo aparte. Hobbies. Aficiones personales de los usuarios. A diferencia de la seccin de Ocio, los hashtags aqu incluidos hablan de actividades realizadas por los propios usuarios, mientras que Ocio trata de temticas que engloban a personalidades del mundo de la msica, del cine, del teatro

5 Un total de 668 hashtags.


- 17 -

Otros. Hashtags que en funcin de la totalidad del tuit podan incluirse en una categora o en otra. Por ejemplo, #Diseo, que aparece en hashtags de empresas y hobbies. Todos los hashtags con los que se ha trabajado en la construccin del conjunto de datos sobre el que se aplicarn los modelos han sido previamente categorizados. Tambin las menciones con las que se ha trabajado han sido previamente categorizadas en las mismas categoras que los hashtags. A partir de los hashtags con una temtica ya asociada unvocamente, se tomaron todos los tuits en los que alguna mencin aparece con algn hashtag ya categorizado6

. As pues, para cada mencin se saba con qu hashtag haba aparecido y cuntas veces. Con este dato, se relacion cada mencin con las categoras de hashtags con los que aparecan en los tuits y se construy una tabla de la forma:

El siguiente paso fue hacer una transformacin tf-idf vase [6] de forma que se valorara, de manera global, las categoras de hashtags que ms frecuentemente acompaaran a cada mencin. Finalmente se decidi que la temtica de una mencin vendra dada por aquella con un tf-idf mayor. Transformacin tf-idf. El nombre del trmino viene dado por las siglas de term frequency e inverse document frequency. La situacin en la que se origina este mtodo es una en la que se desean agrupar documentos en varias temticas, de acuerdo a los trminos que contienen. En el caso que nos atae, el objetivo es clasificar menciones de acuerdo a las categoras de hashtags que las acompaan en los tuits. La idea de la medida es no slo tener en cuenta la frecuencia de un trmino concreto (term frequency) en el documento, sino tener tambin en cuenta lo importante que es ese trmino en el conjunto de todos los documentos (inverse document frequency); en paralelo, se valora no slo la frecuencia de cada categora para una mencin concreta sino la importancia de la categora a nivel global. Como se puede ver en [6], hay diversas formas de plantear la transformacin. Aqu hemos optado por la natural con el idf no probabilstico. 6 Se cuenta con un total de 32964 menciones con esta caracterstica.


- 18 -

La frecuencia de cada mencin con cada categora se calcula con: ,ijij

kjk

nt if

nj=

donde i recorre las categoras y j, las menciones, y es el nmero de veces que aparece la mencin i con la categora j. El otro trmino se calcula con la frmula

{ }log

: 1i

i j

Di

j t didf

= +

|| es el nmero total de menciones y { }: i jj t d es el nmero total de menciones que contienen a la categora . El tf-idf se obtiene haciendo el producto .ij itf idf i j As se obtiene la frecuencia de aparicin de una mencin con una categora, ponderada por la importancia de esa categora en el corpus global. Es de esta forma como se consigue que un valor alto del tf-idf se deba a una alta frecuencia de la mencin i con la categora

j y a una baja frecuencia de la categora en toda la muestra. Lo que se pretende con esto es filtrar las categoras que se repiten con todas las menciones y aumentar la importancia de categoras poco frecuentes, que podrn ayudar ms fcilmente a determinar la temtica. Aunque consideramos que incluir una temtica en el clculo de las mtricas ayudara a predecir el target, tambin mantuvimos la definicin original por supuesto, sin emplear informacin futura, que no incluye temticas. Con ello, no slo obtuvimos ms variables explicativas para los modelos, sino que nos permiti la introduccin de direcciones URL como contenido propagable7 . 4 Conjunto de datos Hasta aqu hemos dado un planteamiento terico del problema estamos tratando y hemos visto las ideas en que se basa y diferentes puntos de vista que pueden ser considerados, cuya validez queda pendiente hasta la aplicacin de los modelos. El conjunto de datos global cuenta con 133.405.647 tuits, emitidos desde cuentas espaolas, en castellano o cataln, en un periodo de tiempo comprendido entre el 13 de febrero de 2012 y el 26 de agosto de 2012. De ellos se conoca, aparte de la totalidad del mensaje, la fecha y la hora en la que fue emitido, y el usuario emisor. 7 Proponer una temtica para sitios web cuando, a priori, lo nico con lo que se cuenta sobre ellos es su URL es un trabajo poco automatizable.


- 19 -

Mediante SAS se construyeron nuevas tablas que detallaban informacin sobre hashtags, menciones y direcciones URL que aparecan en los tuits, as como sobre retuits y las replies que haban sucedido en la muestra. Todos ellos eran fcilmente identificables a partir de las smbolos reservados de Twitter identificados en el texto #, @ o RT Adems, como ya hemos dicho anteriormente, se haba evaluado qu hashtags, menciones y direcciones URL haban tenido buenas propagaciones. Para la construccin del modelo fue necesaria una adaptacin de los datos para que hubiera una tabla que contara con variables identificadoras, variables explicativas y la variable target. Aunque el objetivo de este proyecto se centra en la modelizacin de la propagacin en orden a validar las mtricas propuestas, explicaremos cmo se ha construido el datamart del modelo, ya que ha supuesto gran parte del tiempo invertido. Los casos en los que la propagacin result exitosa venan dados en los datos iniciales. Las tablas que daban contenidos bien propagados relacionaban pares de usuarios, con una fecha de emisin de un contenido y el tiempo, en horas, en que la propagacin haba resultado efectiva. De aqu se construyeron las observaciones en las que la variable target toma valor 1. La generacin de las observaciones con target igual a 0 supuso un planteamiento diferente. Qu es un caso 0 en lo que al target se refiere? Cada vez que un usuario emite un contenido, todos sus seguidores tienen acceso a l. As pues, dado un usuario A y un contenido emitido, se generarn tantas observaciones para ese contenido como seguidores tenga A. El datamart habra adquirido dimensiones del orden de 2 109 observaciones, de las que nicamente un 0,25% eran eventos de propagacin. El nmero de eventos de propagacin satisfactoria era ms que suficiente para el aprendizaje del modelo 2,5 millones y la necesidad de realizar un bajomuestreo se antoj una estrategia de modelizacin deseable para que dicho aprendizaje no estuviera descompensado. En particular, optamos por realizar un bajomuestreo de forma que la proporcin final fuera del 50% para las dos clases de la variable objetivo: mantuvimos todos los casos 1 de los que disponamos y tombamos una muestra aleatoria de casos 0, hasta que las proporciones se equipararan. El manejo de esta muestra de 5 millones de registros era posible con los equipos que utilizamos sin necesidad de tcnicas analticas orientadas al tratamiento masivo de datos. En dicho muestreo se opt por priorizar a los usuarios ms activos, de forma que se intentaba prescindir de usuarios cuya actividad fuera escasa; en cierto modo, se evitaban cuentas muertas de Twitter o de bajo flujo de informacin. Analicemos la situacin. Como disponamos de muy pocos casos con target igual a 1, adaptamos el conjunto de datos para que dispusiramos de proporciones ms apropiadas. Cuando la proporcin difiere en demasa, se corre el riesgo de que los modelos no encuentren reglas que caractericen a los casos 1. Si bien los modelos de la seccin 5 estn construidos sobre el conjunto bajomuestreado, almacenamos el conocimiento a priori de las proporciones originales para poder reescalar las calculadas por el modelo las predichas, vase [7], de forma que pudiramos verificar la bondad real del modelo sobre una tabla de test que respetara las proporciones originales.


- 20 -

Las proporciones originales y las presentes tras el bajomuestreo vienen relacionadas de la siguiente manera. Sean: t : clase del target

: probabilidad obtenida con el modelo para la clase t del target : probabilidad tras el bajomuestreo de la clase t : probabilidad original de la clase t Para referenciar las probabilidades obtenidas tras el ajuste del modelo a los umbrales de las proporciones originales 0,25% empleamos la siguiente expresin para cada clase t de la variable target:

0,1. ,t tt

ProbM ProbOP

trob

= Con el objetivo de que el resultado obtenido pueda interpretarse como una probabilidad necesitamos que sume 1, lo normalizamos dividiendo entre la suma de ambas: ( )

1

0

, 0,1.

j

t t t

j jj=

ProbM ProbO ProbProbCorregidaProbM ProbO Pro

tb

==

Esta tabla de test qued reservada antes de empezar con el entrenamiento de los modelos y conservaba las proporciones originales. Del conjunto de datos se emple el 80% para entrenar y el otro 20% para realizar el test, de manera que pudiramos evaluar la capacidad predictiva del modelo sobre una tabla distinta a la de entrenamiento y con las proporciones originales.

Figura 1. Disgregacin del conjunto de datos y orden de magnitud de los subconjuntos. A partir del conjunto de datos bajomuestreado, hicimos una particin en dos conjuntos: uno para el entrenamiento del modelo, con la proporcin del 50% para cada clase del target; otro para test, con la proporcin original de un 0,25% de la clase 1 del target. Notacin: denominamos a los casos de propagacin como positivos target igual a 1; a los casos de no propagacin, como negativos target igual a 0.


- 21 -

La segunda parte de esta seccin trata de las variables. Demos una breve descripcin de aquellas con las que se ha trabajado antes de pararnos en detalle en cada una de ellas. Target

Propagacin. Variable binaria que indica si un contenido se ha propagado o no. Indicadores

Fecha. Da, mes y ao en que el usuario A emiti un contenido. Followed. Usuario que emiti el contenido (usuario A). Follower. Usuario seguidor de A, sobre quien habr que predecir si emplear ese contenido o no. Denotado por B frecuentemente. Contenido. Hashtag, mencin o URL cuya propagacin se desea predecir. Categora. Grupo temtico en el que se ha clasificado el contenido. Viene dada en dos variables: una numrica y otra de tipo carcter.

Explicativas Influencia_in_cat. Influencia de entrada por categora, mtrica que cuantifica en qu grado se influye sobre el follower en funcin de la categora. Influencia_out_cat. Influencia de salida por categora, mtrica de influencia del

followed en funcin de la categora. Influencia_in_nocat. Influencia de entrada, mtrica que cuantifica en qu grado se influye sobre el follower. Influencia_out_nocat. Influencia de salida, mtrica de influencia del followed. Influencia_in_rts. Influencia de entrada en relacin a los retuits. Influencia_in_replies. Influencia de entrada en relacin a los retuits. Influencia_out_rts. Influencia de salida en relacin a las replies. Influencia_out_replies. Influencia de salida en relacin a los replies. Actividad_follower. Nmero de iteraciones del receptor. Actividad_followed. Nmero de iteraciones del emisor. D_num_followers. Nmero de seguidores del emisor. D_num_followees. Nmero de usuarios a los que sigue el emisor. R_num_followers. Nmero de seguidores del receptor. R_num_followees. Nmero de usuarios a los que sigue el receptor.

4.1 Variable target

4.1.1 Propagacin El valor de la variable target Propagacin depender de la actuacin del usuario B. El usuario A, con el papel de emisor, emite un contenido que el usuario B, seguidor o follower del usuario A, lee. Si posteriormente en un plazo no mayor de 24 horas emplea ese contenido en un tuit, el contenido se considerar propagado y la variable Propagacin tendr valor 1. En caso contrario, tomar valor 0. Aclaremos este punto. Que Propagacin sea igual a 0 no implica que el usuario B no haya empleado el


- 22 -

contenido en cuestin, sino que no lo ha propagado: puede ser que lo haya ledo del usuario A, en cierta fecha y hora t, y que das despus, en t, con > + 24, lo haya emitido. No consideramos este caso como propagacin, puesto que supera el umbral de tiempo aceptado, pero es por esto por lo que un 0 en Propagacin no implica ausencia de uso. Ya mencionamos ut supra que la proporcin de casos 1 frente a casos cero es en torno al 0.25%. Concretamente contamos con 2.466.401 casos 0 y 6.132 casos 1. En las dos tablas siguientes presentamos algunos estadsticos de inters sobre el nmero de casos 0 y de casos 1 con los que contamos por da. Anlisis del nmero de casos 1 da a da Media Desv. tpica Curtosis Mediana Primer cuartil Tercer cuartil 31,77 33,1211 1,5811 15 10 50 Anlisis del nmero de casos 0 da a da Media Desv, tpica Curtosis Mediana Primer cuartil Tercer cuartil 12779,28 11689,12 0,6565 7020 5255 18478 Si bien las magnitudes de las dos clases aparentan total disparidad, estadsticos como la media y la desviacin tpica s mantienen la proporcin de 0,0025 existente entre el nmero de casos de cada clase, lo que sugiere algn parecido entre las distribuciones de las clases.

4.2 Variables identificadoras

4.2.1 Fecha La variable Fecha indica da, mes y ao de la observacin. Trabajamos en un rango que se inicia el 13 de febrero de 2012 y acaba el 26 de agosto de 2012. En la Ilustracin 4 podemos ver la distribucin en un intervalo del horizonte temporal del nmero de emisiones por da y de propagaciones. Hay cierta estabilidad en la variable salvo algunos picos, entre los que destacan el 19 de febrero y los das finales de marzo, por ejemplo, asociados a das cercanos a huelgas promovidas a nivel nacional. La magnitud de la variable de propagaciones es mucho menor que la de emisiones, pero la estructura de la serie temporal es similar. A partir de los grficos, podemos decir que varan a la par las dos variables.


- 23 -

Ilustracin 4. Nmero de emisiones (azul) y propagaciones (rojo) a lo largo del horizonte temporal

4.2.2 Followed El usuario A es el que emite el contenido cuya propagacin queremos estudiar. Viene identificado con un ID numrico y puede aparecer como receptor del contenido en otra interaccin puesto que puede ser seguidor de otros usuarios. El usuario A tambin puede ser seguido un followee por varios usuarios En la muestra con la que trabajamos hay 47.394 usuarios que aparecen al menos una vez como emisores, de los que 390 no juegan nunca el papel de receptor. 4.2.3 Follower El usuario B es el receptor del contenido. Como seguidor de A, cuanto ste emita un contenido, el seguidor B lo leer. Un usuario puede ser seguidor de muchos usuarios. El estudio lo realizamos sobre una muestra con 55.771 que actan alguna vez como receptores de un contenido; de ellos, 8.756 no actan nunca como emisores. En total contamos con 56.159 usuarios distintos. En la Ilustracin 5 podemos ver cmo evoluciona el nmero total de usuarios a lo largo del tiempo. Volvemos a apreciar el pico en el 29 de marzo, da de huelga. Da a da, los estadsticos que se obtienen sobre el nmero de usuarios que interactan vienen dados en la tabla siguiente:

Anlisis del nmero de usuarios da a da Media Desv. tpica Curtosis Mediana Primer cuartil Tercer cuartil 11.045,17 7.792,32 -0,3800 7.394 5.709 16.794


- 24 -

Ilustracin 5. Nmero de usuarios da a da

4.2.4 Contenido En el estudio que estamos haciendo, el objeto sujeto a ser propagado vendr dado por esta variable. Ser un campo de tipo carcter que contendr una mencin a un usuario nombre de usuario precedido por el smbolo @, un hashtag una palabra o frase sin espacios en blanco precedida por el smbolo # o una direccin URL iniciado por http://. Nuestro objetivo es validar si las mtricas que se nos han facilitado son buenos predictores de la propagacin de un contenido concreto. A lo largo de toda la muestra, podemos ver 619 hashtags distintos, 23.799 menciones distintas y 3.095 direcciones web distintas. Mostramos a continuacin unos estadsticos sobre esta variable. La serie temporal de esta variable muestra de nuevo la subida en el nmero de datos disponibles a partir de julio, pero en la grfica del total de contenidos como serie temporal podemos apreciar algo que no quedaba tan claro en los grficos de otras variables. Mientras que el nivel de la variable se mantiene estacionario en media, se aprecia una estacionalidad semanal. Podemos fijarnos en un grupo de tres meses para observar la estacionalidad con mayor detalle. En la Ilustracin 6 nos hemos centrado en los datos de los meses de marzo a mayo, y podemos ver que los picos se suceden cada fin de semana el primer pico, el del 9 de marzo, corresponde a un sbado. Tambin se intuye que los lunes sufre una fuerte cada la emisin de contenido en Twitter, que se recupera poco a poco. Hacemos el anlisis descriptivo habitual: Anlisis del nmero de hashtags, menciones y URL da a da Media Desv. tpica Curtosis Mediana Primer cuartil Tercer cuartil 638,675 396,533 10,461 557,5 469,5 638,5


- 25 -

Ilustracin 6. Nmero de contenidos emitidos por da (muestra de marzo a mayo)

4.2.5 Categora La temtica de un contenido juega un papel clave en el estudio de la propagacin. Un usuario puede ser muy influenciable en una categora e.g., deporte pero no estar interesado en otra poltica. De esta forma, si no se distinguiera una temtica, las mtricas de influencia no consideraran esa variacin del inters de manera que, en un ejemplo as, restara importancia al deporte mientras que aumentara el peso de la poltica. El campo Categora es de tipo numrico8En los modelos no trabajaremos con Categora como una variable explicativa, pero resulta imprescindible en el clculo de las mtricas.

y toma tantos valores como temticas distintas se hayan identificado. Recordemos que estamos trabajando con catorce categoras. 4.3 Variables explicativas En esta seccin se explica el conjunto de las variables con las que se pretende predecir la probabilidad con la que la variable target tomar valor 1. No entraremos en un anlisis descriptivo de cada una por ahora. Antes de finalizar la seccin, mostraremos 8 Hay otra variable, Cat_name, de tipo carcter, que para cada valor de Categora da un nombre a la temtica, en lugar de un nmero. Se construy para que, cuando se viera a la tabl a, quedara clara la temtica del contenido, pero nunca se ha trabajado con ella.


- 26 -

unos grficos que ilustran cmo vara la probabilidad de propagacin con respecto a cada una de las variables que entrarn en el modelo explicado en la seccin 5.2. 4.3.1 Influencia dependiente de la temtica de contenidos

Influencia_in_cat. La primera variable explicativa que presentamos est asociada a la tendencia con la que un usuario que solemos representar por B propagar el contenido que lea, emitido previamente por otro usuario: la influencia de entrada. Est construida segn las explicaciones de la seccin 3.1, por lo que no entraremos en ms detalle. Tan slo es importante mencionar que esta variable depende de la temtica del contenido; es decir, dado un usuario en una fecha concreta, esta variable slo estar construida a partir de las propagaciones asociadas a la temtica en cuestin y registradas con anterioridad a dicha fecha. Esta variable, cuyos valores caen en el intervalo [0,1], indica cun propenso es un usuario a propagar cierto contenido, a emitir lo que ha recibido. Por lo tanto, de manera intuitiva, est ntimamente ligada a la variable target Propagacin. Que sea as o no lo concluiremos de los modelos. Influencia_out_cat. Recordemos que la influencia de salida indica la facilidad con la que los contenidos emitidos por un usuario se propaguen. Las caractersticas de la variable son anlogas a las de Influencia_in_cat, salvo que la de salida hace referencia al followed mientras que Influencia_in_cat se emplea relacionada con el follower. Su validez como mtrica de influencia ser evaluada por los modelos que se exponen en la seccin 5. Ser otra variable que nos ayudar a validar las mtricas de influencia: Influencia_in_cat permitir hacer el estudio para los receptores tendencia a reemitir lo recibido, a retuitear, a responder, a reenviar e Influencia_out_cat se aplicar para los emisores capacidad de crear contenido exitoso, propagable. 4.3.2 Influencia independiente de la temtica de contenidos

Influencia_in_nocat. Es la homloga al apartado anterior, con la diferencia de que no tiene en cuenta la temtica. Esta variable est construida asumiendo que la propagacin de los contenidos slo se diferencia en que sea una URL, una mencin o un hashtag. Viene dada por las mtricas que se nos han proporcionado, por lo que ser tambin una de las variables cuya relevancia habr que validar. Influencia_out_nocat. La variable homloga a Influencia_in_nocat para el caso del emisor es la que indica su influencia sobre otros usuarios, la influencia de salida. Influencia_out_nocat viene dada tambin por las mtricas de influencia facilitadas y est tambin comprendida entre 0 y 1.


- 27 -

4.3.3 Influencia para los retuits y las replies Hemos valorado la posibilidad de que un usuario pueda ser propenso a retuitear o responder tuits de otros, as como la facilidad para que a un usuario le retuiteen o respondan sus tuits. Respectivamente, estaramos hablando de las variables Influencia_in_rts, Influencia_in_replies, Influencia_out_rts e Influencia_out_replies. Si bien la construccin de las variables ya ha sido expuesta anteriormente, no est de ms recordar que estas variables no dependern del tipo de contenido. Estas variables actan con la idea de, a da de hoy, cul es la influencia de salida del followed, del usuario A, de cara a retuits? Se ha pensado que si, por ejemplo, al emisor lo retuitean mucho, ser ms probable que se propaguen sus contenidos. Una vez ms, los modelos confirmarn esta intuicin. 4.3.4 Otras variables de inters

Actividad_followed. En la seccin anterior se vio que la construccin de las mtricas de influencia est restringida a unas consideraciones determinadas. Actividad_followed es una variable que, junto con Actividad_follower, ayudar a matizar la influencia de un usuario. Las mtricas slo miden la influencia de usuarios en trminos relativos, en el sentido de que un usuario con una media de 100 tuits al da y otro, con una de 10, ambos con una influencia de 0,8, seran considerados igualmente influyentes por el modelo. Actividad_followed da el nmero de emisiones, restringidas a la temtica dada en

Categora, que ha hecho el emisor hasta la fecha. Destacamos el hecho de que no hace referencia slo a la actividad del usuario como emisor, sino en general, bien aparezca en la columna Followed, bien en la de Follower. Actividad_follower. Tambin estamos interesados en la actividad global de receptor, puesto que cabe esperar que un usuario que ha tuiteado poco a lo largo del marco temporal sea ms reacio a propagar un contenido y, sin embargo, puede tener una influencia de entrada alta pensemos en el caso de usuarios cuya cuenta haya sido creada recientemente. Anlogamente a Actividad_followed, no se centra nicamente en el usuario B como receptor, sino en toda su actividad en la red. D_num_followers. Cuntos seguidores tiene el emisor tambin puede ser un factor relevante a la hora de predecir si sus emisiones se acabarn propagando. La influencia de un usuario con pocos seguidores puede no considerarse idntica a la de un usuario con muchos seguidores. Imaginemos un perfil de usuario de Twitter que usa la red para comunicarse con amigos suyos, de forma que entre su crculo de amistad sus mensajes se propagarn fcilmente, pero no expande su red ms all de su crculo. Pongamos en contraposicin a este perfil una empresa, interesada en publicitar su marca en las redes sociales; tendr o debera tener muchos seguidores y querr que muchos de ellos propaguen sus contenidos. Recordemos una vez ms que sern los modelos quienes validarn o no estas suposiciones.


- 28 -

D_num_followees. Con la variable asociada al nmero de seguidos del usuario emisor queremos recoger los perfiles de usuarios que, en Twitter, slo se dedican a emitir informacin y no tanto a buscarla, como la Polica Nacional (@policia). Una vez ms, no sabemos an si ayudar a predecir la propagacin de un contenido ni si, en consecuencia, sera un matiz digno de ser introducido en la construccin de las mtricas. R_num_followers. Estamos interesados en estudiar tambin los casos equivalentes para el usuario B, receptor del contenido. No obstante, el nmero de seguidores del receptor no parece un detalle relevante en trminos de inters en propagar contenido. Lo estudiaremos con los modelos. R_num_followees. A cuntos usuarios sigue el receptor puede ayudar a captar los perfiles de usuarios muy activos en Twitter, que siguen a tanta gente como sea posible. Este factor puede acarrear una mayor atencin a la red social y, en consecuencia, mayor propensin a la propagacin. Como ya ha sido comentado, presentamos ahora unos grficos de la Ilustracin 7 a la Ilustracin 14 que ayudan a entender la relacin entre la variable target y algunas de las variables explicativas. Concretamente, trabajaremos con las variables que sern introducidas en un modelo de regresin logstica que se explicar en la seccin 5.2. En los grficos no slo se mostrar la relacin con la proporcin original del target, sino que tambin veremos la relacin con la probabilidad predicha en ese modelo. La altura de las barras har referencia al valor de la tasa real del target para los casos de emisin que resultarn en propagaciones exitosas y que responden al rango de valores de la variable explicativa especificada en la base del grfico. Estos rangos se han obtenido tras el ajuste de un rbol de clasificacin que trata de separar las dos clases del target los casos 1 y los casos 0 a partir de cortes realizados sobre la variable explicativa. Como se ha comentado, estas variables participan directamente en un modelo de regresin logstica. La lnea amarilla que se presenta en la grfica superpuesta sobre las barras verdes, representa el valor medio de la prediccin que ofrece dicho modelo y, como se puede observar, se mueve en consonancia con las tasas reales del target observadas en cada uno de los rangos de valores obtenidos a travs del proceso de discretizacin mediante rboles. Como ejemplificacin del modo de interpretacin las grficas, fijmonos en la Ilustracin 10, asociada a la variable de la influencia de entrada en funcin de la temtica. En la cuarta categora de la variable se han agrupado 44.807 observaciones con una influencia de entrada en el intervalo [0.02, 0.14) y se ha observado que en 0,015 veces suceda un caso de propagacin. La prediccin asociada a esa misma clase daba un valor ligeramente inferior: del orden de 0.010. Destaquemos que en estas grficas lo ms importante no es que la probabilidad real y la predicha de que el evento target suceda sean iguales. Estamos analizando las grficas por separado, sin que se tenga en cuenta el modelo completo, que es lo que


- 29 -

realmente se usa para predecir. Lo importante es que, fijada una variable, la probabilidad real y la predicha varen a la par, de forma que podamos interpretar el significado de las variables de manera consistente. Exempli gratia, en la Ilustracin 10 los grficos sugieren que la prediccin vara de manera anloga al valor real con respecto a la variable que se est tratando, la influencia de entrada: cuanto mayor es esta, mayor ser la probabilidad de propagacin. El valor exacto de esta probabilidad depende de todas las dems variables, por lo que esa diferencia entre 0,015 y 0,010 no es significativa.

Ilustracin 7. Influencia de salida en el mbito de las replies frente al target y su prediccin

Ilustracin 8. Influencia de entrada frente al target y su prediccin


- 30 -

Ilustracin 9. Actividad del receptor frente al target y su prediccin

Ilustracin 10. Influencia de entrada (segn la temtica) frente al target y su prediccin


- 31 -

Ilustracin 11. Influencia de entrada respecto a las replies frente al target y su prediccin

Ilustracin 12. Influencia de salida (segn la temtica) frente al target y su prediccin


- 32 -

Ilustracin 13. Influencia de salida frente al target y su prediccin

Ilustracin 14. Actividad del emisor frente al target y su prediccin


- 33 -

5 Modelizacin Con el conjunto de datos ya preparado estamos en condiciones de construir los modelos que juzguen la validez de las mtricas definidas en la seccin 3. Recordemos que partamos de una proporcin de un caso 1 frente a cuatrocientos casos 0, por lo que nos vimos obligados a bajomuestrear para que pudiramos trabajar con una proporcin a partes iguales, no sin antes haber reservado un 20% del total de datos como conjunto de test que, adicionalmente, conservaba las proporciones originales. Si bien el modelo final que presentamos ser una regresin logstica, vamos a realizar un modelo previo mediante un rbol de decisin con la idea de proporcionar una visin fcilmente interpretable de la relacin entre las variables explicativas y el target de forma conjunta y no univariante como en los grficos que se presentaron en la seccin anterior.

Ilustracin 15. Modelo de rbol de decisin El resultado que muestra el rbol, desde un punto de vista muy general, es esperable. No obstante, SAS no ha empleado ninguna variable relativa a la influencia del emisor. El rbol ha sido una aproximacin a lo que ser el modelo definitivo. Los resultados sugieren que las variables de influencia asociadas al receptor del mensaje sern de mayor relevancia que las del emisor, as como que la actividad de los usuarios tambin estar presente. El modelo finalmente utilizado ha sido un modelo de regresin logstica con el que, si bien se ha perdido parte de lo directamente interpretable que son los rboles, se ha conseguido una mejora en trminos de la mtrica finalmente utilizada para valorar la bondad del modelo: la curva ROC.


- 34 -

5.1 Regresin logstica La regresin logstica surge ante la necesidad de modelizar la probabilidad de que un suceso ocurra o no, es decir, de que una variable target binaria tome valor 1 0. Recordemos que el modelo que se dar para la probabilidad del suceso en cuestin en este caso, la propagacin de un contenido viene dado por la expresin 0 1 1( )( )) lologi ( )t ,g 1 ( k kxx x xx + + += = donde k es el nmero total de variables explicativas y la variable x, el suceso cuya probabilidad se desea modelizar. Los inconvenientes que la regresin logstica suele presentar son la imposibilidad de tratar directamente con valores missing, el efecto negativo que generan los valores atpicos o outliers y la impotencia ante relaciones no lineales entre las variables. Existen posibles medidas para solventar esta desfavorable circunstancia. Entre ellas, la que se propone en este proyecto es la generacin de variables WOE vanse [8] y [9]. Una variable WOE9

es una transformacin que va a permitir trabajar con campos con valores atpicos, missing y que pueden presentar una relacin de dependencia no lineal con la variable target. Dada una variable, podemos categorizarla en grupos i y podremos as definir su variable WOE a trozos para cada grupo i como 0log 100

1i

ii

PropWOEProp

=

donde n de propagaciones en el grupo

n total de propagacionesiiProp1 =

n de propagaciones fallidas en el grupo .n total de propagaciones fallidasi

iProp0 = Esta categorizacin se ha realizado mediante un rbol de decisin sobre la variable en cuestin. Este procedimiento no slo evita los tres problemas que hemos mencionado antes, sino que adems busca la categorizacin de forma que se maximice 9 Del ingls Weight Of Evidence, peso de l a evidencia.


- 35 -

el poder predictivo sobre la variable target. Por estas ventajas, el modelo de regresin ha sido ajustado previa transformacin con variables WOE. Observacin. Para que la relacin reflejada por estas variables en el modelo de regresin logstica (seccin 5.2) responda al comportamiento observado en los grficos de la seccin precedente de la Ilustracin 14 a la Ilustracin 7, el parmetro estimado en la regresin asociado a cada una debe ser negativo vase Tabla 1. Como ya hemos visto con los rboles cmo intervienen generalmente las variables en la prediccin de la probabilidad de que un contenido se propague, presentamos directamente el modelo de regresin logstica que mejores resultados ha dado. 5.2 Modelo Tras la generacin de las variables WOE empleamos el procedimiento Logistic de SAS que se encarga de la construccin del modelo de regresin logstica. Con el mtodo de seleccin de variables por pasos stepwise, y con un nivel de significacin 0,05 = tanto para la entrada como para la salida de variables hemos obtenido el resultado que ahora damos. En la Tabla 1 vemos el orden en que han entrado las variables que el modelo utiliza.

Tabla 1. Pasos en la seleccin de las primeras cinco variables de la regresin


- 36 -

Tabla 2. Parmetros del modelo de regresin logstica (stepwise) El mtodo stepwise hace que el modelo final slo cuente con las variables significativas de cara a la prediccin, de manera que los p-valores asociados a las variables mostradas en la Tabla 2 son todos menores que el nivel . Fijmonos en que el modelo ha prescindido de las variables relativas a la red nmero de seguidos y seguidores del emisor y del receptor as como de las influencias de entrada y salida de retuits. Las siguientes figuras muestran los grficos de respuesta capturada asociada al concepto de cobertura, respuesta acumulada precisin, de lift y la curva ROC, empleados para medir la bondad del ajuste realizado con el modelo.

La grfica de porcentaje de respuesta capturada nos indica qu porcentaje de eventos reales se capturan con qu porcentaje de datos clasificados con mayor probabilidad, es decir, qu cantidad de eventos de propagacin quedan cubiertos con las observaciones con probabilidades ms altas. La grfica de respuesta acumulada ayuda a ver el porcentaje de aciertos sobre los eventos de propagacin con las observaciones con mayor probabilidad predicha asociada; intuitivamente, indica la precisin del modelo. La grfica de lift cuantifica cun preferible es el modelo en cuestin frente a una prediccin aleatoria para un tanto por ciento de las observaciones con mayor probabilidad de target igual a 1. Concretamente, es la razn de respuesta capturada entre la proporcin original de casos 1. Como en este problema la proporcin es de un 0,25%, la lift mxima ser de

400 100 %% 0,25= La curva ROC ilustra la variacin de la sensitivity { }1|1P frente a los falsos positivos. La ventaja de la curva ROC frente a las otras tres grficas es que no depende de la proporcin entre casos 1 y 0. La ROC permite obtener una medida de bondad del ajuste independiente de dicha proporcin. Concretamente, el modelo ser mejor cuanto mayor sea el rea bajo la curva 1 como mximo.


- 37 -

Para la evaluacin del modelo sobre el conjunto bajomuestreado, que es el que le sirve de entrada, fijmonos en la Ilustracin 16, donde comparamos las grficas de lift y las curvas ROC del modelo sobre los conjuntos de entrenamiento, validacin y test todos ellos con la proporcin de 50% para las dos clases del target. La superposicin de las grficas sugiere la capacidad de generalizacin del modelo. En los tres casos el rea bajo la curva ROC es de 0,85, medida de la alta calidad predictiva. Adems, la grfica de lift alcanza un valor cercano a 2, mximo valor que puede tomar en un caso en el que la proporcin entre los eventos positivos y los negativos sea de 50%-50%.

Ilustracin 16. Curva ROC sobre training, validacin y test para la proporcin de 50%-50%. rea bajo la curva ROC: 0,85714 (training); 0,8566 (validacin); 0,85770 (test). Recordemos que habamos conservado el conocimiento a priori de las probabilidades reales de la red social. Necesitamos evaluar este mismo modelo para un conjunto de datos que presente esas probabilidades. Las cuatro figuras siguientes se han representado para al conjunto de test y gracias a ellas podremos ver si el modelo ha aprendido una regla apropiada para detectar casos de propagacin, incluso en la escasa proporcin real que puede verse en Twitter: 1 400. El grfico que muestra el porcentaje de respuesta capturada (Ilustracin 17) indica que, con el 5% de casos a los que el modelo da mayor probabilidad de que el target Propagacin tome valor 1 (grfica azul), se localiza casi el 50% de los casos que realmente se han propagado y, sin embargo, un modelo aleatorio slo captara el 5% (grfica negra). Por la Ilustracin 18 grfica de respuesta acumulada podemos decir que, si cogemos ese mismo 5% de casos con mayor probabilidad, prediremos 10 veces mejor los eventos de propagacin que si empleramos como alternativa un modelo aleatorio en el que la lnea base vendra dada por la tasa media de ocurrencia del evento, 0,25%. La grfica lift de la Ilustracin 19 permite concluir que, por ejemplo, para, aproximadamente, las 25.000 observaciones con mayor probabilidad de ser eventos de


- 38 -

propagacin el 5% casos, , la tasa de respuesta capturada por el modelo construido es 9 veces mejor que la que obtendra un modelo aleatorio. Es importante que la lift llegue a un valor de 19, frente al valor cercano a 2 que conseguamos en la Ilustracin 16. Esta diferencia es una muestra de cmo la lift se ve afectada por las distintas proporciones de las clases de la variable target. Finalmente, la cuerva ROC de la Ilustracin 20 ilustra cmo la sensitivity aumenta con pendiente alta cuando los falsos positivos no crecen en exceso. Podemos dar como medida de bondad del modelo propuesto el rea bajo la curva ROC: 0,86. Observemos que, a diferencia de la lift, no influye la distinta proporcin del target sobre esta grfica.

Ilustracin 17. Grfica de respuesta capturada para test (cobertura)

Ilustracin 18. Grfica de respuesta acumulada para test, ampliada hasta el percentil 40 (precisin)


- 39 -

Ilustracin 19. Grfico de lift para test

Ilustracin 20. Curva ROC sobre el conjunto de test


- 40 -

6 Conclusiones y consideraciones futuras A lo largo de estas pginas hemos expuesto el procedimiento seguido para la construccin de un modelo de propagacin de contenidos en Twitter. Tras una introduccin a la red social, hemos definido unas mtricas que cuantifican la influencia de usuarios a partir de un histrico de datos. Ha sido objetivo de este proyecto no slo su construccin, sino tambin su validacin, realizada con el anlisis de la capacidad predictiva de modelos apoyados en ellas. Con estas mtricas ya desarrolladas, hemos ajustado un modelo de regresin logstica para predecir la propagacin de contenidos entre pares de usuarios. En lugar de introducir las variables originales, hemos realizado una transformacin previa a variables WOE. Esta transformacin solventa algunos inconvenientes de la regresin logstica como son: su incapacidad de deteccin de relaciones no lineales entre las variables explicativas, la imposibilidad de trabajar con valores missing y su alta sensibilidad a valores atpicos. Finalmente, presentamos el modelo obtenido, implementado en SAS, previo bajomuestreo del conjunto de datos, al que nos vimos obligados por la baja proporcin de eventos de propagacin. Para la evaluacin de la bondad del ajuste nos hemos centrado en el anlisis de las grficas respuesta capturada y acumulada, lift y curva ROC las cuatro analizadas para el conjunto de test, reservado con anterioridad al entrenamiento del modelo y que adems dispona de las proporciones originales: un caso de propagacin frente a 400 casos de no propagacin. Los resultados finales han sido favorables. Las mtricas definidas proporcionan informacin suficiente para obtener predicciones razonables de la propagacin de los contenidos de Twitter. Adems, la sencillez en la interpretacin de los rboles y las regresiones logsticas permite obtener conclusiones sobre la relevancia de las diferentes variables que hemos introducido en el modelo. Por ejemplo, los modelos tratados parecen indicar que el receptor del contenido, al que hemos denotado por B en el documento, juega un papel ms importante que el emisor de cara a la prediccin del evento. Tanto en el modelo de rbol como en el modelo de regresin ajustados, las variables asociadas al receptor entran en los primeros lugares y en mayor nmero, mientras que el nmero de variables relacionadas con el emisor relevantes en la prediccin es menor. Mencin especial merece el hecho de que las variables que hacen referencia a la red de usuarios nmero de seguidores y seguidos de un usuario han sido excluidas de los modelos. Con todo, los modelos parecen indicar que, cuando se trata de predecir la propagacin, es preferible apoyarse en la actividad de los usuarios, informacin en la que al fin y al cabo se basan las mtricas definidas. En el proyecto hemos empleado distintas herramientas matemticas que nos han permitido obtener toda la informacin mencionada. La transformacin tf-idf y las variables WOE nos han permitido afrontar problemas que aparentaban difcil resolucin, como son la clasificacin automtica de menciones en temticas o el tratamiento de atpicos y missing como paso previo a la regresin logstica. Aunque las predicciones obtenidas han tenido una evaluacin positivarecordemos que el rea bajo la curva ROC era de 0,86 podemos dejar propuestas


- 41 -

algunas mejoras. Tengamos en cuenta que una red social como Twitter cambia permanentemente y, por ende, los modelos empleados para explicarla y predecir sobre ella debern estar sujetos a una constante revisin. En el modelo presentado hemos trabajado con la influencia de los usuarios, pero tambin podran introducirse variables que cuantificaran la relevancia de contenidos. Cabe esperar que un hashtag o una direccin URL que haya tenido muchas propagaciones ser ms propenso a propagarse en el futuro que un contenido con poco xito entre los usuarios, por lo menos a corto plazo. Otro matiz que no hemos considerado en el proyecto es la relevancia del da de la semana ni la hora de la emisin vanse [10] y [11] y podran incluirse en el clculo de las mtricas en orden a aportar ms matices y, consecuentemente, mayor precisin. En el futuro, quiz contemos con modelos de propagacin ms matizados que el presentado en este trabajo. Mientras tanto, este modelo, a la vista de sus resultados, podr servir razonablemente como herramienta para la propagacin de los contenidos en la red social estudiada, Twitter.

Agradecimientos Nada habra sido de este proyecto sin la ayuda de Daniel Vlez, no slo director del mismo sino profesor tambin en la asignatura base para el proyecto, Estadstica Aplicada y Minera de Datos; ni de Jorge Sueiras, mi tutor durante estos meses en la empresa Neo-Metrics del grupo Accenture, quien me ha permitido desarrollar el trabajo en ptimas condiciones de cara a la inmersin en el mundo laboral uno de los objetivos del mster al fin y al cabo. En cuanto al mster en s, el Mster en Ingeniera Matemtica de la Universidad Complutense, es imprescindible el recuerdo a los profesores cuyo trabajo permite su existencia, en especial a M Carmen Pardo, coordinadora del mismo as como profesora de la parte de mayor peso en el proyecto: la regresin logstica. Cabe destacar tambin el provecho de las enseanzas de Jos Antonio Pealba (Instituto SAS) en el curso Programacin en SAS (1) y de Yolanda Garca (Facultad de CC. Informticas, UCM) sobre lenguaje SQL en la asignatura Bases de Datos, pues gracias a ellas fueron desarrollados cdigos eficientes de SAS que permitieron la obtencin de las mtricas, tan necesarias como variables explicativas en los modelos de propagacin. No quiero dejar en el olvido otras destrezas aprendidas en el mster como las tcnicas heursticas para optimizacin, la simulacin de sistemas dinmicos mediante mtodos numricos avanzados, las series temporales modelizadas con Demetra, SPSS, SAS o EViews, las tcnicas de simulacin estadstica en lenguaje GPSS o la gestin de riesgos en el mbito de la matemtica financiera. Son algunas de las herramientas matemticas y computacionales que, como complemento al proyecto, constituyen un amplio aprendizaje en el campo de la Matemtica Aplicada, la Estadstica y la Investigacin Operativa. Por ltimo, y no por ello menos importante, destaco los nombres de la profesora M Teresa Ortuo y del profesor Juan-Antonio Infante, cuyo apoyo incondicional antes y durante el mster, desde dentro y desde fuera de l, me han permitido alcanzar satisfactoriamente su final. Mi ms sincero agradecimiento.

Referencias

[1] P. Pareja, "La tercera guerra mundial ser de datos", Julio 2013. [En lnea]. [ltimo acceso: 7 septiembre 2013]. [2] C. Guadin Orta, F. Rangel Pardo y J. Llinares Salas, Anlisis de red de influencias en Twitter, 2012. [En lnea]. [ltimo acceso: 9 septiembre 2013]. [3] E. Bakshy, J. M. Hofman, W. A. Mason y D. J. Watts, Everyone's an Influencer Febrero 2011. [En lnea]. [ltimo acceso: 10 septiembre 2013]. [4] H. Haddadi, F. Benevenuto, K. P. Gummadi y M. Cha, Measuring User Inuence in Twitter: The Million Follower Fallacy, 2010. [En lnea]. [ltimo acceso: 7 septiembre 2013]. [12] L. Breiman, Classification and Regression Trees, 1993. [13] Oded Maimon, Data Mining and Knowledge Discovery Handbook, 2010. [14] T. Hastie, R. Tibshirani y J. Friedman, The Elements of Statistical Learning, Springer, 2009.

1 Introduccin1.1 Twitter

2 Planteamiento del proyecto3 Cmo medimos la influencia de usuariosConstruccin de las mtricas3.1.1 Hashtags3.1.2 Direcciones URL3.1.3 Menciones3.1.4 Replies y retuits

3.2 Temtica de contenidos

4 Conjunto de datos 4.1 Variable target4.1.1 Propagacin

4.2 Variables identificadoras4.2.1 Fecha4.2.2 Followed4.2.3 Follower4.2.4 Contenido4.2.5 Categora

4.3 Variables explicativas4.3.1 Influencia dependiente de la temtica de contenidos 4.3.2 Influencia independiente de la temtica de contenidos4.3.3 Influencia para los retuits y las replies4.3.4 Otras variables de inters

5 Modelizacin5.1 Regresin logstica5.2 Modelo

6 Conclusiones y consideraciones futuras

Documents

Análisis de propagación de contenidos en redes sociales