Large data analysis - Información en gran escala sobre redes sociales: distintas aproximaciones

viernes, 3 de junio de 2016

Imagen extraída de una página que ofrece servicios de visualización de datos. La imagen representa el grafo realizados por SNA.


Para analizar datos a gran escala, lo primero y más importarte es la forma en que se dispondrán de los datos. En esta entrada se contrapondrán dos estudios: uno realizado sobre twitter donde se analizan los datos en forma de tablas, y en relaciones cuantitativas, y otro realizado sobre redes sociales donde los datos se ven como grafos y donde se utiliza teoría de grafos para analizar sobre ellos.

En el primer estudio se analiza si la información dispusta es representable como grafos y que caracteristicas esta refleja. ¿Por qué representar las redes sociales como grafos? La forma en que la web esta conectada, via links es facilmente dibujable como relaciones. El paper estudiado propone que la web esta estructurada como corbatines de moño: dos grandes grupos de nodos unidos por otro nodo. En este sentido existe gran cantidad de investigación acerca de como se estructura la web. El proceso de analizar las estructuras sociales usando network y teoría de grafos se suele llamar Social Network Analysis, y caracteriza las estructuras en forma de nodos y aristas.

En el estudio realizado por Mislove, et al. donde se llevo a grafo los sitios Flickr, YouTube, LoveJournal y Orkut y analizando sobre los links que actuaban como nodos y aristas, en este estudio se analizo la información si se comportaba o tenía propiedades de power-law, small-world, y scale-free networks. El estudio demostro que mientras que los indegree nodes (nodos que tienen vértices hacia el) tienden a hacer match con los outdegree nodes (nodos de los cuales salen vertices), las redes tienen zonas más densas conectadas (una gran cantidad de nodos, como un core), y este core esta linkeado con más pequeños grupos clustered y de menor densidad.

Complex Netwrok Theory 
Determinar el grado de complejidad de los grafos que representan la información.
Random networks: grafos construidos de forma random añadiendo links a un grupo estático de nodos. Random graphs tienden a tener caminos cortos entre dos nodos.
Power-law networks: son aquellas redes cuya probabilidad de que un nodo tenga grado k es proporcional a k^(gama), para un camino de largo k donde gama es un parametro conocido como power-law coeficiente. Muchas redes reales son power-law networks, por ejemplos Internet Topologys, Social Networks, Neural Networks y Power Grids. 
Scale free netwroks: son un tipo de power-law networks donde los nodos de alto grado tienden a estar conectados con otros nodos de alto grado.
“The probability that a node selected uniformly at random has a certain number of links (degree), follows a particular mathematical function called a power law. The power law implies that the degree distribution of these networks has no characteristic scale. In contrast, networks with a single well-defined scale are somewhat similar to a lattice in that every node has (roughly) the same degree”
Small world networks: tienen un diámetro pequeño y tienen high curlustering. Un ejemplos Offline networks.
“A network is called a small-world network by analogy with the small-world phenomenon (popularly known as six degrees of separation)”

Algunos de los desafíos de este estudio, son la forma en que se logra conectar todos estos componentes. En el caso del estudio usaron Crawling Graphs, y un algoritmo especializado para crawling graphs llamado breadth-first search (BFS). En el caso del estudio, se usaron aristas unidireccionales, dado que simplificaban más el problema. Lo anterior generó un problema para representar todas las redes sociales que eran parte del problema, sin embargo, se usaron ciertos metodos para poder representar cada grafo de mejor forma. 

En el caso de Flickr y YouTube el problema fueron los nodos perdidos, sin embargo la cantidad de nodos perdidos no implican una gran fracción del total. Orkut fue dificil de representar debido a la gran cantidad de datos, por lo que solo se tomo una fracción de la red social. LiveJournal no presentó gran problema.

Una vez obtenidos los datos, se uso Kolmogorov–Smirnov para comparar si la red social se comportaba con distribución similar a la de las definidas anteriormente. El estudio se basa en comparar distribuciones para encontrar la más similar. Se determinó que era más similar a una power-law network, por lo que es aplicable todas las propiedades de esta network sobre cada una de las representaciones en grafo de los sitios. 

Para más profundidad de como los crawling graphs se relacionan con redes sociales, y como se selecciona y dispone la información en gran escala, esta el paper escritó por Shoizhi Ye, donde se expone la metodología y los problemas frecuentes al usar este tipo de grafos.

Otra aproximación es trabajar directamente con los datos como relaciones y cuantificar estas. Por ejemplo, la forma en que se esparce la información en twitter, y como cierta información se esparce más eficazmnte que otras. Un estudio realizado por Bongwon Suh, Lichan Hong, Peter Pirolli y Ed H. Chi sobre 74 millones de tweets identifico factores relacionados con el “ratio de retweet”. Se encontro un supuestamente modelo predictivo sobre la cantidad de retweet donde el contenido, URL's, hashtags tienen una relación directa. Además la cantidad de seguidores y seguidos, junto con la edad de la cuenta. Así mismo, se identifico que la cantidad de tweets no predice el radio de retweet de un usuario. 

El retweet se puede entender como una forma de difusión de información desde el tweet original a un conjunto de personas. El método para investigar sobre esta gran cantidad de datos fue a través de la API de twitter, y consistió en hacer un 'tracking' o seguimiento de un conjunto de datos, y determinar cuantos fueron retweeteados. Usando expresiones regulares pudieron contar la cantidad de retweets de algún tweet, además del uso la funcionalidad de retweet de twitter otorga información contextualmente más rica.

Se uso PCA, un metodo para reducir la cantidad de datos que esten correlacionados, extrayendo así los componentes principales.  Luego de este analisis se pudieron revelar asociaciones, y el grado de probabilidad en que se puede predecir si un tweet va a ser retweeteado. Se uso un modelo generalizado lineal (GML). Lo que se extrajo fue por ejemplo que aproximadamente un 21% de tweets contienen URL's mientras que un 28% de retweets contienen URLs también, lo cual contrasto on otros estudios realizados. Por otra parte un aproximadamente 10% de los tweets tienen hashtags mientras que un 21% de retweets los contienen. 

Es interesante también el top 3 de hashtags, entre ellos
#nowplaying: un tag para reflejar lo que se sta escuchando actualmente
#ff: forma abreviada de 'follow friday' un evento en twitter que implica recomendar twitteros a los seguidores
#jobs: puede referirse al empleo o bien a Steve Jobs. 
El ultimo hashtag deja entrever un 'sesgo' en el estudio. Si bien #jobs puede ser utilizado para temas relacionados con empleos, hechos como la muerte de Steve Jobs o el estreno de sus películas pudieron haber disparado el uso del hashtags, luego la cantidad de tweets relacionados con un hashtag pueden deberse a algo pasajero, pues twitter varia la popularidad de sus tags de distintas formas.
La relación retweet-followers también fue evidenciada en el estudio. Sin embargo la relación Retweet y cantidad de tweets no tuvo una gran correlacion. Por el contrario si se encontro relación entre la edad de la cuenta y los retweet. Pero nuevamente, una cuenta inactiva probablemente tenga baja cantidad de retweets y de seguidores, por lo que también es una relación que no es directa, si no que depende nuevamente de la cantidad de seguidores.

Como se puede ver en comparación a la primera aproximación, se uso la información casi en bruto, y se contaron elementos reduciendo temas, dandole menos estructuración a los datos y dejando entrever mayor subjetividad en el set de datos. Las conclusiones fueron así mismo empiricas por lo que estan bastante sesgadas. Luego trabajar con tanta información no implica que sea facil generalizar al respecto. Por ejemplo, si los datos recopilados por la segunda aproximación fueron realizados al rededor de la fecha de estreno de la película jobs, también encontraran que la cuentas relacionadas con job fueron más retweeteadas, lo cual no implica que estas sean siempre las más retweeteadas. 

En cambio si se tuviese la información de la red social como un grafo podría ser fácil y evidente ver si en cierto grupo de nodos es más concurrente el retweet de cierta información (por ejemplo, los nodos que se siguen entre si por ser fanáticos de la película). Si se pudiese tener la información y no contarla como un todo, si no reflejarla sobre un set de datos en forma de grafos, sería más facil y evidente determinar cuales son los cores de la información, y si esta se distribuye uniformemente por todo el grafo (y no que este acumulada en ciertos nodos). Más tecnicamente, dentro de la red social, existen cliques donde es más común que cierta información se distribuya, y que no salga del grupo. 

Finalmente y como conclusión de la entrada, la forma en que se dispone la información es determinante a la hora de encontrar patrones o intentar descubrir comportamientos. Si no se tiene la información disponible de forma eficiente, es dificil saber si existe sesgo o no, pues cualquier conclusión puede terminar en una simple conjetura. 
  • Bongwon Suh, Lichan Hong, Peter Pirolli y Ed H. Chi . Want to be Retweeted? Large Scale Analytics onFactors Impacting Retweet in Twitter Network. Social Computing (SocialCom), 2010 IEEE Second International Conference on. 2010. Paginas 177-184.
  • Alan Mislove, et all. Measurement and analysis of online social networks. IMC '07 Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. 2007. Paginas 29-42. 
  • Shoizhi Ye. Crawling Online Social Graphs. Web Conference (APWEB), 2010 12th International Asia-Pacific. 2010. Páginas 236 - 242.

3 comentarios:

  1. Fernanda,
    Me parece muy interesante tu post. Para mí es un descubrimiento relativamente nuevo que la web y las redes en tengan una estructura (aunque por cierto su nombre es bastante alusivo). La idea de que estas estructuras pueden observarse, describirse y analizarse tiene un potencial muy importante para las ciencias sociales. Es fascinante que las huellas de navegación puedan constituir un material para estudiar el comportamiento de distintos grupos o comunidades. Sobre todo, poder trabajar con los grandes volúmenes de información que se manejan en la web es algo muy nuevo y desafiante para las ciencias sociales.

    ResponderEliminar
  2. Me parece interesante la forma en que planteaste el tema de estudio. Uno normalmente pasa por alto la forma en que está organizada la información, sin embargo, como mostraste con los estudios sobre los retweets, la estructura de los datos es relevante a la hora de interpretarlos.

    ResponderEliminar
  3. María Fernanda,

    El tema de esta entrada explica muy bien cómo se distribuye y almacena la información en la web. Los 3 artículos bien seleccionados y tienen un hilo conductor, pero la crítica persona fue escasa. Saludos.

    ResponderEliminar

 
Copyright © 2016. Sistemas Colaborativos y Computación Social.
Design by Herdiansyah Hamzah. & Distributed by Free Blogger Templates
Creative Commons License