Blogging‎ > ‎

Rede de Replies da Lista Compós

posted Aug 13, 2012, 12:15 PM by Marco Toledo Bastos   [ updated Aug 13, 2012, 4:09 PM ]
Em 2011 eu e fiz alguns experimentos com  PCA de algumas listas de discussão e não encontrei nenhum pacote eficiente para localizar mensagens enviadas e respostas recebidas nas listas de discussão do Yahoo!. Escrevi então um pequeno script para grafar a rede da compos@yahoogroups, que ainda está disponível neste endereço:


Esse é um plot de todas as mensagens que receberam reply na lista. A primeira mensagem foi de Milton José Pinto no dia 06.06.2000 e o primeiro reply foi de Albino Rubim no dia seguinte (em resposta a Jose Luiz Aidar Prado).

O tamanho do nó é proporcional ao volume de mensagens recebidas como resposta. A espessura dos edges pe proporcional às mensagens enviadas. O layout é ForceAtlas II e as cores deveriam indicar comunidades internas. Algumas observações a partir do plot:

1. O Juremir é o rei dos replies. Não há mensagem enviada pelo Juremir que não tenha gerado uma mensagem-reply.

2. Redes sociais exibem um alto coeficiente de clusterização. A lista/comunidade da Compós não é exceção.

3. A lista está segmentada em uma minoria que alimenta o grupo com informações e uma maioria que alimenta a lista com perguntas.

Encontrei alguns problemas na análise dos dados porque o Yahoo! não disponibiliza as mensagens no formato MIME. Além dessa limitação, o plot também não mostra:

1. Uma quantidade desanimadora de mensagens-reply que não configuram perguntas  embora tenham efeito cascata. Tratam-se das mensagens institucionais de congratulação. Ainda não consegui filtrar essa interação que não configura conversa.

2. Cerca de 700 mensagens-reply cujos usuários não foram reconhecidos (NA). O dataset conta com cerca de 12000 mensagens das quais 5000 são mensagens-reply.

3. Alguns usuários postaram mensagens na lista com emails diferentes. Meus scripts não são espertos o suficiente para fazer uma match perfeito de cada user/account.

4. Alguns usuários mudaram o display name ao longo dos anos. Exemplo: Denilson Lopes / Denilson Lopes Silva. O script mapeia cada screenname como um usuário independente.

A análise da rede foi feita com R e o plot com Gephi. Quem quiser brincar com os dados pode baixar o dataset aqui (http://www.eca.usp.br/netclustering/mtblYgr_compos.xlsx).
Comments