Blogging

A Região Norte e a Internet Móvel

posted Sep 5, 2013, 9:01 PM by Marco Toledo Bastos   [ updated Sep 9, 2013, 5:26 PM ]

Tenho trabalhado em um paper sobre os protestos no Brasil (aka Vinegar) e acabei me vendo obrigado a calcular alguns dados demográficos para entender melhor a distribuição de mensagens no território nacional. Uma coisa que eu ainda não tinha visto é a distribuição de clientes do Twitter pelo território nacional. O legal desse dataset que estou usando é que ele é bastante amplo (cerca de 4 milhões de mensagens) e representativo em termos de distribuição demográfica por unidades federativas (todas as mensagens apresentam localização geográfica). O plot abaixo mostra a porcentagem de mensagens enviadas pelos dez clientes de Twitter mais utilizados no território nacional.
Twitter Clients per Regions of Brazil

A importância da plataforma Web não é novidade -- eu e a Gabi Zago já havíamos nos deparado com esse dado em um estudo que fizemos e que deve sair nesse mês pela Sage Open. Mas mesmo nesse departamento há algumas surpresas, como a importância significativamente mais baixa da plataforma web na região norte, que também apresenta uma incidência significativamente maior de tweets postados com smartphones via Twitter Mobile Web e pela plataforma Android da Google. Os smartphones Android oferecem conectividade à internet com uma relação custo/benefício superior aos aparelhos da Apple. Os dispositivos da Apple, diga-se, tem uma distribuição equilibrada no território nacional, embora as regiões norte (uma vez mais) e centro-oeste apresentem uma incidência superior de tweets enviados por iPhones em comparação com as demais regiões.

Protestos no Brasil esfriam após 19 de junho

posted Jun 24, 2013, 7:10 AM by Marco Toledo Bastos   [ updated Jun 24, 2013, 1:10 PM ]


Tenho conversado com a Raquel Recuero e com o Fabio Malini sobre os protestos no Brasil e temos observado fortes indicativos de uma queda geral no ânimo do movimento (pelo menos no Twitter). 
Abaixo segue uma sequencia de time series que agrupam as principais hashtags e tags relacionadas com os protestos. A primeira inclui todas as mensagens em um só plot (collapsed), a segunda é uma sobreposição de barplots (plot overlay). 
Timeseries 14-24/06/13

A tag "protesto" agrupa todas as hashtags relacionadas com os movimentos (i.e. protestosp, protestorj, etc.), então o volume de dados nesse info stream é bem maior. Veja a comparação com as demais hashtags:

Timeseries 14-24/06/13

Aproveitei para incluir um plot dos tuítes com geolocalização para indicar o crescimento do movimento. É interessante ver como o movimento se espalhou para o país inteiro. As primeiras mensagens datam do dia 13 de junho e seguem até a semana seguinte (24/06/13). O comparativo inclui apenas tuítes com geolocalização (N=10K). O primeiro mapa é do dia 14 e o segundo do dia 24 de junho.

14/06/1324/06/13

Também vale a pena dar uma olhada no uso de hashtags associadas aos protestos ao longo do período. Embora o volume de hashtags diminua significativamente depois do dia 20 (e não dia 17 como dito antes), o uso dessas palavrinhas mágicas para organizar os protestos continua relativamente alto até o dia de hoje (24/06/13).
hashtag usage

posted Jun 24, 2013, 7:01 AM by Marco Toledo Bastos   [ updated Jun 24, 2013, 7:13 AM ]

European General Strike: #14n on Facebook and Twitter

posted Nov 28, 2012, 1:18 PM by Marco Toledo Bastos   [ updated Nov 28, 2012, 3:03 PM ]

I took the chance I was in Lisbon last November 14 to follow the events related to the European General Strike. I scrapped Facebook groups EuropeanStrike and 14n-Huelga and archived tweets with the hashtags #14n and #EuropeanStrike.

I thought this was an interesting opportunity to compare how protestors use the two social media platforms, and here's some interesting contrasts between Facebook and Twitter usage during this particular time of political unrest.

What follows is Twitter information stream #14n and Facebook information stream EuropeanStrike. I adjusted the timeline so both plots refer to the same time frame. It's clear that Twitter hashtag activity is far more intense than Facebook pages.

 
 
Facebook Post Timeline


Twitter API provides information regarding 
the language Twitter users posted their messages. This is not a particularly reliable metric, but #EuropeanStrike shows a much higher-than-average number of languages.

Facebook Graph API does not provide as much information as Twitter API, but it does give you the exact number of "likes" and "comments" of any given post . The figures below show the diversity of Twitter languages and Facebook posts.

 
 

Twitter conversation has a lot more text than Facebook's. Twitter dataset is about 50 times larger than Facebook's, probably because Facebook users post and comment within their social network. The last two plots are word clouds from the datasets.

 
 

Mapeando a Twittersfera Brasileira

posted Oct 2, 2012, 3:00 AM by Marco Toledo Bastos   [ updated Oct 2, 2012, 7:04 AM ]

Tenho calculado a distribuição de usuários brasileiros que identificaram a cidade natal (ou de residência) no Twitter e a distribuição é excessivamente concentrada em São Paulo (além de outros indicadores suspeitos). Vou dar uma revisada nas rotinas de identificação e na base de dados de cidades brasileiras extraída do IBGE. Isso está bem esquisito.


 EstadosUsuáriosDistribuição
1São Paulo780250.3266968136
2Rio de Janeiro225310.0943390696
3Ceará192500.0806012645
4Minas Gerais127020.0531842733
5Bahia124980.0523301093
6Paraná100320.0420047733
7Espirito Santo94470.0395553322
8Rio Grande do Sul88750.0371603232
9Rio Grande do Norte84840.0355231755
10Pernambuco83220.0348448687
11Alagoas80490.0337017963
12Paraíba78300.0327848260
13Santa Catarina64910.0271783277
14Pará58520.0245027844
15Goiás34880.0146045304
16Piauí30870.0129255119
17Amazonas28300.0118494327
18Maranhão25610.0107231085
19Distrito Federal21060.0088179877
20Mato Grosso17950.0075158062
21Amapá13630.0057069882
22Sergipe13230.0055395051
23Acre7310.0030607545
24Mato Grosso do Sul7040.0029477034
25Roraima3000.0012561236
26Rondônia1180.0004940753
27Tocantins360.000150734

Acabei de descobrir que há pelo menos um indicador em que o estado de São Paulo representa um terço da população. Enquanto minha pesquisa claramente precária acusa que 33% dos usuários do Twitter são do estado de São Paulo, uma pesquisa do Inpad identificou que 34% dos indivíduos que usaram cocaína inalada ou fumada no Brasil entre 2011 e 2012 estão no Estado de São Paulo. Confirmamos com isso que o Twitter é efetivamente uma droga.

Review & Resubmit

posted Sep 11, 2012, 4:00 AM by Marco Toledo Bastos

O processo de reedição de uma pesquisa já realizada, com cálculos prontos e texto escrito, tende a me cansar mais do que o desafio inicial de desenho da pesquisa original. É um trabalho um pouco mais chato, já que há poucas novidades no caminho. Abaixo seguem dois gráficos de correlações de algumas variáveis de tópicos noticiosos retirados do Twitter. Cada tópico é composto de um conjunto de 9 hashtags sobre temas noticiosos. O primeiro gráfico, utilizado na apresentação da pesquisa no SocMedNews do ICWSM, inclui 12 tópicos e a correlação Pearson (p<0.001) de 17 variáveis. O segundo gráfico inclui 14 tópicos noticiosos no Twitter e um conjunto menor de variáveis, já que pretendemos enxugar um pouco a análise de correlações na versão revista.

Twitter 12 News Topics


Twitter 14 News Topics

Bipartite das Acampadas

posted Aug 13, 2012, 4:08 PM by Marco Toledo Bastos   [ updated Sep 11, 2012, 3:46 AM ]

Também em 2011 conversei com o Rafael Raimundo sobre o uso de hashtags como um fator importante para a emergência de movimentos políticos no Twitter. A hipótese era de que tweets com mais hashtags têm maiores taxas de replicação.

A questão é especialmente interessante em movimentos como o Indignados na Espanha ou o Occupy nos EUA, que concentram um vasto número de hashtags ao redor de tags amplamente retuitadas, como #spanishrevolution e #ows.

Mas a hipótese de que o volume de RTs pode ser explicado pelo número de hashtags nas mensagens não corresponde com os dados. A correlação não é, de todo modo, estatisticamente significante (r=0.00027, p<0.001). 

Pensamos então em uma segunda hipótese. Talvez existam combinações especificas de hashtags que ajudem a impulsionar as taxas de replicação, o que pode ser descrito com uma rede bipartida tweets x hashtags.

O plot abaixo inclui 35 hashtags relacionadas com o movimento Indignados, que eclodiu na Espanha em maio de 2011 e atingiu 58 cidades espanholas. No pé do grafo estão indicadas as mensagens pelo ID. No topo as hashtags citadas.

15M hashtags

Rede de Replies da Lista Compós

posted Aug 13, 2012, 12:15 PM by Marco Toledo Bastos   [ updated Aug 13, 2012, 4:09 PM ]

Em 2011 eu e fiz alguns experimentos com  PCA de algumas listas de discussão e não encontrei nenhum pacote eficiente para localizar mensagens enviadas e respostas recebidas nas listas de discussão do Yahoo!. Escrevi então um pequeno script para grafar a rede da compos@yahoogroups, que ainda está disponível neste endereço:


Esse é um plot de todas as mensagens que receberam reply na lista. A primeira mensagem foi de Milton José Pinto no dia 06.06.2000 e o primeiro reply foi de Albino Rubim no dia seguinte (em resposta a Jose Luiz Aidar Prado).

O tamanho do nó é proporcional ao volume de mensagens recebidas como resposta. A espessura dos edges pe proporcional às mensagens enviadas. O layout é ForceAtlas II e as cores deveriam indicar comunidades internas. Algumas observações a partir do plot:

1. O Juremir é o rei dos replies. Não há mensagem enviada pelo Juremir que não tenha gerado uma mensagem-reply.

2. Redes sociais exibem um alto coeficiente de clusterização. A lista/comunidade da Compós não é exceção.

3. A lista está segmentada em uma minoria que alimenta o grupo com informações e uma maioria que alimenta a lista com perguntas.

Encontrei alguns problemas na análise dos dados porque o Yahoo! não disponibiliza as mensagens no formato MIME. Além dessa limitação, o plot também não mostra:

1. Uma quantidade desanimadora de mensagens-reply que não configuram perguntas  embora tenham efeito cascata. Tratam-se das mensagens institucionais de congratulação. Ainda não consegui filtrar essa interação que não configura conversa.

2. Cerca de 700 mensagens-reply cujos usuários não foram reconhecidos (NA). O dataset conta com cerca de 12000 mensagens das quais 5000 são mensagens-reply.

3. Alguns usuários postaram mensagens na lista com emails diferentes. Meus scripts não são espertos o suficiente para fazer uma match perfeito de cada user/account.

4. Alguns usuários mudaram o display name ao longo dos anos. Exemplo: Denilson Lopes / Denilson Lopes Silva. O script mapeia cada screenname como um usuário independente.

A análise da rede foi feita com R e o plot com Gephi. Quem quiser brincar com os dados pode baixar o dataset aqui (http://www.eca.usp.br/netclustering/mtblYgr_compos.xlsx).

Tarde on smoking, drinking and clothing

posted Mar 9, 2012, 3:10 PM by Marco Toledo Bastos   [ updated Mar 9, 2012, 3:13 PM ]

The desire to smoke, to drink tea or coffee, etc., did not appear until after the discovery of tea, or coffee, or tobacco. Here is another example among a thousand. "Clothing does not result from modesty," M. Wiener justly observes (Le Perou); "on the contrary, modesty appears as a result of clothing, that is to say, the clothing which conceals any part of the human body makes the nakedness of the part which we are accustomed to see covered, appear indecent." In other words, the desire to be clothed, in so far as it is a social desire, is due to the discovery of clothing, of certain kinds of clothes. Inventions are far from being, then, the simple effects of social necessities; they are their causes.

Tarde, Gabriel. The laws of imitation. New York: Henry Holt and Company, 1903: 102

Kittler against McLuhan

posted Feb 29, 2012, 5:15 PM by Marco Toledo Bastos   [ updated Mar 9, 2012, 3:14 PM ]

"That the media influence bodies through emergence and immersion, on that point we both agree. However, I don't believe in the old thesis that thus the media are prostheses of the body, which amounts to saying, in the beginning was the body, then came the glasses, then suddenly television, and from the television, the computer. The mythology is that everything frees itself from the body, dissolves and submerges in it again, in the sense of emergence and immersion, virtual reality, cinemascope, and hallucination. Your theory may be true for some of the entertainment media, but I think to be able to describe a general media history, it would be better to work, like Luhmann, systematically from the independent histories of the technological media. The media don't emerge from the human body, rather you have, for example, the book, and the military generals in considering how they can subvert the book or the written word, come up with the telegraph, namely, the telegraph wire; and then to offset the military telegraph, they come up with the wireless radio, which Hitler builds into his tanks. In England Alan Turing or Churchill ponder a way to beat Germany's radio war, and they arrive at the computer to crack the radio signals - and the German goose is cooked, that's the end of the war. A history like this doesn't need individual bodies or a subject that expands in and through the media - such a history can do without the subjective agency of a historical actor. Rather, I think, it's a reasonable hypothesis to say that the media, including books and the written word, develop independently from the body. Even then, if you want to, you can describe how, through advertising or commercial means, the media influence and separate bodies."

Griffin, Matthew, Susanne Herrmann, and Friedrich A. Kittler. "Technologies of Writing: Interview with Friedrich A. Kittler." New Literary History 27, no. 4 (1996): 731-42.

1-10 of 11

Comments