Aécio Neves ou Dilma Rousseff: Análise no Twitter para Previsão do Resultado do Segundo Turno das Eleições 2014

Aécio Neves ou Dilma Rousseff: Análise no Twitter para Previsão do Resultado do Segundo Turno das Eleições 2014
dilma-e-aecio-segundo-turno  

Conforme anunciado há uns dias atrás, colocamos nosso protótipo de mineração de textos e análise de sentimento em funcionamento para descobrir informações úteis e previamente desconhecidas sobre os candidatos a presidência do Brasil. Nosso objetivo principal é realizar uma previsão de quem será o vencedor das eleições no segundo turno, com base nos dados do Twitter.

Nosso protótipo é o resultado de longos anos de estudo e pesquisa e foi colocado em funcionamento para realizar uma análise detalhada sobre a eleição presidencial, período importante no Brasil.  Com isso a Tetranet entra em uma nova fase: ser uma produtora de sistemas inteligentes que possam agregar resultados concretos para seus clientes.  Mais do que armazenar, alterar e apagar informações em um banco de dados propomos soluções que façam uso do grande volume de informações que temos disponível para auxiliar na decisão e estratégias de negócios, marketing e outros setores sensíveis nas empresas hoje em dia. Com a nossa solução é possível ter uma visão de 360 graus sobre o que está ocorrendo ou sobre o que ocorreu sobre um determinado tema e com isso tomar a decisão exata. Hoje damos o primeiro passo concreto e publicamos abaixo os resultados de nossa pesquisa  para mostrar um pouco da nossa tecnologia que temos completo domínio.

Nosso aparato teórico-metodológico está ancorado nas áreas de Mineração de Textos, Processamento de Linguagem Natural (PLN), Linguística e Inteligência Artificial. Nosso diferencial é a abordagem qualitativa e quantitativa que adotamos em nossas soluções, com isso é possível ter um raio-x completo sobre determinado cenário.

No momento, nossas soluções são personalizadas e exclusivas para cada cliente. No entanto, em um futuro próximo temos planos para disponibilizar uma plataforma de análise com serviços de integração de maneira mais geral a todos os interessados.

 

Análise sobre as Eleições para o Segundo Turno

Para o assunto  das eleições aplicamos nossas tecnologias de processamento linguístico, mineração de textos e sua sub-área: análise de sentimento (sentiment analysis). Esta última, gostamos de chamar de Mineração de Opiniões onde é possível identificar a opinião (sentimento ou emoção) das pessoas expressa nas mídias sociais.

banner-mining

Extraímos do Twitter 100 mil tweets, 50 mil para cada candidato. Os tweets foram consultados em tempo real a medida que eram publicados com base nas seguintes palavras-chave:

Para Dilma Rousseff

  • dilma
  • dilmabr

Para Aécio Neves

  • aecio
  • AecioNeves

Após a coleta de toda a massa de dados do Twitter foi inicializado nosso  sistema de processamento textual que executa várias rotinas para extrair informações úteis. Em primeiro lugar nosso sistema tenta predizer o local geográfico do usuário que publicou o tweet, pois nem sempre esta informação vem de maneira clara. Nosso sistema consegue capturar com exatidão a cidade, o estado e o país do usuário que publicou a mensagem. Fazemos uso de descrições no perfil de cada usuário, descrições do local onde mora e informações geográficas como latitude e longitude (quando disponíveis). Após realizamos a mineração de hashtags utilizadas em cada tweet, número de retweets, número de curtidas, número de menções, número de usuários que influenciam, número de plataformas de publicação dos tweets, número de usuários mencionados em cada tweet, identificação dos clusters positivos e negativos, número de perfis criados após as eleições entre outras métricas úteis.

No processamento linguístico foi realizado a limpeza dos tweets e a extração de cada palavra de maneira individual (types) e em sua totalidade (tokens) para geração exata de listas de frequência. Em seguida foi realizado a análise e anotação morfossintática  das palavras extraídas além de outros procedimentos linguísticos avançados.

A última etapa que nosso sistema realizou foi a mineração e classificação de opiniões onde os tweets são categorizados em positivo, negativo e neutro. Com isso é possível saber de maneira exata o que a população em geral ou de uma região em específico pensa sobre determinado candidato.

Bom, ainda não inventaram a bola de cristal, mas com a solução que elaboramos é possível prever com bastante exatidão situações que podem ocorrer no futuro, como um possível vencedor de uma eleição ou quais marcas, produtos e empresa são melhores para os consumidores. Conhecer as opiniões e agir com inteligência e rapidez é a estratégia fundamental de uma boa inteligência competitiva e representa a vitória sobre o fracasso.

 

Os Resultados

Nuvem de palavras: Nesta análise, a tonalidade e o tamanho das fontes são calculadas com base  no nível de ocorrência de cada palavra. Em virtude do nosso sistema ser um protótipo e estar passando por refinamentos, algumas palavras acabaram ficando sem acentos. Esta técnica fornece uma visão geral e instantânea sobre um determinado cenário.   Clique na imagem para ampliar.

Palavras utilizadas acima de 200 vezes em tweets sobre Dilma Rousseff:

dilma-tagcloud-tweets

Palavras utilizadas acima de 200 vezes em tweets sobre Aécio Neves:

aecio-tagcloud-tweets  

Estados do Brasil que mais falam sobre Dilma Rousseff:

dilma-mais-mencionaram-por-estado  

Estados do Brasil que mais falam sobre Aécio Neves:

aecio-mais-mencionaram-por-estado

Comparativo por Estado entre Aécio (Azul) e Dilma (Vermelho):

OBS: Clique na imagem para ampliar. aecio-dilma-comparacao-por-estados

Cidades

É possível obter um nível de granularidade mais refinado por cidades e identificar opiniões, sugestões, reclamações por regiões específicas. Com isso é possível adotar estratégias diferenciadas para cada local.

  • Número de Cidades únicas identificadas para Dilma: 633.
  • Número de Cidades únicas identificadas para Aécio: 550.
Os resultados preliminares levam a crer que Dilma possui um nome mais conhecido do que Aécio no Brasil.

Cidades do Brasil que mais falam sobre Dilma Rousseff:

dilma-mais-mencionaram-por-cidade  

Cidades do Brasil que mais falam sobre Aécio Neves:

aecio-mais-mencionaram-por-cidade

Hashtags

O número de ocorrências acima de 50 foi adotado para a geração de resultados sobre as hashtags. Clique nos gráficos para ampliar.

Hashtags mais utilizadas em tweets sobre Dilma Rousseff:

dilma-hashtags-mais-utilizadas

Hashtags mais utilizadas em tweets sobre Aécio Neves:

aecio-hashtags-mais-utilizadas  

Usuários Citados

Abaixo é apresentado os nomes de usuários mais mencionados nos tweets.

Usuários mais mencionados em tweets sobre Dilma Rousseff:

dilma-usuarios-mais-utilizadas

Usuários mais mencionados em tweets sobre Aécio Neves:

aecio-usuarios-mais-utilizadas  

Plataformas de Publicação

As plataformas de publicação são sites, aplicativos, programas de computador, apps do facebook ou o próprio site do Twitter que são utilizados para publicar tweets. O uso de plataformas profissionais como o TweetDeck pode indicar múltiplos perfis gerenciados por apenas uma pessoa ou partido (este com publicação em massa). O uso do Twitterfeed indica tweets publicados a partir de sites de notícias ou blogues (este com publicação automática).

 

Plataformas mais utilizadas para publicar tweets sobre Dilma Rousseff:

dilma-plataformas-de-publicacao   Detalhamento das plataformas de publicação em massa, automatizadas ou pagas: dilma_plataforma_em_massa2    

Este número de ocorrências para o TweetDeck, IFTTT, Hootsuit ou Twitter Ads podem indicar o uso de práticas de massificação de informações. Além disso, é possível notar um maior apoio de sites e blogues a campanha da candidata Dilma pelo número alto do Twitterfeed.

Plataformas mais utilizadas para publicar tweets sobre Aécio Neves:

aecio-plataformas-de-publicacao   Detalhamento das plataformas de publicação em massa, automatizadas ou pagas: aecio_plataformas_em_massa

Este número de ocorrências para o TweetDeck, Hootsuit ou IFTTT podem indicar o uso de práticas de massificação de informações. A ocorrência nula para o Twitterfeed pode indicar um baixo apoio de sites e blogues a campanha de Aécio. Este baixo engajamento das pessoas nas campanhas on-line de Aécio é um fator que precisa ser melhorado.

Contas Criadas Após o Começo da Propaganda Eleitoral

Esta métrica visa identificar contas criadas no Twitter após o começo da propaganda eleitoral e com isso sugerir possíveis contas de usuários criadas com fins eleitorais.

aecio_dilma_contas_criadas  

Para deixar a métrica acima mais relevante o gráfico abaixo mostra a quantidade de contas criadas após o começo da propaganda eleitoral e que utilizam os seguintes serviços de automatização ou publicação em massa de tweets como TweetDeck, Twitterfeed, Hootsuite, IFTTT e Twitter Ads.

aecio_dilma_grafico_contas  

Análise de Opiniões: Vencedor no Segundo Turno das Eleições

O algorítimo que desenvolvemos é capaz de identificar a emoção de um texto (como por exemplo um tweet) com alta precisão. Isto é possível pois nosso corpus de treinamento para a língua portuguesa falada no Brasil é bastante grande. Com base na análise sentimental pormenorizada cada tweet recebe de forma individual três scores, sendo que o score mais relevante das três medidas recebe uma anotação que pode ser Positiva, Negativa ou Neutra. A seguir, métricas adicionais para o cruzamento de informações, assim como quantidade de retweets e curtidas são acrescentadas no cálculo final do score.

Amostra de Tweets Positivos Identificados para Dilma Rousseff:

RT @ValleAmarildo: PELO BEM DO BRASIL E FELICIDADE GERAL DA NAÇÃO VOTE DILMA 13 http://t.co/Mxn8iyReoc

RT @g1: Dilma tem apoio de 16 dos 28 que disputam 2º turno; 10 apoiam Aécio  http://t.co/tbvkgb8bdU #eleições2014

RT @PaulXbrow2: O povo queria o fim da corrupção , os políticos não ! A @dilmabr vai fazer a maior revolução nas formas de combate a corrup…

RT @cynaramenezes: não voto CONTRA ninguém. voto A FAVOR do brasil. voto em dilma, porque para mim é a única candidata preocupada com o bra…

 Amostra de Tweets Negativos Identificados para Dilma Rousseff:

RT @nascimentoctba: APOSENTADOS:  Os que tem vergonha na cara não votam na Dilma PT 12 Anos massacrando os aposentados. http://t.co/xwiphHA…

YOUSSEF CONFESSA: PROPINA DO PETROLÃO FINANCIOU CAMPANHA DE DILMA. É O MAR DE LAMA! http://t.co/nTq3Wb4QoX via @VEJA

Dos 22 anúncios de @dilmabr na TV, 19 atacam @AecioNeves. Que vergonha PT, não tem o que mostrar? Aqui em SC não tem mesmo.

Quando penso que Dilma é incompetente, assisto o debate e tenho certeza. #dilmavaiperderaecio45vencer

Amostra de Tweets Positivos Identificados para Aécio Neves:

Caramba nunca vi o twitter tão lotado de PT! @AecioNeves tomou conta das ruas do Brasil e so sobrou o twitter pro PT fazer campanha #ForaPT

Vice-governador abandona orientação nacional e declara voto em Aécio Neves http://t.co/k5fWGAgdvJ

RT @DecaRGarcia: @arlencezar @jorasquin @Mtnezz @AecioNeves Aécio vai vencer de norte a sul.

RT @AecioNeves: "Estamos aqui no Rio Grande do Sul fazendo uma aliança com o compromisso federativo."#Aécio45 http://t.co/hxcrFmsxKs

Amostra de Tweets Negativos Identificados para Aécio Neves:

Bêbado e drogado, quanta moral! http://t.co/FYbe9HtreP RT @midiacrucis: #midiavenal @Theeconomist alstom/Siemens milhões na corrupção tucana PSDB de Aecio Neves Brasil e #MinasComLulaeDilma RT @midiatico: Promotoria aciona Estado de MG por suposta fraude na Saúde sob #Aécio45 http://t.co/ZHPDXKK5xq http://t.co/hzsP2dGZfH Tudo o que o Aecio propoem ja foi apiado e deu errado no Brasil e mundo. Por isso ele representa o retrocesso.
 

Apresentamos o resultado final que indica o possível vencedor das eleições para o segundo turno no gráfico a seguir:

vencedor_eleicoes

De acordo com o gráfico do resultado final, Dilma Rousseff seria a vencedora do segundo turno das eleições  2014 com uma pequena vantagem em relação a Aécio Neves. Este resultado é interessante, pois está em consonância com a última pesquisa eleitoral realizada pelo Datafolha e atesta o atual sentimento dos eleitores.

É possível realizar esta análise mais vezes para conferir se o resultado final se mantém ou acontece alguma reviravolta, especialmente um ou dois dias (ou até mesmo horas) antes da votação.