Sapo mostra relações entre as pessoas mencionadas nos 2,5 milhões de artigos da Lusa

Foto
O Codebits termina no sábado Joana Bourgard

A novidade foi apresentada nesta sexta-feira, no arranque da sexta edição do Codebits, um evento para entusiastas da tecnologia que o Sapo organiza desde 2007 e que neste ano conta com 800 participantes reunidos no Pavilhão Atlântico, em Lisboa.

A verdade faz-nos mais fortes

Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.

A novidade foi apresentada nesta sexta-feira, no arranque da sexta edição do Codebits, um evento para entusiastas da tecnologia que o Sapo organiza desde 2007 e que neste ano conta com 800 participantes reunidos no Pavilhão Atlântico, em Lisboa.

A visualização interactiva das redes de relações entre pessoas (de chefes de Estado a desportistas, passando por artistas, economistas e políticos) foi criada a partir de cerca de 2,5 milhões de artigos da Lusa, correspondentes à totalidade do arquivo da agência, que foi fundada em finais de 1986 (como sucessora da ANOP) e que começou a publicar a 1 de Janeiro de 1987.

A ferramenta mostrará as personalidades referidas nas notícias, cada uma representada por um círculo. A cor do círculo indica a temática das notícias em que uma dada pessoa surgiu mais vezes. Pessoas que tiverem sido referidas na mesma notícia surgem ligadas por um traço, que é tanto mais grosso quantos mais artigos existirem com menção às duas em simultâneo. O utilizador poderá ver apenas as relações mais frequentes ou optar por ver redes de relações mais fracas.

É possível filtrar a informação exibida com base no mês de publicação dos artigos e nas áreas temáticas em que estes foram categorizados pela Lusa: por exemplo, política, desporto, ciência e tecnologia, saúde e educação. A partir de cada uma das personalidades mostradas, o utilizador pode aceder às notícias em que esta é mencionada.

O trabalho faz parte do projecto REACTION (a sigla para a denominiação inglesa Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News - numa tradução livre, “Tecnologia Computacional de Recolha, Extracção e Agregação para a Integração e Organização de Notícias”). Do REACTION fazem parte, para além do Sapo, laboratórios da Universidade do Porto e da Universidade Técnica de Lisboa, o Centro de Investigação Media e Jornalismo e o PÚBLICO.

Recentemente, o projecto produziu uma análise das palavras mais usadas nos comentários no Facebook de Pedro Passos Coelho e o portal Sapo já tem uma página para a visualização de relações entre personalidades, que assenta na tecnologia agora usada para a visualização do acervo da Lusa.

A ferramenta estará disponível para qualquer utilizador, mas o objectivo do REACTION é criar ferramentas que possam ser usadas em trabalhos de investigação jornalística, explicou ao PÚBLICO Eduarda Mendes Rodrigues, da Faculdade de Engenharia da Universidade do Porto, durante uma demonstração da tecnologia no Codebits, onde a ferramenta está em mostra num grande ecrã sensível ao toque.

Do ponto de vista académico, notou a investigadora, a análise em larga escala de artigos jornalísticos coloca vários desafios: o processamento de grandes quantidades de dados, a análise de linguagem natural (a linguagem usada por humanos e que os computadores têm dificuldades em compreender) e ainda a construção de formas eficazes para a visualização dos dados.

Nos 2,5 milhões de notícias da Lusa, os computadores identificaram as personalidades referidas e ainda determinaram o cargo (ou cargos) de cada uma. Os algoritmos são capazes, por exemplo, de perceber que em 2009 José Sócrates era primeiro-ministro e que hoje é ex-primeiro-ministro – e a informação referente ao cargo é mostrada quando se visualiza a rede de relações de Sócrates e os artigos correspondentes.

O processo, porém, não está livre de erros: diferentes grafias para o mesmo nome (situação frequente com alguns nomes estrangeiros) ou simples erros ortográficos levam a que, em alguns casos, os computadores tratem uma pessoa como duas entidades distintas. O aperfeiçoamento dos algoritmos para ultrapassar este tipo de problemas é um dos desafios que os investigadores têm pela frente, referiu Eduarda Mendes Rodrigues. O REACTION termina em Setembro de 2013.