Internet: Nuno criou uma forma de prever os conteúdos mais populares
Investigador português desenvolveu um método baseado na atenção que os conteúdos recebem nas redes sociais. O que, trocando por miúdos, é a previsão de casos raros. Trabalho valeu o segundo lugar na categoria de doutoramento do Fraunhofer Portugal Challenge 2017
Quando decidiu mudar-se para o Porto para estudar Engenharia Informática, Nuno Moniz estava longe de imaginar que se iria cruzar com a ciência durante o seu percurso académico. A área de informática pareceu sempre a opção certa, até ao momento em que percebeu que — ao contrário da maioria dos colegas — o seu maior interesse não era “construir sistemas de software”. Ao longo da licenciatura e do mestrado, no Instituto Superior de Engenharia do Porto (ISEP), foi relacionando a investigação com a computação — uma associação que continuou a desenvolver no doutoramento em Ciência de Computadores, pela Faculdade de Ciências da Universidade do Porto (FCUP). A investigação científica passou a ser a sua principal actividade profissional, dedicando-se à descoberta de métodos para “automatizar a aprendizagem e extrair conhecimento a partir de dados”. Com 30 anos, Nuno desenvolveu um método que permite prever quais os conteúdos que se vão tornar mais populares na Internet, o que lhe valeu o segundo lugar na categoria de doutoramento do Fraunhofer Portugal Challenge 2017.
Os conteúdos mais populares, em menor número diário na Internet, “são, na maioria das vezes, os mais relevantes para os utilizadores”, mas não existe um modelo capaz de prever casos com elevados níveis de popularidade — e foi nisso que Nuno Moniz se concentrou. Em vez de “tentar antecipar a atenção que todos os conteúdos online iriam receber”, o também docente convidado da FCUP criou um método para “prever conteúdos altamente relevantes ou populares”. “As métricas mais comuns existentes na área focam-se no comportamento médio dos dados, isto é, são métodos muito bons a prever conteúdos com níveis baixos e médios de popularidade, assumindo que todos os casos são igualmente relevantes, mas não têm a mesma capacidade para prever casos muito populares”, explica, em entrevista ao P3. A ideia é responder a esta “contradição” com uma “estrutura que permita prever, com precisão e rapidez, o nível de popularidade dos conteúdos mais relevantes”, continua. “Trocando por miúdos, é a previsão de casos raros.”
A investigação que Nuno desenvolveu esteve, desde o início, relacionada com o contexto noticioso na Internet. “Com a crescente taxa de criação de conteúdos online e o aparecimento das plataformas de social media, é crucial compreender a informação para fornecer aos utilizadores melhores recomendações de conteúdos”, contextualiza. Daí que seja importante ajudar as organizações noticiosas a “decidir que notícias devem ser promovidas nas redes sociais ou nas suas plataformas”, prossegue. “A ideia é automatizar esse processo.”
A previsão da popularidade dos conteúdos “pode ser baseada no conteúdo em si ou na atenção recebida nas redes sociais”. Nuno clarifica a diferença entre os dois tipos de previsão: “No caso das notícias, o conteúdo escrito é avaliado tendo em consideração (…) indicadores que permitem traçar perfis de notícias que são (ou não) relevantes e populares. Tratam-se de modelos de previsão que se vão actualizando ao longo do tempo, segundo as tendências”. No segundo caso, “a ideia é focar no início de vida dos conteúdos e fazer uma previsão quantitativa do grau de atenção que ainda vão receber após a publicação”. Estas duas propostas, aplicadas individualmente em abordagens anteriores, revelaram-se “incapazes de obter resultados satisfatórios em previsões de conteúdos muito populares”. Decidiu, por isso, “combinar esses dois métodos”.
A combinação de diferentes abordagens
“O intuito é olhar para um conteúdo, antes da sua publicação, e prever o nível de atenção que vai receber, tendo em conta outros conteúdos semelhantes publicados recentemente. Noutra pespectiva, analisa-se a atenção recebida por conteúdos semelhantes nas redes sociais para fazer uma previsão e recomendação com base nos indicadores do conteúdo em si, de forma a poder dizer se vai ser muito lido ou acedido”, explica. São diferentes “abordagens de aprendizagem automática” capazes de “prever a popularidade dos conteúdos antes ou no momento da sua publicação”, bem como “após a sua publicação”. Segundo Nuno, “os resultados demonstram que cerca de 50% dos casos de extrema popularidade conseguem ser previstos antes de serem publicados”.
O jovem, natural dos Açores, garante que este método é vantajoso tanto para os fornecedores de conteúdos digitais como para os consumidores. “Esta ideia é uma maneira de conseguir sugerir, com maior rapidez, conteúdos mais recentes e com impacto diário que interessam aos utilizadores e, do ponto de vista das organizações noticiosas, promover esses conteúdos o quanto antes para receberem o maior número de acessos”. O método, apenas desenvolvido no papel, é também “aplicável em contextos de recomendação de produtos online”, cujo objectivo seja “prever os casos mais populares”.
Com a dissertação Prediction and Ranking of Highly Popular Web Content, Nuno recebeu 1500 euros que vai aplicar no desenvolvimento do método e de outros projectos de investigação. Transformar a ideia em produto é uma questão que para já fica em aberto, mas o jovem português não descarta a possibilidade de “colaborar com a indústria e aplicar este método em sectores de actividade online”.
O Fraunhofer Portugal Challenge, que se realiza desde 2010, premeia “as ideias de investigação mais inovadoras” no meio académico português em duas categorias (mestrado e doutoramento). Na categoria de doutoramento, foram ainda distinguidos Nuno Almeida, do Instituto de Engenharia Electrónica e Informática de Aveiro, com um projecto que pretende facilitar o desenvolvimento de aplicações interactivas multimodais, multidispositivo, multiplataforma e multilingues, e José Sousa, da Universidade de Trás-os-Montes e Alto Douro, com um método de investigação de acidentes de viação, baseado na utilização de Veículos Aéreos Não Tripulados (VANT), também conhecidos como drones. Os vencedores da categoria de mestrado foram Rafael Simões, com um método que permite uma melhor avaliação de imagens de ressonância magnética cerebral de pacientes com esclerose múltipla, João Monteiro, com a aplicação HealthTalks, que funciona como um sistema de gestão de informação médica pessoal, e João Ferrão, com um biossensor colorimétrico não enzimático em papel que determina níveis de glucose.