Silvio quer ensinar máquinas a compreender o que escrevemos
Jovem investigador do INESC-Lisboa dedica-se a uma área em expansão da ciência informática — o objectivo é “ensinar” as máquinas a interpretar o que escrevemos
Vivemos numa sociedade cada vez mais digitalmente integrada, em que a maioria das mensagens que trocamos circula nessa rede das redes: a Internet. No entanto, as máquinas que levam essas mensagens de emissor a receptor(es) não têm a capacidade de descodificar o que na verdade dizemos. Pedidos, confissões, injúrias, lamentos — tudo isto não passa de dados amorfos para os servidores. Em tempos falava-se do surgimento da Web 3.0, uma “web semântica” na qual os dados seriam “anotados” de forma a pelo menos refinar as procuras que fazemos na rede. Por outras palavras, os dados amorfos ganham valor e significado, como explicou ao P3 Silvio Moreira, 30 anos, investigador do INESC-Lisboa.
A verdade faz-nos mais fortes
Das guerras aos desastres ambientais, da economia às ameaças epidémicas, quando os dias são de incerteza, o jornalismo do Público torna-se o porto de abrigo para os portugueses que querem pensar melhor. Juntos vemos melhor. Dê força à informação responsável que o ajuda entender o mundo, a pensar e decidir.
Vivemos numa sociedade cada vez mais digitalmente integrada, em que a maioria das mensagens que trocamos circula nessa rede das redes: a Internet. No entanto, as máquinas que levam essas mensagens de emissor a receptor(es) não têm a capacidade de descodificar o que na verdade dizemos. Pedidos, confissões, injúrias, lamentos — tudo isto não passa de dados amorfos para os servidores. Em tempos falava-se do surgimento da Web 3.0, uma “web semântica” na qual os dados seriam “anotados” de forma a pelo menos refinar as procuras que fazemos na rede. Por outras palavras, os dados amorfos ganham valor e significado, como explicou ao P3 Silvio Moreira, 30 anos, investigador do INESC-Lisboa.
Apesar de a tal “web semântica” nunca se ter concretizado, a nova fronteira na evolução da internet parece ser o “machine learning”. E o que é o “machine learning”? É o estudo de sistemas de processamento que sejam capazes de analisar o conteúdo valorativo de uma mensagem redigida por um humano. Com o advento das redes sociais, o denominado "big data" já não se limita a bases de dados com estatísticas ou registos burocráticos: agora também inclui os nossos pensamentos e opiniões. O fantasma efémero do “buzz” é algo de extremo interesse para marcas amestrarem e capitalizarem, e qualquer político sonha com um acompanhamento em tempo real da sua imagem pública.
Análise de sentimento
O investigador português Silvio Moreira, mestre pela Faculdade de Ciências da Universidade de Lisboa, está neste momento a desenvolver investigação para o seu doutoramento em processos de "data mining" nas redes sociais. "A minha investigação ainda está no princípio”, admite o investigador, “mas a ideia será mesmo perceber se é de todo possível explicar, e até prever, fenómenos sociais baseando-nos nas mensagens que as pessoas partilham no Facebook ou no Twitter".
A grande vantagem, assegura Silvio, é a escala da amostra. O investigador aponta os tradicionais inquéritos e sondagens como métodos que se limitam a amostras muito pequenas numa tentativa de conter custos — e que mesmo assim se revelam métodos dispendiosos de fidelidade questionável. “Agora chegamos ao ponto em que a amostra que tu tens não é infinita, mas é infinitamente grande”, defende o cientista. Quando questionado sobre se o perfil de um utilizador de redes sociais restringe a transversalidade da amostra, Silvio aponta que “o uso de redes sociais está cada vez mais massificado, e isso dá força a esta linha de investigação. Já não se pode apontar para um perfil concreto de como é um utilizador das redes sociais”.
No âmbito do projecto REACTION (Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News), Silvio já havia desenvolvido trabalho nesta área com o Sentilex-PT, um projecto que juntou cientistas informáticos e linguistas. Foi desenvolvido um léxico de palavras portuguesas com carga valorativa que os algoritmos poderiam usar para medir a polaridade de frases — um exemplo da aplicação deste software é a plataforma POPSTAR (Public Opinion and Sentiment Tracking, Analysis and Research), que monitoriza as expressões de sentimento relativas a líderes políticos no Facebook e no Twitter.
No entanto, a análise de sentimento com recurso apenas a um léxico depara-se com várias dificuldades: o uso de sarcasmo, de calão não incluído no léxico, ou negações dos adjectivos usados (ex: "este produto evita os defeitos comuns"). É por isso que Sílvio defende que o “machine learning” — algoritmos que sejam capazes de detectar padrões de expressão previamente listados — venha a ser mais eficiente. Admite, no entanto, que esta tecnologia ainda é bastante jovem, e que o processo de “quantificar o peso de expressões valorativas é um pouco 'magia negra', é um processo que requer bastante empatia para conseguirmos atribuir um peso concreto às expressões de sentimento que usamos”.
Por fim, confrontamos Silvio com uma questão ética. À luz das recentes revelações sobre a máquina de monitorização de mensagens na Internet por parte da Agência de Segurança Nacional dos Estados Unidos (NSA), desenvolver esta tecnologia não seria dar ferramentas a quem quer invadir a nossa privacidade? O investigador é categórico: "A privacidade morreu. As pessoas têm de ter consciência disso, e fazer um esforço para se expor o menos possível". Quanto ao uso da tecnologia em si, Silvio assegura que "estas ferramentas já existem — a diferença é que o trabalho que nós fazemos é aberto ao público e de uso livre — enquanto que projectos governamentais já existem há vários anos sem sabermos o que são capazes de fazer". “O exemplo da energia atómica também serve aqui" conclui Silvio Moreira, “a tecnologia é uma faca de dois gumes, cabe-nos a nós fazer um bom uso dela”.
Texto editado por Andréia Azevedo Soares