O Facebook está utilizando uma nova ferramenta de reconhecimento de imagens e dos textos a elas associados para identificar de forma ágil conteúdos que violem suas políticas de discurso de ódio.
A tecnologia baseia-se em um sistema de aprendizado de máquina (machine learning) em larga escala, capaz de processar o massivo volume de imagens publicadas na rede social – e no Instagram – diariamente.
Batizado de Rosetta – em referência à Pedra de Roseta, bloco de granito cuja descoberta permitiu a compreensão da escrita hieroglífica – o sistema procura desempenhar uma tarefa fundamental.
Não apenas identificar as letras, mas compreender seu contexto e associá-las com a imagem a que estiverem vinculadas.
Diferente das tecnologias tradicionais de reconhecimento ótico de caracteres (OCR, na sigla em inglês) que não conseguem cumprir tarefas mais complexas.
“Para solucionar nossas necessidades específicas, construímos e implementamos um sistema de machine learning em larga escala chamado Rosetta”, explicam os criadores da tecnologia, em um artigo divulgado pelo Facebook.
“Ele extrai texto de mais de 1 bilhão de imagens e frames de vídeos públicos do Facebook e do Instagram (em uma extensa variedade de idiomas), diariamente e em tempo real, e o introduz em um modelo de reconhecimento de texto, que recebeu treinamento em classificadores para entender o contexto do texto e da imagem conjuntamente”.
Ferramenta em ação
A extração do texto da imagem é realizada, de acordo com os desenvolvedores, em um processo em duas etapas. Inicialmente, o sistema detecta regiões retangulares que potencialmente contenham textos.
No segundo passo, é desempenhado o reconhecimento do texto, em que, para cada uma das regiões detectadas é utilizado uma rede neural convolucional para reconhecer e transcrever a palavra naquela região, segundo o Facebook.
O desafio de processar bilhões de imagens com bom desempenho e rapidez é considerável, conforme aponta Eduardo Oda, doutor em matemática aplicada, especialista em ciência de dados e pesquisador do Programa de Pós-Doutorado do Laboratório Interdisciplinar de Neuroimagem e Cognição da Universidade Federal de São Paulo (Unifesp).
“Trata-se de um volume gigantesco de imagens a processar, por isso o desafio é tão grande. As redes neurais são mais espertas para entender onde estão os textos do que a tecnologia de OCR”, avalia.
De acordo com Eduardo Oda, a novidade do sistema desenvolvido pelo Facebook está na união bem-sucedida de tecnologias já estabelecidas, o que permite capacidade de processamento acelerado e análise acurada de seus temas – de modo a identificar conteúdos negativos.
“Este é um problema crescente em todo o mundo e por isso o Facebook fez esse esforço para encontrar uma solução viável”, conclui.