Tecnologia identifica até 97% de conteúdo indesejado em sites e vídeos

Desenvolvido por pesquisadores do Instituto de Computação da Unicamp, aplicativo rastreia e bloqueia exibição de pornografia em celulares, tablets e televisores; inovação foi patenteada em copropriedade entre a universidade e a sul-coreana Samsung

Em busca de uma solução capaz de impedir o acesso indevido a conteúdos adultos em seus aparelhos eletrônicos, a multinacional sul-coreana Samsung, por meio de sua filial brasileira, a Samsung Research Institute Brazil, procurou, no ano de 2013, os pesquisadores do Laboratório de Pesquisa Reasoning for Complex Data (Recod), do Instituto de Computação da Universidade Estadual de Campinas (IC-Unicamp), com o objetivo de desenvolver um meio de impedir que crianças visualizem sites pornográficos em seus celulares, tablets e televisores.

Em novembro do mesmo ano, foi firmada a parceria entre a universidade e a empresa, a qual financiou o projeto, por meio da concessão de bolsas de estudo e a cessão de equipamentos. O trabalho teve também o apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).

O mês de janeiro de 2016 foi estabelecido em contrato como o prazo de encerramento do trabalho; no entanto, um ano antes, a equipe do IC-Unicamp, coordenada pelo professor Anderson Rocha, apresentou à Samsung diversas possibilidades de uso do software desenvolvido, batizado de Análise de Mídias Sensíveis.

Aprendizado

Também cientista da computação e integrante da equipe do professor Anderson, a pesquisadora Sandra Avila sublinha o fato de a solução desenvolvida no IC-Unicamp ser capaz de identificar mais de 97% do conteúdo pornográfico, porcentual de detecção superior às ferramentas disponíveis no mercado.

O trabalho teve ainda a participação dos cientistas Daniel Moraes, Daniel Moreira, Mauricio Perez e Siome Goldenstein, do IC-Unicamp, Eduardo Valle, da Faculdade de Engenharia Elétrica e de Computação (FEEC-Unicamp); e Miguel Lizarraga e Vanessa Testoni, da Samsung Research Institute Brazil.

“Usamos abordagens recentes de inteligência artificial, como o chamado deep learning. Essa técnica de aprendizado de máquina permite localizar com precisão padrões distintos em meio a um volume imenso de dados. Assim, ao analisar em tempo real um conjunto de imagens estáticas e em movimento, o sistema aprende a compreender o que é um conteúdo sensível, isto é, algo legítimo para o acesso de um adulto, porém, impróprio para uma criança”, explica Sandra.

Patente

A tecnologia desenvolvida no IC-Unicamp é tema de artigo publicado na revista científica Neurocomputing (Volume 230, 22-3-2017, páginas 279–293), com o título “Video pornography detection through deep learning techniques and motion information” (ver serviço). O trabalho rendeu dois pedidos de depósito de patente no ano passado.

O primeiro deles, de âmbito nacional, teve seu encaminhamento feito ao Instituto Nacional da Propriedade Industrial (Inpi) em abril; o segundo, de abrangência internacional, foi protocolado em junho, no órgão do governo dos Estados Unidos responsável por patentes e marcas comerciais, o United States Patent and Trademark Office (USPTO).

“Por se tratar de informação confidencial, a Samsung não divulga como atualmente emprega a tecnologia desenvolvida”, diz Sandra. Ela destaca o fato de a linha de pesquisa prosseguir atualmente no IC-Unicamp com outros estudos de pós-graduação. Segundo ela, diversos estudantes estão trabalhando no aprimoramento da inovação para detectar outros conteúdos sensíveis em sequências de imagens com pessoas, como, por exemplo, revelar adultos e crianças em situações de pedofilia ou ainda identificar atitudes suspeitas ou violentas de pessoas em multidões.

Metodologia

No início, os programas de computador usados para detectar pornografia buscavam primeiro tentar achar cenas de nudez para depois definir um limite de exposição física aceitável e, finalmente, classificar esse conteúdo como pornográfico ou não. Eram usadas como parâmetros algumas características da pele humana, como a cor e a textura, além de dados da geometria dos corpos. No entanto, os resultados obtidos mostravam-se insatisfatórios, filtravam menos do que o necessário ou bloqueavam indevidamente conteúdos sem sexo explícito, como lutas de vale-tudo e pessoas nadando.

Para diminuir a ambiguidade, a saída encontrada foi incorporar outro elemento de classificação: informações de movimento extraídas ao longo do tempo. Assim, quando o usuário clica em algum e-mail contendo link para um vídeo ou, ainda, caso acesse Tecnologia identifica até 97% de conteúdo indesejado em sites e vídeos algum site com janela para um vídeo, antes de sua execução o programa faz a análise por meio da extração prévia de um quadro por segundo. São, então, verificados os quadros com as imagens aplicando-se neles o método de classificação de descrições do que é tolerado e do que é pornográfico.

Abrangência

Paralelamente, o conjunto de quadros analisados fornece os elementos para sequenciar os movimentos dos objetos e pessoas presentes na cena. Dependendo do tipo de movimento, o vídeo é bloqueado. Segundo os pesquisadores, o método foi testado com sucesso por cerca de 140 horas com mil vídeos pornográficos e em outros mil não pornográficos cuja duração variava de 6 segundos a 33 minutos.

As sequências com cenas de sexo explícito tinham a participação de atores de etnias diversas e também foram considerados desenhos animados. Entre os vídeos não pornográficos havia cenas de banhistas na praia e em clubes ou combates de lutas. Foi utilizando essa metodologia que a equipe do IC-Unicamp conseguiu elevar o nível de filtragem de pornografia e chegar aos 97%.

Serviço

O artigo publicado na revista científica Neurocomputing está disponível em goo.gl/2Vpq4S

Rogério Mascia Silveira
Imprensa Oficial – Conteúdo Editorial

Reportagem publicada originalmente na página IV do Poder Executivo I e II do Diário Oficial do Estado de SP do dia 14/04/2017. (PDF)