Estudo desenvolvido na área em que o computador incorpora e usa conhecimentos previamente adquiridos está entre os projetos agraciados pela programa de Bolsas de Pesquisa Google para a América Latina
A dupla de pesquisadores Anna Reali e Ruben Glatt, da Escola Politécnica da Universidade de São Paulo (Poli-USP), está entre os 12 premiados pelo programa de Bolsas de Pesquisa do Google para a América Latina. Lançado em junho de 2015, o concurso da multinacional norte-americana da área de tecnologia laureou trabalhos científicos de pós-graduação em setores avançados e afins aos serviços prestados pela empresa (ver boxe).
Orientada pela professora Anna, a pesquisa premiada na área de “Aprendizagem por reforço aprofundada” é a tese de doutoramento de Glatt. O trabalho, na linha de inteligência artificial, usa a chamada Deep Reinforcement Learning (DRL), para “ensinar” máquinas e robôs a tomar decisões como se fossem humanos, considerando, a cada novo desafio, os conhecimentos anteriormente adquiridos.
Aprendizagem
“O conceito é o de programar um sistema para que ele aprenda a aprender, do mesmo modo que faz o cérebro de uma criança. Por exemplo, para deixar de engatinhar e começar a andar, o bebê precisa desenvolver o equilíbrio e a coordenação motora, entre outras habilidades”, explica Anna. “O conhecimento prévio adquirido será usado mais tarde, para que aprenda a nadar, andar de bicicleta ou a cavalo, etc.”, complementa.
Com a máquina, a estratégia “pedagógica” adotada é parecida: esgotar, por meio de tentativa e erro, todas as possibilidades de resolução de um problema até encontrar a solução mais eficiente e indicada a cada necessidade. Na pesquisa da Poli-USP, jogos antigos de videogame são uma das ferramentas usadas no processo de aprendizagem dos algoritmos usados na computação.
O conhecimento adquirido no aprendizado da melhor solução de um problema será, então, usado para acelerar o aprendizado da solução de um novo problema, usando a técnica de transferência do conhecimento.
Baú de games
Uma das ferramentas usadas na pesquisa da Poli-USP é um software (emulador) que roda títulos do Atari 2600, console lançado em 1977, e um dos ancestrais dos atuais PlayStation, Xbox e Nintendo. Um deles é o Breakout, game de plataforma bidimensional com um único objetivo: rebater, com o cursor, uma bolinha para o alto, sem deixá-la cair, e destruir no topo da tela um conjunto de fileiras de tijolos.
“Como uma pessoa, a máquina é capaz de aprender com os erros cometidos em cada partida disputada – e os transformar em novas informações para a base de dados”, explica Glatt. Ele observa que a capacidade de processamento de informações da máquina é muito superior à do ser humano. Por isso, antes da tomada de decisão para a partida seguinte, ela analisa todas as opções testadas e consegue identificar no conjunto de informações a estratégia mais eficiente para resolver um problema.
Algoritmos
A experiência de Deep Reinforcement Learning com o jogo Breakout pode ser conferida on-line em um vídeo sobre artigo publicado no site da revista científica britânica Nature (ver serviço). Após 600 partidas disputadas, o conjunto de algoritmos sabe qual é a melhor opção, ou seja, mirar a bolinha de modo a abrir uma fenda em qualquer uma das duas pontas da linha de tijolos – e, nas rebatidas seguintes, direcioná-la para o buraco aberto e destruir as fileiras superiores.
O objetivo da pesquisa, explica Glatt, é fazer a máquina aprender a vencer qualquer jogo, considerando as habilidades exigidas para cumprir os objetivos propostos em cada título, além de tornar essa transferência de conhecimento mais eficaz, sem precisar reprogramar o conjunto de algoritmos após a inclusão de um novo título e aprender mais rapidamente a vencer no novo game.
O desafio atual, informa o pesquisador, cujo doutorado tem término previsto para o final de 2018, é aprofundar na pesquisa o chamado Deep Learning, a capacidade da máquina para extrair e absorver diversos níveis de representações diretamente dos dados.
Criatividade e dedicação recompensadas
Para avaliar os trabalhos, o Google constituiu comissão julgadora formada por 15 engenheiros com experiência em pós-graduação. Como critérios de julgamento foram considerados três quesitos: impacto, originalidade e qualidade.
O nome dos 12 vencedores foi divulgado no dia 24 de setembro, no blog da empresa (ver serviço). O prêmio é uma bolsa anual, com parcelas mensais de US$ 1,2 mil para cada aluno de doutorado vencedor e de US$ 750 para o seu professor orientador.
Foram premiados dois centros de pesquisa do México, um do Chile e um da Colômbia. O Brasil teve oito projetos contemplados, dos quais cinco de instituições públicas de ensino superior mantidas pelo Estado de São Paulo: um da Universidade Estadual de Campinas (Unicamp) e quatro da Universidade de São Paulo (USP). Além do trabalho da dupla premiada da Poli, os outros três são do Instituto de Ciências Matemáticas e de Computação (ICMC), câmpus São Carlos.
“A inovação tecnológica está presente em todas as áreas do conhecimento. Os projetos vencedores mostram a importância da pesquisa para resolver problemas reais e cotidianos da sociedade”, observa Berthier Ribeiro-Neto, diretor de engenharia do Google América Latina.
Serviço
Laboratório de Técnicas Inteligentes da Poli/USP
Vídeo da Nature
Os 12 projetos selecionados pelo Google
Rogério Mascia Silveira
Imprensa Oficial – Conteúdo Editorial
Reportagem publicada originalmente na página II do Poder Executivo I e II do Diário Oficial do Estado de SP do dia 08/10/2015. (PDF)