31/05/2017 às 09h17

Robôs inteligentes não estão só aprendendo, mas também ensinando

A vitória do AlphaGo do Google em uma partida de Go contra um ser humano revela que a inteligência artificial pode nos ensinar mais do que imaginamos

Tecnologia

Robôs inteligentes não estão só aprendendo, mas também ensinando

O computador AlphaGo, da Google, vence uma partida de Go contra o número um do mundo, Ke Jie (Stringer/Reuters)

Há pouco mais de 20 anos, um computador venceu um ser humano em um jogo de xadrez pela primeira vez. Isso aconteceu quando o supercomputador DeepBlue, da IBM, venceu Gary Kasparov em uma vitória apertada de três jogos e meio por dois jogos e meio.

Menos de uma década depois, as máquinas foram consideradas as grandes vencedoras dos jogos de xadrez quando Deep Fritz, um software executado em um PC, venceu Vladimir Kramnik, campão mundial de xadrez de 2006.

Agora, a capacidade dos computadores de competir contra a humanidade foi além, dominando um jogo de tabuleiro muito mais complexo, o Go: o programa AlphaGo do Google bateu o número um do mundo Ke Jie duas vezes em uma série de três.

Este importante marco revela quão longe os computadores chegaram nos últimos 20 anos. A vitória do DeepBlue no xadrez mostrou que as máquinas poderiam processar rapidamente enormes quantidades de informações, pavimentando o caminho para a grande revolução de dados que vemos hoje.

O triunfo do AlphaGo, no entanto, representa o real desenvolvimento da inteligência artificial por uma máquina capaz de reconhecer padrões e de aprender a melhor maneira de responder a eles. Além disso, pode significar uma evolução da inteligência artificial, em que os computadores não só aprendem como nos vencer, mas também podem começar a nos ensinar.

O Go é considerado um dos jogos de tabuleiro mais complexos do mundo. Como o xadrez, ele é um jogo de estratégia, mas tem várias diferenças importantes que o tornam muito mais difícil para um computador jogar. As regras são relativamente simples, mas as estratégias envolvidas são altamente complexas. Também é muito mais difícil calcular a posição final e o vencedor no Go.

O jogo tem um tabuleiro maior (uma grade 19×19 em vez de um 8×8 do xadrez) e um número ilimitado de peças, assim há diversas maneiras que o tabuleiro pode ser organizado. Enquanto as peças de xadrez começam em posições definidas e cada pessoa pode fazer um número limitado de movimentos a cada turno, o Go começa com um tabuleiro em branco e os jogadores podem colocar uma peça em qualquer um dos 361 espaços livres. Cada partida leva, em média, duas vezes mais turnos do que as de xadrez e há seis vezes mais opções de movimento por vez.

Esses recursos significam que você não pode construir um programa para jogar o Go usando as mesmas técnicas utilizadas para as máquinas que jogam xadrez. Computadores-jogadores de xadrez tendem a usar uma abordagem de “força bruta”, em que um grande número de possíveis movimentos é analisado para que o melhor seja selecionado.

Feng-Hsiung Hsu, um dos principais contribuintes da equipe do DeepBlue, argumentou em 2007 que a aplicação dessa estratégia para o Go exigiria um aumento de mil vezes na velocidade de processamento do DeepBlue para que fosse possível analisar 100 trilhões de posições por segundo.

Aprendendo novos movimentos

A estratégia usada pelos criadores do AlphaGo da subsidiária DeepMind, do Google, foi criar um programa de inteligência artificial que pudesse aprender a identificar os movimentos favoráveis a partir de movimentos inúteis. Isso significa que o programa não teria que analisar todos os possíveis movimentos que poderiam ser feitos em cada turno.

Em preparação para o seu primeiro jogo contra o jogador profissional de Go, Lee Sedol, o AlphaGo analisou cerca de 30 milhões de movimentos feitos por jogadores profissionais de Go. Em seguida, o programa usou deep learning e uma técnica de aprendizado de reforço para desenvolver sua própria capacidade de identificar movimentos favoráveis.

Entretanto, isso não foi suficiente para permitir que o AlphaGo derrotasse jogadores humanos altamente classificados nos rankings do jogo. O software foi executado em microchips personalizados para o aprendizado de máquinas (machine learning), conhecidos como unidades de processamento tensor (TPUs), para suportar um número muito grande de computações.

A ideia parece semelhante à abordagem usada pelos designers do DeepBlue, que também desenvolveu chips personalizados para computação de alto volume de dados. A grande diferença, porém, é que os chips da DeepBlue só poderiam ser usados para jogar xadrez. Os chips do AlphaGo funcionam com a estrutura de inteligência artificial do Google, o Tensorflow, e também são usados para fornecer outros serviços do Google, como o Street View e as tarefas de otimização dos data centers da empresa.

Lição para nós

Outro ponto que mudou desde a vitória da DeepBlue é o respeito que os seres humanos têm por seus adversários computacionais. Antes, ao jogar xadrez contra computadores, era comum que os jogadores humanos adotassem táticas “anti-computador”. Isso envolve a realização de movimentos conservadores para evitar que o computador avalie as posições de forma eficaz.

Em seu primeiro jogo contra o AlphaGo, no entanto, Ke Jie adotou táticas que tinham siso usadas anteriormente por seu oponente (o computador) para vencê-lo no jogo. Embora essa tentativa tenha falhado, demonstra uma mudança na maneira como jogadores humanos jogam contra computadores. Em vez de tentar sufocar a máquina, eles começaram a tentar aprender como ela se comportou no passado.

Na verdade, a máquina já influenciou o Go com grandes jogadores adotando estratégia do AlphaGo durante os torneios. Essa máquina ensinou algo novo à humanidade sobre um jogo que ela tem jogado por mais de 2.500 anos, nos libertando da experiência milenar.

O que o futuro pode esperar da inteligência artificial por trás do AlphaGo? O sucesso da DeepBlue desencadeou rápidos desenvolvimentos que impactaram diretamente as técnicas aplicadas no processamento de grandes quantidades de dados. O benefício da tecnologia usada para implementar o AlphaGo é que ela já pode ser aplicada a outros problemas que requerem identificação de padrões.

As mesmas técnicas, por exemplo, têm sido aplicadas à detecção de câncer e à criação de robôs que podem aprender a realizar tarefas como abrir portas, entre muitas outras aplicações. O quadro subjacente usado no AlphaGo, o Tensorflow do Google, foi disponibilizado gratuitamente para desenvolvedores e pesquisadores para construir novos programas de machine learning usando o hardware de um computador padrão.

O que é mais legal é que ao combinar o software com os computadores disponíveis a partir da nuvem da internet, você cria a promessa de entregar o machine learning da supercomputação. Quando essa tecnologia amadurecer, seu potencial existirá para a criação de máquinas autodidatas em papéis abrangentes que podem suportar tarefas complexas de tomada de decisão. É claro que os impactos sociais podem ser ainda mais profundos se as máquinas não apenas aprendam sozinhas, mas também nos ensinem no decorrer do processo.

Este texto foi originalmente publicado no site The Conversation