muito longe
As imagens para download no site do escritório de notícias do MIT são disponibilizadas para entidades não comerciais, imprensa e público em geral sob uma licença Creative Commons Attribution Non-Commercial No Derivatives. Você não pode alterar as imagens fornecidas, exceto cortá-las no tamanho. Uma linha de crédito deve ser utilizada na reprodução das imagens; se não houver um abaixo, credite as imagens ao "MIT".
imagem anterior imagem seguinte
Imagine dois times se enfrentando em um campo de futebol. Os jogadores podem cooperar para atingir um objetivo e competir contra outros jogadores com interesses conflitantes. É assim que o jogo funciona.
Criar agentes de inteligência artificial que possam aprender a competir e cooperar de forma tão eficaz quanto os humanos continua sendo um problema espinhoso. Um dos principais desafios é permitir que os agentes de IA antecipem comportamentos futuros de outros agentes quando todos estiverem aprendendo simultaneamente.
Devido à complexidade desse problema, as abordagens atuais tendem a ser míopes; os agentes só podem adivinhar os próximos movimentos de seus companheiros de equipe ou concorrentes, o que leva a um desempenho ruim a longo prazo.
Pesquisadores do MIT, do MIT-IBM Watson AI Lab e de outros lugares desenvolveram uma nova abordagem que oferece aos agentes de IA uma perspectiva perspicaz. Sua estrutura de aprendizado de máquina permite que agentes de IA cooperativos ou competitivos considerem o que outros agentes farão à medida que o tempo se aproxima do infinito, não apenas nas próximas etapas. Os agentes então adaptam seus comportamentos de acordo para influenciar os comportamentos futuros de outros agentes e chegar a uma solução ideal de longo prazo.
Essa estrutura pode ser usada por um grupo de drones autônomos trabalhando juntos para encontrar um caminhante perdido em uma floresta densa ou por carros autônomos que se esforçam para manter os passageiros seguros, antecipando movimentos futuros de outros veículos em uma rodovia movimentada.
"Quando os agentes de IA estão cooperando ou competindo, o que mais importa é quando seus comportamentos convergem em algum momento no futuro. Há muitos comportamentos transitórios ao longo do caminho que não importam muito a longo prazo. Alcançar esse comportamento convergente é com o que realmente nos preocupamos e agora temos uma maneira matemática de possibilitar isso", diz Dong-Ki Kim, estudante de pós-graduação no Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT e principal autor de um artigo que descreve essa estrutura.
O autor sênior é Jonathan P. How, o Richard C. Maclaurin Professor de Aeronáutica e Astronáutica e membro do MIT-IBM Watson AI Lab. Os coautores incluem outros no MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute e Oxford University. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Mais agentes, mais problemas
Os pesquisadores se concentraram em um problema conhecido como aprendizado por reforço multiagente. O aprendizado por reforço é uma forma de aprendizado de máquina em que um agente de IA aprende por tentativa e erro. Os pesquisadores dão ao agente uma recompensa por "bons" comportamentos que o ajudam a atingir um objetivo. O agente adapta seu comportamento para maximizar essa recompensa até que eventualmente se torne um especialista em uma tarefa.
Mas quando muitos agentes cooperativos ou concorrentes estão aprendendo simultaneamente, as coisas se tornam cada vez mais complexas. À medida que os agentes consideram mais etapas futuras de seus colegas agentes e como seu próprio comportamento influencia os outros, o problema logo requer muito poder computacional para ser resolvido com eficiência. É por isso que outras abordagens se concentram apenas no curto prazo.
"Os AIs realmente querem pensar no final do jogo, mas não sabem quando o jogo terminará. Eles precisam pensar em como continuar adaptando seu comportamento ao infinito para que possam vencer em algum momento distante no futuro . Nosso artigo propõe essencialmente um novo objetivo que permite que uma IA pense no infinito", diz Kim.
Mas, como é impossível conectar o infinito a um algoritmo, os pesquisadores projetaram seu sistema para que os agentes se concentrem em um ponto futuro em que seu comportamento convergirá com o de outros agentes, conhecido como equilíbrio. Um ponto de equilíbrio determina o desempenho de longo prazo dos agentes, e múltiplos equilíbrios podem existir em um cenário multiagente. Portanto, um agente efetivo influencia ativamente os comportamentos futuros de outros agentes de forma que eles alcancem um equilíbrio desejável do ponto de vista do agente. Se todos os agentes se influenciam, eles convergem para um conceito geral que os pesquisadores chamam de "equilíbrio ativo".