“Embora o meu foco não seja nenhuma aplicação em particular, eu realmente acho que essa pesquisa pode ser aplicada a uma ampla variedade de cenários, como cibersegurança, detecção de fraudes, combate a comportamentos adversos, e até mesmo fazer um carro autônomo navegar pelo tráfego”, Brown declarou ao Gizmodo.
Para o novo estudo, Brown e Sandholm submeteram Pluribus a dois testes desafiadores. O primeiro deles colocou o robô contra 13 jogadores profissionais diferentes – sendo que todos eles haviam ganhado mais de US$ 1 milhão em jogos de pôquer – na versão com seis jogadores. O segundo teste envolveu partidas com duas lendas do pôquer, Darren Elia e Chris “Jesus” Ferguson, sendo cada um desafiado por cinco cópias idênticas do Pluribus.
As partidas com cinco humanos e o Pluribus envolveram 10 mil mãos jogadas durante 12 dias. Como incentivo aos jogadores humanos, um total de US$ 50 mil foi distribuído entre os participantes, incluindo Pluribus. As partidas eram cegas, nenhum dos jogadores sabia contra quem estava competindo, embora cada um tivesse um apelido utilizado durante os jogos. Para os testes envolvendo um humano e cinco Pluribuses, cada jogador recebeu US$ 2 mil por participar e um bônus de US$ 2 mil por jogar melhor do que seu oponente humano. Ambos Elia e Ferguson jogaram 5 mil mãos separadas contra seus rivais robôs.
Em todos os cenários, Pluribus ganhou com “significância estatística” e em um nível descrito pelos pesquisadores como “sobre-humano”.
“Nós dizemos sobre-humano no sentido de que ele tem uma performance melhor que os melhores humanos”, disse Brown, que está completando seu doutorado como cientista de pesquisa no Facebook AI. “O robô ganhou por cerca de cinco big blinds (a aposta grande das duas apostas obrigatórias no início da partida) a cada 100 mãos de pôquer (bb/100) ao jogar contra cinco profissionais de elite humanos, uma taxa de vitória muito alta. Derrotar profissionais de elite com uma margem dessas é considerado algo impressionante. É um pouco difícil qualificar isso de uma maneira [simples]…mas uma forma de entender isso é que se o robô estivesse apostando dinheiro real, ele teria ganhado cerca de US$ 1 mil por hora”.
E isso seria ao jogar contra alguns dos melhores jogadores de pôquer do mundo. Conceder o status de sobre-humano ao Pluribus certamente parece algo justificável, e Roman Yampolskiy, um cientista da computação da Universidade de Louisville, que não participou do estudo, concorda.
Para Yampolskiy, a conquista foi significativa porque, “ao contrário do xadrez ou Go, o jogo de pôquer tem informações ocultas e o elemento sorte, o que significa que você não pode simplesmente superar a inteligência humana com computação, mas vencer suas artimanhas”, afirmou ele. “Pôquer, em particular, tem sido um campo de testes de inteligência artificial e mostrar tal nível de domínio em uma versão irrestrita do pôquer com tantos jogadores tem sido um santo graal de pesquisa desde o início da IA”.
Para criar um sistema capaz de jogar proficientemente o pôquer Texas Hold’em de seis jogadores sem limites, Brown e Sandholm empregaram uma grande variedade de estratégias, incluindo novos algoritmos desenvolvidos pela própria dupla.
Antes do início da competição, o Pluribus desenvolveu sua própria estratégia, jogando pôquer sozinho por oito dias consecutivos.
“O Pluribus não usa dados de jogabilidade humanos para criar sua estratégia”, explicou Brown. “Em vez disso, o Pluribus primeiro usa o self-play, no qual joga contra si mesmo com trilhões de mãos para formular uma estratégia básica. Ele começa jogando de forma completamente aleatória. Quanto mais mãos ele joga contra si mesmo, sua estratégia melhora gradualmente à medida que aprende quais ações levam a ganhar mais dinheiro. Tudo isso é feito offline antes mesmo de jogar contra humanos”.
Uma vez que o Pluribus estava armado com suas estratégias planejadas, as competições poderiam começar. Depois que as primeiras apostas foram feitas, o Pluribus calculou vários possíveis próximos movimentos para cada oponente, de uma maneira similar a como as máquinas jogam xadrez e Go. A diferença aqui, no entanto, é que Pluribus não foi encarregado de calcular o jogo inteiro, já que isso seria “computacionalmente proibitivo”, como observado pelos pesquisadores.
“No Pluribus, usamos uma nova maneira de fazer um estudo que não necessita prever até o final do jogo”, disse Brown. “Em vez disso, é possível parar depois de alguns movimentos. Isso torna o algoritmo de busca muito mais escalável. Em particular, nos permite alcançar um desempenho sobre-humano enquanto treinamos apenas pelo equivalente a menos de US$ 150 em um serviço de computação em nuvem, e jogando em tempo real com apenas dois processadores”.
Mesmo com uma estratégia limitada de antecipação, o Pluribus ainda foi capaz de dominar seus oponentes humanos.
É importante ressaltar que o Pluribus também foi programado para ser imprevisível – um aspecto fundamental de um bom jogo de pôquer. Se o Pluribus consistentemente apostasse muito dinheiro quando descobrisse que tinha a melhor mão, por exemplo, seus oponentes acabariam vencendo. Para remediar isso, o sistema foi programado para jogar de forma “equilibrada”, empregando um conjunto de estratégias, como o blefe, que impedia que os oponentes de Pluribus identificassem suas tendências e hábitos.
Algumas das estratégias usadas pelo Pluribus surpreenderam os pesquisadores, incluindo uma estratégia pouco ortodoxa conhecida como “donk betting”, que acontece quando um jogador iguala a aposta, mas depois inicia a próxima rodada com uma aposta. Os jogadores de pôquer consideram um movimento fraco com pouco sentido estratégico.
“A sabedoria convencional é que se você vai chamar [igualar a aposta] e depois apostar [durante a próxima rodada], então você também pode aumentar, porque isso lhe dá mais oportunidades de colocar mais dinheiro em jogo”, explicou Brown. “Donk betting é algo que os jogadores fracos tendem a fazer, embora os profissionais de elite reconheçam que isso poderia, em tese, ser uma boa jogada se feita corretamente nas situações certas. No entanto, executá-la corretamente, sem revelar fraquezas exploráveis, costuma ser algo muito complicado para os humanos, mesmo para os profissionais de elite, de modo que a maioria raramente o faz. O Pluribus descobriu como fazer um donk bet de formas muito mais eficazes de modo que não possa ser facilmente explorado”.
Além disso, o Pluribus muitas vezes fez apostas muito maiores que os jogadores humanos normalmente evitam. Brown disse que isso colocou os oponentes de Pluribus em situações muito difíceis, o que permitiu que a máquina ganhasse muito mais dinheiro com boas mãos do que os humanos.
Chris Ferguson, campeão do WSOP (World Series of Poker): Pluribus é um adversário muito difícil de jogar. É muito difícil limitar seus movimentos em qualquer tipo de mão. Ele também é muito bom em fazer apostas “thin value” (aposta feita quando o jogador não tem uma mão forte, mas acredita que o oponente pode pagar com uma mão pior). Ele é muito bom em extrair valor de suas mãos boas. Então foi bem difícil jogar contra ele. Ele é realmente um adversário muito forte.
Darren Elias: Sua maior força é a capacidade de usar estratégias mistas. É a mesma coisa que os humanos tentam fazer. É uma questão de execução para os humanos – fazer isso de uma maneira perfeitamente aleatória e fazê-lo consistentemente. A maioria das pessoas simplesmente não consegue. O robô não estava apenas jogando contra alguns profissionais quaisquer. Estava jogando com os melhores do mundo”.
Jason Les: Eu provavelmente tenho mais experiência competindo contra os melhores sistemas de IA do que qualquer outro profissional de pôquer no mundo. Eu conheço todos os pontos onde procurar fraquezas, todos os truques para tentar tirar vantagem das deficiências de um computador. Nessa competição, a IA jogou uma ótima estratégia de teoria dos jogos que você realmente só vê nos melhores profissionais humanos e, apesar de todos os meus esforços, eu não consegui encontrar uma maneira de explorá-la. Eu não gostaria de jogar um jogo de pôquer onde esse robô estivesse na mesa.
Jimmy Chou: Sempre que estou jogando contra o robô, sinto que pego algo novo para incorporar ao meu jogo. Como seres humanos, acho que tendemos a simplificar o jogo por nós mesmos, tornando as estratégias mais fáceis de serem adotadas e lembradas. O robô não pega nenhum desses atalhos e tem uma árvore de jogo imensamente complicada/balanceada para cada decisão.
Sean Ruane: Em um jogo que irá, na maioria das vezes, recompensá-lo quando você demonstrar disciplina mental, foco e consistência, e certamente puni-lo quando você não tiver nenhum dos três, competindo por horas a fio contra um robô de inteligência artificial que obviamente não precisa se preocupar com essas deficiências é uma tarefa cansativa. Os detalhes técnicos e os detalhes profundos da habilidade de pôquer da AI foram notáveis, mas o que eu subestimei foi sua força mais transparente – sua consistência implacável.
“Novamente, a IA conseguiu superar os humanos sem depender de dados de jogadas feitas por humanos”, disse Yampolskiy ao Gizmodo. “Isso significa que as máquinas podem aprender a resolver problemas complexos independentemente da supervisão humana”.
Yampolskiy não ficou surpreso com a performance bem-sucedida de Pluribus, embora ele gostaria de ter visto o Pluribus participar de jogos padrão de 10 jogadores, e sem ter que aceitar restrições de apostas (ao contrário de seus oponentes humanos, Pluribus não podia fazer apostas acima de US$ 10 mil).
O que surpreende Yampolskiy, no entanto, é que ainda existem alguns jogos em que os computadores não são sobre-humanos em termos de desempenho. Quanto às áreas em que esse tipo de IA poderia ser aplicada no futuro, Yampolskiy disse que técnicas semelhantes poderiam ser usadas para “superar o desempenho humano em negociações, comercializações e competições similares a jogos, como estratégias de guerra”.
Ele ainda acrescentou, talvez ameaçadoramente: “Essencialmente, qualquer habilidade que possa ser representada como uma situação de jogo pode ser dominada pela inteligência artificial sobre-humana”.