Pluribus, quand l'IA de facebook surclasse les joueurs de 6 max !

15 juillet 2019
gaspardcibert
4081
PA 0
67 Commentaires

Pendant de nombreuses années, le poker a représenté un défi quasiment insurmontable pour les chercheurs en intelligence artificielle. Ce temps est révolu puisqu’un nouvel algorithme baptisé Pluribus est maintenant capable de battre les tous meilleurs, et plus uniquement en head's up !

Pluribus, le nouvel IA de poker

Résoudre le poker a souvent été problématique pour les ingénieurs, du fait que le jeu possède énormément de variables inconnues comme par exemple les cartes des adversaires. Le jeu implique également du bluff et d’autres stratégies qui ont considérablement aidé le poker à résister aux systèmes IA. Le nombre important de joueurs à table a également rendu très compliqué le développement de bots performants.

Par exemple, un algorithme capable de battre les meilleurs joueurs d’échecs existe déjà depuis 1996. Cela a été rendu possible grâce aux caractéristiques du jeu.

En effet aucune donnée n’est cachée et le jeu ne se joue qu’à deux, ainsi le logiciel est maître des différents paramètres de la partie. Des ingénieurs de l’université de Carnegie Mellon, en collaboration avec facebook IA, ont finalement réussi à créer un nouvel algorithme capable de jouer au poker de manière surhumaine.

Pluribus, directement inspiré de son petit frère Libratus qui ne pouvait jouer qu’en Heads up, est maintenant capable de battre les meilleurs, et ceux même en 6max. De plus, un tel logiciel ne requiert pas énormément de puissance, il a été établi que seulement 150$ suffisent à louer l’équivalent en puissance sur le cloud.

Comment ca marche ?

Pluribus est en fait un autodidacte, les chercheurs lui ont seulement appris les règles et il s’est ensuite entraîné contre lui même sur des milliards de mains. Au depart l’IA jouait au hasard, puis sa stratégie s’est progressivement améliorée à mesure qu’il découvrait des actions plus profitables que d’autres.

A chaque coup, l’algorithme doit faire des choix et les comparer aux précédentes décisions prises. Il calcule alors le “regret” de ne pas avoir fait un autre choix. L’algorithme met ensuite son jeu à jour en fonction des “regrets”. C’est ainsi que le logiciel s’améliore en permanence, et ceux en fonction de ses expériences passées.

En se basant sur ses précédentes mains, l’algorithme a pour but de trouver l’équilibre de Nash. Situation dans laquelle on est sûr de ne pas être perdant (un joueur humain cherche le même équilibre). Dans un jeu à 3 ou plus, on ne sait pas théoriquement comment trouver l’équilibre de Nash.
Pour remédier à ça, les chercheurs ont fait un test en modifiant l’algorithme de Liberatus (précédent logiciel uniquement capable de jouer en HU) sans être certain que cela rende la machine stratégiquement meilleure. Cela a finalement très bien fonctionné sans que l’on sache réellement pourquoi.

L’autre aspect très intéressant de Pluribus est sa capacité à être imprévisible, le but n’est pas de miser dès que le logiciel possède une bonne main mais plutôt de mixer ses sizing et ses ranges de 3bet pour troubler l’adversaire.

Un logiciel capable de battre les tous meilleurs

Pluribus a été testé contre certains des meilleurs du circuit pro et online, et le résultat est sans appel. Le logiciel les a tous surpassé !

Dans le cadre de cette étude, Pluribus a d’abord été testé contre 13 joueurs professionnels ayant tous remporté plus d’un million de dollars short handed, incluant 2 vainqueurs du main event des WSOP (Chris Ferguson en 2000, Greg Merson en 2012) et Darren Elias 4 fois champions du World poker tour.

On trouve également ‘LlinusLLove’ considéré comme le meilleur joueur 6 max cash game online de ces dernières années.

L'expérimentation s’est divisée en 2 formats:

5 joueurs humains jouant contre un IA

Dans cette expérience, 10 000 mains ont été jouées sur 12 jours.

Afin de motiver les joueurs et d’être sûr qu’il pratique leur A game (meilleur niveau de jeu), un prizepool de 50 000$ était à partager.

Un logiciel AVIAT visant à réduire la variance a également été utilisé pour augmenter la pertinence des résultats.

Finalement, il a été estimé que le winrate de l’IA était de 5 big blinds pour 100 mains, ce qui est considéré comme étant un winrate excellent, d’autant plus contre des joueurs professionnel. Si 1 chip avait value 1 dollar, Pluribus aurait gagné en moyenne l'équivalent de 5 dollars par main soit 1000$ de l’heure.

1 joueur humain jouant avec 5 IA

Dans cette expérience, Ferguson , Elias et Linus ‘LlinusLlove’ Loeglier ont joué 5000 mains contre 5 copies de Pluribus. Encore une fois le résultat a été sans équivoque puisque les humains ont eu une moyenne de perte de 2.3bb pour 100 mains.

3 mains du match disputées

Les avis des pros

Des changement sur le game theory optimal

Grâce au fait que Pluribus ait appris de lui même, sans aide exérieure, l’IA nous apporte une perspective extérieure complètement différente.

De plus, au regard de son winrate contre les meilleurs joueurs du monde, il ne fait aucun doute que son jeu est le plus optimal (GTO). Par exemple alors que le limp revenait à la mode, il s’avère qu’il n'est finalement jamais rentable.

En effet, plus l’IA s’entraînait contre elle même plus elle réduisait sa fréquence de limp jusqu'à ne plus en faire du tout, mis à part en small blind dans certains cas très précis.

Par ailleurs le donk bet a tendance à être considéré comme un move “fishy”, hors il s’avère qu’il est beaucoup plus profitable que ce qu’on pensait. Pluribus donk bet beaucoup plus que la moyenne par exemple.

Pluribus donne des idées à d’autres secteurs

L’intelligence artificielle suscite de l’intérêt dans de nombreux domaines. Noa Brown, l’un des chercheurs ayant participé à la conception de Pluribus imagine déjà appliquer cette technologie aux domaines de la cybersécurité, de la détection des fraudes, de la finance ou encore des voitures autonomes.

Il existe également d’autres défis à relever pour l’intelligence artificielle avec certains jeux vidéos ou encore le bridge et le maoh-jong qui lui résistent toujours, mais probablement plus pour très longtemps.