Analyse du jeu de Pluribus, l'IA "invincible" de Facebook

yvan161 · Août 14, 2019, 12:30

Sauf que non. Pluribus a joué des milliards de mains contre lui-même avant la rencontre et qu’il n’a pas appris des 10 000 mains jouées contre les humains.

grosrobert · Août 14, 2019, 2:10

Salut @Freudinou,
Tu as des infos sur le fait que Linus serait MrPink ou c’est juste une supposition personnelle de ta part ?

Freudinou · Août 14, 2019, 4:49

Voici ce que j’ai relevé au détour de divers articles (par contre j’ai fait la bourde de ne pas sauvegarder les sources des extraits mais je peux retrouver les articles originaux) :

By playing trillions of hands of poker against itself, Pluribus created a basic strategy that it draws on in matches. At each decision point, it compares the state of the game with its blueprint and searches a few moves ahead to see how the action played out. It then decides whether it can improve on it. And because it taught itself to play without human input, the AI settled on a few strategies that human players tend not to use.

Pluribus plays a fixed strategy that does not adapt to the observed tendencies of the opponents

Pluribus’s self play produces a strategy for the entire game offline, which we refer to as the blueprint strategy. Then during actual play against opponents, Pluribus improves upon the blueprint strategy by searching for a better strategy in real time for the situations it finds itself in during the game. In subsections below, we discuss both of those phases in detail, but first we discuss abstraction, forms of which are used in both phases to make them scalable.

Action abstraction reduces the number of different actions the AI needs to consider. No-limit Texas hold’em normally allows any whole-dollar bet between $100 and $10,000. However, in practice there is little difference between betting $200 and betting $201. To reduce the complexity of forming a strategy, Pluribus only considers a few different bet sizes at any given decision point. The exact number of bets it considers varies between one and 14 depending on the situation. Although Pluribus can limit itself to only betting one of a few different sizes between $100 and $10,000, when actually playing no-limit poker, the opponents are not constrained to those few options. What happens if an opponent bets $150 while Pluribus has only been trained to consider bets of $100 or $200? Generally, Pluribus will rely on its search algorithm, described in a later section, to compute a response in real time to such “off-tree” actions.

Because Pluribus’s strategy was determined entirely from self-play without any human data, it also provides an outside perspective on what optimal play should look like in multiplayer no-limit Texas hold’em. Pluribus confirms the conventional human wisdom that limping (calling the “big blind” rather than folding or raising) is suboptimal for any player except the “small blind” player who already has half the big blind in the pot by the rules, and thus has to invest only half as much as the other players to call. While Pluribus initially experimented with limping when computing its blueprint strategy offline through self play, it gradually discarded this action from its strategy as self play continued. However, Pluribus disagrees with the folk wisdom that “donk betting” (starting a round by betting when one ended the previous betting round with a call) is a mistake; Pluribus does this far more often than professional humans do.

A noter que c’est peut-être mon niveau d’anglais qui est insuffisant mais je trouve que dans la manière de présenter les choses de la part de Facebook dans leur communication grand public (cf leur sélection de mains), on peut avoir l’impression que Pluribus s’adapte au field et fait “volontairement” des moves que les humains ne savent pas gérer. Enfin ce n’est que mon interprétation bien subjective.

Freudinou · Août 14, 2019, 4:52

Sur les forums américains, certains pensent que c’est lui sous ce pseudo (mais bon, il y a diverses spéculations). Le problème, c’est que je ne sais pas qui est derrière les pseudos américains…Je n’ai vu cette théorie qu’après avoir visionné les mains, donc je n’ai pas été particulièrement attentif au style de M.Pink, je peux simplement dire qu’il m’est apparut comme étant solide effectivement.

grosrobert · Août 14, 2019, 6:10

Ok.
Forums américains, j’imagine que tu fais référence à 2+2 ?
Je suis tombé sur une vidéo (proposition youtube) où le mec pensait que Linus était MrOrange mais pareil je ne sais pas qui est ce mec ni ce qu’il vaut au poker.
(pour la petite histoire d’ailleurs, il a eu ce commentaire à propos de MrBlue : “seems to be an extraordinary strong player” )

yvan161 · Août 14, 2019, 10:31

Voici les liens issus des échanges précédents sur le sujet

L’article initial des auteurs n’est plus accessible publiquement

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

La communication FB si

Pas du tout : au contraire Pluribus ne s’adapte pas aux humains.

Ni avant le match ni pendant.

Il a ‹ juste › joué contre lui de très nombreuses fois pour trouver les lignes les plus rentables qui peuvent battre les meilleurs joueurs d’après eux (en moins de vingt heures de calcul et en moins de 7 heures pour le commun des joueurs de poker).

A noter qu’il pourrait même les battre en limpant apparemment d’après le graphe et qu’il ne peut quasiment plus progresser.

A noter aussi qu’il n’implémente pas la recherche d’un équilibre de Nash (impossible à plus de deux) et donc il est abusif de parler de GTO et ça ne sert à rien de comparer ses résultats à des solvers à mon avis.

Il est même peut-être abusif de parler d’IA puisque la machine n’apprend pas en jouant contre les humains et donc ne s’adaptera pas contre différents profils pour optimiser ses gains par exemple (ce qu’n reg de micro sait faire au passage).

Peut-être que la force brute de jouer contre lui-même est suffisante pour surclasser les humains (mais ça ne nous apprend pas grand-chose pour progresser si on ne comprend pas le pourquoi des lignes).

En tout cas comme tu l’as dit, la bataille de la communication est gagnée (par FB) au vu de tous les articles que l’on trouve désormais même s’ils utilisent quelques raccourcis

Je n’ai pas l’information sur la taille des participants

Y’a qu’à mettre des degen un peu plus bluffeurs ou des CS pour voir

Ah ben non, pas de code source, pas de possibilité de jouer contre Pluribus, … fermer le ban.

yvan161 · Août 14, 2019, 10:49

@Freudinou

Vraiment ?
Dans l’échantillon que tu nous présentes, Pluribus size x2 ou x2,25 (excepté une fois à x2,5). Ce sont plutôt les humains qui ont varié leur sizing PF dans les mains présentées.

As-tu constaté ce qui est avancé par Seth David, j’ai pas l’impression que vous ayez la même analyse ?

J’ai quand même pas l’impression que ce soit la stratégie PF qui ait pu déstabiliser à ce point les pros (surtout si mixer c’est faire entre x2 et x2,5).

Remarque : à noter le limp UTG (JJ mains 3 de “Et si ça ne suffit pas, il sortira le bluff de la mort (4 mains)”) alors qu’il est censé avoir évacué le limp hors SB (il bluffe même ces concepteurs ?).

Freudinou · Août 15, 2019, 8:00

Super, merci @yvan161 !

Oui j’ai vu que l’article le plus complet n’est plus disponible publiquement, c’est bien dommage…

Et oui mais dans la com, je trouve que c’est parfois un peu flou…enfin bon, disons que c’est un détail d’appréciation.

Sur 2+2 j’ai lu que les développeurs ne mettaient pas le code source à disposition pour éviter qu’il ne tombe entre de mauvaises mains et nous protéger nous humains. Mais paraît-il qu’il a déjà été partagé avec certains membres de leur université et sera donc fatalement partagé par les personnes capables de le trouver dans sa cachette du net. Ainsi la pulsion épistémophilique de ces individus sera assouvie…

Si son principal challenge c’était de s’adapter aux petites variations de sizings préflop, tu m’étonnes “qu’on” (nous les humains) s’est fait défoncé…Non sérieusement, il troll ? Ca me rappelle une vieille vidéo de Zugzwang en NL 200 où il expliquait qu’il variait ses sizings à 2,5x/3x sans aucune raison mais que ça le faisait marrer que ses adversaires cherchent pourquoi. Le logiciel aurait commencé à open 5x bouton je dis pas mais là…

Concernant le limp en dehors de la SB, sincèrement, ça a été des très rares exceptions, je n’ai pas le chiffre en tête mais je dirais pas plus de 3.

Freudinou · Août 15, 2019, 8:03

Tu m’as catch…J’ai mis au pluriel, je te prie d’attribuer cela à mon caractère emphatique…

MrBlue, c’était un peu le @trunkcorp500 de la table (c’est un compliment)

MrOrange, ça peut se tenir aussi.

mizar2001 · Août 15, 2019, 8:06

Merci Freudinou pour ton article !

Si j’ai bien compris tout ce que j’ai pu lire jusqu’à présent sur le sujet, Pluribus s’est fait défoncer par les humains sur 10 000 mains (il perd quand même 70K dans l’histoire), mais en utilisant un « régulateur de variance » (l’AIVAT*), ses programmateurs estiment qu’en fait c’est lui qui a gagné largement.
C’est bien cela ?

yvan161 · Août 15, 2019, 9:44

Oui c’est ça : le winrate brut de Pluribus est -7bb/100 au bout de 10K mains et ça devient +5bb/100 après ajustement et les gros titres de la presse comme quoi il écrase les 5 meilleurs joueurs du monde en 6-max.

Alors pourquoi pas l’ajustement AIVAT mais les auteurs disent qu’il n’est pas applicable aux humains (ce qui n’est pas ce que j’ai compris des articles sur l’AIVAT). Il n’y a pas de vraie communication sur les chiffres bruts et la méthodologie de comparaison me semble biaisée.

Du coup, Pluribus n’a pas battu la quinzaine d’humains qui ont joués contre lui : son winrate ajusté est supérieur à la plupart de ceux des pros sur des hautes limites, c’est tout.

Je ne dis pas que Pluribus n’est pas capable de battre les meilleurs joueurs de poker sur un nombre significatif de mains (je n’en sais rien) mais juste que l’expérience est trop opaque pour le prouver réellement.

Voir le détail de ma pensée sur le sujet : Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max! - #30 par yvan161

Balla · Août 15, 2019, 9:57

@grosrobert
La seule façon de retrouver le réel pseudo de Linus c’est de reprendre toutes les HH et d’identifier le joueur qui a moins perdu (ou plus gagné) face à Pluribus

yvan161 · Août 15, 2019, 10:07

Comme tu l’auras remarqué, je souffre de cette pathologie

Et voilà

https://science.sciencemag.org/content/sci/suppl/2019/07/10/science.aay2400.DC1/aay2400-Brown-SM.pdf

Oui je trouve cette communication hypocrite. Ils ont le droit de ne pas rendre public leur code.
Mais de toute façon, le pseudo-code est disponible dans cet article et les explications suffisantes à mon avis pour qu’un bon développeur l’implémente sans même parler de fuites depuis la communauté de ceux qui auront accès au code source.
Il faudra de toute façon que les rooms luttent contre ça.

P11 : une drôle de façon de réduire l’effet variance

Donc ils considèrent que Pluribus (controleur) est supérieur aux humains pour prouver que Pluribus est … supérieur aux humains ?!?

P26 : le winrate brut des humains dans le format 5H+1AI.

Tu confirmes ces chiffres sous PT4 ?

Apparemment il n’a pas ‹ écrasé › tous les humains.

Mais évidemment ça ne compte pas …

A noter que la plupart des humains n’ont quand même pas eu beaucoup de mains pour s’adapter.

yvan161 · Août 15, 2019, 10:39

Oui c’est sûr que c’est marginal mais …

… il est censé l’avoir complètement évacué de sa stratégie.

Et donc on peut effectivement légitimement se demander si le logiciel n’est pas un peu ‘paramétré’ pour ce match.

grosrobert · Août 15, 2019, 10:43

Salut,
Non je ne crois pas
“and it’s normal for the best player in the world to lose money over 10,000 hands. (Indeed, Linus, considered by many to be the best human pro in the world at this form of poker, was down in chips in this experiment over the 10,000-hand sample.)”

J’en déduis donc que le pseudo de Linus est à chercher parmi :

Bill
Gogo
Joe
MrBlonde
MrOrange
MrPink
MrWhite

Edit : J’ai relu ton message, peut-être l’ai-je mal compris. Tu as peut-être des infos que je n’ai pas ? Linus serait le joueur des 13 humains qui a le mieux performé vs Pluribus ?
D’où tiens-tu cette info ?

mizar2001 · Août 15, 2019, 10:53

Un gars a importé toutes les mains de Pluribus sur PT4.

Il en ressort que l’ordinateur a effectivement déchatté mais… que son Ev reste négative…

https://twitter.com/010010110000110/status/1151778861547282432/photo/1

yvan161 · Août 15, 2019, 12:08

De l’article FB par exemple.

Mais attention il s’agit de la formule 5AI+1H et là c’est 5k mains.

Certes Linus est celui qui a le moins perdu en brut mais je ne vois vraiment pas ce que l’on peut en déduire en aussi peu de mains (surtout entre humains).

Il y a des chances en plus que ce soit le delta avec le contrôleur et non le résultat brut. Tout est fait pour être imprécis concernant les résultats.

De plus les mains partagées avec les nom de couleur sont celles de la formule 5H+1AI.
Je ne sais pas combien de mains a joué Linus dans ce format.

Quand je vois le témoignage de certains joueurs j’aimerais bien connaître les clauses concernant la communication.

Car le mieux serait que Linus ou autre décortique le jeu de Pluribus (et le sien) sur l’échantillon. Mais ça n’arrivera probablement jamais.

Heureusement que les canards s’y intéressent

grosrobert · Août 15, 2019, 12:12

Non mais comme tu le dis toi même le résultat qu’on a publiquement de Linus concerne la formule 5AI+1H. C’est le pseudo de Linus dans la formule 1AI+5H qui m’intéresse.

yvan161 · Août 15, 2019, 12:25

Oui je sais.

Je me demandais si @Balla faisait référence au résultat 1H + 5AI (pas ce que l’on cherche) ou simplement au fait que Linus est considéré comme le meilleur et qu’il devrait avoir le meilleur résultat (ce qui ne va pas non plus sur aussi peu de mains).

C’est quoi ta source avec les winrates et les pseudos ? J’ai pas trouvé cette information.

grosrobert · Août 15, 2019, 12:28

PT4

A part ça, j’ai mis un lien qui répond à bcp de nos questions dans l’autre thread dédié.
https://www.reddit.com/r/MachineLearning/comments/ceece3/ama_we_are_noam_brown_and_tuomas_sandholm/