Analyse du jeu de Pluribus, l'IA "invincible" de Facebook

Freudinou · Août 15, 2019, 8:03

Tu m’as catch…J’ai mis au pluriel, je te prie d’attribuer cela à mon caractère emphatique…

MrBlue, c’était un peu le @trunkcorp500 de la table (c’est un compliment)

MrOrange, ça peut se tenir aussi.

mizar2001 · Août 15, 2019, 8:06

Merci Freudinou pour ton article !

Si j’ai bien compris tout ce que j’ai pu lire jusqu’à présent sur le sujet, Pluribus s’est fait défoncer par les humains sur 10 000 mains (il perd quand même 70K dans l’histoire), mais en utilisant un « régulateur de variance » (l’AIVAT*), ses programmateurs estiment qu’en fait c’est lui qui a gagné largement.
C’est bien cela ?

yvan161 · Août 15, 2019, 9:44

Oui c’est ça : le winrate brut de Pluribus est -7bb/100 au bout de 10K mains et ça devient +5bb/100 après ajustement et les gros titres de la presse comme quoi il écrase les 5 meilleurs joueurs du monde en 6-max.

Alors pourquoi pas l’ajustement AIVAT mais les auteurs disent qu’il n’est pas applicable aux humains (ce qui n’est pas ce que j’ai compris des articles sur l’AIVAT). Il n’y a pas de vraie communication sur les chiffres bruts et la méthodologie de comparaison me semble biaisée.

Du coup, Pluribus n’a pas battu la quinzaine d’humains qui ont joués contre lui : son winrate ajusté est supérieur à la plupart de ceux des pros sur des hautes limites, c’est tout.

Je ne dis pas que Pluribus n’est pas capable de battre les meilleurs joueurs de poker sur un nombre significatif de mains (je n’en sais rien) mais juste que l’expérience est trop opaque pour le prouver réellement.

Voir le détail de ma pensée sur le sujet : Pluribus, quand l’IA de facebook surclasse les joueurs de 6 max! - #30 par yvan161

Balla · Août 15, 2019, 9:57

@grosrobert
La seule façon de retrouver le réel pseudo de Linus c’est de reprendre toutes les HH et d’identifier le joueur qui a moins perdu (ou plus gagné) face à Pluribus

yvan161 · Août 15, 2019, 10:07

Comme tu l’auras remarqué, je souffre de cette pathologie

Et voilà

https://science.sciencemag.org/content/sci/suppl/2019/07/10/science.aay2400.DC1/aay2400-Brown-SM.pdf

Oui je trouve cette communication hypocrite. Ils ont le droit de ne pas rendre public leur code.
Mais de toute façon, le pseudo-code est disponible dans cet article et les explications suffisantes à mon avis pour qu’un bon développeur l’implémente sans même parler de fuites depuis la communauté de ceux qui auront accès au code source.
Il faudra de toute façon que les rooms luttent contre ça.

P11 : une drôle de façon de réduire l’effet variance

Donc ils considèrent que Pluribus (controleur) est supérieur aux humains pour prouver que Pluribus est … supérieur aux humains ?!?

P26 : le winrate brut des humains dans le format 5H+1AI.

Tu confirmes ces chiffres sous PT4 ?

Apparemment il n’a pas ‹ écrasé › tous les humains.

Mais évidemment ça ne compte pas …

A noter que la plupart des humains n’ont quand même pas eu beaucoup de mains pour s’adapter.

yvan161 · Août 15, 2019, 10:39

Oui c’est sûr que c’est marginal mais …

… il est censé l’avoir complètement évacué de sa stratégie.

Et donc on peut effectivement légitimement se demander si le logiciel n’est pas un peu ‘paramétré’ pour ce match.

grosrobert · Août 15, 2019, 10:43

Salut,
Non je ne crois pas
“and it’s normal for the best player in the world to lose money over 10,000 hands. (Indeed, Linus, considered by many to be the best human pro in the world at this form of poker, was down in chips in this experiment over the 10,000-hand sample.)”

J’en déduis donc que le pseudo de Linus est à chercher parmi :

Bill
Gogo
Joe
MrBlonde
MrOrange
MrPink
MrWhite

Edit : J’ai relu ton message, peut-être l’ai-je mal compris. Tu as peut-être des infos que je n’ai pas ? Linus serait le joueur des 13 humains qui a le mieux performé vs Pluribus ?
D’où tiens-tu cette info ?

mizar2001 · Août 15, 2019, 10:53

Un gars a importé toutes les mains de Pluribus sur PT4.

Il en ressort que l’ordinateur a effectivement déchatté mais… que son Ev reste négative…

https://twitter.com/010010110000110/status/1151778861547282432/photo/1

yvan161 · Août 15, 2019, 12:08

De l’article FB par exemple.

Mais attention il s’agit de la formule 5AI+1H et là c’est 5k mains.

Certes Linus est celui qui a le moins perdu en brut mais je ne vois vraiment pas ce que l’on peut en déduire en aussi peu de mains (surtout entre humains).

Il y a des chances en plus que ce soit le delta avec le contrôleur et non le résultat brut. Tout est fait pour être imprécis concernant les résultats.

De plus les mains partagées avec les nom de couleur sont celles de la formule 5H+1AI.
Je ne sais pas combien de mains a joué Linus dans ce format.

Quand je vois le témoignage de certains joueurs j’aimerais bien connaître les clauses concernant la communication.

Car le mieux serait que Linus ou autre décortique le jeu de Pluribus (et le sien) sur l’échantillon. Mais ça n’arrivera probablement jamais.

Heureusement que les canards s’y intéressent

grosrobert · Août 15, 2019, 12:12

Non mais comme tu le dis toi même le résultat qu’on a publiquement de Linus concerne la formule 5AI+1H. C’est le pseudo de Linus dans la formule 1AI+5H qui m’intéresse.

yvan161 · Août 15, 2019, 12:25

Oui je sais.

Je me demandais si @Balla faisait référence au résultat 1H + 5AI (pas ce que l’on cherche) ou simplement au fait que Linus est considéré comme le meilleur et qu’il devrait avoir le meilleur résultat (ce qui ne va pas non plus sur aussi peu de mains).

C’est quoi ta source avec les winrates et les pseudos ? J’ai pas trouvé cette information.

grosrobert · Août 15, 2019, 12:28

PT4

A part ça, j’ai mis un lien qui répond à bcp de nos questions dans l’autre thread dédié.
https://www.reddit.com/r/MachineLearning/comments/ceece3/ama_we_are_noam_brown_and_tuomas_sandholm/

yvan161 · Août 15, 2019, 12:40

Merci je vais lire ça.

J’ai essayé de charger les HH converties dans HM2 mais malheureusement ça ne marche pas.

Dommage j’aurai bien aimé pouvoir analyser les mains et stats des humains.

@Freudinou va compléter l’article avec les winrates, c’est déja ça.

J’ai vu que tu avais posté certaines stats de Pluribus mais celles des humains seraient intéressantes également pour voir leur stratégie (plutôt à l’équilibre ou exploitante).

grosrobert · Août 15, 2019, 12:41

https://s0.gifyu.com/images/Pluribus_players.png

yvan161 · Août 15, 2019, 12:56

Thanks

Tu dois avoir la version avant la correction du bug pour l’AIEV mais c’est pas grave je n’en tiens pas compte

Et moi qui croyais plaisanter…

[quote]
AIVAT is difficult to explain in a paragraph, but I can give some examples of how it works. First, if two players are all-in before all the cards are dealt, you can take the expected value over all the rollouts of the cards rather than dealing out one set of board cards. This is already a well-known and accepted form of variance reduction in the poker community, and you can see in the logs that Pluribus was very unlucky in these early all-in situations. [/quote]

grosrobert · Août 15, 2019, 1:01

Je ne sais pas de quelle correction de bug tu parles. J’ai les 10K hands telles que converties par l’américain (K.Wang) pour pouvoir les import dans PT4…
EDIT : ah ok je viens de comprendre de quoi tu parles.(dc oui je te confirme que c’est la version pre correction)
Graph post correction :

Freudinou · Août 15, 2019, 1:22

Pour ce qui est des stats :

C’est tout de même incroyable de devoir faire autant de posts et de recherches juste pour prendre connaissance d’un résultat… Mais du coup c’est peut-être un espoir pour Kasparov, il a peut-être moyen de revendiquer une victoire contre deep blue après correction des résultats non ?

PS : ne de demandez pas comment il fait pour raise les limpers à toutes ces positions…

Balla · Août 15, 2019, 1:50

Oui je me basais sur ce post mais il me semble que ce n’est malheureusement pas représentatif.
Sur cette chaîne il y a des analyses PIO de Pluribus vs players (entre autres) peut être que cela permettrai d’identifier Linus… .D’aprés le tableau que tu as fournis @grosrobert MrBlue est le joueur qui a dominer le pool mais 9k hands n’est pas suffisant pour affirmer quoi que ce soit malheureusement.
Sur 2+2 il suppose que Linus est MrPink.

grosrobert · Août 15, 2019, 2:00

C’est pas que c’est pas représentatif, c’est que ça ne correspond pas à l’expérience qui concerne les 10K hands que nous avons à disposition (5H+1AI)
Pas d’intérêt en somme.

Tu sais sur quoi se basent les posteurs de 2+2 pour s’avancer sur MrPink ? Je veux dire ils ont étayé leur opinion ou c’est juste un mec qui a lancé ça comme ça ?

Balla · Août 15, 2019, 2:17

Salut,
J’ai vu ça ici ce serait d’après les sizings entre autres mais je t’avoue qu’il n’y a malheureusement rien de concret (et c’est bien dommage).