Analyse du jeu de Pluribus, l'IA "invincible" de Facebook

grosrobert · Août 15, 2019, 12:12

Non mais comme tu le dis toi même le résultat qu’on a publiquement de Linus concerne la formule 5AI+1H. C’est le pseudo de Linus dans la formule 1AI+5H qui m’intéresse.

yvan161 · Août 15, 2019, 12:25

Oui je sais.

Je me demandais si @Balla faisait référence au résultat 1H + 5AI (pas ce que l’on cherche) ou simplement au fait que Linus est considéré comme le meilleur et qu’il devrait avoir le meilleur résultat (ce qui ne va pas non plus sur aussi peu de mains).

C’est quoi ta source avec les winrates et les pseudos ? J’ai pas trouvé cette information.

grosrobert · Août 15, 2019, 12:28

PT4

A part ça, j’ai mis un lien qui répond à bcp de nos questions dans l’autre thread dédié.
https://www.reddit.com/r/MachineLearning/comments/ceece3/ama_we_are_noam_brown_and_tuomas_sandholm/

yvan161 · Août 15, 2019, 12:40

Merci je vais lire ça.

J’ai essayé de charger les HH converties dans HM2 mais malheureusement ça ne marche pas.

Dommage j’aurai bien aimé pouvoir analyser les mains et stats des humains.

@Freudinou va compléter l’article avec les winrates, c’est déja ça.

J’ai vu que tu avais posté certaines stats de Pluribus mais celles des humains seraient intéressantes également pour voir leur stratégie (plutôt à l’équilibre ou exploitante).

grosrobert · Août 15, 2019, 12:41

https://s0.gifyu.com/images/Pluribus_players.png

yvan161 · Août 15, 2019, 12:56

Thanks

Tu dois avoir la version avant la correction du bug pour l’AIEV mais c’est pas grave je n’en tiens pas compte

Et moi qui croyais plaisanter…

[quote]
AIVAT is difficult to explain in a paragraph, but I can give some examples of how it works. First, if two players are all-in before all the cards are dealt, you can take the expected value over all the rollouts of the cards rather than dealing out one set of board cards. This is already a well-known and accepted form of variance reduction in the poker community, and you can see in the logs that Pluribus was very unlucky in these early all-in situations. [/quote]

grosrobert · Août 15, 2019, 1:01

Je ne sais pas de quelle correction de bug tu parles. J’ai les 10K hands telles que converties par l’américain (K.Wang) pour pouvoir les import dans PT4…
EDIT : ah ok je viens de comprendre de quoi tu parles.(dc oui je te confirme que c’est la version pre correction)
Graph post correction :

Freudinou · Août 15, 2019, 1:22

Pour ce qui est des stats :

C’est tout de même incroyable de devoir faire autant de posts et de recherches juste pour prendre connaissance d’un résultat… Mais du coup c’est peut-être un espoir pour Kasparov, il a peut-être moyen de revendiquer une victoire contre deep blue après correction des résultats non ?

PS : ne de demandez pas comment il fait pour raise les limpers à toutes ces positions…

Balla · Août 15, 2019, 1:50

Oui je me basais sur ce post mais il me semble que ce n’est malheureusement pas représentatif.
Sur cette chaîne il y a des analyses PIO de Pluribus vs players (entre autres) peut être que cela permettrai d’identifier Linus… .D’aprés le tableau que tu as fournis @grosrobert MrBlue est le joueur qui a dominer le pool mais 9k hands n’est pas suffisant pour affirmer quoi que ce soit malheureusement.
Sur 2+2 il suppose que Linus est MrPink.

grosrobert · Août 15, 2019, 2:00

C’est pas que c’est pas représentatif, c’est que ça ne correspond pas à l’expérience qui concerne les 10K hands que nous avons à disposition (5H+1AI)
Pas d’intérêt en somme.

Tu sais sur quoi se basent les posteurs de 2+2 pour s’avancer sur MrPink ? Je veux dire ils ont étayé leur opinion ou c’est juste un mec qui a lancé ça comme ça ?

Balla · Août 15, 2019, 2:17

Salut,
J’ai vu ça ici ce serait d’après les sizings entre autres mais je t’avoue qu’il n’y a malheureusement rien de concret (et c’est bien dommage).

yvan161 · Août 15, 2019, 2:36

C’est moi ou les explications du concepteur sont dénuées de sens sur l’AIVAT ?

S’il parle de l’équité de la main de Hero à 50% sans tenir compte de la cote de pot (qui est forcément constitué puisque l’on est river), ça n’a pas de sens de faire la moyenne des deux EV (soit une division par 2 de l’EV(call)) soit plus probablement l’équité est pile la cote du pot mais là aussi ça n’a pas trop de sens puisque les équités seront équivalentes (EV0).

Je me trompe quelque part dans mon raisonnement ou dans l’interprétation de la phrase ?

grosrobert · Août 15, 2019, 2:45

Aucune idée…

yvan161 · Août 15, 2019, 3:48

Bon j’ai ma réponse par le thésard à l’origine du premier système de réduction de la variance

Un peu de circonspection aussi de sa part vis à vis de la communication des résultats donc

grosrobert · Août 15, 2019, 4:03

Petit détail mais quand tu mets un lien, si tu peux mettre le lien du message pertinent histoire de pas avoir à se taper la page entière

Pour revenir au sujet principal, ça ne répond pas à ton « objection » sur la phrase incriminée :
« Second, if a player is faced with an all-in bet on the river and is 50/50 between calling and folding, they could take the expected value of both actions rather than flipping a coin. »

yvan161 · Août 15, 2019, 4:18

Oups désolé c’est ce que je voulais faire : erreur de copier/coller.

Non c’est juste un indice qu’il est possible que les concepteurs ne maîtrisent pas certains concepts pokéristiques simples.

Pour moi au mieux la phrase est imprécise, au pire elle ne veut rien dire (mais je peux me tromper).

Je suis en train de lire la séance de Q&A des auteurs et je rigole un peu …

C’est quand même le point clef la question de l’échantillon et de l’outil de ‘réduction de variance’

grosrobert · Août 15, 2019, 4:28

Le pblem c’est que pour moi en l’état actuel la phrase ne veut rien dire (mais je me trompe sans doute, restons prudent), or c’est un des 4 exemples qu’il prend pour expliquer AIVAT, c’est gênant. (bien qu’ overall je sois bcp moins sceptique que toi sur la qualité de leurs travaux)

Plus globalement, le côté scientifique qui connait à peine les règles du poker ça se ressent depuis le début dés qu’un joueur de poker leur pose une question. Ils auraient pondu un bot pour jouer au tarot ou à la coinche, pour eux ce serait la même chose : réduire le monde (le monde étant ici une main de poker) à des équations et des algos.

yvan161 · Août 15, 2019, 4:46

Le premier n’est pas bon non plus et je suis en train d’étudier le troisième qui m’a paru biaisé également dans les premières explications succintes.

Autrement dit ça part du postulat que le bot est meilleur que l’humain et qu’il joue à l’équilibre (il faudrait le résultat de 6AI pour valider que c’est ‘nécessairement EV0’).
Si l’humain dégage une EV supérieure à celle du bot, ça va être considéré comme de la chance et pas comme du edge.

Et en plus le raisonnement est étendu sur toute la range.

Si les humains sont vraiment meilleurs alors le winrate ajusté de Pluribus sera toujours supérieur à son winrate observé, renversant paradoxalement la tendance et donnant une conclusion faussée.
J’ai l’impression que l’ajustement n’est pas fait pour les humains (par exemple quand l’EV de leur décision est inférieure à celle qu’aurait eu Pluribus) mais cette partie n’est pas claire.

Je ne pense pas que ce sont des charlots évidemment et je n’ai pas la prétention de pourvoir remettre en cause scientifiquement leurs travaux mais je suis sceptique sur la façon dont les résultats sont présentés.

Mais oui ils ont probablement pondu un logiciel sachant jouer au poker et posant des difficultés même aux meilleurs.

grosrobert · Août 15, 2019, 4:53

Concernant spécifiquement le paragraphe sur AIVAT, peut être un “simple” problème de vulgarisation…

A suivre.

putsh · Août 16, 2019, 12:04

Les gars vous êtes des ouf.
Sinon un lien pour avoir les 10k mains en review???
Ou tu les as trouver freud?