Oui pour trouver la même stratégie, le logiciel s’est entraîné contre lui-même sur énormément de situations et donc probablement EV0 au final face à 5 clones de lui-même.
Mais ma remarque était de connaitre le résultat sur 10K mains pour monter qu’il y a trop de variance.
Par exemple dans le format 1H vs 5 AI
(remarque : LlinusLlove n’était pas dans ce format contrairement à ce qu’affirme l’article P.A.).
Ies résultats sont donnés pour les deux joueurs
Mais pas pour chaque instance de Pluribus (plutôt en général)
Remarque : l’article P.A. indique 2,3 comme winrate alors qu’il s’agit plutôt de 3,2 dans l’article d’origine.
Je ne vois pas comment les 5 instances de Pluribus pourraient être à 3,2bb/100 de moyenne face à un seul humain qui perd à peu près la même chose.
Sans compter que la marge d’erreur semble être du même type que celles des instituts de sondage quand ils commentent des variations d’intention de vote de 1% avec une marge d’erreur supérieure
Pour ma comparaison avec les échecs, je ne parlais pas technologie mais de communication. Non seulement ce n’était pas de l’IA mais la main de l’homme intervenait probablement sur au moins le paramétrage. Sans compter que le logiciel pouvait s’appuyer sur des bases de données pour les ouvertures, les finales … Ce n’est plus uniquement de l’intelligence mais de la mémoire.
Pour l’IA de Google et le Go, je ne connais pas. Je vais me renseigner. Mais je pense que le GO, c’est comme les échecs (jeu à information complète) et le poker est différent.
Encore une fois, je trouve le sujet passionnant mais on devrait aussi challenger le discours qui contient aussi une part de marketing et d’intérêts qui vont au-delà de l’amour de la théorie des jeux
Salut,
Bon je ne sais tjs pas poster un replayer sur ce site mais sinon pour ceux que ça intéresse vous pouvez regarder les mains jouées par notre ami Pluribus en cliquant sur les liens que je vais poster par la suite.
edit :
Brefs commentaires après survol des mains postées :
preflop :
sérieux et discipliné, pas de folies, plutôt « standard » pour autant que ça veuille dire quelquechose
range de flat SB vs any position (ATsvsBTN, TTvsBTN, du Axs vs early de mémoire, KQsvsCO, 99vsCO, etc…)
OR : de min raise à 2.5x, je crois pas avoir plus gros sauf une fois
sizing 3B du côté big de la force, 3.6x BTNvsCO, 4x BB vs early, 5.9x SBvsMP w/ AKo mais aussi 3x « only » IP w/ AA
bizarrerie : fold 22 IP vs open alors que call 33 SBvsMP (probablement moins gros risque de squeeze…)
postflop :
des plays « typiques » de bot pour le peu que je connais de snowie, parfois tricky, souvent « intelligent ».
c bet 2X pot MPvsBB SRP w/ AQo on 36Tr…
sizing 1/2 pot remis au goût du jour, très usité par Pluribus.
edit
Salut,
Encore beaucoup de points nébuleux mais concernant ce point précis j’ai eu le fin mot de l’histoire :
La participation de llinuslove est intervenue après la rédaction de l’article de « science ». Mais il a bien participé à l’exp 1H+5AI et a fait -0.5bb/100.
Du coup, ça explique aussi le -2,3bb/100 de moyenne final sur le format 1H+5AI.
Soit +0,46bb/100 par instance d’IA : même si l’on admet la pertinence de l’AIVIAT pour ramener les 5K à l’équivalent de 50K, c’est pas ce que j’appelle crush sa limite
Bizarrement dans ce format c’est la relative contre-performance humaine qui est mise en avant alors que dans le format 5H+1AI, c’est le winrate du bot qui est mis en avant.
Soit, dans ce format, 5bb/100 sur ‘équivalent’ 100K mains, semble un bon résultat mais la conclusion …
… me semble exagérée et de nouveau ils comparent des choux et des carottes.
Exagérée parce que il faut avoir conscience que les winrates que l’on a en tête comprennent l’impact du rake (qu’il n’y avait pas ici dans l’expérience évidemment).
La comparaison serait intéressante effectivement si l’on avait eu des tables aussi avec d’autres types de profils (par exemple des CS qui peuvent mettre à mal la stratégie de bluff du bot).
Je pense que le logiciel a effectivement posé des problèmes aux humains et ouvert la voie à des questions sur la stratégie mais c’est un peu tôt vu l’échantillon pour dire que le bot crush l’humanité
En tout cas, ton analyse qualitative est intéressante car c’est surtout cette partie qui peut aider à faire évoluer la théorie.
Par exemple ,aujourd’hui la tendance est à une range full ‘3bet or fold’ de défense de SB alors que le bot a choisi une stratégie contenant une range de flat.
Même si les résultats sont optimistes par rapport au niveau du bot réel, ça sent pas bon…
Le bot continue de progresser à l’heure où l’on parle, et dans quelques mois sa supériorité sera unanime.
Pour AlphaGo c’était pareil, il faisait plein d’erreurs à jouer contre le champion européen et qu’il réussira jamais à battre l’un des meilleurs mondiaux, même en quelques mois il pourra pas réparer toutes ses énormes erreurs… et puis au final l’humain a été totalement dominé.
Et les programmeurs qui disent que c’est une surprise, qu’ils ne savent pas comment c’est possible : mon cul. Ils prendraient pas le risque de jouer si ils étaient pas un minimum sûr de la qualité de leur AI.
Alors concernant les 10K hands que nous avons à disposition, j’ai fait une ou deux recherches à droite à gauche et sauf erreur (si qq’un a l’info contradictoire, merci de l’indiquer ici) elles correspondent à l’exp 1AI+5H. Il n’y a donc qu’une IA à table. Pour les 5 humains, malheureusement on ne sait pas qui se cache derrière les pseudos, et ça a une certaine importance de mon point de vue car il n’y a pas que des champions de CG 6 max parmi les 13 choisis pour affronter Pluribus…
Un pote a téléchargé les 10K hands dans PT4, voici quelques stats plus fiables que mes observations initiales :
Stats de Pluribus : 27/18
3bet SB vs BTN : 11.5%
BB vs BTN : 10.8 %
BB vs SB : 17.1 %
Cbet overall 49 %
OOP : 31% IP : 56 %
Bet vs missed cbet flop : 33 %
Fold to cbet oop : 49%
Fold to cbet ip : 34 %
BB vs SB : Fold 36 % Flat 47 %
BB vs BTN : Fold 42 % Flat 47 %
Stab turn 28% continue river 46 %
RFI UTG 18% UTG1 24% CO 31 % BTN 42% SB 33%
A noter que certaines stats preflop sont très différentes des ranges preflop solve par les solvers, par exemple le 33% RFI SB, il faut savoir que Pluribus a une stratégie de limp depuis cette position.
Pour le postflop, pas souvenir d’avoir vu Pluribus c bet 1/3 pot en SRP, c’est plutôt 1/2 pot.
Si n’a pas c bet, une de ses lignes préférentielles est de delay 25% pot turn.
Petit teaser, Freudinou est entrain de nous préparer un super article : On va reprendre toutes les mains “intéressantes” (gros pots) du bot, et en tirer une analyse technique.
Oui, je ne dis pas que l’ordinateur ne sera jamais plus fort que les humains au poker (je suis convaincu du contraire). Peut-être que ça sera très rapidement, peut-être un peu plus long.
Ici les conditions de confrontations étaient quand même peu favorables aux humains : tables incognito, pas de tracker je suppose, probablement pas de préparation … mais surtout pas vraiment le temps de pouvoir trouver des stratégies en temps réel pour contrer le bot.
Pour les échecs (idem pour le GO je suppose), c’est plus clair pour être sûr que le programme bat le meilleur du monde.
A la fois parce que le niveau est codifié de façon fiable et parce que le résultat (gain ou perte) n’est pas soumis à la variance.
Ca sera toujours plus dur au poker d’avoir les certitudes sur ces points.
Mais à nouveau, je suis d’accord que ça ne sent pas bon pour la supériorité des humains sur la machine en 6max
En tout cas, les premiers éléments communiqués par @grosrobert sont vraiment intéressants alors des mains analysées par un coach, ça sera le top
Non le top ça sera le second article de @freudinou : « Comment battre Pluribus par une stratégie de pot/pot/pot »
@Balla
Je te “confirme” que les HH dont nous disposons sont toutes jouées sur PS en play money, en l’état de mes informations actuelles.
Pour le -7bb/100, alors là on va entrer dans le dur directement.
Ça me fait penser au vieux débat pro et anti online is rigged. J’ai tjs répondu la même chose aux tenants du online is rigged : j’en sais rien si c’est rigged ou pas, je n’ai pas les moyens de vérifier, mais si je pensais que c’est rigged, une chose est sûre je ne m’assierais pas aux tables.
Pour le système de réduction/correction de variance, je n’ai pas les moyens de vérifier. Je ne sais pas si c’est fiable ou pas mais si je pensais que ça ne l’est pas, je ne m’intéresserais pas aux HH jouées par Pluribus.
Alors c’est un argument d’autorité à la con mais j’ai tendance à accorder du crédit aux deux concepteurs, vu le pedigree et le serieux des gars.
Avec les HH j’ai -7bb/100…malgré que moi aussi j’ai tendance à accorder du crédit aux deux concepteurs, vu le pedigree et le sérieux des gars.
Je te les transfère en MP si tu les veux.