« Pendant de nombreuses années, le poker a représenté un défi quasiment insurmontable pour les chercheurs en intelligence artificielle. Ce temps est révolu puisqu’un nouvel algorithme baptisé Pluribus est maintenant capable de battre les tous meilleurs, et plus uniquement en head’s up ! »
C’est déjà ce qu’ils font pour l’apprentissage, il se combat lui-même donc j’imagine qu’il doit s’équilibrer.
De toutes manières quand on fait des simulations PIO on voit bien que les changements de stratégie ne changent pas nécessairement l’ev (ou de manière quasi infime) donc contre un humain même très fort en GTO, un système n’aura pas nécessairement besoin de tendre vers la GTO.
Je pense au contraire qu’on n’est bien plus loin que ça
La recherche et les techniques en IA ont tellement évolué depuis cette époque que la situation est totalement différente.
Rien que les systèmes d’apprentissage en jouant contre “soit-même” semblent avoir fait évoluer énormément de choses.
Tout ça pour dire que de la même manière que l’IA de Google qui a battu pour la première fois le champion du monde de Go a fini par évoluer de manière exponentielle, ce sera pareil pour le poker s’ils continuent leur étude.
Merci pour l’article nettement plus précis (et conforme à la source) que ce que j’ai pu lire jusqu’ici.
Merci aussi pour les mains : je vais jeter un œil.
Précision:
Situation dans laquelle on est sûr de ne pas être perdant
En fait c’est la partie “AVIAT” que j’aurais bien aimé voir explicitée.
Parce que -2,3bb/100 sur 5K mains pour trois joueurs (sachant que c’est une moyenne en plus), je ne sais pas si on peut vraiment arriver à la conclusion que le logiciel surclasse déjà les meilleurs joueurs de 6-max.
De ce que j’ai compris, a été mis en place un système de pondération permettant de limiter la variance, et multiplier le résultat de mains disputées par 10.
Donc dans l’exemple, les résultats prendraient compte de 50.000 mains plutôt que 5000
Oui pour trouver la même stratégie, le logiciel s’est entraîné contre lui-même sur énormément de situations et donc probablement EV0 au final face à 5 clones de lui-même.
Mais ma remarque était de connaitre le résultat sur 10K mains pour monter qu’il y a trop de variance.
Par exemple dans le format 1H vs 5 AI
(remarque : LlinusLlove n’était pas dans ce format contrairement à ce qu’affirme l’article P.A.).
Ies résultats sont donnés pour les deux joueurs
Mais pas pour chaque instance de Pluribus (plutôt en général)
Remarque : l’article P.A. indique 2,3 comme winrate alors qu’il s’agit plutôt de 3,2 dans l’article d’origine.
Je ne vois pas comment les 5 instances de Pluribus pourraient être à 3,2bb/100 de moyenne face à un seul humain qui perd à peu près la même chose.
Sans compter que la marge d’erreur semble être du même type que celles des instituts de sondage quand ils commentent des variations d’intention de vote de 1% avec une marge d’erreur supérieure
Pour ma comparaison avec les échecs, je ne parlais pas technologie mais de communication. Non seulement ce n’était pas de l’IA mais la main de l’homme intervenait probablement sur au moins le paramétrage. Sans compter que le logiciel pouvait s’appuyer sur des bases de données pour les ouvertures, les finales … Ce n’est plus uniquement de l’intelligence mais de la mémoire.
Pour l’IA de Google et le Go, je ne connais pas. Je vais me renseigner. Mais je pense que le GO, c’est comme les échecs (jeu à information complète) et le poker est différent.
Encore une fois, je trouve le sujet passionnant mais on devrait aussi challenger le discours qui contient aussi une part de marketing et d’intérêts qui vont au-delà de l’amour de la théorie des jeux
Salut,
Bon je ne sais tjs pas poster un replayer sur ce site mais sinon pour ceux que ça intéresse vous pouvez regarder les mains jouées par notre ami Pluribus en cliquant sur les liens que je vais poster par la suite.
edit :
Brefs commentaires après survol des mains postées :
preflop :
sérieux et discipliné, pas de folies, plutôt « standard » pour autant que ça veuille dire quelquechose
range de flat SB vs any position (ATsvsBTN, TTvsBTN, du Axs vs early de mémoire, KQsvsCO, 99vsCO, etc…)
OR : de min raise à 2.5x, je crois pas avoir plus gros sauf une fois
sizing 3B du côté big de la force, 3.6x BTNvsCO, 4x BB vs early, 5.9x SBvsMP w/ AKo mais aussi 3x « only » IP w/ AA
bizarrerie : fold 22 IP vs open alors que call 33 SBvsMP (probablement moins gros risque de squeeze…)
postflop :
des plays « typiques » de bot pour le peu que je connais de snowie, parfois tricky, souvent « intelligent ».
c bet 2X pot MPvsBB SRP w/ AQo on 36Tr…
sizing 1/2 pot remis au goût du jour, très usité par Pluribus.
edit
Salut,
Encore beaucoup de points nébuleux mais concernant ce point précis j’ai eu le fin mot de l’histoire :
La participation de llinuslove est intervenue après la rédaction de l’article de « science ». Mais il a bien participé à l’exp 1H+5AI et a fait -0.5bb/100.
Du coup, ça explique aussi le -2,3bb/100 de moyenne final sur le format 1H+5AI.
Soit +0,46bb/100 par instance d’IA : même si l’on admet la pertinence de l’AIVIAT pour ramener les 5K à l’équivalent de 50K, c’est pas ce que j’appelle crush sa limite
Bizarrement dans ce format c’est la relative contre-performance humaine qui est mise en avant alors que dans le format 5H+1AI, c’est le winrate du bot qui est mis en avant.
Soit, dans ce format, 5bb/100 sur ‘équivalent’ 100K mains, semble un bon résultat mais la conclusion …
… me semble exagérée et de nouveau ils comparent des choux et des carottes.
Exagérée parce que il faut avoir conscience que les winrates que l’on a en tête comprennent l’impact du rake (qu’il n’y avait pas ici dans l’expérience évidemment).
La comparaison serait intéressante effectivement si l’on avait eu des tables aussi avec d’autres types de profils (par exemple des CS qui peuvent mettre à mal la stratégie de bluff du bot).
Je pense que le logiciel a effectivement posé des problèmes aux humains et ouvert la voie à des questions sur la stratégie mais c’est un peu tôt vu l’échantillon pour dire que le bot crush l’humanité
En tout cas, ton analyse qualitative est intéressante car c’est surtout cette partie qui peut aider à faire évoluer la théorie.
Par exemple ,aujourd’hui la tendance est à une range full ‘3bet or fold’ de défense de SB alors que le bot a choisi une stratégie contenant une range de flat.
Même si les résultats sont optimistes par rapport au niveau du bot réel, ça sent pas bon…
Le bot continue de progresser à l’heure où l’on parle, et dans quelques mois sa supériorité sera unanime.
Pour AlphaGo c’était pareil, il faisait plein d’erreurs à jouer contre le champion européen et qu’il réussira jamais à battre l’un des meilleurs mondiaux, même en quelques mois il pourra pas réparer toutes ses énormes erreurs… et puis au final l’humain a été totalement dominé.
Et les programmeurs qui disent que c’est une surprise, qu’ils ne savent pas comment c’est possible : mon cul. Ils prendraient pas le risque de jouer si ils étaient pas un minimum sûr de la qualité de leur AI.
Alors concernant les 10K hands que nous avons à disposition, j’ai fait une ou deux recherches à droite à gauche et sauf erreur (si qq’un a l’info contradictoire, merci de l’indiquer ici) elles correspondent à l’exp 1AI+5H. Il n’y a donc qu’une IA à table. Pour les 5 humains, malheureusement on ne sait pas qui se cache derrière les pseudos, et ça a une certaine importance de mon point de vue car il n’y a pas que des champions de CG 6 max parmi les 13 choisis pour affronter Pluribus…
Un pote a téléchargé les 10K hands dans PT4, voici quelques stats plus fiables que mes observations initiales :
Stats de Pluribus : 27/18
3bet SB vs BTN : 11.5%
BB vs BTN : 10.8 %
BB vs SB : 17.1 %
Cbet overall 49 %
OOP : 31% IP : 56 %
Bet vs missed cbet flop : 33 %
Fold to cbet oop : 49%
Fold to cbet ip : 34 %
BB vs SB : Fold 36 % Flat 47 %
BB vs BTN : Fold 42 % Flat 47 %
Stab turn 28% continue river 46 %
RFI UTG 18% UTG1 24% CO 31 % BTN 42% SB 33%
A noter que certaines stats preflop sont très différentes des ranges preflop solve par les solvers, par exemple le 33% RFI SB, il faut savoir que Pluribus a une stratégie de limp depuis cette position.
Pour le postflop, pas souvenir d’avoir vu Pluribus c bet 1/3 pot en SRP, c’est plutôt 1/2 pot.
Si n’a pas c bet, une de ses lignes préférentielles est de delay 25% pot turn.
Petit teaser, Freudinou est entrain de nous préparer un super article : On va reprendre toutes les mains “intéressantes” (gros pots) du bot, et en tirer une analyse technique.
Oui, je ne dis pas que l’ordinateur ne sera jamais plus fort que les humains au poker (je suis convaincu du contraire). Peut-être que ça sera très rapidement, peut-être un peu plus long.
Ici les conditions de confrontations étaient quand même peu favorables aux humains : tables incognito, pas de tracker je suppose, probablement pas de préparation … mais surtout pas vraiment le temps de pouvoir trouver des stratégies en temps réel pour contrer le bot.
Pour les échecs (idem pour le GO je suppose), c’est plus clair pour être sûr que le programme bat le meilleur du monde.
A la fois parce que le niveau est codifié de façon fiable et parce que le résultat (gain ou perte) n’est pas soumis à la variance.
Ca sera toujours plus dur au poker d’avoir les certitudes sur ces points.
Mais à nouveau, je suis d’accord que ça ne sent pas bon pour la supériorité des humains sur la machine en 6max
En tout cas, les premiers éléments communiqués par @grosrobert sont vraiment intéressants alors des mains analysées par un coach, ça sera le top
Non le top ça sera le second article de @freudinou : « Comment battre Pluribus par une stratégie de pot/pot/pot »