Les maths au poker : La GTO à la river (Partie mathématique)

ouai je te rejoins sur ce point

je post ici la réponse la plus intéressante que j’ai eu sur mon autre thread sur ce sujet

" Against this particular strategy for the other player, it doesn’t matter which hands you bluff-raise vs fold with are. But if your opponent isn’t playing optimally, it’s possible for them to make poor calls against your bluffs where you’re actually ahead, and this is more likely when you bluff-raise with stronger hands. Ultimately, there’s no downside to bluff-raising with your best hands in this region rather than some other subset of hands, and there’s possible upside, which is what it means for this strategy to dominate the others"

du coup ça rejoint waitwaitw et florian99

J’ai relu attentivement le chapitre

image

et je pense que j’ai compris ce que dit l’auteur.

Le jeu est en « two bet left ».

Stratégie A

image

c’est à dire

image

donc fold / bluff signifie Y fold quand X bet mais bet en bluff quand X check.

Strategie B

image

On suppose le même nombre de combos entre [y0;1] et |y1*;y2] pour voir si on peut inverser en fréquence deux sous-ranges par exemple.

Si on utilise nos mains les plus faibles de [y1*,1] pour raise vs bet et check vs check (stratégie B) alors on gagne très peu souvent à l’abattage dans la ligne check;check.

Alors que si on utilise nos mains les fortes de [y1*,1] pour raise-bluff vs raise et check vs check (stratégie A) alors non seulement on gagne plus souvent à l’abattage dans la ligne check;check mais quand Villain fold vs notre raise, on a gagné un bet de plus que dans la stratégie B quand on bluff vs le check de Villain.

C’est ce que dit l’auteur dans ce passage.

Ça rejoint le point de vue que l’on peut choisir la range de bluff n’importe où dans [y1*,1] du moment que l’on choisi la bonne fréquence mais ce n’est pas ce que dit l’auteur dans ce chapitre (et je pense qu’il a raison).

L’argument développé ci-dessus en anglais indique que la stratégie A est supérieure à la stratégie B dans le cas où X ne joue pas à l’équilibre mais ce n’est pas le sujet.
La stratégie A est vraiment supérieure à toutes les autres (voir la B par exemple), non pas parce que X peut exploiter les autres mais tout simplement parce qu’elle dégage plus d’EV (et donc c’est pas un hasard si les solvers choisissent celle-là).

Donc ça …

… c’est vrai dans le sens que X ne peut pas exploiter une stratégie de raise de Y de n’importe quel sous domaine pire que y1* mais la stratégie A est la meilleure.

Simple, simple … faut quand même quelques neurones en plus du papier et du crayon.
Je m’en suis grillé quelques-unes avant de comprendre (à supposer que j’ai bien compris cette fois) :slight_smile:

Ta stratégie B est sous optimal.

Je suppose que tu à voulue reproduire la strat de @WaitWaitW , mais ce n’est pas la stratégie qu’il a décrit.

Ce jeux est suffisamment simple pour que l’on puisse calculer les EV sans solver, tu peut tester de déplacer les seuil de raise, tu verra que les EV sont pareille. Et c’est inexploitable. La différence comme ta dit c’est que OOP peut s’exploiter tout seul en faisant un mauvais call, c’est pour ca que la logique veut que l’on ai en paramétrage y1#> y1* pour pas luis enlever l’option stratégique de s’auto exploiter.

Non car mes réponses sur les stratégies de contre exploitation par X n’étaient pas correctes et hors de propos en fait.

Avec mon exemple de stratégie B, j’ai voulu répondre essentiellement à cette question (en remplaçant le milieu par le bas de range) …

… et accessoirement à celle-ci.

Pour moi la réponse de l’auteur est non car il dit qu’il faut prendre la stratégie A car elle est supérieure aux autres (par exemple qui sélectionneraient les mains les plus faibles pour raise-buff/check).

L’auteur ne parle pas de ça pour justifier que la stratégie A est supérieure aux autres.

La stratégie de déplacer sont seuil de raise bluff ver le haut est inexploitable.

x2* ne peut pas profiter d’un déplacement ver le haut ou ver le bas de cette déviation, car sont EV vs toute les parties de range de IP est la même

X1 ne peut pas profiter d’un déplacement vers le haut ou vers le bas de cette déviation, car sont EV vs toute les parties de range de IP est la même

X1* n’est pas dans la line

X0 ne peut pas profiter d’un déplacement vers le haut ou vers le bas de cette déviation, car sont EV vs toute les parties de range de IP est la même

Quand je dis que c’est la même EV, je veux dire la même EV que la strat A, et par EV j’entends gain + proba. On comprend donc instinctivement qu’il n’a rien qui puisse être fait pour augmenter l’EV de OOP

costaud le système :skull: (avec autant d’équations c’est mieux de passer par une matrice nan plutôt que faire la méthode par élimination ?)

en faisant le toy game, au fur et à mesure des pages, j’suis tombé la dessus :
« souvenez-vous que précédemment, nous avons constaté que le domaine de relance en bluff de Y pouvait en réalité être n’importe où dans son domaine de passe »

Attention à la traduction.

Il serait donc plus exact de traduire par

Dans le contexte le could really be indique le conditionnel.
La suite indique que ça pourrait mais qu’il faut utiliser une stratégie non dominée (donc la A).

Sinon ça voudrait dire que l’auteur se contredit d’une page à l’autre.

Salut @cedar0000

Je suis en train de lire « the mathematique of poker » en VO depuis le début.

Les exemples 10.3 Roshambo - S et 10.4 Roshambo -F sont très importants pour comprendre la notion de stratégies co-optimales et stratégies dominées.

Avec l’éclairage de cette lecture, mon affirmation suivante est fausse.

Par contre …

… reste valable.

Ce qui veut dire effectivement que l’on va choisir cette stratégie pour les cas où Villain joue sous optimal.

Ce que je n’ai toujours pas compris :

@florian99p99

Donc du coup quel serait un exemple de stratégie (mettons A’) qui serait co-optimale mais dominée et répond à

et en quoi la stratégie B ne répond pas à cette définition ?

1 « J'aime »

Salut ta stratégie dans la line check de OOP est sous optimal, car tu give up des mains plus faible que ce que tu bluff.

en exemple de strat cooptimal, tu peut par exemple décaler le seuil de raise bluff vers le haut, et de fold vers le bas. ou encore faire la stratégie de @WaitWaitW

j’avais zappé cette partie la du coup merci pour l’info je vais lire ça

1 « J'aime »

Salut @cedar0000

Est-ce que tu as pu réétudier le sujet ?

Il y a toujours quelque chose que je ne comprends pas dans la réponse de @florian99p99

… parce que pour moi la question n’est pas sur le déplacement des seuils des groupes de mains de la région (fold, raise-bluff), soit [y1*,1], mais surtout la place de chaque groupe de mains / actions dans cette région.

Soit stratégie C

image

Donc je comprends que tu poses la question telle que je la formule (ordre des groupes de mains /actions dans la région des mains les plus weaks). Exact ?

Je comprends que stratégie A domine strictement stratégie B (qui n’est pas co-optimale) et que stratégie A domine stratégie C (je n’ai pas vérifié si elle est co-optimale).

image

Donc on gros : existe-t-il des stratégies co-optimales à A (mais dominées) où l’ordre des groupes de main ‹ fold/bluff ›, ‹ fold/check ›, ‹ raise-bluff/check › est différent de la stratégie A (dans cette région).

@florian99p99 est-ce que ce que tu appelles domaine est un groupe de mains (dans la région [y1*,1]) ?

bah il me semblait avoir compris le principal à savoir qu’on raise bluff n’importe quelle main dans le range [y1*,1], le principal c’est d’avoir la bonne frequence pour forcer OOP à bet/call des mains pires que notre pire raise value :confused: enfin j’crois…

Sauf que

ce en quoi, je suis d’accord mais du coup je ne comprends pas …

… parce que la stratégie B répond à ce critère non ?

Quand je dis décaler vers le haut ou le bas que c’est co-optimales, c’est si on garde les bonnes proportions des différents domaines.

Ta stratégie C est par exemple co-optimales, si tu a les bonnes proportions.

La stratégie A domine la stratégie C que si le joueur 1 ce déséquilibre de sorte à call des mains plus mauvais que le raise bluff de y
Si le joueur x joue GTO, alors tu ne perdras pas d’EV avec ta strat c

Tu devrais essayer de crée une matrice de gain, pour voir d’où viens l’EV des mains, cela devrais ensuite de paraitre plus clair.

Ce que j’appel domaine c’est la partie de l’action de la range, par exemple le domaine de la partie de la range de X fold, X call, bet …

1 « J'aime »

merci pour la précision.

En fait, ça j’ai compris mais du coup, je ne comprends pas pourquoi tu dis que la stratégie B est sous-optimale (toujours en considérant que l’on garde les bonnes proportions bien sûr).

A sont premier point de décision OOP va séparer sont arbre en deux branches, est la stratégie B est sous optimal dans la branche ou il décide de bet (il bluff avec des mains qui on de la showdown, et give up des mains qui n’en n’on pas), la stratégie dans la branche ou il check est co-optimal.

Merci pour ta réponse mais je ne comprends toujours pas car tu parles d’OOP (soit X et pas Y).

Ça c’est la stratégie que j’ai appelée A (sous entendu pour Y).

C’est celle du chapitre 17.2 : appelons-là « paire de stratégie A (X-A;Y-A) » pour être plus précis.

Cette paire de stratégies est optimale : d’accord ?
X-A et Y-A sont optimales (pour chaque joueur) : d’accord ?

« paire de stratégies B (X-A;Y-B) »

image

Tu me dis Y-B est sous-optimale (pour Y) : c’est ça ?

« paire de stratégies C (X-A;Y-C) »

image

Tu me dis Y-C est co-optimal par rapport à Y-A mais dominée par cette dernière : c’est ça ?

Si c’est bien ça, je ne comprends pas pourquoi tu parles de OOP (donc X) et des options où il bet ou check parce que Y ne peut pas faire ça.

Mes questions sont sur les stratégies Y-B et Y-C par rapport à Y-A.