GTO (PLO): La théorie du jeu optimal au poker

30 avril 2015
Yeepaa
42026
PA 2
28 Commentaires

On peut définir la GTO comme une stratégie optimale contre laquelle l'adversaire, malgré ses adaptations, ne peut trouver une stratégie qui lui assure une espérance de gain supérieure.

Introduction à la GTO (PLO)

Bien qu'appliqué aux jeux, cela concerne aussi bien l'économie, les relations internationales que les sciences sociales ou militaires.
En ce qui concerne les jeux, cela revient à dire qu'on essaie de trouver/définir mathématiquement les meilleures stratégies contre quelqu'un qui utilise lui même la meilleure stratégie. On arrive dans ce qu'on appelle "l'optimal", d'où le nom de GTO (Game Theoretical Optimum ou Jeu Optimal Théorique).
Contre un adversaire qui nous pense plus faible que nous ne le sommes, nous nous baserons plus sur notre analyse personnelle que sur la GTO. Par contre, si la perception de l'adversaire nous fait penser qu'il est meilleur que nous ou si nous ignorons son niveau, une application GTO va nous permettre de prendre le dessus et de contrebalancer la compétence supérieure de notre adversaire.

Illustration pour mieux comprendre la GTO (PLO)

Les 2 joueurs doivent choisir entre 1 ou 2 allumettes. Si le total est pair, un des joueurs gagne, s'il est impair alors c'est l'autre joueur qui l'emporte.
D'un point de vue mathématique, c'est un jeu à somme nulle et avec une parité de chances pour l'un comme pour l'autre. Toutefois, sur un gros échantillon, il sera possible à l'un ou à l'autre de trouver une façon de gagner plus et de surpasser le facteur "chance".
Il pourra décider de choisir 1 ou 2 selon la fréquence et l'alternance qu'il aura décelé chez son adversaire. En comprenant le pattern adverse et en s'y ajustant, il va réaliser un profit.

Si on part de l'idée que quelqu'un nous défie à ce jeu, il se sent capable de nous battre en s'ajustant à notre fréquence et nous propose 101/100 à ce jeu.
Nous estimons que cet adversaire va être meilleur que nous et qu'en toute logique, nous devrions refuser d'y jouer. Pourtant en utilisant la GTO, nous pourrons dire accepter son défi et réaliser un profit intéressant.

Il suffira de trouver un modèle aléatoire pour décider quand choisir 1 ou 2 allumettes et non plus se baser sur notre envie du moment. Que ce soit en lançant une pièce en choisissant "Pile" pour 1 et "Face" pour 2, ou bien en utilisant n'importe quel système générateur aléatoire et utilisant un modèle prédéterminé pour choisir 1 ou 2.

On aura de ce fait complètement contrecarré la compétence adverse en utilisant un système qui ne lui permet pas d'anticiper notre choix de jeu. La probabilité de choisir 1 ou 2 est de 50/50 et il n'y a plus de possibilité de perception et d'anticipation par l'adversaire.

De par la nature même de l'enjeu où nous avons un rapport 101/100, nous nous assurons un gain de 50cts ou 50% d'EV (101*0.5-100*0.5 = 50.5-50 = 0.5) qui ne sera pas compensable par l'adversaire quelque soit sa stratégie adoptée en ayant simplement ajusté notre jeu rendant impossible l'utilisation d'une compétence quel qu'elle soit.

Bluffer grâce à la GTO (PLO)

Ce qui nous intéresse pour le moment est de déterminer via la GTO, comment bluffer ou démasquer un bluff. Pour cela, nous allons parler de stratégie mixte, une stratégie au sein de laquelle nous allons faire un play particulier, spécifiquement bluffer ou payer face à un possible bluff une portion du temps prédéterminée.

Nous allons toutefois amener un facteur aléatoire qui fait que notre opposant ne pourra savoir à quel moment nous allons faire ce move ou non.

Un joueur qui bluff trop, comme un joueur qui ne bluff jamais sont tous deux largement désavantagés face à un joueur qui bluff correctement. Pour illustrer cela et comprendre comment prendre la décision de bluffer de façon correcte, nous allons partir d'un exemple au jeu de lowball draw.

Nous avons une situation de pat:

Hero:
Vilain:

Hero pat donc au draw et Vilain tire une carte. Si celui touche n'importe quelle carte du 5 au 9, il trouvera un meilleur jeu que Hero, sur toutes les autres cartes, Hero l'emporte.
Il reste 42 cartes dans le paquet et Vilain a donc 18 outs qui lui donne le gain de la main et 24 contre lui. Cela revient donc à 24 contre 18 ou 4 contre 3.

C'est un jeu avec ante où les 2 joueurs ont posté 100€ avant la distribution. Vilan pourra miser 100€ après avoir draw 1 carte.

Partons du principe qu'avec la qualité de son tirage, Vilain va miser 100% du temps après son tirage à une carte.

Si on part du principe que Hero devrait payer à 100% du temps dans la mesure où il est favori et va gagner 24 fois pour perdre 18 (200*24-18*200 = 4800-3600 = 1200€) et va donc réaliser un profit de 1200€.

Supposons maintenant que Vilain ne bluff jamais et qu'il ne va bet que lorsqu'il a touché un de ses 18 outs. Il va donc jeter 24 fois et miser 18 fois. Hero va donc jeter à chaque fois que Vilain bet.

24 fois Hero va gagner 100 et 18 fois où il va perdre 100 => 24*100-18*100 = 2400-1800 = 600

Soit un gain de 600€, dans la mesure où Hero va gagner ou perdre 100€ par main mais à un rapport de 4 contre 3. Donc dans ces deux postulats, Hero va dégager un profit "facile".

Si on module un peu la situation et que Vilain va bluffer une fois, c'est à dire qu'il va, en plus de ses 18 outs, "choisir" une carte sur laquelle il va bluffer. Il prédétermine . Le bluff n'aura aucune fréquence prédéterminée et sera de ce fait impossible à identifier.

Si Hero a gardé la stratégie de toujours jeter quand Vilain bet, on va avoir une situation où Vilain mise 19 fois pour remporter la main et Hero gagne le coup maintenant 23 fois. Ce léger ajustement va impacter la stratégie de Vilain mais pas celle de Hero et en cela, Vilain va réduire le désavantage qu'il a au tirage.

L'ajustement est "impossible" pour Hero dans la mesure où je répète que la fréquence de bluff est indéterminable puisque non pré-établi par Vilain, mais basé sur un facteur aléatoire: le fait de hit .

Si bluffer pour Vilain avec seulement une carte le laisse toujours en retard à 23 contre 19, le fait d'ajouter une seconde carte sur laquelle il pourrait bluffer comme le , le retard tombera à 22 contre 20. Le jeu correct de Hero reste le fold même s'il connaît la stratégie adverse dans la mesure où il lui est impossible de savoir quand Vilain bluff. Et avec la fréquence de 2 pour 20, soit 10% de bluff, Hero n'a pas une capacité à démasquer le bluff suffisamment souvent pour rentabiliser le démasquage.

Si maintenant on part d'une situation sur laquelle Vilain bluff sur 5 outs: , il va donc miser maintenant 23 fois pour 18 fois avec la meilleure main et 5 fois avec un bluff. Nous avons donc une fréquence de bluff de 5/23*100 = 21,7%

Ici, la situation est mauvaise pour Hero avec son en pat car il doit deviner quand Vilain bluff par une mise. Même si Vilain expose sa stratégie à Hero, celui-ci ne pourra pas trouver de contre stratégie fiable.

Que se passe-t-il concrètement ici ?

Vilain a donc 18 cartes qui lui donnent la victoire et où il va miser
Vilain va bluff 5 cartes dans le paquet qu'il aura déjà prédéterminé
Il se donne donc une cote value/bluff de 18 contre 5 soit 3.6 contre 1

Avec les 200€ d'ante et sa mise de 100€, le pot fait 300€. Hero a un call à 3 contre 1, il ne peut donc payer profitablement face à la cote gain/perte de 3.6 contre 1 vu qu'il ne va remporter le coup qu'à 3 contre 1.

Cela donne une situation sur laquelle Vilain va remporter le coup 23 fois sur 42 et Hero 19 fois sur 42.

Le paramètre aléatoire rendant impossible à démasquer le bluff fait que Vilain va réaliser un profit de 400€ en ayant fait changer la situation défavorable de 24 contre 18 à une situation favorable 23 contre 19.

Si Hero veut ajuster, il peut décider de payer 100% du temps mais cela va donner la situation suivante:

Sur les 5 fois où Vilain bluff, Hero va gagner 200€ (100 d'ante et 100 de mise)
Sur les 19 fois où Vilain jette sa main, il va gagner 100€ d'ante
Sur les 18 fois où Vilain trouve ses outs, il va perdre 200€

=> 1000+1900-3600 = -700
=> Hero va donc réaliser une perte nette de 700€, ce qui est plus défavorable que de jeter 100% du temps face à un bet de Vilain.

Ce qu'il faudrait entrevoir dans la stratégie de Vilain, c'est que tant qu'il respectera un point dit "d'équilibre" dans sa stratégie de sélection de facteurs bluffs (des outs fantômes), il va réaliser un profit mais s'il dépasse un certain seuil => trop de bluff, la stratégie de payer 100% du temps pour Hero redeviendra profitable.

C'est en cela qu'il faut bien comprendre où se situent les bonnes stratégies et quelles en sont les limites. L'optimale étant de déterminer combien d'outs on va ajouter à notre équité réelle en maximisant le profit quelque soit la stratégie adverse => tout payer ou tout folder.

Exemple annexe (hors poker) qui illustre bien le biais de "trop" en faire

Prenons le cas de 2 vendeurs de chichis sur la plage => Boobaa et Yeepaa.

Ils ont tous les deux une patente pour vendre légalement leurs chichis sur un tronçon de plage de 600 mètres d'amplitude.

Sans se concerter, ils savent tous deux qu'en se mettant de façon équidistante des extrémités de leur bout de plage, ils optimisent leurs profits sans se marcher dessus et sans instaurer de concurrence sur la qualité de leurs biens.

En ayant choisi une situation équilibrée, ils couvrent tous les deux la même portion de plage, ils se répartissent donc justement les clients qui n'ont qu'à déterminer leur point de vente par la distance qui les sépare du vendeur.

Boobaa réalisant cela après quelques jours, se dit qu'il pourrait prendre une part du gâteau plus importante sans forcément que Yeepaa s'en rende compte (il va chercher une situation exploitante en déviant de la stratégie dite optimale qui était une situation d'équilibre).

Il se décale donc d'une dizaine de mètres et commence à gagner légèrement plus mais de ce fait Yeepaa perd un peu et s'en rend compte après 3 jours continus de manque à gagner théorique. Le temps d'ajustement peut être mis sur le compte d'une estimation d'une fréquentation moindre par exemple et la validation sur plusieurs jours semble cohérente.

Yeepa va lui aussi ajuster et grignoter 10 mètres de plus, ce qui va donner une situation de 210 mètres des extrémités à chacun et plus que 180 mètres entre les 2.

S'il décide de non pas se déplacer de 10 mais de 20 mètres en disant: "Ok tu as voulu m'avoir, pas de soucis, à mon tour". Boobaa va à son tour adapter sa stratégie et se déplacer.

Jusqu'à un point où ils auront tellement dévie de leur stratégie optimale qu'ils seront tous deux perdants. Le client qui se trouve à l'extrémité, n'a plus qu'à aller à la concurrence sur le tronçon voisin en économisant quelques mètres de labeur ce qui va faire perdre in fine de l'argent à nos deux lascars.

Si on voit qu'une stratégie optimale et équilibrée était rentable pour les 2, on s'aperçoit que la volonté de trop en dévier pour exploiter "son adversaire" peut au contraire faire perdre de l'argent.

C'est un parallèle assez simpliste mais qui fait bien prendre en compte les ajustements et leurs dangers.

Pour revenir à la situation de bluff avec notre illustration de lowball

Le seul ajustement que pourra faire Hero pour déjouer la stratégie de bluff de Vilain va être lui aussi de trouver un élément aléatoire pour intégrer une fréquence de call en se basant sur les fréquences et la réalisation probabiliste adverse.

En cela si Hero estime le ratio value/bluff adverse à hauteur de 4 contre 1, il va devoir lui même trouver un call une fois sur 20% des bets adverses => 4 folds pour 1 call.

De façon purement aléatoire, il pourrait prendre un dé à 5 face (dé pour jeu de rôle) et dire que, dès qu'il fait un chiffre sur 5, il paie.

Il faut comprendre que contrairement à un jeu "paritaire", 1 chance sur 2 sur laquelle la compétence adverse va pouvoir lui donner un avantage. Le fait de trouver un système de bluff catching ne va pas rendre une situation défavorable en situation favorable et qu'il faudra peut-être dans ce cas, choisir un ajustement qui pourra être de draw de temps à autre le même type de main pour aller trouver une meilleure main et contrecarrer la stratégie adverse.

Quand l'adversaire va utiliser une stratégie optimale pour bluffer, la théorie fait qu'il est impossible de le battre à ce jeu. On pourra trouver une situation d'équilibre, mais pas de profit.

Cela peut paraître étrange mais pour revenir à l'exemple de la plage, vouloir à tout prix exploiter son adversaire ou contre ajuster à outrance peut générer une situation bien pire.

Il faut aussi comprendre que cet exemple n'est qu'un exemple sur une variante bien précise et dans une situation donnée. Dans les faits, on ne touchera pas toujours la même main, l'adversaire non plus, et une somme de facteurs impacteront les stratégies réciproques. Toutefois, avoir une vision GTO de certaines situations et à fortiori quand on fait face à un adversaire, soit plus fort, soit encore indéterminé sera une belle source de gains.

Pour conclure sur cette "légère" approche de la GTO, il faut garder à l'esprit que la Game Theory ne remplacera jamais un bon thinking process et un jugement rationnel quant aux profits, situations, images etc. On va palier un différentiel d'edge en notre défaveur par cela. C'est toute la différence entre la GTO et l'exploitation:

Pour exploiter, il faut être meilleur que son adversaire
Pour jouer GTO, il faut maîtriser les concepts et stratégies

Dans un contexte exploitant, la GTO restera très intéressante et ce notamment pour maximiser nos espérances financières et de taux de réussite aussi bien de bluff que de démasquage de bluff.

L'illustration du thinking process ou plutôt du fait de ne pas "Bon GTO induit fréquence, ici je vais call ou bluff !"

Si on prend un spot où notre adversaire shove river pour 50€ dans un pot de 100€, il lui faut remporter le coup 50/150 = 33% du temps, ce qui fait que nous même nous devrions call le haut de notre range de bluff catch => 100/150 = 0.66%

Ce qui est important, c'est que nous ne devrions pas call les 2/3 de notre catching range et pas 2/3 de l'intégralité de notre range.

Il ne va pas bluff à 100% des coups
Si on n'a pas bluff catcher, il est bien illusoire de vouloir remporter le coup à l'abattage et le call n'a donc aucun sens.

Si on applique la GTO sur ce point, l'adversaire a une range polarisée => main forte / main faible

Nous n'avons qu'un bluff catcher (et si ce n'est pas le cas, il n'y a aucune modélisation mathématique ou théorique à faire, c'est une main de fold et c'est tout ! Si l'adversaire bluff trop, nous aurons trop d'occasions pour dilapider de l'argent avec rien. Si l'adversaire ne bluff pas assez, nous n'avons aucun intérêt à payer de toute façon, si l'adversaire est équilibré dans ses bluffs, sa fréquence fait que nous pourrons attendre un meilleur spot pour bluff catch dans la mesure où il ne bluff pas n'importe comment).

Donc à partir du moment où nous avons un bluff catcher, nous pourrons payer dans cette situation avec la paire haute de notre range de bluff catch pour empêcher notre adversaire de pouvoir bluff profitablement et nous même réaliser du profit en le démasquant.