На живо
World Cup of Cards PokerStars Championship BarcelonaPokerNews Cup 2017 PokerNews Cup King's Casino Rozvadov

Оптималната игрална теория и решенията в покера

Christoph Vogelsang, Daniel Colman, and Daniel Colman at the 2014 $1M Big One for One Drop

GTO е съкращение от "Game Theory Optimal." В покера, зад този термин стоят няколко различни концепции. Отнася се до моделиране на опоненти и анализ на покер ситуации по отношение на обхвати от ръце и вероятности – не е стриктно ориентирана към резултатите теория.

Понякога ще чуваш за това когато млади про играчи се провикват през покер залата (или туитват) дали дадена игра е "GTO" или "не-GTO," както наскоро видях да се обсъжда в една тема. Но какво всъщност означава това? И какво му е приложението в твоята игра?

В търсене на непробиваема стратегия

Едно произлизащо от оптималната игрална теория решение има точни математически дефиниции. Интересно е да анализира какво означава това за един покер играч и също как тази концепция се е превърнала в доминиращ възглед за идеалната покер стратегия. И понеже по-голямата част от времето ми сега минава в създаване на изкуствен интелект способен да играе отлично покер, често мисля за това как компютрите отчитат възможностите за използване на GTO стратегии с цел изграждане на непробиваеми покер стратегии.

GTO – особено в контекста на модерния покер – до голяма степен опира до преследване на стратегия, която прави невъзможно другите да намират слаби места в играта ти. Сещам се за Ума Търман в Kill Bill. Или Брус Уилис в който и да е от неговите филми.

Извън покера, GTO обикновено се свързва с "дилемата на затворника." В тази хипотетична ситуация, двама сме арестувани за извършване на престъпление. Ако никой от нас не проговори и двамата се измъкваме с леки присъди. Но ако единият предаде другия, отървава кожата, а мълчаливецът отнася яка присъда. Ако и двамата пропеем, може да идем за дълго зад решетките, защото показанията ни работят срещу всеки от нас.

Въпреки че първият сценарий е най-добър за нас (никой не пропява), като цяло за всеки отделно е по-добре да сътрудничи на властите, независимо от това какво направи другия (ако не пропея, ти трябва да го направиш, за да се измъкнеш, а ако го направя, определено и ти трябва да го направиш). В една обстановка, в която играчите извличат изгода от това, че се възползват от другите, съвместните действия може да нямат стойност дори да изглежда по-добре да се сдружаваш.

Оптималната игрална теория и решенията в покера 101
Друга дилема: балонът в турнир

Покер еквивалентът би бил двама играчи да са един срещу друг на балона в турнир. Освен хората със супер големи стакове, които могат да си позволят да загубят чипове, без риск да отпаднат, останалите играчи се възползват от всяка конфронтация, която може да доведе до отпадане. Така двамата играчи в ръката само работят против себе си, като се опитват да се елиминират един друг. Освен това, не е възможно да си съдействат за всеобщо изгодно решение.

Реакцията срещу опита на опонент да те прегази е толкова естествена за един мислещ покер играч, че поставянето и в GTO контекст може да изглежда почти излишно. Естествено, че твоят опонент има стратегия. От отделни ръце си правиш някои изводи за тази стратегия и задачата ти е да имаш предвид това при изграждане на твоята собствена стратегия.

С други думи, играй играча. До това опира GTO концепцията.

Походът към "разгадаване" на холдема (и други игри)

Докато напасваш стратегията си към тази на опонент, той или тя ще се напасва към твоята и т.н. В хедс-ъп лимит холдем, екип от Университета на Албърта е довел този процес до логичния му завършек, публикувайки резултатите по-рано тази година в списание Science. Чрез използване на мрежа от компютри, те задали параметри двете стратегии постоянно да се напасват една към друга. В крайна сметка, достигнали състояние, при което никой играч не бил способен да извлече и 1% предимство пред другия във всяка специфична ситуация.

Това може да звучи сложно, но аз дори опростявам до известна степен направеното от екипа. По същество, екипът е стигнал до стратегия, която опонент не може да пробие – или поне с не повече от 1% предимство – с всяка друга възможна стратегия. Малко объркващо, от университета твърдят, че са "разгадали" хедс-ъп лимит холдема, но също и че са открили само един GTO баланс за хедс-ъп лимит холдем, като вероятно има и други възможни баланси за играта, които предстои да бъдат открити.

Оптималната игрална теория и решенията в покера 102
Екип на У. на Албърта (от The Verge)

Според документа, техният "почти перфектен" хедс-ъп лимит холдем бот рейзва с 90%+ от ръцете на бутона, но почти не четири-бетва след три-бет от големия блайнд, дори с {A-}{A-}. Изглежда искат да кажат, че четири-бетването с {A-}{A-} от бутона е неправилно или най-малкото непечелившо колкото прикриване на ръката с плащане на три-бета. Поне така си помислих първия път, когато четох публикацията им.

Но хората от Албърта бързо посочват, че плащането на три-бет с {A-}{A-} от бутона в 100% от случаите е оптимално само в открития от тях GTO баланс. Според останалата част от тяхната стратегия, би било възможно най-лошо да четири-бетнеш с покет аса. Вероятно можеш да го правиш, но тогава останалата част от стратегията ще трябва да се напасва. Или най-малкото ще трябва да четири-бетваш и с други ръце, за да не издаваш, че имаш аса. Ако бяха фиксирали {A-}{A-} като четири-бет и тестват останалата част от процеса докато се стабилизира, щяха ли да стигнат до различен GTO баланс? Би бил интересен експеримент.

На практика, ако знаеш, че опонентът ти ще плати с един чифт срещу аса и няма да реагира сякаш знае какъв е твоят супер стегнат четири-бет обхват, тогава просто пропускаш един залог. Теорията на играта използва строги дефиниции за оптимална игра, при които се предполага, че ти трябва да отчиташ всеки ход, който би направил/а някога с която и да е ръка като част от баланса. Но в реалните ситуации, 95% от това е оптимизиране на действията ти в такава ситуация, предвид обхвата ти от ръце и потенциалните ръце на твоите опоненти.

Когато всеки знае какво правят останалите

В игри с трима (или повече) играчи, вече няма оптимални игрални решения. Това е така, защото няма стабилен баланс (или твърде много такива за отчитане в зависимост от това кого питаш). Играчите винаги могат да се напасват едни към други или да се възползват от играч опитващ се да прилага GTO стратегия, без на свой ред да се напасва към тях, чрез процес, който Бил Чен и Джерод Анкенман наричат "прикрито съглашателство" в тяхната книга от 2006 The Mathematics of Poker. Затова и няма непробиваема стратегия.

Оптималната игрална теория и решенията в покера 103
"The Mathematics of Poker" (2006)

Да разнищим това за малко. Когато играеш хедс-ъп, ако ти (или бот) следваш GTO стратегия, опонент не може да те победи в дългосрочен план, без значение какво прави. Това не означава, че печелиш максимално от даден опонент, а че в дългосрочен план си гарантираш равенство, като междувременно се възползваш от някои грешки на твоя опонент.

Например, лимит холдем GTO ботът ще плаща на ривъра с най-нисък чифт достатъчно често, така че да не можеш да блъфираш ефективно. Ако никога не блъфираш в такава ситуация, ботът ще продължи да плаща по същия начин.

В идеалната игра с повече от трима, в която всеки се напасва към останалите, GTO не би трябвало да върши работа. Но в реалната игра, ако играчите не променят своите стратегии твърде много от ръка на ръка (а те не го правят), много от хедс-ъп GTO принципите важат.

Мой приятел е учил с един от най-добрите онлайн покер играчи в света и е имал възможност да го гледа как играе. Той останал изненадан как съученикът му не прави никакви необичайни ходове или въобще никакви "ходове". Според този про играч:

  • Всеки знае кой съм;
  • Всеки знае как играя;
  • Няма причина да променям посоката.

Ако про играч вземе присърце идеите на Чен и Анкенман за "прикритото съглашателство," може да добави, че ако играчите тормозят него вместо да се опитват да се победят, просто ще излезе от играта. Това не е проблем в топ игрите, защото всички се познават и не е възможно да се играе анонимно или в комбинация.

Идеята е, че най-добрият играч в онлайн покера миналата година (на база ръце) играе GTO. Трябва да е наистина добър в това да знае кога да залага в 80% от случаите и да плаща в 20%, както и кога да плаща 20% и хвърля 80%. И всъщност го прави.

Заключение: GTO е основата

В краткосрочен план, хората се приближават по-бързо до GTO. Докато седях на трибуните в Amazon Room в Rio All-Suite Hotel and Casino за финалната маса на $1 Million Big One for One Drop, ме шокира колко loose-passive стана играта след като останаха трима.

Оптималната игрална теория и решенията в покера 104
Трима в The Big One for One Drop

Критикувах в Twitter играта с малки залози между Даниел Негреану, Дан Колман и Кристоф Фогелсанг и ми отвръщаха, че това са най-добрите в света и моите идеи са идиотски. Но определено не изглеждаше някой от тримата да оказва натиск върху другите. А защо трябва да го правят? С награди от $15M, $8M и $4M има много по-малко предимства в това да печелиш чипове, отколкото недостатъци в това ги губиш или отпаднеш.

От друга страна, ако някой натисне, ще е наясно, че другите знаят как да отвърнат. Затова никой не натиска. В продължение на около два часа, трима от най-добрите short-handed NLHE играчи в света чекваха или залагаха слабо във всяка ръка, докато Фогелсанг, най-малкият стак, отпадна.

Трябва ли да играеш GTO, за да побеждаваш? Или пък, доколко трябва да се придържаш към GTO, за да поддържаш своята линия срещу силни опоненти? Да оставим проф. Туомос Сандхолм, от Claudico холдем без лимит екипа на Carnegie Mellon да отговори на този въпрос.

В скорошна статия в Cigar Aficianadoпо време на Annual Computer Poker Championship, Санхдолм бил попитан за разгадаването на лимит холдема от неговите колеги от Албърта.

"Казват, че по същество са го разгадали. Мисля, че е така," отвръща Сандхолм. "Но моят въпрос е: Беше ли разгадан по същество преди три години?"

Почти-оптималната GTO игра е само първата стъпка. След като основната ти стратегия не може да бъде лесно пробита, можеш да прекарваш остатъка от времето си да проучваш тенденциите на своите опоненти и да се напасваш към техните слабости. Ще има много опоненти, които няма да мислят за обхвати, които не се напасват към информацията от играта или които просто си играят по техния начин. GTO стратегията, и покерът, опират до напасване към тях.

Николай Яковенко е професионален покер игра и софтуерен разработчик, който живее в Бруклин, Ню Йорк и е участвал в създаването на ABC Open-Face Chinese Poker iPhone приложение.

Свързани статии

Свързани играчи

Коментари

Все още няма коментари. Напишете първия!

Какво мислиш?
Регистрирай се, за да оставиш коментар, или се впиши с facebook