Header_Interview_Stephan_02_2017_Brain_vs_AI

Die Pokervariante „No – Limit Hold’em (NLHE) gilt als komplexe Spielvariante des Poker und war bisher nicht von Computern oder KIs zu schlagen. Es gab bereits mehrere Versuche und Challenges, in denen Computer gegen Poker Profis antraten, jedoch immer ohne Erfolg… bis zum Januar 2017.
Zuletzt traten 4 Pokerprofis (Jason Les, Dong Kyu Kim, Jimmy Chou und Daniel McAuley) gegen den Poker-Bot Libratus an. Der Bot wurde von Prof. Tuomas Sandholm und Ph. D. Student Noam Brown in Zusammenarbeit mit dem Supercomputing Center in Pittsburgh entwickelt.
Es wurde eine Challenge „Brains vs. Artificial Intelligence“ gespielt, bei der jeden Tag von 11-19 Uhr im Rivers Casino Pittsburgh NLHE im HeadsUp gespielt wurde. Dabei startete jede Hand mit 200BB bei Blinds von $ 50/100.  Der Glücksfaktor wurde dadurch ausgeschaltet, dass in 2 parallelen Matches die gleichen Karten (Hole- und Community Cards) verteilt wurden, wobei die Holecards untereinander ausgetauscht worden waren.
Am Ende  konnte sich Libratus deutlich gegen die menschlichen Widersacher durchsetzen und bei 120.000 gespielten Händen ein Plus von insgesamt $ 1.766.250 erwirtschaften.
Ein deutliches Ergebnis, was uns dazu veranlasst hat mit dem Präsidenten des Deutschen Poker Sportbundes (DPSB) über diese Entwicklungen zu sprechen:

Lukas:
Hallo Stephan, die gesamte Pokerwelt verfolgte gespannt die neuerliche Challenge „Brains vs. Artificial Intelligence“ in Pittsburgh. Wie hast Du das Duell der 4 Poker Profis mit „Libratus“ gesehen?

Stephan:
Also die Sache, so wie ich sie bisher gesehen habe, ist super spannend. Es ist ein wirklicher Kampf Mensch gegen Maschine. Der Titel „Brains vs. Artificial Intelligence“ ist sichtbar. Eine Anfangsniederlage der Pokerprofis, wo nach knapp 3000 Händen die Menschen erstmal auf dem falschen Fuß erwischt worden sind, konnte wettgemacht werden. Die Pokerprofis haben ihr Spiel adaptiert und so auf die Stärke des Gegners reagiert, dabei haben die Poker Profis die Tugenden des Menschen berücksichtigt und sind aggressiver geworden und konnten in wenigen Händen überproportionalen Profit erzielen. Durch Täuschungsmanöver und selbstbewusstes kreatives Aufspielen konnten sich die Spieler in den Vordergrund spielen.
Im Anschluss gab es den nächsten downswing der menschlichen Spieler, weil der Computer weiter von Hand zu Hand dazu lernt und die Methoden und Aktionen seiner Gegner kennenlernt und sachlich kühl bedient. Im Grunde merkt der Computer, dass die Profis vom spieltheoretischen Optimum abweichen, um auf den Computer zu reagieren. Aber genau das hat Libratus nun auf dem Schirm und schlägt brutal zurück. Die menschlichen Spieler sacken  ab und ab Tag 7 geht es dann 13 Tage brutal nach unten.

Lukas:
Wie schätzt Du diesen Verlauf bzw. diese Niederlage ein?

Stephan:
Ich habe das ein wenig recherchiert und man möchte eine Parallele ziehen zum WM Halbfinale von 2014 als Brasilien gegen Deutschland verlor. Am Anfang große Spannung und Respekt und plötzlich schießt Deutschland in wenigen Minuten 3 Tore und Brasilien bricht insbesondere mental auseinander, konnte sich davon im Laufe des Spiels nicht mehr erholen.

Lukas:
Und hier siehst Du die Parallelen?

Stephan:
Ja absolut – als die Menschen Ihr Selbstvertrauen verloren haben und über die letzten Tage noch Dinge ausprobiert haben, hat es nur noch zu höheren Verlusten geführt. Das Ergebnis war schon deutlich und man muss der KI hier den höchsten Respekt zollen. Hier wurde ein neuer Meilenstein erreicht, der vor Jahren noch nicht denkbar war.

Lukas:
Kannst Du hier ein wenig näher auf das Ergebnis im Vergleich zur Statistik eingehen?

Stephan:
Als guter Spieler hat man einen Vorteil / Edge  auf seine Gegner abhängig von den Einsätzen von vielleicht 2-3 Big Blinds auf 100 Hände (auf Topniveau) und so ergibt es für die Spieler die zu erwartende Marge. Wenn man nun das Duell von Libratus gegen die Pokerprofis mittelt kommt man auf ca. 15 BB Verlust pro 100 Hände. Das ist wirklich ein heftiges Ergebnis.

Lukas:
Wow – das klingt extrem hoch und überproportional.

Stephan:
Mehr als das – also die statistische Signifikanz ist da doppelt, dreifach, zehnfach abgesichert. Allein die Tatsache, dass 120 000 Hände gespielt wurden und jede Heads-UP Partie immer gespiegelt wurde, hat man erreicht, dass es kein Kartenglück gibt. Das unterstreicht nochmal die Deutlichkeit des Ergebnisses.

Lukas:
Es klingt als wenn ein neues Zeitalter anbrechen könnte…

Stephan:
Ich kann dazu wirklich nur sagen… darüber kann man, muss man und wird man sich Gedanken machen müssen.

Lukas:
Wenn man diese Fakten und Zahlen generell mal sacken lässt. Kommt da nicht der Eindruck auf, dass es ein unfaires Duell war?

Stephan:
Man könnte natürlich den Gedanken aufkommen lassen, dass es sich hier um ein ungleiches Duell handelt. Aber ich teile diese Annahme nicht. Schließlich haben wir Menschen den Computer erschaffen. Der Computer kann erstmal nichts außer schnell und präzise sein. Was er denken soll, wurde von uns vorgegeben. Die Tatsache, dass wir nun in der Lage sind ,Adaptionen hinzubekommen, in der der Computer seine Stärken ausspielen kann und Effizienz in die Rechenpower bringt, ist ein wahnsinniger Fortschritt und vor allem eine Entwicklung. Ich hätte nicht gedacht, dass das so schnell geht.

Lukas:
Was genau überrascht Dich hier am meisten?

Stephan:
Es ist als Beispiel unglaublich schwer ein Gefühl für Timing zu entwickeln: mal das Falsche zu tun, aber im richtigen Augenblick. Das ist die kreative Stärke von uns Menschen, die es uns ermöglicht als Beispiel Bluffs oder Täuschungen genereller Natur einzustreuen, um den Gegner zu besiegen. Die Tatsache, dass diese Kreativität nun in Zahlen abbildbar ist, begeistert mich als Mathematiker natürlich. Und dass nun nach Schach auch die Königsdisziplin Poker signifikant angegriffen wird. Das ist wirklich ein Quantensprung!!

Lukas:
Du hattest gerade schon erwähnt, dass es bereits Computer gibt, die das Spiel Schach schlagen. Wie siehst Du die Unterschiede zwischen Schach und Poker in der Anforderung für eine KI?

Stephan:
Beim Schach nimmt die Komplexität im Verlauf des Spiels bis hin zum Endspiel ab, wobei die Komplexität beim Poker ansteigt. Im Detail auf Poker bezogen bedeutet das, dass wir mit 2 verdeckten Karten gegeneinander spielen und wir somit anfänglich nur mit überschlagen 1326² verschiedenen Möglichkeiten starten, die sich durch die Setzrunden und die Gemeinschaftskarten weiter drastisch erweitern. Auf dem Flop bedeutet dies, dass wir bereits im Bereich von ca. 40 Milliarden Möglichkeiten sind und dass wiederum noch jeweils etwa um den Faktor 50 für Turn und River multipliziert wird.
Lange Rede, kurzer Sinn – die Komplexität steigt bei No-Limit Texas Holdem an, da auch die Setzrunden und somit die Entscheidungsrelevanz im Verlauf einer Spielrunde ansteigen. In Abhängigkeit der Aktionen der Spieler in den Setzrunden zuvor und dem eingesetzten Werten, gibt es wiederum zahlreiche Kombinationen und Entscheidungen die man parallel zu den Kartenwahrscheinlichkeiten in die Waagschale werfen muss.
Bedeutet, wenn der Computer im Endspiel stärker ist, bedeutet es in dem Fall nicht, dass es weniger komplex ist, sondern es ist durch die starke Komplexität ein „Heimspiel“ für den Computer.

Lukas:
Du sprichst von Entscheidungen und Kombinationen. Was genau meinst Du hiermit?

Stephan:
Es geht hier um den Einsatz von Spielstilen. Man unterscheidet das spieltheoretische korrekte Spiel und das adaptierte Spiel. Beim erst genannten handelt es sich um den defensiven Ansatz und dieser geht davon aus, dass der Gegner ein fehlerarmes bis fehlerfreies Spiel spielt. Man respektiert diesen Gegner und bleibt somit in der Deckung, um sich selbst nicht angreifbar zu machen. Auf der anderen Seite haben wir das adaptierte Spiel, dass auf Basis von Erkenntnissen und Erfahrungen beruht und es somit ermöglicht gezielt aus dem spieltheoretischen Optimum herauszutreten, um die Fehler beim Gegner ausnutzen zu können. Als Beispiel kann man Gegner mit zu hoher Spielfreude oder zu viel Neugierde mit höherer Aggression entgegentreten und somit auch mit dünneren wertschöpfenden Wetten bespielen. Bei ängstlicheren Gegnern kann man die Bluff Frequenz hochschrauben und sich somit einen Vorteil verschaffen.

Lukas:
Das würde auch bedeuten, wenn zwei Spieler mit einem spieltheoretischen korrekten Spiel aufeinander treffen, dass sich der Gewinn gegen Null entwickeln würde, oder?

Stephan:
Ja in einer perfekten Welt wäre das so. Aber in der reellen Welt, die durch Menschlichkeit und viele Einflüsse geprägt ist, bündeln sich die Gewinne langfristig bei den Spielern, die mehrheitlich Entscheidungen mit positivem Erwartungswerten treffen.

Lukas:
Gerade das Thema Entscheidungen mit positivem Erwartungswert müsste ja etwas sein, dass der Computer perfekter beherrschen sollte als der Mensch oder? Ist das der Grund für die hohe Niederlage?

Stephan:
Der Computer entscheidet zu jeder Tages- und Nachtzeit immer gleich und berechnet seine Entscheidungen so gut er kann. Er hat nie einen „schlechten“ Tag.
Bei allem Respekt für das Team, das hier angetreten ist, behaupte ich, dass normale menschliche Einflüsse wie z.B. Müdigkeit, Frustration, Wut oder Überheblichkeit in manchen Situationen vorlag und Entscheidungen im Ergebnis fatal beeinflusst haben könnte.
Das sind für mich die plausibelsten Gründe für diese hohe Niederlage. Ich glaube nicht, dass der Computer bereits so stark ist und so dominant ist, wie es das Ergebnis aufzeigt.

Lukas:
Aber wie kam es dann Deiner Meinung nach zu dem gravierenden Ergebnis?

Stephan:
Man hat recht klar gesehen, dass die Menschen wohl versucht haben, am Ende nochmal alles in die Waagschale zu werfen und alles auf eine Karte gesetzt haben. Kurzfristig hat das geklappt, allerdings hat man dann im Versuch das Ruder nochmal rumzureißen eine höhere Niederlage einstecken müssen. Das war aber sicherlich einkalkuliert. Es zeigt wiederum eine menschliche Tugend, die zeigt, dass man unbedingt gewinnen will und daher nochmal alles versucht. Am Ende war es egal, wie hoch man verliert – aber so lange man eine Chance hat es auszugleichen, versucht man es auch.

Lukas:
Ist man denn hier nicht ein zu hohes Risiko gegangen? Und wie stehst Du generell zum Thema Risiko im Verhältnis zum Erfolg?

Stephan:
Man muss sich immer im Klaren darüber sein, dass exorbitante Siege immer einhergehen mit einem großen Risiko. Man riskiert quasi per Definition immer viel um schließlich wirklich Großes zu erreichen. Dabei sollte man auch nie die Demut verlieren. Man sollte immer auch berücksichtigen, dass eigener Erfolg mitunter von anderen bitter bezahlt worden ist. Das sollte man sich immer vor Augen führen, um die Realitätsnähe nicht zu verlieren.
Daher sollte man immer nur so viel Risiko eingehen, wie man selbst auch wirklich gewillt ist zu tragen. So sollte man auch immer eine Risikoanalyse mit einbeziehen: bringt mir der Einsatz auch wirklich etwas im Verhältnis zum negativen Ausgang. Wenn ich mit dem negativen Fall nicht umgehen kann, dann ist das Risiko zu groß – egal wie positiv der beste Fall im jeweiligen Zusammenhang auch sein mag.

Lukas:
Stephan – vielen lieben Dank für Deine Zeit und vor allem die Sicht auf die Dinge bezüglich den jüngsten Ereignissen im Bereich „Brain vs. Artificial Intelligence“.

© 2017, Lukas Lange für den DPSB