April 24, 2024

Kleiner Fehler, große Wirkung? — Traktat über die Engine-Bewertungen

Diese Stellung ergab sich in der Online-Liga zwischen zwei nicht näher benannten (und nicht einmal bekannten) Spielern. Weiß hatte in hoffnungsloser Verluststellung noch ein paar Schachs geboten (macht man eben so, was auch sonst? Gerade mit Damen auf dem Brett..). In der abgebildeten Stellung geschah der Zug 1. … Ke3-e2 (mit zwei vorsichtigen Fragezeichen zu versehen?), woraufhin Weiß mit der Zugfolge 2. Da3-f3+ Ke2-e1 3. Df3-f2+ Ke1-d1 4. Df2-f1# tatsächlich matt setzen konnte und „überraschend“ noch gewann. Nun gut. Es gab schon schlimmere Fehler? Kann passieren?  
Die engine gab kurz zuvor eine Bewertung von -68 an, was zumindest eine kleine Diskussion auslöste („Was soll eine solche Stellungseinschätzung einem sagen?“). Das erinnerte mich erneut an eine bereits zuvor von mir gemachte Anmerkung zu den Engine-Bewertungen, deren Entwicklung und deren Nutzbarkeit. Diesen Gedanken greife ich hier auf. Und das der eigentliche Anlass, mich an diesen Artikel zu machen. Das wollte ich doch mal gelegentlich festgehalten haben und zugänglich machen.

Dies die „Ausgangsstellung“, in welcher die Bewertung bei -68 stand. Die Zugfolge, die von diesem Diagramm zum nächsten führte so: 1. … Kg7-h6 2. g4-g5+ Kh6xg5 3. Db7-e7+ Kg5-f5 4. De7-f7+ Kf5-e5 5. Df7-e7+ Ke5-d4 6. De7-b4+ Kd4-e3 7. Db4-a3+ und wir sind in Diagramm 1.

Bei dem rasanten Speed, wie sich die engines entwickeln, muss man damit rechnen, dass man sehr bald absolut KEINE sinnvollen bis hilfreichen „menschlichen“ Bewertungen mehr bekommt, weil nämlich alle legalen Stellung lediglich in die nur sehr geringfügig unterschiedlichen Bewertungen von “Weiß setzt Matt in … Zügen”, „Schwarz setzt Matt in … Zügen“ und “0.00” zu unterteilen wären. Dabei schlösse sich die Frage an, ob man bei “Weiß setzt Matt in 58 Zügen” als Verteidiger (also: Schwarzspieler) nun tatsächlich schlechtere praktische Chancen hätte gegenüber der Bewertung “Weiß setzt Matt in 65 Zügen”?! Hier wird es dann doch sehr philosophisch. Noch schlimmer eigentlich bei der dann völlig nutzlosen Bewertung von 0.00. „Kann alles passieren.“ Oder was finde man damit an? Mein Credo also: es gehören “menschliche Bewertungen” her. Lieber heute als morgen.

Das müsste man doch alsbald mal hinbekommen? Diese müssten sich unterteilen in “Weiß gewinnt zu x%, Remis zu y% und Schwarzsieg zu z%”, mit der kleinen Nebenbedingung, dass x + y + z = 1 sein muss. Wie genau man damit die tatsächliche Chancenverteilung reflektiert beziehungsweise inwieweit es später gar möglich wäre, die Elo-Differenz in diese Chancenverteilung einzubeziehen ist dann wieder eine andere Frage. Ein weiteres kleines Problem ist mir durch meine sonstige Tätigkeit — Berechnung von Wahrscheinlichkeiten für Sportereignisse zum erfolgreichen Einsatz am Wettmarkt (als grobe Beschreibung) — längst schon bekannt: man Mensch tut sich schwer im Umgang mit Wahrscheinlichkeiten? Noch mehr, da ich die Ansicht (recht vehement) vertrete, dass Wahrscheinlichkeiten die Antwort auf viele Fragen geben, die uns Menschen so beschäftigen und die Welt zu erklären versuchen. Was hilft es aber — so die Gegner –, wenn man 90% auf ein Ereignis hatte, es aber einfach nicht eingetreten ist? Passiert zwar ständig, aber man schiebt es meist nicht auf diese Wahrscheinlichkeitsverteilung zurück, sondern sucht die Antwort eher im Schicksal oder einer Unpässlichkeit oder, sehr vielfach vertreten, im höchstpersönlichen zugeteilten „Pech“, welches einem ständig am Erreichen seiner Ziele hindert. Und das — so die Überzeugung — war schon immer so. „Bleib mir weg mit deinen Wahrscheinlichkeiten. Die helfen nicht.“ Wenn man sich dem Konzept anvertraut, tut es das vielleicht doch? Schließlich hat man hier und da auch schon mal einen Sieg eingefahren, der dem Gegner die gleichen Empfindungen verschafft? Nur hat man einen solchen längst „verdrängt“. Erklärungen hatte man ebenfalls parat, die sich aber keinesfalls an etwaigem Glück orientierten. Hier war es „Cleverness“ (oder ein Mangel derselben auf gegnerischen Seite), dort war es „Pech“. So die gängigen Erklärungsmuster, abgesehen vom „Verdrängungsmechanismus“.

In diesem Zusammenhang erwähne ich gerne, dass ich ebenfalls schon vor vielen Jahren den Vorschlag gemacht hatte, die Qualität einer gespielten Partie mit den „durchschnittlich pro Zug verschenkten Bauerneinheiten“ anzugeben. Ich weiß nicht einmal genau, inwieweit sich das System durchgesetzt hat, aber es scheint irgendwo auch Einzug gehalten haben, bei allen weiterhin geäußerten Bedenken demgegenüber, welche vornehmlich darauf zurückgehen, dass man in glatt gewonnenen Stellungen hier und da mal eine Menge verschenkt, aber aus menschlicher Sicht dem Sieg durch Vereinfachung (BEWUSSTE Verringerung des Vorteils, aber leichtere Gewinnführung) NÄHER kommt als sich von ihm zu entfernen, oder dass ein einziger grober Fehler sich zu sehr auswirken würde.

Dennoch ist es eben eine weitere Möglichkeit und wenn man der Sache nachgeht, kommt man allmählich dem Ziel näher: wir wollen hier und da eben, ohne das Ergebnis in den Vordergrund zu stellen, wissen, wer wie gut spielt (kurze Anmerkung hier noch: die „Ablösung“ des von mir gemachten Vorschlags wird, so weit ich verstanden habe, heute mit einem Prozentsatz an Genauigkeit angegeben, was ebenfalls eine gute Möglichkeit ist, aber der von mir vorgeschlagenen Methode wohl recht ähnlich ist).

Genauso meine ich hier, bei den Engine-Bewertungen und deren Entwicklung, dass man das von mir vorgeschlagene System einführen sollte. Dann würde es sich auch hier in die Richtung entwickeln, bis man wirklich etwas damit anfangen kann. Am Anfang wäre beispielsweise die Einschätzung der Remiswahrscheinlichkeit ein schwieriger Punkt, der sowohl von der absoluten Spielstärke der Kontrahenten bestimmt würde, aber auch von der Bedenkzeit abhinge(je höher die Wertzahlen der beiden Spieler, umso wahrscheinlicher ein Remisschluss, je kürzer die Bedenkzeit, umso unwahrscheinlicher ein Remisschluss). Sobald man die Elo-Differenz einrechnen wollte (was ja für die Grundstellung gilt, denn hier hat man zumindest eine grobe Einschätzung der Prozentverteilung allein durch die Differenz der Wertzahlen der beiden Spieler), würde die Komplexität erheblich erhöht, aber auch hierfür könnte man damit anfangen, es zu probieren. Es würde sich schon entwickeln.

Auf jeden Fall wird es früher oder später oder auch nur heute schon zunehmend sinnlos(er), sich auf die Engine-Bewertung zu stützen — wie am obigen Beispiel ansatzweise deutlich wird. Was sagt die -68, die etwa so viel wert sein soll wie acht Damen? „Du gewinnst GANZ SICHER, aber ich kann noch kein direktes Matt für dich finden.“ Oder was soll es heißen? Man ist geneigt, dem obigen Beispiel keine Einzigartigkeit anzuheften: so etwas passiert STÄNDIG und wäre somit das Gegenteil von „Schwarz gewinnt GANZ SICHER“, wie es die Bewertung Glauben machen möchte. „Ist gleich Matt“ ist es auf jeden Fall nicht — beziehungsweise war es hier Schwarz. Und, wer genauer hingeschaut hat, hätte auch festgestellt, dass Schwarz im (nach 4. De7-f7+) auch mit dem König nach e4 hätte gewandert sein können, woraufhin der Zug 5. Df7xg6+ die Partie ebenfalls zugunsten von Weiß entschieden hätte. Und selbst einen solchen Zug hätte man sicher an einem üblichen Vereinsabend nicht nur einmal, nein, gleich drei Mal beobachtet haben können. Zumindest einen im Ausmaß ähnlichen, oder?

Oftmals ist es nur ein einziger Zug, der auch noch „unmenschlich schwer“ ist, der Grundlage für die Bewertung ist. Und der Gegner knallt einem nachher, nach Überprüfung, noch mit, dass er schon bei „+3.5 stand“, damit untermauernd, wie stark er wäre und wie viel Glück man gehabt hätte bei dem eigenen Sieg. Dabei war nah und fern kein Gewinn in Sicht… Nicht, nach menschlichem Ermessen jedenfalls…

Auch sonst müsste die Komplexität der Stellung einbezogen werden, keine Frage. Auch die Anzahl der Züge, die man zum Erhalt der Stellungsbewertung hätte, somit eben den „einzigen Weg“ zum Remis von „mehreren Möglichkeiten, eine +0.3 zu erhalten“ (was dann natürlich eine 0.00 wäre, durch die wachsende Rechentiefe) müsste berücksichtigt werden. Dies bezeichnete man dann als „Volatilität“. Nur wäre eine solche eine größere Herausforderung für die „unfehlbaren engines“. Wie sollte sie einen für Menschen sichtbaren Stolperstein erkennen? Aber: ran ans Werk, dann findet man das schon heraus, mit den ebenfalls deutlich beschleunigten KI-Methoden, die überall weltweit Einzug halten.

All diese Überlegungen habe ich in diesem Falle von Vergleichsprogrammen auf das Spiel Backgammon entnommen. Dort gibt es beispielsweise auch schon lange den Begriff „outplaying the engine“. Die engine merkt, nach einem Zug oder auch nach mehreren, aus ihrer Sicht besten, dass die Stellungsbewertung sich nun günstig verändert hätte nach einem Zug, der nicht das Wohlgefallen der engine (zum Zeitpunkt eines Zuges)fand (sprich: er war nicht ganz vorne auf der Liste, hat aber nun die anderen „ausgestochen“).

Es ist also Zeit, das neue Zeitalter einzuleiten. Wahrscheinlichkeiten für den Spielausgang müssten die aktuell doch oft unbrauchbaren Engine-Bewertungen ersetzen oder zumindest zunächst ergänzen.

Aufgefallen wäre mit bei der “Gewinnführung” des Schwarzen noch, dass er den vorletzten Zug Dame f3-f2+ eingeschoben hat, möglicherweise in sadistischer Absicht, oder ob ihm das sofortige Matt Dame f3 nach f1 nur entgangen war?