Spieltheorie erklärt: Das Gefangenendilemma und warum Kooperation so schwer ist

Chess pieces on a board representing strategic decision making

Spieltheorie ist die mathematische Untersuchung strategischer Entscheidungsfindung – wie rationale Akteure handeln, wenn ihre Ergebnisse nicht nur von dem abhängen, was sie selbst tun, sondern auch davon, was andere tun. Sie ist eines der leistungsfähigsten Konzepte in Wirtschaftswissenschaft, Politikwissenschaft, Evolutionsbiologie und Informatik.

Im Mittelpunkt der Spieltheorie steht ein täuschend einfaches Szenario: das Gefangenendilemma. Wer es versteht, sieht Wettbewerb, Kooperation, Rüstungswettläufe, Klimaabkommen und alltägliche soziale Interaktionen mit anderen Augen.

Was ist das Gefangenendilemma?

Die klassische Ausgangssituation: Zwei Verdächtige werden verhaftet und getrennt voneinander verhört. Sie können nicht miteinander kommunizieren. Jeder muss unabhängig eine Entscheidung treffen:

Kooperieren – schweigen und die andere Person schützen
Defektieren – die andere Person an die Behörden verraten

Die Ergebnisse hängen von beiden Entscheidungen ab:

Du \ Anderer	Kooperieren	Defektieren
Kooperieren	Beide bekommen 1 Jahr (Belohnung)	Du bekommst 5 Jahre, der andere geht frei (Betrogener)
Defektieren	Du gehst frei, der andere bekommt 5 Jahre (Versuchung)	Beide bekommen 3 Jahre (Bestrafung)

In der abstrakten Forschungsversion werden diese als Punkte ausgedrückt (höher = besser):

Du \ KI	Kooperieren	Defektieren
Kooperieren	3 / 3	0 / 5
Defektieren	5 / 0	1 / 1

Das Dilemma: Defektieren ist aus individueller Sicht stets die rationale Wahl, doch gegenseitiges Defektieren (1,1) ist für alle schlechter als gegenseitige Kooperation (3,3).

Nash-Gleichgewicht: Warum rationale Akteure defektieren

Ein Nash-Gleichgewicht ist ein Zustand, in dem kein Spieler sein Ergebnis durch eine einseitige Strategieänderung verbessern kann, wenn alle anderen ihre Strategie beibehalten.

Im Gefangenendilemma ist gegenseitiges Defektieren das Nash-Gleichgewicht:

Kooperiert der andere Spieler, bekommst du 5 durch Defektieren gegenüber 3 durch Kooperieren – Defektieren gewinnt
Defektiert der andere Spieler, bekommst du 1 durch Defektieren gegenüber 0 durch Kooperieren – Defektieren gewinnt

Defektieren dominiert Kooperieren unabhängig davon, was der andere Spieler tut. Dies nennt man eine dominante Strategie. Rationale Spieler landen bei (Defektieren, Defektieren), obwohl (Kooperieren, Kooperieren) beiden Spielern mehr einbringt.

Das ist die Tragik: Individuelle Rationalität erzeugt kollektive Irrationalität.

Gefangenendilemmas in der realen Welt

Das Gefangenendilemma ist kein abstraktes Rätsel – es beschreibt unzählige reale Situationen:

Nukleare Rüstungswettläufe – Zwei Supermächte wenden enorme Ressourcen für Waffen auf, die keine von beiden einsetzen will. Beide wären besser dran, wenn sie abrüsteten, doch keine kann der anderen vertrauen, zuerst abzurüsten.

Preiskriege – Zwei Fluggesellschaften senken ihre Preise so lange, bis keine mehr profitabel ist. Beide bevorzugen das Gleichgewicht mit höheren Preisen, doch jede fürchtet, von der anderen unterboten zu werden.

Klimawandel – Alle Länder profitieren, wenn alle Nationen ihre Emissionen reduzieren, doch jedes einzelne Land trägt Kosten, während andere vom Nutzen profitieren könnten, ohne beizutragen.

Doping im Sport – Athleten wissen, dass niemand einen Vorteil hat, wenn alle dopen, und alle gesundheitliche Risiken eingehen. Dennoch ist jeder Athlet versucht zu dopen, wenn andere es vielleicht tun.

Werbeausgaben – Zwei konkurrierende Unternehmen werben intensiv und heben gegenseitig ihre Gewinne auf, während beide Kosten entstehen. Keine Seite kann einseitig aufhören.

Wiederholte Spiele: Wo Kooperation entsteht

Das einmalige Gefangenendilemma ist eindeutig. Doch was passiert, wenn dieselben zwei Spieler wiederholt aufeinandertreffen?

In iterierten (wiederholten) Spielen verändert sich die Kalkulation grundlegend. Nun spielt der Schatten der Zukunft eine Rolle – dein Partner erinnert sich, was du in der letzten Runde getan hast, und wird entsprechend reagieren.

Robert Axelrods wegweisendes Computertournament von 1980 bat Experten, Strategien für ein iteriertes Gefangenendilemma (200 Runden) einzureichen. Die Strategien reichten von „immer defektieren" bis hin zu komplexen konditionalen Programmen.

Der Gewinner war die einfachste eingereichte Strategie: Tit-for-Tat.

Die Gewinnerstrategien

Tit-for-Tat (Der klassische Champion)

Kooperiere beim ersten Zug
Kopiere danach immer das, was der andere Spieler in der letzten Runde getan hat

Tit-for-Tat gewinnt, weil die Strategie folgende Eigenschaften hat:

Freundlich – sie defektiert nie zuerst
Vergeltend – sie bestraft Defektieren sofort
Vergebend – sie kehrt zur Kooperation zurück, sobald der andere Spieler kooperiert
Klar – ihr Verhalten ist vorhersehbar und ermöglicht langfristige Kooperation

Grim Trigger (Die nukleare Option)

Kooperiere, bis der andere Spieler einmal defektiert – dann defektiere für immer. Dies maximiert die Abschreckung, schließt aber jede Möglichkeit der Versöhnung aus. In der Praxis führt es nach einem einzigen Fehler tendenziell zu dauerhafter gegenseitiger Bestrafung.

Pavlov / Win-Stay, Lose-Shift

Wiederhole deine letzte Aktion, wenn sie ein gutes Ergebnis brachte (Belohnung oder Versuchung). Wechsle, wenn sie ein schlechtes Ergebnis produzierte (Betrogener oder Bestrafung). Diese Strategie kann bedingungslose Kooperatoren ausnutzen, erholt sich aber auch von Zyklen gegenseitigen Defektierens.

Generous Tit-for-Tat

Wie Tit-for-Tat, vergibt aber gelegentlich mit einer geringen Wahrscheinlichkeit (etwa 10 %) ein Defektieren. Dies durchbricht Zyklen gegenseitiger Vergeltung, die durch Missverständnisse oder Rauschen entstehen – wichtig unter realen Bedingungen, wo Absichten nicht perfekt beobachtbar sind.

Always Defect (Die rationale Falle)

Die Nash-Gleichgewichtsstrategie im Einzel-Spiel. In iterierten Turnieren schneidet sie schlecht ab, weil sie dauerhafte Vergeltung provoziert und die Gewinne aus gegenseitiger Kooperation verpasst.

Das Volkstheater-Theorem

Ein zentrales Ergebnis der Spieltheorie – das Folk Theorem – besagt, dass in unendlich wiederholten Spielen jedes Ergebnis, das allen Spielern mehr als ihren „Minimax"-Auszahlungswert (das Schlechteste, wozu sie gezwungen werden können) einbringt, als Nash-Gleichgewicht aufrechterhalten werden kann, sofern die Spieler geduldig genug sind.

In einfachen Worten: Wenn Spieler wiederholt interagieren und die Zukunft schätzen, ist Kooperation selbst unter rein eigennützigen Akteuren möglich. Die Bedingung ist, dass zukünftige Interaktionen wertvoll genug sind, um Defektieren trotz Vergeltung unattraktiv zu machen.

Das erklärt, warum:

Langfristige Geschäftspartnerschaften tendenziell ehrlicher sind als Einmaltransaktionen
Kleine Gemeinschaften Normen besser durchsetzen als anonyme Großstädte
Wiederholte Akteure in jedem Bereich Reputationen entwickeln, die ihr Verhalten einschränken

Evolutionäre Spieltheorie

Was passiert, wenn Strategien nicht in einem einzelnen Turnier, sondern in einer evolutionären Population miteinander konkurrieren? Gut abschneidende Strategien breiten sich aus; schlecht abschneidende sterben aus.

Axelrods Folgeanalyse zeigte, dass Tit-for-Tat evolutionär stabil ist – eine Population, die Tit-for-Tat spielt, kann nicht von Immer-Defektierern unterwandert werden, weil Defektierer gegenüber Tit-for-Tat schlechter abschneiden als Tit-for-Tat gegen sich selbst.

Dies hat weitreichende Implikationen für die Biologie: Viele Formen tierischer Kooperation (reziproker Altruismus, Fellpflege, Warnrufe) lassen sich durch die Dynamik iterierter Spiele erklären, ohne Gruppenselektion oder Altruismus vorauszusetzen.

Über zwei Spieler hinaus: n-Personen-Dilemmata

Das Gefangenendilemma lässt sich auf beliebig viele Spieler verallgemeinern. Die Tragödie der Allmende ist ein n-Personen-Dilemma: Jeder Einzelne hat einen Anreiz, eine gemeinsame Ressource (Fischgründe, Atmosphäre, Grundwasser) zu übernutzen, obwohl kollektive Übernutzung die Ressource für alle zerstört.

Lösungsansätze für n-Personen-Dilemmata umfassen:

Wiederholte Interaktion und Reputation – funktioniert gut in kleinen Gemeinschaften
Kommunikation und Verhandlung – ermöglicht verbindliche Vereinbarungen
Institutionelle Durchsetzung – Regeln und Sanktionen durch Dritte
Veränderung der Auszahlungen – Steuern, Subventionen oder Normen, die individuelle Anreize verändern

Elinor Ostrom erhielt 2009 den Nobelpreis für Wirtschaftswissenschaften dafür, dass sie dokumentierte, wie Gemeinschaften Allmende-Dilemmata durch lokale Institutionen lösen – eine bedeutende Herausforderung für die Annahme, dass externe Durchsetzung stets notwendig sei.

Zusammenfassung der wichtigsten Begriffe

Begriff	Definition
Dominante Strategie	Eine Strategie, die unabhängig vom Handeln anderer die beste ist
Nash-Gleichgewicht	Ein Zustand, in dem kein Spieler durch einseitige Strategieänderung profitiert
Pareto-optimal	Es existiert kein Ergebnis, das alle Beteiligten besser stellt
Kooperation	Gegenseitige Zurückhaltung zum Nutzen aller Parteien
Defektieren	Eigennützige Abweichung, die anderen schadet
Tit-for-Tat	Kopiere den letzten Zug des Gegners; beginne mit Kooperieren
Folk Theorem	Kooperation ist in unendlich wiederholten Spielen erreichbar
Iteriertes Spiel	Dasselbe Spiel, das von denselben Spielern mehrfach gespielt wird

Selbst spielen

Der beste Weg, diese Dynamiken zu verstehen, ist sie zu erleben. Unsere Prisoner's Dilemma Arena lässt dich iterierte Spiele über 10 Runden gegen sieben KI-Strategien spielen – vom ausnutzbaren Saint bis zum gnadenlosen Betrayer – und zeigt dir deine Kooperationsraten, den Rundenverlauf und eine Auswertung deines Ergebnisses.

Probiere jede Strategie der Reihe nach aus:

Beginne gegen Saint (kooperiert immer) – spüre, wie verlockend Ausbeutung ist
Spiele gegen Mirror (Tit-for-Tat) – beobachte, wie schnell sich gegenseitige Kooperation einspielt
Begegne Grim Reaper – ein einziges Defektieren, und die Beziehung ist für immer vorbei
Kämpfe gegen Betrayer – das Nash-Gleichgewicht in Aktion; du kannst nicht besser als 1/1 abschneiden
Fordere Win-Stay (Pavlov) heraus – eine subtile Strategie, die Ausbeutung bestraft

Nach jedem Spiel zeigt das Analyse-Panel deine Kooperationsrate und das Verhalten der KI, sodass du testen kannst, ob du eher wie ein rationaler Ökonom oder wie ein evolutionär erfolgreicher Kooperator gespielt hast.

Fazit

Das Gefangenendilemma offenbart eine tiefe Wahrheit: Individuelle Rationalität und kollektives Wohlergehen stehen häufig im Konflikt. Diesen Konflikt zu verstehen – und die Bedingungen, unter denen Kooperation dennoch entsteht – ist eine der praktisch nützlichsten Erkenntnisse der Sozialwissenschaften des 20. Jahrhunderts.

Die Lektion lautet nicht, dass Menschen immer defektieren. Sie lautet, dass Kooperation die richtigen Bedingungen braucht: wiederholte Interaktion, klare Kommunikation, durchsetzbare Vereinbarungen oder Reputationsrisiken. Wenn diese Bedingungen gegeben sind, kooperieren selbst rein eigennützige Akteure. Wenn nicht, geraten sie in eine Spirale gegenseitiger Bestrafung.

Spieltheorie verordnet keinen Zynismus. Sie erklärt, warum Kooperation fragil ist – und welche Strukturen sie beständig machen.