Spieltheorie erklärt: Das Gefangenendilemma und warum Kooperation so schwer ist
Eine praxisnahe Einführung in die Spieltheorie – Nash-Gleichgewicht, das Gefangenendilemma, Tit-for-Tat und warum rationale Akteure oft nicht kooperieren, selbst wenn es für alle vorteilhaft wäre.
Spieltheorie ist die mathematische Untersuchung strategischer Entscheidungsfindung – wie rationale Akteure handeln, wenn ihre Ergebnisse nicht nur von dem abhängen, was sie selbst tun, sondern auch davon, was andere tun. Sie ist eines der leistungsfähigsten Konzepte in Wirtschaftswissenschaft, Politikwissenschaft, Evolutionsbiologie und Informatik.
Im Mittelpunkt der Spieltheorie steht ein täuschend einfaches Szenario: das Gefangenendilemma. Wer es versteht, sieht Wettbewerb, Kooperation, Rüstungswettläufe, Klimaabkommen und alltägliche soziale Interaktionen mit anderen Augen.
Was ist das Gefangenendilemma?
Die klassische Ausgangssituation: Zwei Verdächtige werden verhaftet und getrennt voneinander verhört. Sie können nicht miteinander kommunizieren. Jeder muss unabhängig eine Entscheidung treffen:
- Kooperieren – schweigen und die andere Person schützen
- Defektieren – die andere Person an die Behörden verraten
Die Ergebnisse hängen von beiden Entscheidungen ab:
| Du \ Anderer | Kooperieren | Defektieren |
|---|---|---|
| Kooperieren | Beide bekommen 1 Jahr (Belohnung) | Du bekommst 5 Jahre, der andere geht frei (Betrogener) |
| Defektieren | Du gehst frei, der andere bekommt 5 Jahre (Versuchung) | Beide bekommen 3 Jahre (Bestrafung) |
In der abstrakten Forschungsversion werden diese als Punkte ausgedrückt (höher = besser):
| Du \ KI | Kooperieren | Defektieren |
|---|---|---|
| Kooperieren | 3 / 3 | 0 / 5 |
| Defektieren | 5 / 0 | 1 / 1 |
Das Dilemma: Defektieren ist aus individueller Sicht stets die rationale Wahl, doch gegenseitiges Defektieren (1,1) ist für alle schlechter als gegenseitige Kooperation (3,3).
Nash-Gleichgewicht: Warum rationale Akteure defektieren
Ein Nash-Gleichgewicht ist ein Zustand, in dem kein Spieler sein Ergebnis durch eine einseitige Strategieänderung verbessern kann, wenn alle anderen ihre Strategie beibehalten.
Im Gefangenendilemma ist gegenseitiges Defektieren das Nash-Gleichgewicht:
- Kooperiert der andere Spieler, bekommst du 5 durch Defektieren gegenüber 3 durch Kooperieren – Defektieren gewinnt
- Defektiert der andere Spieler, bekommst du 1 durch Defektieren gegenüber 0 durch Kooperieren – Defektieren gewinnt
Defektieren dominiert Kooperieren unabhängig davon, was der andere Spieler tut. Dies nennt man eine dominante Strategie. Rationale Spieler landen bei (Defektieren, Defektieren), obwohl (Kooperieren, Kooperieren) beiden Spielern mehr einbringt.
Das ist die Tragik: Individuelle Rationalität erzeugt kollektive Irrationalität.
Gefangenendilemmas in der realen Welt
Das Gefangenendilemma ist kein abstraktes Rätsel – es beschreibt unzählige reale Situationen:
Nukleare Rüstungswettläufe – Zwei Supermächte wenden enorme Ressourcen für Waffen auf, die keine von beiden einsetzen will. Beide wären besser dran, wenn sie abrüsteten, doch keine kann der anderen vertrauen, zuerst abzurüsten.
Preiskriege – Zwei Fluggesellschaften senken ihre Preise so lange, bis keine mehr profitabel ist. Beide bevorzugen das Gleichgewicht mit höheren Preisen, doch jede fürchtet, von der anderen unterboten zu werden.
Klimawandel – Alle Länder profitieren, wenn alle Nationen ihre Emissionen reduzieren, doch jedes einzelne Land trägt Kosten, während andere vom Nutzen profitieren könnten, ohne beizutragen.
Doping im Sport – Athleten wissen, dass niemand einen Vorteil hat, wenn alle dopen, und alle gesundheitliche Risiken eingehen. Dennoch ist jeder Athlet versucht zu dopen, wenn andere es vielleicht tun.
Werbeausgaben – Zwei konkurrierende Unternehmen werben intensiv und heben gegenseitig ihre Gewinne auf, während beide Kosten entstehen. Keine Seite kann einseitig aufhören.
Wiederholte Spiele: Wo Kooperation entsteht
Das einmalige Gefangenendilemma ist eindeutig. Doch was passiert, wenn dieselben zwei Spieler wiederholt aufeinandertreffen?
In iterierten (wiederholten) Spielen verändert sich die Kalkulation grundlegend. Nun spielt der Schatten der Zukunft eine Rolle – dein Partner erinnert sich, was du in der letzten Runde getan hast, und wird entsprechend reagieren.
Robert Axelrods wegweisendes Computertournament von 1980 bat Experten, Strategien für ein iteriertes Gefangenendilemma (200 Runden) einzureichen. Die Strategien reichten von „immer defektieren" bis hin zu komplexen konditionalen Programmen.
Der Gewinner war die einfachste eingereichte Strategie: Tit-for-Tat.
Die Gewinnerstrategien
Tit-for-Tat (Der klassische Champion)
- Kooperiere beim ersten Zug
- Kopiere danach immer das, was der andere Spieler in der letzten Runde getan hat
Tit-for-Tat gewinnt, weil die Strategie folgende Eigenschaften hat:
- Freundlich – sie defektiert nie zuerst
- Vergeltend – sie bestraft Defektieren sofort
- Vergebend – sie kehrt zur Kooperation zurück, sobald der andere Spieler kooperiert
- Klar – ihr Verhalten ist vorhersehbar und ermöglicht langfristige Kooperation
Grim Trigger (Die nukleare Option)
Kooperiere, bis der andere Spieler einmal defektiert – dann defektiere für immer. Dies maximiert die Abschreckung, schließt aber jede Möglichkeit der Versöhnung aus. In der Praxis führt es nach einem einzigen Fehler tendenziell zu dauerhafter gegenseitiger Bestrafung.
Pavlov / Win-Stay, Lose-Shift
Wiederhole deine letzte Aktion, wenn sie ein gutes Ergebnis brachte (Belohnung oder Versuchung). Wechsle, wenn sie ein schlechtes Ergebnis produzierte (Betrogener oder Bestrafung). Diese Strategie kann bedingungslose Kooperatoren ausnutzen, erholt sich aber auch von Zyklen gegenseitigen Defektierens.
Generous Tit-for-Tat
Wie Tit-for-Tat, vergibt aber gelegentlich mit einer geringen Wahrscheinlichkeit (etwa 10 %) ein Defektieren. Dies durchbricht Zyklen gegenseitiger Vergeltung, die durch Missverständnisse oder Rauschen entstehen – wichtig unter realen Bedingungen, wo Absichten nicht perfekt beobachtbar sind.
Always Defect (Die rationale Falle)
Die Nash-Gleichgewichtsstrategie im Einzel-Spiel. In iterierten Turnieren schneidet sie schlecht ab, weil sie dauerhafte Vergeltung provoziert und die Gewinne aus gegenseitiger Kooperation verpasst.
Das Volkstheater-Theorem
Ein zentrales Ergebnis der Spieltheorie – das Folk Theorem – besagt, dass in unendlich wiederholten Spielen jedes Ergebnis, das allen Spielern mehr als ihren „Minimax"-Auszahlungswert (das Schlechteste, wozu sie gezwungen werden können) einbringt, als Nash-Gleichgewicht aufrechterhalten werden kann, sofern die Spieler geduldig genug sind.
In einfachen Worten: Wenn Spieler wiederholt interagieren und die Zukunft schätzen, ist Kooperation selbst unter rein eigennützigen Akteuren möglich. Die Bedingung ist, dass zukünftige Interaktionen wertvoll genug sind, um Defektieren trotz Vergeltung unattraktiv zu machen.
Das erklärt, warum:
- Langfristige Geschäftspartnerschaften tendenziell ehrlicher sind als Einmaltransaktionen
- Kleine Gemeinschaften Normen besser durchsetzen als anonyme Großstädte
- Wiederholte Akteure in jedem Bereich Reputationen entwickeln, die ihr Verhalten einschränken
Evolutionäre Spieltheorie
Was passiert, wenn Strategien nicht in einem einzelnen Turnier, sondern in einer evolutionären Population miteinander konkurrieren? Gut abschneidende Strategien breiten sich aus; schlecht abschneidende sterben aus.
Axelrods Folgeanalyse zeigte, dass Tit-for-Tat evolutionär stabil ist – eine Population, die Tit-for-Tat spielt, kann nicht von Immer-Defektierern unterwandert werden, weil Defektierer gegenüber Tit-for-Tat schlechter abschneiden als Tit-for-Tat gegen sich selbst.
Dies hat weitreichende Implikationen für die Biologie: Viele Formen tierischer Kooperation (reziproker Altruismus, Fellpflege, Warnrufe) lassen sich durch die Dynamik iterierter Spiele erklären, ohne Gruppenselektion oder Altruismus vorauszusetzen.
Über zwei Spieler hinaus: n-Personen-Dilemmata
Das Gefangenendilemma lässt sich auf beliebig viele Spieler verallgemeinern. Die Tragödie der Allmende ist ein n-Personen-Dilemma: Jeder Einzelne hat einen Anreiz, eine gemeinsame Ressource (Fischgründe, Atmosphäre, Grundwasser) zu übernutzen, obwohl kollektive Übernutzung die Ressource für alle zerstört.
Lösungsansätze für n-Personen-Dilemmata umfassen:
- Wiederholte Interaktion und Reputation – funktioniert gut in kleinen Gemeinschaften
- Kommunikation und Verhandlung – ermöglicht verbindliche Vereinbarungen
- Institutionelle Durchsetzung – Regeln und Sanktionen durch Dritte
- Veränderung der Auszahlungen – Steuern, Subventionen oder Normen, die individuelle Anreize verändern
Elinor Ostrom erhielt 2009 den Nobelpreis für Wirtschaftswissenschaften dafür, dass sie dokumentierte, wie Gemeinschaften Allmende-Dilemmata durch lokale Institutionen lösen – eine bedeutende Herausforderung für die Annahme, dass externe Durchsetzung stets notwendig sei.
Zusammenfassung der wichtigsten Begriffe
| Begriff | Definition |
|---|---|
| Dominante Strategie | Eine Strategie, die unabhängig vom Handeln anderer die beste ist |
| Nash-Gleichgewicht | Ein Zustand, in dem kein Spieler durch einseitige Strategieänderung profitiert |
| Pareto-optimal | Es existiert kein Ergebnis, das alle Beteiligten besser stellt |
| Kooperation | Gegenseitige Zurückhaltung zum Nutzen aller Parteien |
| Defektieren | Eigennützige Abweichung, die anderen schadet |
| Tit-for-Tat | Kopiere den letzten Zug des Gegners; beginne mit Kooperieren |
| Folk Theorem | Kooperation ist in unendlich wiederholten Spielen erreichbar |
| Iteriertes Spiel | Dasselbe Spiel, das von denselben Spielern mehrfach gespielt wird |
Selbst spielen
Der beste Weg, diese Dynamiken zu verstehen, ist sie zu erleben. Unsere Prisoner's Dilemma Arena lässt dich iterierte Spiele über 10 Runden gegen sieben KI-Strategien spielen – vom ausnutzbaren Saint bis zum gnadenlosen Betrayer – und zeigt dir deine Kooperationsraten, den Rundenverlauf und eine Auswertung deines Ergebnisses.
Probiere jede Strategie der Reihe nach aus:
- Beginne gegen Saint (kooperiert immer) – spüre, wie verlockend Ausbeutung ist
- Spiele gegen Mirror (Tit-for-Tat) – beobachte, wie schnell sich gegenseitige Kooperation einspielt
- Begegne Grim Reaper – ein einziges Defektieren, und die Beziehung ist für immer vorbei
- Kämpfe gegen Betrayer – das Nash-Gleichgewicht in Aktion; du kannst nicht besser als 1/1 abschneiden
- Fordere Win-Stay (Pavlov) heraus – eine subtile Strategie, die Ausbeutung bestraft
Nach jedem Spiel zeigt das Analyse-Panel deine Kooperationsrate und das Verhalten der KI, sodass du testen kannst, ob du eher wie ein rationaler Ökonom oder wie ein evolutionär erfolgreicher Kooperator gespielt hast.
Fazit
Das Gefangenendilemma offenbart eine tiefe Wahrheit: Individuelle Rationalität und kollektives Wohlergehen stehen häufig im Konflikt. Diesen Konflikt zu verstehen – und die Bedingungen, unter denen Kooperation dennoch entsteht – ist eine der praktisch nützlichsten Erkenntnisse der Sozialwissenschaften des 20. Jahrhunderts.
Die Lektion lautet nicht, dass Menschen immer defektieren. Sie lautet, dass Kooperation die richtigen Bedingungen braucht: wiederholte Interaktion, klare Kommunikation, durchsetzbare Vereinbarungen oder Reputationsrisiken. Wenn diese Bedingungen gegeben sind, kooperieren selbst rein eigennützige Akteure. Wenn nicht, geraten sie in eine Spirale gegenseitiger Bestrafung.
Spieltheorie verordnet keinen Zynismus. Sie erklärt, warum Kooperation fragil ist – und welche Strukturen sie beständig machen.