Games

ゲーム理論入門:囚人のジレンマと協力が難しい理由

ゲーム理論の実践的な入門ガイド — ナッシュ均衡、囚人のジレンマ、しっぺ返し戦略、そして合理的なプレイヤーが全員にとって有益であっても協力できない理由を解説します。

9分で読めます

チェスの駒が戦略的意思決定を表している

ゲーム理論とは、戦略的意思決定を数学的に研究する学問です。合理的なエージェントが行動を選択する際、その結果は自分の行動だけでなく、他者の行動にも依存するという状況を分析します。経済学、政治学、進化生物学、コンピュータサイエンスにおいて、最も強力なフレームワークのひとつとして知られています。

ゲーム理論の中心に位置するのが、一見シンプルに見えるシナリオ:囚人のジレンマです。これを理解すると、競争、協力、軍拡競争、気候変動協定、さらには日常的な社会的交流の見方が変わるでしょう。

囚人のジレンマとは何か?

古典的な設定はこうです:二人の容疑者が別々に逮捕・尋問されます。互いに連絡は取れません。それぞれが独立して選択しなければなりません:

  • 協力する — 黙秘し、相手を守る
  • 裏切る — 当局に相手を密告する

結果は双方の選択に依存します:

あなた\相手 協力する 裏切る
協力する 両者が1年(報酬) あなたが5年、相手は釈放(カモ)
裏切る あなたが釈放、相手が5年(誘惑) 両者が3年(罰)

研究で使われる抽象的なバージョンでは、これをポイントで表します(高いほど良い):

あなた\AI 協力する 裏切る
協力する 3 / 3 0 / 5
裏切る 5 / 0 1 / 1

ジレンマはここにあります:裏切ることは常に個人にとって合理的な選択であるにもかかわらず、双方が裏切る(1,1)結果は、双方が協力する(3,3)結果よりも全員にとって悪いのです。

ナッシュ均衡:合理的プレイヤーが裏切る理由

ナッシュ均衡とは、他のプレイヤーが戦略を変えないと仮定したとき、どのプレイヤーも自分だけ戦略を変えても結果を改善できない状態のことです。

囚人のジレンマでは、双方が裏切ることがナッシュ均衡となります:

  • 相手が協力した場合、裏切れば5点、協力すれば3点 — 裏切りが優る
  • 相手が裏切った場合、裏切れば1点、協力すれば0点 — 裏切りが優る

相手がどう行動しようとも、裏切りは協力を上回ります。 これを支配戦略と呼びます。合理的なプレイヤーは(裏切る、裏切る)に収束してしまいます。たとえ(協力する、協力する)の方が両者にとって有利であっても。

これが悲劇です:個人の合理性が集団の非合理性を生み出すのです。

現実世界における囚人のジレンマ

囚人のジレンマは抽象的なパズルではありません。現実の無数の状況を描写しています:

核軍拡競争 — 二つの超大国がともに、誰も使いたくない兵器に膨大なリソースを費やします。双方とも軍縮すれば良くなるのに、相手が先に軍縮するとは信頼できません。

価格競争 — 二つの航空会社がどちらも採算が取れなくなるまで値下げを続けます。双方とも高価格の均衡を望んでいるのに、それぞれが相手に価格で負けることを恐れています。

気候変動 — すべての国が排出量を削減すれば全員が恩恵を受けますが、各国は自国がコストを負担する一方、他国がただ乗りするかもしれないという状況に直面します。

スポーツにおけるドーピング — 全員がドーピングすれば誰も優位に立てず、全員が健康リスクを負うと選手たちは知っています。それでも、他者がドーピングするかもしれないとなれば、各選手はドーピングの誘惑に駆られます。

広告費 — 競合する二社がともに多額の広告費を投じ、互いの利益を相殺しながら両社ともコストを負担します。どちらも単独でやめることができません。

繰り返しゲーム:協力が生まれる場

一回限りの囚人のジレンマは厳しい結果をもたらします。しかし、同じ二人のプレイヤーが繰り返し交流したらどうなるでしょうか?

繰り返しゲームでは、計算がまったく変わります。今度は未来の影が重要になります。相手はあなたが前のラウンドで何をしたかを覚えており、それに応じて対応します。

ロバート・アクセルロッドの画期的な1980年のコンピュータトーナメントでは、専門家たちが繰り返し囚人のジレンマ(200ラウンド)の戦略を提出しました。戦略は「常に裏切る」から複雑な条件付きプログラムまで多岐にわたりました。

優勝したのは提出された中で最もシンプルな戦略:しっぺ返し(Tit-for-Tat)でした。

勝利する戦略

Tit-for-Tat(定番チャンピオン)

  1. 最初のターンは協力する
  2. それ以降は、相手が前のラウンドでしたことをそのまま真似る

Tit-for-Tatが勝つ理由:

  • 友好的 — 決して自分から裏切らない
  • 報復的 — 裏切りに対して即座に反撃する
  • 寛大 — 相手が協力するとすぐに協力に戻る
  • 明確 — 行動が予測可能で、長期的な協力を実現しやすい

Grim Trigger(核オプション)

相手が一度でも裏切るまでは協力し続け、その後は永遠に裏切ります。抑止力を最大化しますが、和解の可能性を一切排除します。実際には、単一のミスの後に永続的な相互罰が続く悪循環に陥りがちです。

Pavlov / Win-Stay, Lose-Shift

前回の行動が良いスコア(報酬または誘惑)をもたらした場合は同じ行動を繰り返し、悪いスコア(カモまたは罰)をもたらした場合は行動を切り替えます。無条件に協力するプレイヤーを利用できる一方、相互裏切りの悪循環からも回復できます。

Generous Tit-for-Tat

Tit-for-Tatに似ていますが、小さな確率(約10%)で裏切りを時折許します。意思疎通のミスやノイズによって生じる相互報復の悪循環を断ち切るもので、意図が完全には観察できない現実の状況において重要です。

Always Defect(合理性の罠)

一回限りのゲームにおけるナッシュ均衡戦略です。永続的な報復を招き、相互協力による利益を逃すため、繰り返しトーナメントでは成績が悪くなります。

フォーク定理

ゲーム理論の重要な成果であるフォーク定理は、無限に繰り返されるゲームでは、すべてのプレイヤーに「ミニマックス」の利得(強制される最悪の結果)以上を与えるいかなる結果も、プレイヤーが十分に将来を重視していれば、ナッシュ均衡として実現可能であると述べています。

わかりやすく言うと:プレイヤーが繰り返し交流し、将来を重視する場合、純粋に自己利益を追求するエージェント同士であっても協力は可能です。 条件は、将来の交流が十分に価値を持ち、裏切りによる報復に見合わないことです。

これが次のことを説明します:

  • 長期的なビジネスパートナーシップは一回限りの取引よりも誠実になる傾向がある
  • 小さなコミュニティは匿名の都市よりも規範を効果的に執行できる
  • あらゆる分野の繰り返しのプレイヤーは、自分の行動を制約する評判を築く

進化ゲーム理論

一つのトーナメントではなく、進化的な集団の中で戦略が競い合ったらどうなるでしょうか?成績の良い戦略は広まり、成績の悪い戦略は淘汰されます。

アクセルロッドのフォローアップ分析では、Tit-for-Tatが進化的に安定していることが示されました。Tit-for-Tatを採用する集団は、常に裏切る戦略に侵食されません。なぜなら、裏切り者はTit-for-Tatに対して、Tit-for-Tat同士が互いに戦うよりも悪い結果になるからです。

これは生物学においても深い示唆を持ちます:多くの動物の協力行動(互恵的利他主義、毛づくろい、警戒声)は、集団選択や利他主義を必要とせず、繰り返しゲームのダイナミクスによって説明できます。

二人以上のプレイヤー:n人のジレンマ

囚人のジレンマは何人にも一般化できます。コモンズの悲劇はn人のジレンマです:各個人は共有資源(漁場、大気、地下水)を過剰利用するインセンティブを持っています。たとえ全員が過剰利用すれば全員にとって資源が枯渇するとしても。

n人のジレンマの解決策には以下が含まれます:

  • 繰り返しの交流と評判 — 小さなコミュニティでうまく機能する
  • コミュニケーションと交渉 — 拘束力のある合意を可能にする
  • 制度的な強制 — 第三者によるルールと罰則
  • 利得の変更 — 個人のインセンティブを変える税金、補助金、または規範

エリナー・オストロムは2009年のノーベル経済学賞を受賞しました。外部による強制が常に必要であるという前提に対する大きな挑戦として、コミュニティが地域の制度を通じてコモンズのジレンマを解決する方法を記録したことが評価されました。

重要用語のまとめ

用語 定義
支配戦略 相手が何をしようとも最善となる戦略
ナッシュ均衡 どのプレイヤーも単独で戦略を変えても利益を得られない状態
パレート最適 全員をより良い状態にする結果が存在しない
協力 全当事者に利益をもたらす相互抑制
裏切り 他者を害する自己利益のための逸脱
Tit-for-Tat 相手の直前の行動を真似る。最初は協力から始める
フォーク定理 無限に繰り返されるゲームでは協力が達成可能
繰り返しゲーム 同じプレイヤーが何度も同じゲームを行うこと

実際に試してみよう

これらのダイナミクスを理解する最善の方法は、実際に体験することです。私たちのPrisoner's Dilemma Arenaでは、7つのAI戦略(利用されやすいSaintから容赦ないBetrayerまで)と10ラウンドの繰り返しゲームをプレイし、協力率、ラウンドの履歴、スコア分析を確認できます。

各戦略を順番に試してみてください:

  1. まずSaint(常に協力する)と対戦する — 搾取の誘惑がいかに強いかを確認する
  2. **Mirror(Tit-for-Tat)**と対戦する — 相互協力がいかに素早く安定するかに注目する
  3. Grim Reaperと対戦する — 一度の裏切りで関係が永遠に終わる
  4. Betrayerと戦う — ナッシュ均衡の実践。1/1より良い結果は出せない
  5. **Win-Stay(Pavlov)**に挑む — 搾取を罰する繊細な戦略

各ゲームの後、分析パネルにあなたの協力率とAIの行動が表示され、自分が合理的な経済学者として行動したか、進化的に成功した協力者として行動したかをテストできます。

まとめ

囚人のジレンマは深い真実を明らかにします:個人の合理性と集合的な福祉はしばしば相反します。この対立を理解し、それでも協力が生まれる条件を把握することは、20世紀の社会科学が生み出した最も実践的に有用な洞察のひとつです。

教訓は、人々が常に裏切るということではありません。協力には適切な条件が必要だということです:繰り返しの交流、明確なコミュニケーション、強制力のある合意、または評判にかかるリスク。そうした条件が揃えば、純粋に自己利益を追求するエージェントでさえ協力します。条件が揃わなければ、相互罰の悪循環に陥ります。

ゲーム理論は冷笑主義を説くものではありません。協力がなぜ脆いのか、そしてどのような構造が協力を強固にするのかを説明するものです。