ทฤษฎีเกม: ปริศนาของนักโทษ และทำไมความร่วมมือถึงเป็นเรื่องยาก

Chess pieces on a board representing strategic decision making

ทฤษฎีเกมคือการศึกษาทางคณิตศาสตร์ว่าด้วยการตัดสินใจเชิงกลยุทธ์ — ว่าผู้แสดงที่มีเหตุผลเลือกกระทำอย่างไร เมื่อผลลัพธ์ของพวกเขาขึ้นอยู่ไม่เพียงแค่สิ่งที่ตัวเองทำ แต่ยังขึ้นอยู่กับสิ่งที่คนอื่นทำด้วย ทฤษฎีนี้เป็นหนึ่งในกรอบแนวคิดที่ทรงพลังที่สุดในด้านเศรษฐศาสตร์ รัฐศาสตร์ ชีววิทยาวิวัฒนาการ และวิทยาการคอมพิวเตอร์

แกนหลักของทฤษฎีเกมคือสถานการณ์ที่ดูเรียบง่ายแต่ซ่อนความลึก: ปริศนาของนักโทษ การทำความเข้าใจมันจะเปลี่ยนมุมมองของคุณต่อการแข่งขัน ความร่วมมือ การแข่งขันอาวุธ ข้อตกลงด้านภูมิอากาศ และแม้แต่ปฏิสัมพันธ์ทางสังคมในชีวิตประจำวัน

ปริศนาของนักโทษคืออะไร?

สถานการณ์คลาสสิก: ผู้ต้องสงสัยสองคนถูกจับกุมและสอบสวนแยกกัน พวกเขาไม่สามารถสื่อสารกันได้ แต่ละคนต้องตัดสินใจอย่างอิสระ:

ร่วมมือ — นิ่งเงียบ ปกป้องอีกฝ่าย
ทรยศ — แจ้งความอีกฝ่ายต่อเจ้าหน้าที่

ผลลัพธ์ขึ้นอยู่กับ ทั้งสอง การตัดสินใจ:

คุณ \ อีกฝ่าย	ร่วมมือ	ทรยศ
ร่วมมือ	ทั้งคู่ติดคุก 1 ปี (รางวัล)	คุณติดคุก 5 ปี อีกฝ่ายเป็นอิสระ (ถูกหักหลัง)
ทรยศ	คุณเป็นอิสระ อีกฝ่ายติดคุก 5 ปี (ล่อใจ)	ทั้งคู่ติดคุก 3 ปี (โทษ)

ในเวอร์ชันนามธรรมที่ใช้ในงานวิจัย จะแสดงเป็นคะแนน (ยิ่งมากยิ่งดี):

คุณ \ AI	ร่วมมือ	ทรยศ
ร่วมมือ	3 / 3	0 / 5
ทรยศ	5 / 0	1 / 1

ปริศนาคือ: การทรยศเป็นทางเลือกที่สมเหตุสมผลในระดับบุคคลเสมอ แต่การทรยศซึ่งกันและกัน (1,1) กลับแย่กว่าสำหรับทุกคน เมื่อเทียบกับการร่วมมือซึ่งกันและกัน (3,3)

Nash Equilibrium: เหตุใดผู้แสดงที่มีเหตุผลจึงเลือกทรยศ

Nash Equilibrium คือสถานะที่ไม่มีผู้เล่นคนใดสามารถปรับปรุงผลลัพธ์ของตนได้ด้วยการเปลี่ยนกลยุทธ์ฝ่ายเดียว โดยสมมติว่าคนอื่นยังคงทำเหมือนเดิม

ในปริศนาของนักโทษ การทรยศซึ่งกันและกันคือ Nash Equilibrium:

ถ้าอีกฝ่ายร่วมมือ คุณได้ 5 จากการทรยศ เทียบกับ 3 จากการร่วมมือ — ทรยศดีกว่า
ถ้าอีกฝ่ายทรยศ คุณได้ 1 จากการทรยศ เทียบกับ 0 จากการร่วมมือ — ทรยศดีกว่า

การทรยศครอบงำการร่วมมือไม่ว่าอีกฝ่ายจะทำอะไร นี่เรียกว่า กลยุทธ์ที่ครอบงำ (dominant strategy) ผู้เล่นที่มีเหตุผลจะลงเอยที่ (ทรยศ, ทรยศ) แม้ว่า (ร่วมมือ, ร่วมมือ) จะให้ผลดีกว่าสำหรับทั้งคู่

นี่คือโศกนาฏกรรม: ความมีเหตุผลในระดับบุคคลก่อให้เกิดความไร้เหตุผลในระดับส่วนรวม

ปริศนาของนักโทษในโลกแห่งความเป็นจริง

ปริศนาของนักโทษไม่ใช่แค่ปริศนาเชิงนามธรรม แต่มันอธิบายสถานการณ์จริงในชีวิตได้มากมาย:

การแข่งขันอาวุธนิวเคลียร์ — มหาอำนาจสองฝ่ายต่างทุ่มทรัพยากรมหาศาลไปกับอาวุธที่ไม่มีใครอยากใช้ ทั้งคู่จะดีกว่าหากลดอาวุธ แต่ไม่มีฝ่ายใดไว้วางใจให้อีกฝ่ายลดก่อน

สงครามราคา — สายการบินสองแห่งต่างลดราคาจนไม่มีใครทำกำไรได้ ทั้งคู่ต้องการดุลยภาพราคาสูงกว่า แต่ต่างกลัวถูกตัดราคา

การเปลี่ยนแปลงสภาพภูมิอากาศ — ทุกประเทศได้ประโยชน์ถ้าทุกชาติลดการปล่อยมลพิษ แต่แต่ละประเทศต้องแบกรับต้นทุน ในขณะที่ประเทศอื่นอาจสบายใจนั่งรับผลประโยชน์ฟรี

การใช้สารกระตุ้นในกีฬา — นักกีฬารู้ดีว่าถ้าทุกคนใช้ยาโด้ป ก็ไม่มีใครได้เปรียบ และทุกคนต้องเผชิญความเสี่ยงต่อสุขภาพ แต่แต่ละคนก็ยังถูกล่อใจให้ใช้ หากคนอื่นอาจใช้อยู่

งบโฆษณา — บริษัทคู่แข่งสองแห่งต่างโฆษณาอย่างหนัก หักล้างผลกำไรของกันและกัน ในขณะที่ต่างก็แบกรับต้นทุน ไม่มีฝ่ายใดหยุดฝ่ายเดียวได้

เกมซ้ำ: บ่อเกิดของความร่วมมือ

ปริศนาของนักโทษแบบเล่นครั้งเดียวฟังดูหดหู่ แต่จะเกิดอะไรขึ้นถ้าผู้เล่นสองคนเดิมมีปฏิสัมพันธ์กันซ้ำๆ?

ใน เกมซ้ำ (iterated game) การคำนวณเปลี่ยนไปโดยสิ้นเชิง เพราะเงาของอนาคตมีความสำคัญ — คู่ของคุณจำได้ว่าคุณทำอะไรในรอบที่แล้ว และจะตอบสนองตามนั้น

การแข่งขันทางคอมพิวเตอร์อันโด่งดังของ Robert Axelrod ในปี 1980 ได้เชิญผู้เชี่ยวชาญส่งกลยุทธ์สำหรับปริศนาของนักโทษแบบซ้ำ (200 รอบ) กลยุทธ์มีตั้งแต่ "ทรยศเสมอ" ไปจนถึงโปรแกรมเงื่อนไขที่ซับซ้อน

ผู้ชนะคือกลยุทธ์ที่ง่ายที่สุดที่ส่งเข้าร่วม: Tit-for-Tat

กลยุทธ์ที่ชนะเลิศ

Tit-for-Tat (แชมป์คลาสสิก)

ร่วมมือในตาแรก
จากนั้น ทำสิ่งเดียวกับที่อีกฝ่ายทำในรอบที่แล้ว

Tit-for-Tat ชนะเพราะมันคือ:

ใจดี — ไม่ทรยศก่อนเด็ดขาด
ตอบโต้ — ลงโทษการทรยศทันที
ให้อภัย — กลับสู่การร่วมมือทันทีที่อีกฝ่ายร่วมมือ
ชัดเจน — พฤติกรรมคาดเดาได้ ส่งเสริมความร่วมมือระยะยาว

Grim Trigger (ตัวเลือกนิวเคลียร์)

ร่วมมือจนกว่าอีกฝ่ายจะทรยศครั้งเดียว — แล้วทรยศตลอดไป กลยุทธ์นี้เพิ่มการยับยั้งสูงสุด แต่ตัดความเป็นไปได้ของการคืนดีทุกอย่าง ในทางปฏิบัติมักนำไปสู่การลงโทษซึ่งกันและกันถาวรหลังเกิดความผิดพลาดเพียงครั้งเดียว

Pavlov / Win-Stay, Lose-Shift

ทำซ้ำการกระทำล่าสุดถ้าได้คะแนนดี (รางวัลหรือล่อใจ) เปลี่ยนถ้าได้คะแนนแย่ (ถูกหักหลังหรือโทษ) กลยุทธ์นี้สามารถเอาเปรียบผู้ที่ร่วมมือโดยไม่มีเงื่อนไข ในขณะเดียวกันก็ฟื้นตัวจากวังวนการทรยศซึ่งกันและกันได้

Generous Tit-for-Tat

คล้ายกับ Tit-for-Tat แต่ให้อภัยการทรยศเป็นครั้งคราวด้วยความน่าจะเป็นเล็กน้อย (ราว 10%) ช่วยตัดวังวนการแก้แค้นซึ่งกันและกันที่เกิดจากการสื่อสารผิดพลาดหรือสัญญาณรบกวน — สำคัญมากในสภาพแวดล้อมจริงที่การสังเกตเจตนายังไม่สมบูรณ์

Always Defect (กับดักของความมีเหตุผล)

กลยุทธ์ Nash Equilibrium ในเกมเล่นครั้งเดียว แต่ทำคะแนนได้แย่ในการแข่งขันแบบซ้ำ เพราะมันกระตุ้นให้เกิดการแก้แค้นถาวรและพลาดกำไรจากความร่วมมือซึ่งกันและกัน

Folk Theorem

ผลสำคัญในทฤษฎีเกม — Folk Theorem — ระบุว่าในเกมที่เล่นซ้ำอนันต์ ผลลัพธ์ใดก็ตามที่ให้ผู้เล่นทุกคนได้รับมากกว่า "minimax" payoff ของตน (สิ่งที่แย่ที่สุดที่พวกเขาถูกบังคับให้ได้รับ) สามารถคงอยู่เป็น Nash Equilibrium ได้ หากผู้เล่นมีความอดทนเพียงพอ

พูดง่ายๆ คือ: เมื่อผู้เล่นมีปฏิสัมพันธ์กันซ้ำๆ และให้ความสำคัญกับอนาคต ความร่วมมือเป็นไปได้แม้แต่ในหมู่ตัวแทนที่เห็นแก่ตัวล้วนๆ เงื่อนไขคือการมีปฏิสัมพันธ์ในอนาคตต้องมีคุณค่ามากพอที่จะทำให้การทรยศไม่คุ้มกับการถูกตอบโต้

นี่อธิบายได้ว่าทำไม:

ความเป็นหุ้นส่วนทางธุรกิจระยะยาวมักซื่อสัตย์กว่าธุรกรรมที่ทำครั้งเดียว
ชุมชนขนาดเล็กบังคับใช้บรรทัดฐานได้ดีกว่าเมืองที่ไม่รู้จักกัน
ผู้เล่นที่ต้องเจอกันซ้ำในทุกสาขาจะสร้างชื่อเสียงที่ควบคุมพฤติกรรมของตนเอง

ทฤษฎีเกมเชิงวิวัฒนาการ

จะเกิดอะไรขึ้นเมื่อกลยุทธ์ต่างๆ แข่งขันกันไม่ใช่ในการแข่งขันครั้งเดียว แต่ในประชากรเชิงวิวัฒนาการ? กลยุทธ์ที่ทำได้ดีจะแพร่กระจาย กลยุทธ์ที่ทำได้แย่จะสูญพันธุ์

การวิเคราะห์ต่อเนื่องของ Axelrod แสดงให้เห็นว่า Tit-for-Tat มี ความเสถียรเชิงวิวัฒนาการ — ประชากรที่ใช้ Tit-for-Tat ไม่สามารถถูกรุกรานโดยผู้ที่ทรยศเสมอ เพราะผู้ทรยศทำได้แย่กว่าเมื่อเจอ Tit-for-Tat มากกว่าที่ Tit-for-Tat ทำเมื่อเจอกันเอง

สิ่งนี้มีนัยสำคัญอย่างลึกซึ้งต่อชีววิทยา: ความร่วมมือของสัตว์หลายรูปแบบ (การตอบแทนเชิงเห็นแก่ประโยชน์ผู้อื่น การดูแลทำความสะอาดร่างกาย การส่งสัญญาณเตือนภัย) สามารถอธิบายได้ด้วยพลวัตของเกมซ้ำ โดยไม่จำเป็นต้องอาศัยการคัดเลือกระดับกลุ่มหรือความเสียสละอย่างแท้จริง

เกินสองผู้เล่น: ปริศนา n คน

ปริศนาของนักโทษขยายไปสู่ผู้เล่นจำนวนเท่าใดก็ได้ โศกนาฏกรรมของสาธารณะ คือปริศนา n คน: แต่ละบุคคลมีแรงจูงใจที่จะใช้ทรัพยากรส่วนรวมเกินควร (ประมง ชั้นบรรยากาศ น้ำใต้ดิน) แม้ว่าการใช้เกินร่วมกันจะทำลายทรัพยากรนั้นสำหรับทุกคน

วิธีแก้ปัญหาปริศนา n คน ได้แก่:

การมีปฏิสัมพันธ์ซ้ำและชื่อเสียง — ใช้ได้ดีในชุมชนขนาดเล็ก
การสื่อสารและการเจรจา — ช่วยให้เกิดข้อตกลงที่มีผลผูกพัน
การบังคับใช้โดยสถาบัน — กฎและบทลงโทษจากบุคคลที่สาม
การเปลี่ยนผลตอบแทน — ภาษี เงินอุดหนุน หรือบรรทัดฐานที่เปลี่ยนแรงจูงใจของปัจเจก

Elinor Ostrom ได้รับรางวัลโนเบลสาขาเศรษฐศาสตร์ปี 2009 จากการบันทึกว่าชุมชนต่างๆ แก้ปัญหาสาธารณะผ่านสถาบันท้องถิ่นได้อย่างไร — เป็นการท้าทายครั้งสำคัญต่อสมมติฐานที่ว่าการบังคับใช้จากภายนอกจำเป็นเสมอ

สรุปคำสำคัญ

คำศัพท์	ความหมาย
Dominant strategy	กลยุทธ์ที่ดีที่สุดโดยไม่คำนึงว่าคนอื่นจะทำอะไร
Nash Equilibrium	สถานะที่ไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนกลยุทธ์ฝ่ายเดียว
Pareto optimal	ไม่มีผลลัพธ์ใดที่ทำให้ทุกคนดีขึ้นได้อีก
Cooperation	การยับยั้งชั่งใจซึ่งกันและกันที่เป็นประโยชน์ต่อทุกฝ่าย
Defection	การเบี่ยงเบนเพื่อประโยชน์ตนเองที่เป็นโทษต่อผู้อื่น
Tit-for-Tat	ทำสิ่งเดียวกับที่คู่ต่อสู้ทำในรอบที่แล้ว เริ่มต้นด้วยการร่วมมือ
Folk Theorem	ความร่วมมือเป็นไปได้ในเกมที่เล่นซ้ำอนันต์
Iterated game	เกมเดิมที่เล่นซ้ำหลายครั้งโดยผู้เล่นกลุ่มเดิม

ลองเล่นด้วยตัวเอง

วิธีที่ดีที่สุดในการทำความเข้าใจพลวัตเหล่านี้คือการสัมผัสด้วยตนเอง Prisoner's Dilemma Arena ของเราให้คุณเล่นเกมซ้ำ 10 รอบกับกลยุทธ์ AI 7 แบบ ตั้งแต่ Saint ที่ถูกเอาเปรียบได้ง่ายไปจนถึง Betrayer ที่โหดเหี้ยม พร้อมดูอัตราความร่วมมือ ประวัติรอบ และการวิเคราะห์คะแนนของคุณ

ลองเล่นแต่ละกลยุทธ์ตามลำดับ:

เริ่มกับ Saint (ร่วมมือเสมอ) — สัมผัสว่าการเอาเปรียบน่าดึงดูดแค่ไหน
เล่นกับ Mirror (Tit-for-Tat) — สังเกตว่าความร่วมมือซึ่งกันและกันเสถียรขึ้นได้เร็วแค่ไหน
เผชิญ Grim Reaper — ทรยศครั้งเดียวและความสัมพันธ์จบสิ้นตลอดกาล
สู้กับ Betrayer — Nash Equilibrium ในทางปฏิบัติ คุณทำได้ดีกว่า 1/1 ไม่ได้
ท้าทาย Win-Stay (Pavlov) — กลยุทธ์ที่ละเอียดอ่อนซึ่งลงโทษการเอาเปรียบ

หลังแต่ละเกม แผงวิเคราะห์จะแสดงอัตราความร่วมมือของคุณและพฤติกรรมของ AI ให้คุณทดสอบว่าคุณเล่นเหมือนนักเศรษฐศาสตร์ที่มีเหตุผล หรือเหมือนผู้ร่วมมือที่ประสบความสำเร็จในเชิงวิวัฒนาการ

สรุป

ปริศนาของนักโทษเผยความจริงอันลึกซึ้ง: ความมีเหตุผลในระดับบุคคลและสวัสดิการส่วนรวมมักขัดแย้งกัน การเข้าใจความขัดแย้งนี้ — และเงื่อนไขที่ทำให้ความร่วมมือเกิดขึ้นได้อยู่ดี — เป็นหนึ่งในข้อคิดที่มีประโยชน์ในทางปฏิบัติมากที่สุดจากวิทยาศาสตร์สังคมในศตวรรษที่ 20

บทเรียนไม่ได้บอกว่าคนเราทรยศเสมอ แต่บอกว่าความร่วมมือต้องการเงื่อนไขที่เหมาะสม ได้แก่ การมีปฏิสัมพันธ์ซ้ำๆ การสื่อสารที่ชัดเจน ข้อตกลงที่บังคับใช้ได้ หรือเดิมพันด้านชื่อเสียง เมื่อเงื่อนไขเหล่านั้นมีอยู่ แม้แต่ตัวแทนที่เห็นแก่ตัวล้วนๆ ก็ยังร่วมมือกัน แต่เมื่อไม่มี พวกเขาก็จะดิ่งลงสู่การลงโทษซึ่งกันและกัน

ทฤษฎีเกมไม่ได้สั่งให้เราเป็นคนเย้ยหยัน แต่อธิบายว่าทำไมความร่วมมือจึงเปราะบาง — และโครงสร้างใดที่ทำให้มันแข็งแกร่ง