ทฤษฎีเกม: ปริศนาของนักโทษ และทำไมความร่วมมือถึงเป็นเรื่องยาก
บทนำเชิงปฏิบัติสู่ทฤษฎีเกม — Nash Equilibrium, ปริศนาของนักโทษ, Tit-for-Tat และเหตุใดผู้แสดงที่มีเหตุผลจึงมักล้มเหลวในการร่วมมือกัน แม้ว่ามันจะเป็นประโยชน์ต่อทุกคน
ทฤษฎีเกมคือการศึกษาทางคณิตศาสตร์ว่าด้วยการตัดสินใจเชิงกลยุทธ์ — ว่าผู้แสดงที่มีเหตุผลเลือกกระทำอย่างไร เมื่อผลลัพธ์ของพวกเขาขึ้นอยู่ไม่เพียงแค่สิ่งที่ตัวเองทำ แต่ยังขึ้นอยู่กับสิ่งที่คนอื่นทำด้วย ทฤษฎีนี้เป็นหนึ่งในกรอบแนวคิดที่ทรงพลังที่สุดในด้านเศรษฐศาสตร์ รัฐศาสตร์ ชีววิทยาวิวัฒนาการ และวิทยาการคอมพิวเตอร์
แกนหลักของทฤษฎีเกมคือสถานการณ์ที่ดูเรียบง่ายแต่ซ่อนความลึก: ปริศนาของนักโทษ การทำความเข้าใจมันจะเปลี่ยนมุมมองของคุณต่อการแข่งขัน ความร่วมมือ การแข่งขันอาวุธ ข้อตกลงด้านภูมิอากาศ และแม้แต่ปฏิสัมพันธ์ทางสังคมในชีวิตประจำวัน
ปริศนาของนักโทษคืออะไร?
สถานการณ์คลาสสิก: ผู้ต้องสงสัยสองคนถูกจับกุมและสอบสวนแยกกัน พวกเขาไม่สามารถสื่อสารกันได้ แต่ละคนต้องตัดสินใจอย่างอิสระ:
- ร่วมมือ — นิ่งเงียบ ปกป้องอีกฝ่าย
- ทรยศ — แจ้งความอีกฝ่ายต่อเจ้าหน้าที่
ผลลัพธ์ขึ้นอยู่กับ ทั้งสอง การตัดสินใจ:
| คุณ \ อีกฝ่าย | ร่วมมือ | ทรยศ |
|---|---|---|
| ร่วมมือ | ทั้งคู่ติดคุก 1 ปี (รางวัล) | คุณติดคุก 5 ปี อีกฝ่ายเป็นอิสระ (ถูกหักหลัง) |
| ทรยศ | คุณเป็นอิสระ อีกฝ่ายติดคุก 5 ปี (ล่อใจ) | ทั้งคู่ติดคุก 3 ปี (โทษ) |
ในเวอร์ชันนามธรรมที่ใช้ในงานวิจัย จะแสดงเป็นคะแนน (ยิ่งมากยิ่งดี):
| คุณ \ AI | ร่วมมือ | ทรยศ |
|---|---|---|
| ร่วมมือ | 3 / 3 | 0 / 5 |
| ทรยศ | 5 / 0 | 1 / 1 |
ปริศนาคือ: การทรยศเป็นทางเลือกที่สมเหตุสมผลในระดับบุคคลเสมอ แต่การทรยศซึ่งกันและกัน (1,1) กลับแย่กว่าสำหรับทุกคน เมื่อเทียบกับการร่วมมือซึ่งกันและกัน (3,3)
Nash Equilibrium: เหตุใดผู้แสดงที่มีเหตุผลจึงเลือกทรยศ
Nash Equilibrium คือสถานะที่ไม่มีผู้เล่นคนใดสามารถปรับปรุงผลลัพธ์ของตนได้ด้วยการเปลี่ยนกลยุทธ์ฝ่ายเดียว โดยสมมติว่าคนอื่นยังคงทำเหมือนเดิม
ในปริศนาของนักโทษ การทรยศซึ่งกันและกันคือ Nash Equilibrium:
- ถ้าอีกฝ่ายร่วมมือ คุณได้ 5 จากการทรยศ เทียบกับ 3 จากการร่วมมือ — ทรยศดีกว่า
- ถ้าอีกฝ่ายทรยศ คุณได้ 1 จากการทรยศ เทียบกับ 0 จากการร่วมมือ — ทรยศดีกว่า
การทรยศครอบงำการร่วมมือไม่ว่าอีกฝ่ายจะทำอะไร นี่เรียกว่า กลยุทธ์ที่ครอบงำ (dominant strategy) ผู้เล่นที่มีเหตุผลจะลงเอยที่ (ทรยศ, ทรยศ) แม้ว่า (ร่วมมือ, ร่วมมือ) จะให้ผลดีกว่าสำหรับทั้งคู่
นี่คือโศกนาฏกรรม: ความมีเหตุผลในระดับบุคคลก่อให้เกิดความไร้เหตุผลในระดับส่วนรวม
ปริศนาของนักโทษในโลกแห่งความเป็นจริง
ปริศนาของนักโทษไม่ใช่แค่ปริศนาเชิงนามธรรม แต่มันอธิบายสถานการณ์จริงในชีวิตได้มากมาย:
การแข่งขันอาวุธนิวเคลียร์ — มหาอำนาจสองฝ่ายต่างทุ่มทรัพยากรมหาศาลไปกับอาวุธที่ไม่มีใครอยากใช้ ทั้งคู่จะดีกว่าหากลดอาวุธ แต่ไม่มีฝ่ายใดไว้วางใจให้อีกฝ่ายลดก่อน
สงครามราคา — สายการบินสองแห่งต่างลดราคาจนไม่มีใครทำกำไรได้ ทั้งคู่ต้องการดุลยภาพราคาสูงกว่า แต่ต่างกลัวถูกตัดราคา
การเปลี่ยนแปลงสภาพภูมิอากาศ — ทุกประเทศได้ประโยชน์ถ้าทุกชาติลดการปล่อยมลพิษ แต่แต่ละประเทศต้องแบกรับต้นทุน ในขณะที่ประเทศอื่นอาจสบายใจนั่งรับผลประโยชน์ฟรี
การใช้สารกระตุ้นในกีฬา — นักกีฬารู้ดีว่าถ้าทุกคนใช้ยาโด้ป ก็ไม่มีใครได้เปรียบ และทุกคนต้องเผชิญความเสี่ยงต่อสุขภาพ แต่แต่ละคนก็ยังถูกล่อใจให้ใช้ หากคนอื่นอาจใช้อยู่
งบโฆษณา — บริษัทคู่แข่งสองแห่งต่างโฆษณาอย่างหนัก หักล้างผลกำไรของกันและกัน ในขณะที่ต่างก็แบกรับต้นทุน ไม่มีฝ่ายใดหยุดฝ่ายเดียวได้
เกมซ้ำ: บ่อเกิดของความร่วมมือ
ปริศนาของนักโทษแบบเล่นครั้งเดียวฟังดูหดหู่ แต่จะเกิดอะไรขึ้นถ้าผู้เล่นสองคนเดิมมีปฏิสัมพันธ์กันซ้ำๆ?
ใน เกมซ้ำ (iterated game) การคำนวณเปลี่ยนไปโดยสิ้นเชิง เพราะเงาของอนาคตมีความสำคัญ — คู่ของคุณจำได้ว่าคุณทำอะไรในรอบที่แล้ว และจะตอบสนองตามนั้น
การแข่งขันทางคอมพิวเตอร์อันโด่งดังของ Robert Axelrod ในปี 1980 ได้เชิญผู้เชี่ยวชาญส่งกลยุทธ์สำหรับปริศนาของนักโทษแบบซ้ำ (200 รอบ) กลยุทธ์มีตั้งแต่ "ทรยศเสมอ" ไปจนถึงโปรแกรมเงื่อนไขที่ซับซ้อน
ผู้ชนะคือกลยุทธ์ที่ง่ายที่สุดที่ส่งเข้าร่วม: Tit-for-Tat
กลยุทธ์ที่ชนะเลิศ
Tit-for-Tat (แชมป์คลาสสิก)
- ร่วมมือในตาแรก
- จากนั้น ทำสิ่งเดียวกับที่อีกฝ่ายทำในรอบที่แล้ว
Tit-for-Tat ชนะเพราะมันคือ:
- ใจดี — ไม่ทรยศก่อนเด็ดขาด
- ตอบโต้ — ลงโทษการทรยศทันที
- ให้อภัย — กลับสู่การร่วมมือทันทีที่อีกฝ่ายร่วมมือ
- ชัดเจน — พฤติกรรมคาดเดาได้ ส่งเสริมความร่วมมือระยะยาว
Grim Trigger (ตัวเลือกนิวเคลียร์)
ร่วมมือจนกว่าอีกฝ่ายจะทรยศครั้งเดียว — แล้วทรยศตลอดไป กลยุทธ์นี้เพิ่มการยับยั้งสูงสุด แต่ตัดความเป็นไปได้ของการคืนดีทุกอย่าง ในทางปฏิบัติมักนำไปสู่การลงโทษซึ่งกันและกันถาวรหลังเกิดความผิดพลาดเพียงครั้งเดียว
Pavlov / Win-Stay, Lose-Shift
ทำซ้ำการกระทำล่าสุดถ้าได้คะแนนดี (รางวัลหรือล่อใจ) เปลี่ยนถ้าได้คะแนนแย่ (ถูกหักหลังหรือโทษ) กลยุทธ์นี้สามารถเอาเปรียบผู้ที่ร่วมมือโดยไม่มีเงื่อนไข ในขณะเดียวกันก็ฟื้นตัวจากวังวนการทรยศซึ่งกันและกันได้
Generous Tit-for-Tat
คล้ายกับ Tit-for-Tat แต่ให้อภัยการทรยศเป็นครั้งคราวด้วยความน่าจะเป็นเล็กน้อย (ราว 10%) ช่วยตัดวังวนการแก้แค้นซึ่งกันและกันที่เกิดจากการสื่อสารผิดพลาดหรือสัญญาณรบกวน — สำคัญมากในสภาพแวดล้อมจริงที่การสังเกตเจตนายังไม่สมบูรณ์
Always Defect (กับดักของความมีเหตุผล)
กลยุทธ์ Nash Equilibrium ในเกมเล่นครั้งเดียว แต่ทำคะแนนได้แย่ในการแข่งขันแบบซ้ำ เพราะมันกระตุ้นให้เกิดการแก้แค้นถาวรและพลาดกำไรจากความร่วมมือซึ่งกันและกัน
Folk Theorem
ผลสำคัญในทฤษฎีเกม — Folk Theorem — ระบุว่าในเกมที่เล่นซ้ำอนันต์ ผลลัพธ์ใดก็ตามที่ให้ผู้เล่นทุกคนได้รับมากกว่า "minimax" payoff ของตน (สิ่งที่แย่ที่สุดที่พวกเขาถูกบังคับให้ได้รับ) สามารถคงอยู่เป็น Nash Equilibrium ได้ หากผู้เล่นมีความอดทนเพียงพอ
พูดง่ายๆ คือ: เมื่อผู้เล่นมีปฏิสัมพันธ์กันซ้ำๆ และให้ความสำคัญกับอนาคต ความร่วมมือเป็นไปได้แม้แต่ในหมู่ตัวแทนที่เห็นแก่ตัวล้วนๆ เงื่อนไขคือการมีปฏิสัมพันธ์ในอนาคตต้องมีคุณค่ามากพอที่จะทำให้การทรยศไม่คุ้มกับการถูกตอบโต้
นี่อธิบายได้ว่าทำไม:
- ความเป็นหุ้นส่วนทางธุรกิจระยะยาวมักซื่อสัตย์กว่าธุรกรรมที่ทำครั้งเดียว
- ชุมชนขนาดเล็กบังคับใช้บรรทัดฐานได้ดีกว่าเมืองที่ไม่รู้จักกัน
- ผู้เล่นที่ต้องเจอกันซ้ำในทุกสาขาจะสร้างชื่อเสียงที่ควบคุมพฤติกรรมของตนเอง
ทฤษฎีเกมเชิงวิวัฒนาการ
จะเกิดอะไรขึ้นเมื่อกลยุทธ์ต่างๆ แข่งขันกันไม่ใช่ในการแข่งขันครั้งเดียว แต่ในประชากรเชิงวิวัฒนาการ? กลยุทธ์ที่ทำได้ดีจะแพร่กระจาย กลยุทธ์ที่ทำได้แย่จะสูญพันธุ์
การวิเคราะห์ต่อเนื่องของ Axelrod แสดงให้เห็นว่า Tit-for-Tat มี ความเสถียรเชิงวิวัฒนาการ — ประชากรที่ใช้ Tit-for-Tat ไม่สามารถถูกรุกรานโดยผู้ที่ทรยศเสมอ เพราะผู้ทรยศทำได้แย่กว่าเมื่อเจอ Tit-for-Tat มากกว่าที่ Tit-for-Tat ทำเมื่อเจอกันเอง
สิ่งนี้มีนัยสำคัญอย่างลึกซึ้งต่อชีววิทยา: ความร่วมมือของสัตว์หลายรูปแบบ (การตอบแทนเชิงเห็นแก่ประโยชน์ผู้อื่น การดูแลทำความสะอาดร่างกาย การส่งสัญญาณเตือนภัย) สามารถอธิบายได้ด้วยพลวัตของเกมซ้ำ โดยไม่จำเป็นต้องอาศัยการคัดเลือกระดับกลุ่มหรือความเสียสละอย่างแท้จริง
เกินสองผู้เล่น: ปริศนา n คน
ปริศนาของนักโทษขยายไปสู่ผู้เล่นจำนวนเท่าใดก็ได้ โศกนาฏกรรมของสาธารณะ คือปริศนา n คน: แต่ละบุคคลมีแรงจูงใจที่จะใช้ทรัพยากรส่วนรวมเกินควร (ประมง ชั้นบรรยากาศ น้ำใต้ดิน) แม้ว่าการใช้เกินร่วมกันจะทำลายทรัพยากรนั้นสำหรับทุกคน
วิธีแก้ปัญหาปริศนา n คน ได้แก่:
- การมีปฏิสัมพันธ์ซ้ำและชื่อเสียง — ใช้ได้ดีในชุมชนขนาดเล็ก
- การสื่อสารและการเจรจา — ช่วยให้เกิดข้อตกลงที่มีผลผูกพัน
- การบังคับใช้โดยสถาบัน — กฎและบทลงโทษจากบุคคลที่สาม
- การเปลี่ยนผลตอบแทน — ภาษี เงินอุดหนุน หรือบรรทัดฐานที่เปลี่ยนแรงจูงใจของปัจเจก
Elinor Ostrom ได้รับรางวัลโนเบลสาขาเศรษฐศาสตร์ปี 2009 จากการบันทึกว่าชุมชนต่างๆ แก้ปัญหาสาธารณะผ่านสถาบันท้องถิ่นได้อย่างไร — เป็นการท้าทายครั้งสำคัญต่อสมมติฐานที่ว่าการบังคับใช้จากภายนอกจำเป็นเสมอ
สรุปคำสำคัญ
| คำศัพท์ | ความหมาย |
|---|---|
| Dominant strategy | กลยุทธ์ที่ดีที่สุดโดยไม่คำนึงว่าคนอื่นจะทำอะไร |
| Nash Equilibrium | สถานะที่ไม่มีผู้เล่นคนใดได้ประโยชน์จากการเปลี่ยนกลยุทธ์ฝ่ายเดียว |
| Pareto optimal | ไม่มีผลลัพธ์ใดที่ทำให้ทุกคนดีขึ้นได้อีก |
| Cooperation | การยับยั้งชั่งใจซึ่งกันและกันที่เป็นประโยชน์ต่อทุกฝ่าย |
| Defection | การเบี่ยงเบนเพื่อประโยชน์ตนเองที่เป็นโทษต่อผู้อื่น |
| Tit-for-Tat | ทำสิ่งเดียวกับที่คู่ต่อสู้ทำในรอบที่แล้ว เริ่มต้นด้วยการร่วมมือ |
| Folk Theorem | ความร่วมมือเป็นไปได้ในเกมที่เล่นซ้ำอนันต์ |
| Iterated game | เกมเดิมที่เล่นซ้ำหลายครั้งโดยผู้เล่นกลุ่มเดิม |
ลองเล่นด้วยตัวเอง
วิธีที่ดีที่สุดในการทำความเข้าใจพลวัตเหล่านี้คือการสัมผัสด้วยตนเอง Prisoner's Dilemma Arena ของเราให้คุณเล่นเกมซ้ำ 10 รอบกับกลยุทธ์ AI 7 แบบ ตั้งแต่ Saint ที่ถูกเอาเปรียบได้ง่ายไปจนถึง Betrayer ที่โหดเหี้ยม พร้อมดูอัตราความร่วมมือ ประวัติรอบ และการวิเคราะห์คะแนนของคุณ
ลองเล่นแต่ละกลยุทธ์ตามลำดับ:
- เริ่มกับ Saint (ร่วมมือเสมอ) — สัมผัสว่าการเอาเปรียบน่าดึงดูดแค่ไหน
- เล่นกับ Mirror (Tit-for-Tat) — สังเกตว่าความร่วมมือซึ่งกันและกันเสถียรขึ้นได้เร็วแค่ไหน
- เผชิญ Grim Reaper — ทรยศครั้งเดียวและความสัมพันธ์จบสิ้นตลอดกาล
- สู้กับ Betrayer — Nash Equilibrium ในทางปฏิบัติ คุณทำได้ดีกว่า 1/1 ไม่ได้
- ท้าทาย Win-Stay (Pavlov) — กลยุทธ์ที่ละเอียดอ่อนซึ่งลงโทษการเอาเปรียบ
หลังแต่ละเกม แผงวิเคราะห์จะแสดงอัตราความร่วมมือของคุณและพฤติกรรมของ AI ให้คุณทดสอบว่าคุณเล่นเหมือนนักเศรษฐศาสตร์ที่มีเหตุผล หรือเหมือนผู้ร่วมมือที่ประสบความสำเร็จในเชิงวิวัฒนาการ
สรุป
ปริศนาของนักโทษเผยความจริงอันลึกซึ้ง: ความมีเหตุผลในระดับบุคคลและสวัสดิการส่วนรวมมักขัดแย้งกัน การเข้าใจความขัดแย้งนี้ — และเงื่อนไขที่ทำให้ความร่วมมือเกิดขึ้นได้อยู่ดี — เป็นหนึ่งในข้อคิดที่มีประโยชน์ในทางปฏิบัติมากที่สุดจากวิทยาศาสตร์สังคมในศตวรรษที่ 20
บทเรียนไม่ได้บอกว่าคนเราทรยศเสมอ แต่บอกว่าความร่วมมือต้องการเงื่อนไขที่เหมาะสม ได้แก่ การมีปฏิสัมพันธ์ซ้ำๆ การสื่อสารที่ชัดเจน ข้อตกลงที่บังคับใช้ได้ หรือเดิมพันด้านชื่อเสียง เมื่อเงื่อนไขเหล่านั้นมีอยู่ แม้แต่ตัวแทนที่เห็นแก่ตัวล้วนๆ ก็ยังร่วมมือกัน แต่เมื่อไม่มี พวกเขาก็จะดิ่งลงสู่การลงโทษซึ่งกันและกัน
ทฤษฎีเกมไม่ได้สั่งให้เราเป็นคนเย้ยหยัน แต่อธิบายว่าทำไมความร่วมมือจึงเปราะบาง — และโครงสร้างใดที่ทำให้มันแข็งแกร่ง