Teoría de juegos explicada: El dilema del prisionero y por qué cooperar es tan difícil

Piezas de ajedrez sobre un tablero que representan la toma de decisiones estratégicas

La teoría de juegos es el estudio matemático de la toma de decisiones estratégicas: cómo los agentes racionales eligen sus acciones cuando sus resultados dependen no solo de lo que ellos hacen, sino también de lo que hacen los demás. Es uno de los marcos conceptuales más poderosos en economía, ciencias políticas, biología evolutiva e informática.

En el corazón de la teoría de juegos se encuentra un escenario engañosamente simple: el dilema del prisionero. Comprenderlo cambia la manera en que uno percibe la competencia, la cooperación, las carreras armamentísticas, los acuerdos climáticos e incluso las interacciones sociales cotidianas.

¿Qué es el dilema del prisionero?

El planteamiento clásico: dos sospechosos son detenidos e interrogados por separado. No pueden comunicarse. Cada uno debe elegir de forma independiente:

Cooperar — guardar silencio, proteger al otro
Traicionar — delatar al otro ante las autoridades

Los resultados dependen de ambas decisiones:

Tú \ El otro	Cooperar	Traicionar
Cooperar	Ambos reciben 1 año (Recompensa)	Tú recibes 5 años, el otro queda libre (Ingenuo)
Traicionar	Tú quedas libre, el otro recibe 5 años (Tentación)	Ambos reciben 3 años (Castigo)

En la versión abstracta utilizada en investigación, estos resultados se expresan como puntos (más puntos = mejor):

Tú \ IA	Cooperar	Traicionar
Cooperar	3 / 3	0 / 5
Traicionar	5 / 0	1 / 1

El dilema: traicionar es siempre la elección racionalmente individual, pero la traición mutua (1,1) es peor para todos que la cooperación mutua (3,3).

Equilibrio de Nash: por qué los actores racionales traicionan

Un equilibrio de Nash es un estado en el que ningún jugador puede mejorar su resultado cambiando su estrategia de forma unilateral, asumiendo que los demás mantienen la suya.

En el dilema del prisionero, la traición mutua es el equilibrio de Nash:

Si el otro jugador coopera, obtienes 5 traicionando frente a 3 cooperando — traicionar gana
Si el otro jugador traiciona, obtienes 1 traicionando frente a 0 cooperando — traicionar gana

Traicionar domina a cooperar independientemente de lo que haga el otro jugador. Esto se denomina estrategia dominante. Los jugadores racionales convergen en (Traicionar, Traicionar) aunque (Cooperar, Cooperar) beneficia más a ambos.

Esta es la tragedia: la racionalidad individual produce irracionalidad colectiva.

El dilema del prisionero en la vida real

El dilema del prisionero no es un puzzle abstracto: describe innumerables situaciones reales.

Carreras armamentísticas nucleares — Dos superpotencias gastan enormes recursos en armas que ninguna quiere usar. Ambas estarían mejor desarmándose, pero ninguna puede confiar en que la otra lo haga primero.

Guerras de precios — Dos aerolíneas bajan sus precios hasta que ninguna es rentable. Ambas prefieren el equilibrio de precios altos, pero cada una teme ser superada por la competencia.

Cambio climático — Todos los países se benefician si todas las naciones reducen emisiones, pero cada país individualmente asume costes mientras otros podrían aprovecharse sin contribuir.

Dopaje en el deporte — Los atletas saben que si todos se dopan, nadie obtiene ventaja y todos asumen riesgos para la salud. Sin embargo, cada atleta se siente tentado a doparse si los demás podrían hacerlo.

Gasto en publicidad — Dos empresas competidoras invierten fuertemente en publicidad, anulando las ganancias mutuas mientras ambas incurren en costes. Ninguna puede detenerse unilateralmente.

Juegos iterados: donde emerge la cooperación

El dilema del prisionero de una sola ronda es contundente. Pero ¿qué ocurre cuando los mismos dos jugadores interactúan repetidamente?

En los juegos iterados (repetidos), el cálculo cambia por completo. Ahora importa la sombra del futuro: tu rival recuerda lo que hiciste en la ronda anterior y responderá en consecuencia.

El histórico torneo informático de Robert Axelrod en 1980 invitó a expertos a enviar estrategias para un dilema del prisionero iterado (200 rondas). Las estrategias iban desde "traicionar siempre" hasta complejos programas condicionales.

La ganadora fue la estrategia más sencilla presentada: Tit-for-Tat.

Las estrategias ganadoras

Tit-for-Tat (el campeón clásico)

Cooperar en el primer movimiento
A partir de entonces, copiar lo que hizo el otro jugador en la ronda anterior

Tit-for-Tat gana porque es:

Amigable — nunca traiciona primero
Retaliativa — castiga la traición de inmediato
Indulgente — vuelve a cooperar en cuanto el otro jugador coopera
Clara — su comportamiento es predecible, lo que facilita la cooperación a largo plazo

Grim Trigger (la opción nuclear)

Cooperar hasta que el otro jugador traicione una vez, y luego traicionar para siempre. Maximiza la disuasión, pero elimina cualquier posibilidad de reconciliación. En la práctica, tiende a desembocar en un castigo mutuo permanente tras un solo error.

Pavlov / Win-Stay, Lose-Shift

Repetir la última acción si produjo una buena puntuación (Recompensa o Tentación). Cambiar si produjo una mala puntuación (Ingenuo o Castigo). Esta estrategia puede explotar a los cooperadores incondicionales y también recuperarse de ciclos de traición mutua.

Generous Tit-for-Tat

Similar a Tit-for-Tat, pero en ocasiones perdona una traición con una pequeña probabilidad (alrededor del 10 %). Esto rompe los ciclos de represalia mutua causados por malentendidos o ruido, algo importante en condiciones reales donde las intenciones se observan de forma imperfecta.

Traicionar siempre (la trampa racional)

La estrategia de equilibrio de Nash en un juego de una sola ronda. Obtiene malos resultados en los torneos iterados porque provoca represalias permanentes y pierde las ganancias de la cooperación mutua.

El teorema folk

Un resultado clave en la teoría de juegos —el teorema folk— establece que en juegos repetidos infinitamente, cualquier resultado que ofrezca a todos los jugadores más que su pago "minimax" (el peor que pueden verse forzados a aceptar) puede sostenerse como un equilibrio de Nash, siempre que los jugadores sean suficientemente pacientes.

En términos sencillos: cuando los jugadores interactúan repetidamente y valoran el futuro, la cooperación es posible incluso entre agentes puramente egoístas. La condición es que las interacciones futuras sean lo suficientemente valiosas como para que traicionar no valga la pena ante la represalia.

Esto explica por qué:

Las asociaciones empresariales a largo plazo tienden a ser más honestas que las transacciones puntuales
Las comunidades pequeñas hacen cumplir las normas mejor que las ciudades anónimas
Los jugadores habituales en cualquier ámbito desarrollan reputaciones que condicionan su comportamiento

Teoría de juegos evolutiva

¿Qué ocurre cuando las estrategias compiten no en un torneo único, sino en una población evolutiva? Las estrategias que funcionan bien se propagan; las que funcionan mal desaparecen.

El análisis posterior de Axelrod demostró que Tit-for-Tat es evolutivamente estable: una población que juega Tit-for-Tat no puede ser invadida por estrategias de traición permanente, porque quienes siempre traicionan obtienen peores resultados contra Tit-for-Tat que Tit-for-Tat contra sí mismo.

Esto tiene implicaciones profundas para la biología: muchas formas de cooperación animal (altruismo recíproco, acicalamiento mutuo, llamadas de alarma) pueden explicarse mediante la dinámica de juegos iterados sin necesidad de recurrir a la selección de grupo ni al altruismo.

Más allá de dos jugadores: los dilemas de n personas

El dilema del prisionero se generaliza a cualquier número de jugadores. La tragedia de los comunes es un dilema de n personas: cada individuo tiene un incentivo para sobreexplotar un recurso compartido (pesquerías, atmósfera, aguas subterráneas) aunque el uso excesivo colectivo destruya el recurso para todos.

Las soluciones a los dilemas de n personas incluyen:

Interacción repetida y reputación — funciona bien en comunidades pequeñas
Comunicación y negociación — permite alcanzar acuerdos vinculantes
Aplicación institucional — normas y sanciones de terceros
Cambio de incentivos — impuestos, subsidios o normas que alteran los incentivos individuales

Elinor Ostrom ganó el Premio Nobel de Economía en 2009 por documentar cómo las comunidades resuelven los dilemas de los comunes a través de instituciones locales, un desafío importante a la suposición de que la intervención externa siempre es necesaria.

Resumen de términos clave

Término	Definición
Estrategia dominante	Una estrategia que es la mejor independientemente de lo que hagan los demás
Equilibrio de Nash	Un estado en el que ningún jugador se beneficia cambiando su estrategia unilateralmente
Óptimo de Pareto	No existe ningún resultado que mejore la situación de todos
Cooperación	Contención mutua que beneficia a todas las partes
Traición	Desviación egoísta que perjudica a los demás
Tit-for-Tat	Copiar el último movimiento del oponente; comenzar cooperando
Teorema folk	La cooperación es alcanzable en juegos repetidos infinitamente
Juego iterado	El mismo juego jugado múltiples veces por los mismos jugadores

Pruébalo tú mismo

La mejor manera de comprender estas dinámicas es experimentarlas. Nuestra Arena del dilema del prisionero te permite jugar partidas iteradas de 10 rondas contra siete estrategias de IA —desde el vulnerable Santo hasta el despiadado Traidor— y ver tus tasas de cooperación, el historial de rondas y el análisis de puntuación.

Prueba cada estrategia en orden:

Comienza contra Saint (siempre coopera) — comprueba lo tentador que resulta explotar al otro
Juega contra Mirror (Tit-for-Tat) — observa con qué rapidez se estabiliza la cooperación mutua
Enfréntate a Grim Reaper — una sola traición y la relación termina para siempre
Batalla contra Betrayer — el equilibrio de Nash en acción; no puedes hacerlo mejor que 1/1
Desafía a Win-Stay (Pavlov) — una estrategia sutil que castiga la explotación

Tras cada partida, el panel de análisis muestra tu tasa de cooperación y el comportamiento de la IA, lo que te permite comprobar si jugaste más como un economista racional o como un cooperador evolutivamente exitoso.

Conclusión

El dilema del prisionero revela una verdad profunda: la racionalidad individual y el bienestar colectivo están frecuentemente en conflicto. Comprender este conflicto —y las condiciones bajo las cuales la cooperación surge a pesar de todo— es uno de los conocimientos más útiles en la práctica que nos ha dejado la ciencia social del siglo XX.

La lección no es que las personas siempre traicionen. Es que la cooperación requiere las condiciones adecuadas: interacción repetida, comunicación clara, acuerdos ejecutables o apuestas reputacionales. Cuando esas condiciones existen, incluso los agentes puramente egoístas cooperan. Cuando no existen, caen en una espiral de castigo mutuo.

La teoría de juegos no prescribe el cinismo. Explica por qué la cooperación es frágil, y qué estructuras la hacen robusta.