La théorie des jeux expliquée : le dilemme du prisonnier et pourquoi la coopération est si difficile

Pièces d'échecs sur un échiquier représentant la prise de décision stratégique

La théorie des jeux est l'étude mathématique de la prise de décision stratégique — elle analyse comment des agents rationnels choisissent leurs actions lorsque leurs résultats dépendent non seulement de ce qu'ils font eux-mêmes, mais aussi de ce que font les autres. C'est l'un des cadres d'analyse les plus puissants en économie, en science politique, en biologie évolutive et en informatique.

Au cœur de la théorie des jeux se trouve un scénario d'une simplicité trompeuse : le dilemme du prisonnier. Le comprendre change la façon dont on perçoit la compétition, la coopération, les courses aux armements, les accords climatiques et même les interactions sociales du quotidien.

Qu'est-ce que le dilemme du prisonnier ?

La mise en scène classique : deux suspects sont arrêtés et interrogés séparément. Ils ne peuvent pas communiquer. Chacun doit choisir indépendamment :

Coopérer — garder le silence, protéger l'autre
Trahir — dénoncer l'autre aux autorités

Les résultats dépendent des deux choix :

Vous \ Autre	Coopérer	Trahir
Coopérer	Tous les deux écopent de 1 an (Récompense)	Vous écopez de 5 ans, l'autre est libéré (Naïf)
Trahir	Vous êtes libéré, l'autre écope de 5 ans (Tentation)	Tous les deux écopent de 3 ans (Punition)

Dans la version abstraite utilisée en recherche, ces résultats sont exprimés en points (plus c'est élevé, mieux c'est) :

Vous \ IA	Coopérer	Trahir
Coopérer	3 / 3	0 / 5
Trahir	5 / 0	1 / 1

Le dilemme : trahir est toujours le choix individuellement rationnel, pourtant la trahison mutuelle (1,1) est pire pour tout le monde que la coopération mutuelle (3,3).

L'équilibre de Nash : pourquoi les acteurs rationnels trahissent

Un équilibre de Nash est un état dans lequel aucun joueur ne peut améliorer son résultat en changeant de stratégie seul, en supposant que tous les autres maintiennent la leur.

Dans le dilemme du prisonnier, la trahison mutuelle est l'équilibre de Nash :

Si l'autre joueur coopère, vous obtenez 5 en trahissant contre 3 en coopérant — la trahison l'emporte
Si l'autre joueur trahit, vous obtenez 1 en trahissant contre 0 en coopérant — la trahison l'emporte

Trahir domine la coopération quoi que fasse l'autre joueur. C'est ce qu'on appelle une stratégie dominante. Les joueurs rationnels convergent vers (Trahir, Trahir) même si (Coopérer, Coopérer) rapporte davantage aux deux.

C'est là la tragédie : la rationalité individuelle produit une irrationalité collective.

Le dilemme du prisonnier dans le monde réel

Le dilemme du prisonnier n'est pas une simple énigme abstraite — il décrit d'innombrables situations réelles :

Les courses aux armements nucléaires — Deux superpuissances dépensent toutes deux d'énormes ressources dans des armes qu'elles ne souhaitent pas utiliser. Les deux s'en porteraient mieux en désarmant, mais aucune ne peut faire confiance à l'autre pour désarmer en premier.

Les guerres de prix — Deux compagnies aériennes baissent leurs tarifs jusqu'à ce qu'aucune ne soit rentable. Les deux préfèrent l'équilibre à prix élevé, mais chacune craint d'être sous-coupée.

Le changement climatique — Tous les pays bénéficieraient d'une réduction des émissions par toutes les nations, mais chaque pays supporte des coûts individuels tandis que d'autres peuvent profiter du bénéfice sans effort.

Le dopage dans le sport — Les athlètes savent que si tout le monde se dope, personne n'y gagne, et tout le monde s'expose à des risques sanitaires. Pourtant, chaque athlète est tenté de se doper si les autres pourraient le faire.

Les dépenses publicitaires — Deux entreprises concurrentes font toutes les deux de la publicité à grands frais, annulant mutuellement leurs gains tout en supportant des coûts. Aucune ne peut s'arrêter unilatéralement.

Les jeux répétés : là où la coopération émerge

Le dilemme du prisonnier en version unique est implacable. Mais que se passe-t-il lorsque les deux mêmes joueurs interagissent de façon répétée ?

Dans les jeux itérés (répétés), le calcul change radicalement. L'ombre du futur devient déterminante — votre partenaire se souvient de ce que vous avez fait au tour précédent et réagira en conséquence.

Le célèbre tournoi informatique de Robert Axelrod en 1980 a invité des experts à soumettre des stratégies pour un dilemme du prisonnier itéré (200 tours). Les stratégies allaient de « toujours trahir » à des programmes conditionnels complexes.

Le vainqueur fut la stratégie la plus simple soumise : Tit-for-Tat.

Les stratégies gagnantes

Tit-for-Tat (Le champion classique)

Coopérer au premier tour
Ensuite, copier ce qu'a fait l'autre joueur au tour précédent

Tit-for-Tat gagne parce qu'elle est :

Bienveillante — elle ne trahit jamais en premier
Vindicative — elle punit immédiatement la trahison
Indulgente — elle revient à la coopération dès que l'autre joueur coopère
Lisible — son comportement est prévisible, ce qui favorise la coopération à long terme

Grim Trigger (L'option nucléaire)

Coopérer jusqu'à ce que l'autre joueur trahisse une seule fois — puis trahir pour toujours. Cette stratégie maximise la dissuasion mais élimine toute possibilité de réconciliation. En pratique, elle tend à engendrer une punition mutuelle permanente après la moindre erreur.

Pavlov / Win-Stay, Lose-Shift

Répéter sa dernière action si elle a produit un bon résultat (Récompense ou Tentation). Changer si elle a produit un mauvais résultat (Naïf ou Punition). Cette stratégie peut exploiter les coopérateurs inconditionnels tout en se remettant des cycles de trahison mutuelle.

Generous Tit-for-Tat

Comme Tit-for-Tat, mais pardonne occasionnellement une trahison avec une faible probabilité (environ 10 %). Cela rompt les cycles de représailles mutuelles causés par des malentendus ou du bruit — important dans des conditions réelles où les intentions sont imparfaitement observées.

Always Defect (Le piège rationnel)

La stratégie d'équilibre de Nash dans un jeu en un seul coup. Obtient de mauvais résultats dans les tournois itérés car elle provoque des représailles permanentes et passe à côté des gains issus de la coopération mutuelle.

Le théorème populaire (Folk Theorem)

Un résultat central de la théorie des jeux — le Folk Theorem — affirme que dans les jeux répétés à l'infini, tout résultat offrant à chaque joueur plus que son gain « minimax » (le pire qu'on puisse lui imposer) peut être maintenu comme équilibre de Nash, à condition que les joueurs accordent suffisamment de valeur au futur.

En termes simples : lorsque les joueurs interagissent de façon répétée et se soucient de l'avenir, la coopération est possible même entre agents purement intéressés. La condition est que les interactions futures aient suffisamment de valeur pour que la trahison ne vaille pas les représailles qu'elle engendre.

Cela explique pourquoi :

Les partenariats commerciaux à long terme ont tendance à être plus honnêtes que les transactions ponctuelles
Les petites communautés font respecter les normes mieux que les grandes villes anonymes
Les acteurs récurrents dans n'importe quel domaine développent des réputations qui contraignent leur comportement

La théorie des jeux évolutionnaire

Que se passe-t-il lorsque les stratégies s'affrontent non pas dans un tournoi unique, mais au sein d'une population évolutive ? Les stratégies performantes se répandent ; les stratégies inefficaces disparaissent.

L'analyse complémentaire d'Axelrod a montré que Tit-for-Tat est évolutivement stable — une population jouant Tit-for-Tat ne peut pas être envahie par des stratégies « toujours trahir », car les traîtres s'en sortent moins bien face à Tit-for-Tat que Tit-for-Tat face à lui-même.

Cela a des implications profondes pour la biologie : de nombreuses formes de coopération animale (altruisme réciproque, toilettage mutuel, cris d'alarme) peuvent être expliquées par la dynamique des jeux itérés, sans avoir recours à la sélection de groupe ni à l'altruisme.

Au-delà de deux joueurs : les dilemmes à n personnes

Le dilemme du prisonnier se généralise à un nombre quelconque de joueurs. La tragédie des biens communs est un dilemme à n personnes : chaque individu est incité à surexploiter une ressource partagée (pêcherie, atmosphère, nappe phréatique) même si la surexploitation collective détruit cette ressource pour tous.

Les solutions aux dilemmes à n personnes comprennent :

Les interactions répétées et la réputation — efficaces dans les petites communautés
La communication et la négociation — permettent des accords contraignants
L'application institutionnelle — règles et sanctions imposées par des tiers
La modification des incitations — taxes, subventions ou normes qui changent les intérêts individuels

Elinor Ostrom a remporté le prix Nobel d'économie 2009 pour avoir documenté comment les communautés résolvent les dilemmes des biens communs grâce à des institutions locales — un défi majeur à l'hypothèse selon laquelle une application externe est toujours nécessaire.

Récapitulatif des termes clés

Terme	Définition
Stratégie dominante	Une stratégie qui est la meilleure indépendamment de ce que font les autres
Équilibre de Nash	Un état où aucun joueur ne gagne à changer de stratégie seul
Optimum de Pareto	Il n'existe aucun résultat qui améliore la situation de tous
Coopération	Retenue mutuelle bénéfique pour toutes les parties
Trahison	Déviation intéressée qui nuit aux autres
Tit-for-Tat	Copier le dernier geste de l'adversaire ; commencer par coopérer
Folk Theorem	La coopération est réalisable dans les jeux répétés à l'infini
Jeu itéré	Le même jeu joué plusieurs fois par les mêmes joueurs

Jouez-y vous-même

La meilleure façon de comprendre ces dynamiques est de les vivre. Notre Prisoner's Dilemma Arena vous permet de jouer des parties itérées de 10 tours contre sept stratégies d'IA — du Saint exploitable au Traître impitoyable — et d'observer vos taux de coopération, l'historique des tours et l'analyse de votre score.

Essayez chaque stratégie dans l'ordre :

Commencez contre Saint (coopère toujours) — voyez à quel point l'exploitation est tentante
Jouez contre Mirror (Tit-for-Tat) — observez comme la coopération mutuelle se stabilise rapidement
Affrontez Grim Reaper — une seule trahison et la relation est terminée pour toujours
Battaillez contre Betrayer — l'équilibre de Nash en action ; vous ne pouvez pas faire mieux que 1/1
Défiez Win-Stay (Pavlov) — une stratégie subtile qui punit l'exploitation

Après chaque partie, le panneau d'analyse affiche votre taux de coopération et le comportement de l'IA, vous permettant de tester si vous avez joué davantage comme un économiste rationnel ou comme un coopérateur évolutivement efficace.

Conclusion

Le dilemme du prisonnier révèle une vérité profonde : la rationalité individuelle et le bien collectif sont souvent en conflit. Comprendre ce conflit — et les conditions dans lesquelles la coopération émerge néanmoins — est l'un des enseignements les plus pratiquement utiles des sciences sociales du XXe siècle.

La leçon n'est pas que les gens trahissent toujours. C'est que la coopération exige les bonnes conditions : des interactions répétées, une communication claire, des accords applicables ou des enjeux réputationnels. Lorsque ces conditions existent, même des agents purement intéressés coopèrent. Lorsqu'elles n'existent pas, ils s'enfoncent dans une punition mutuelle.

La théorie des jeux ne prescrit pas le cynisme. Elle explique pourquoi la coopération est fragile — et quelles structures la rendent robuste.