în teoria jocurilor, în anii ’50, A. W. Tucker a atras atenţia asupra faptului că selectarea strategiilor dominante de către toţi jucătorii poate conduce la o situaţie suboptimală (în sens Pareto). În economie există numeroase situaţii asemănătoare celei descrise de d.p., ceea ce justifică interesul economiştilor pentru această “dilemă”. D.p. se întemeiază pe paradoxul potrivit căruia doi jucători ignoranţi, incapabili să-şi imagineze vreun scenariu dintre cele posibile, obţin rezultate mai bune decât jucătorii care, având cunoştinţe despre teoria jocurilor, vor selecta strategia dominantă. Cu titlu de exemplu, abordarea lui Tucker ia în considerare doi indivizi arestaţi sub acuzaţia de comitere a unui jaf. Aceştia sunt plasaţi în celule separate, deci nu există posibilitatea comunicării între ei. Se presupune că distribuţia pedepselor, exprimată în ani de închisoare, este următoarea:
Fiecare jucător va lua în considerare reacţiile posibile ale celuilalt şi va acţiona inteligent prin selectarea strategiei dominante (care îi minimizează durata pedepsei). Pentru fiecare jucător, strategia dominantă este “Recunoaşte”, iar rezultatele vor fi similare: fiecare va primi 20 de ani de închisoare. Jucătorii ignoranţi, care nu selectează strategia dominantă şi
aleg să nu recunoască, vor primi fiecare câte 5 ani de închisoare. Dacă prizonierii au posibilitatea de a comunica, rezultatul anticipat se modifică substanţial. Convenind să nu recunoască, prizonierii obţin, în mod simultan, cel mai bun rezultat posibil. Când jocul se desfăşoară într-o singură rundă, stimulentul de a trişa este însă foarte mare, deoarece fiecare prizonier realizează că ar fi liber dacă partenerul său nu ar recunoaşte, iar el recunoaşte. Dilema constă în faptul că rezultatele optime nu sunt stabile. Când prizonierii nu puteau comunica, rezultatul era (20, 20). El se îmbunătăţeşte prin comunicare la (5, 5), dar şi acest rezultat poate fi îmbunătăţit unilateral, trişând. Însă trişarea simultană aduce din nou cel mai slab rezultat posibil. Dacă există un număr finit de runde, s-ar părea că fiecare jucător are interesul să respecte acordul până la ultima rundă a jocului, când există din nou stimulentul de a trişa. Dacă există un număr infinit de runde, capacitatea de a riposta la un act de trişare devine permanentă, iar stimulentul de a trişa scade. Astfel, jocul admite o infinitate de echilibre caracterizate printr-un grad de “cooperare” relativ mai ridicat, datorat ripostelor anticipate. Eventualitatea trişării a ridicat problema tipului de reacţie astfel încât actele de trişare să fie minime, iar rezultatele simultane pe termen lung sau infinit să fie maxime.