Cooperazione nel Dilemma del Prigioniero
Transcript
Cooperazione nel Dilemma del Prigioniero
Cooperazione nel Dilemma del Prigioniero Camilla F. Colombo 16 Maggio 2011 Sia nel Dilemma del Prigioniero non ripetuto sia nel Dilemma del Prigioniero ripetuto un numero finito di volte, la cooperazione non costituisce un Equilibrio del gioco e non è quindi un esito razionale dell’interazione. Evidenze sperimentali mostrano però una forte tendenza alla cooperazione in entrambi i casi. A partire da questi risultati nel seminario si analizzano alcuni modelli alternativi che modificano l’ipotesi strutturale della conoscenza condivisa o la nozione di preferenza individuale. Il modello “reputation building” è particolarmente interessante perché rende consistente la cooperazione con la razionalità individuale senza assumere l’esistenza di individui altruisti e “irrazionali”. I modelli altruistici incorporano invece diverse caratterizzazioni di altruismo nel concetto di preferenza individuale. Si descrive brevemente il modello di Andreoni e Samuelson e si forniscono alcune considerazioni sull’altruismo puro. 1 Dilemma del Prigioniero non ripetuto Dall’analisi svolta nel corso di decisione razionale del gioco del Dilemma del Prigioniero è emerso che la defezione (la strategia d) è l’unico Equilibrio di Nash della seguente matrice: c d c 3,3 4,0 d 0,4 1,1 La cooperazione, pur costituendo l’esito Pareto-efficiente e socialmente desiderabile dell’interazione, non è una soluzione razionale (nel senso in cui abbiamo caratterizzato la razionalità individuale come risposta agli incentivi e massimizzazione della propria funzione di utilità) per i singoli giocatori. In particolare, la coppia (c, c) non è supportabile come Equilibrio nel Dilemma del Prigioniero perché vi sono incentivi alla deviazione unilaterale (gli agenti non stanno giocando la risposta ottimale alla strategia dell’avversario). Da un punto di vista normativo, dunque, la cooperazione è irrazionale nel gioco del Dilemma del Prigioniero come descritto in questa matrice di decisione. In questo seminario analizzeremo l’ipotesi intuitiva che la ripetizione del gioco tra gli stessi individui possa influenzare l’emergere della cooperazione, 1 verificando quindi se la cooperazione sia razionale (cioè sia un Equilibrio di Nash) nel DP ripetuto. 2 Giochi ripetuti finiti In questa sezione verrà formalizzata brevemente la struttura di un gioco ripetuto finito. Definizione 1 (Gioco ripetuto, Binmore (2007)). Un gioco si dice non ripetuto se viene giocato una sola volta tra gli stessi giocatori. Se un gioco G viene ripetuto più volte dagli stessi giocatori, esso diventa lo “stage game” (gioco-base) di un gioco ripetuto G∗ . Queste sono le principali caratteristiche di un gioco ripetuto: 1. Ad ogni ripetizione di G∗ , le strategie a disposizione dei giocatori e le relazione di preferenza sono le stesse del gioco-base G. 2. I risultati in termini di utilità dei giocatori si ottengono sommando i risultati di ciascuno in ogni ripetizione. 3. Una strategia di un giocatore per un gioco ripetuto non è semplicemente un elenco di alternative reali da giocare in ogni ripetizione del gioco, perché un’azione di un agente alla ripetizione n può essere influenzata e quindi contingente alla “storia del gioco”, cioè a quanto è avvenuto nelle ripetizioni fino a n − 1. Definizione 2 (Storia di un gioco ripetuto, Binmore (2007)). Se consideriamo il caso di un gioco con due giocatori, definiamo l’insieme H = Ai × Aj , dove Ai e Aj sono gli insiemi delle alternative reali rispettivamente per i giocatori i e j. In particolare, se Ai = {s1 , s2 } e Aj = {t1 , t2 }, i quattro elementi di H sono le quattro possibili “storie” del gioco ad ogni ripetizione. Ad esempio potremmo avere h1 = {s2 , t1 } alla prima ripetizione e h2 = {s2 , t2 } alla seconda ripetizione. Si assume che anche la storia del gioco (oltre alla matrice, alle funzioni di utilità e alle razionalità individuali) sia conoscenza condivisa tra i giocatori. Definizione 3 (Strategia in un gioco ripetuto, Binmore (2007)). Una strategia per i in un gioco ripetuto è una coppia (s, f ) in cui s ∈ Ai è un’alternativa reale da giocare alla prima ripetizione di G∗ , e f : H → Ai è una funzione. I giochi ripetuti si distinguono per il numero di ripetizioni fra finiti e infiniti. In questo seminario verranno presi in considerazione solo i giochi ripetuti finiti. In particolare l’ipotesi è che il numero di ripetizioni del gioco sia conoscenza condivisa tra i giocatori. 2 2.1 Esempi di strategie nel DP ripetuto • Tit-for-tat. La strategia tit-for-tat comincia giocando c e in seguito “copia” l’azione compiuta dall’avversario nel turno precedente. • Grim strategy (strategia “spietata”). Anche questa strategia comincia con la cooperazione, ma prevede che, dopo la prima defezione dell’avversario, venga sempre giocata la strategia d. 3 Dilemma del Prigioniero finitamente ripetuto Abbiamo a questo punto sufficienti elementi per verificare se la cooperazione sia una soluzione razionale del DP finitamente ripetuto. Possiamo dimostrare il seguente teorema: Teorema 1. Il Dilemma del Prigioniero finitamente ripetuto ha un unico Equilibrio di Nash in cui tutti i giocatori giocano d in ogni ripetizione del gioco. Dimostrazione. La dimostrazione del Teorema 1 è per induzione. Nell caso in cui n (numero di ripetizioni)= 1, il teorema è dimostrato per le considerazioni esposte nella sezione1. Assumiamo ora di essere giunti alla n-esima ripetizione del DP, dopo una storia del gioco h. Il risultato in termini di utilità all’n-esimo turno per i sarà x(h) = x1 + x2 + ... + xn (cioè la somma dei risultati ottenuti in ogni turno del gioco) e analogamente y(h) = y1 + y2 + ... + yn per j. Ma questo significa che alla ripetizione n + 1 il DP è strategicamente identico al caso n = 1, perché si aggiungono semplicemente le costanti x(h) e y(h) ai valori di utilità dei giocatori, come descritto in questa matrice: c d c 3+xh ; 3+yh 4+xh ; 0+yh d 0+xh ;4+yh 1+xh ; 1+yh Anche in questo caso, la desiderabilità sociale (cioè i benefici collettivi) della cooperazione è inconsistente con l’uso strategico delle razionalità individuali. Se il gioco G∗ è costituito da 10 ripetizioni, una strategia più vantaggiosa (che assicura un’utilità maggiore) per entrambi i giocatori sarebbe infatti cooperare in tutti i turni del gioco, ma possiamo verificare intuitivamente come questa soluzione non possa costituire un equilibrio del gioco. Ammettiamo per il momento che i e j abbiano in qualche modo compreso i vantaggi reciproci della cooperazione e giochino la strategia c, perché temono che defezionando l’avversario potrà “vendicarsi” al turno successivo annullando cosı̀ i benefici della serie cooperativa. La decima ripetizione è però strategicamente equivalente ad un DP non ripetuto, poiché non vi è il deteterrente della vendetta al turno successivo, e quindi la strategia dominante è d, qualsiasi storia abbia avuto fino a quel punto il gioco. Ma se nell’ultima ripetizione del gioco la risposta ottimale di 3 entrambi i giocatori è d, anche nel penultimo turno non esiste alcun deterrente alla defezione. Applicando questo ragionamento iteratamente e assumendo la conoscenza condivisa delle razionalità individuali, la strategia dominante per G∗ sarà quella di giocare sempre d. La cooperazione non costituisce quindi una soluzione razionale neanche nella versione finitamente ripetuta del Dilemma del Prigioniero. 4 Evidenze sperimentali Finora abbiamo considerato la cooperazione nel DP solo da un punto di vista normativo, e il risultato è che c è una strategia dominata sia nel gioco non ripetuto sia nel gioco ripetuto un numero finito di volte. Evidenze sperimentali mostrano però come molti individui cooperino in entrambe le situazioni, specialmente nei primi turni di un gioco ripetuto finito (Adreoni and Samuelson (2006)). Come notano Andreoni e Samuelson, questi risultati ci inducono ad ampliare la nozione usata finora di razionalità, costruendo un modello in grado di spiegare la cooperazione senza semplicemente concludere che essa sia irrazionale. In particolare, i modelli alternativi che presenteremo brevemente andranno a modificare un’ipotesi strutturale (la conoscenza condivisa) e la nozione di preferenza, e verranno giudicati sulla base della loro consistenza e del loro valore predittivo rispetto ai risultati sperimentali. Prenderemo in considerazione due classi di modelli: il primo è definito come “rationality hypotesis”, il secondo come “altruism hypothesis”. 4.1 The Rationality Hypothesis Questo modello si fonda sull’indebolimento dell’ipotesi della conoscenza condivisa della razionalità di tutti gli individui coinvolti nell’interazione. Come abbiamo analizzato nella sezione 3, è proprio l’uso in modo iterato di questa ipotesi a rendere d l’unica strategia dominante nel gioco del DP ripetuto in modo finito. La versione proposta da Andreoni and Miller (1993) assume che ci sia un’informazione incompleta sui “tipi” dei giocatori, e che sia i sia j assegnino una probabilità δ > 0 al fatto che l’avversario possa essere altruista (cioè, per come abbiamo caratterizzato finora la razionalità individuale, irrazionale). L’altruismo potrebbe esprimersi ad esempio come l’uso da parte dell’altro giocatore della strategia tit-for-tat. In questi casi, un giocatore potrebbe avere interesse a fingere di essere altruista, e quindi cooperare nelle prime ripetizioni del DP, per costruirsi una reputazione di “cooperatore“ e poi poter poi defezionare negli ultimi turni. L’ipotesi della “reputation building” è consistente con la razionalità individuale, perché un giocatore massimizza la propria funzione di utilità se defeziona quando l’avversario coopera, e quindi ha un incentivo a indurre l’altro giocatore a “fidarsi” per poi ingannarlo. Questo modello può dunque spiegare la cooperazione nei primi turni di un DP ripetuto in modo finito senza dover ammettere l’esistenza di individui realmente altruisti o irrazionali: è infatti sufficiente che la probabilità soggettiva che ogni giocatore assegna alla possibilità 4 che glil altri siano altruisti sia abbastanza elevata. L’indebolimento dell’ipotesi della conoscenza condivisa sembra anche ridurre l’astrazione del modello, come nota Binmore (2007). Andreoni e Miller mostrano il potere predittivo dell’ipotesi della “reputation builiding” per un esperimento che prevede che 14 soggetti giochino fra di loro serie di DP ripetuto dieci volte per un totale di 200 interazioni. In queste condizioni vi è un forte incentivo alla creazione di reputazione e la cooperazione diventa un “equilibrio reputazionale” del gioco. Particolarmente rilevante per l’adeguatezza del modello è l’osservazione che quando gli individui nel gruppo possono riconoscersi tra loro il tasso di cooperazione cresce notevolmente rispetto a quanto avviene nello stesso gioco fra estranei, in cui non vi è la possibilità di costruirsi una reputazione di cooperatori. 4.2 The Altruism Hypothesis Il modello costruito nella sezione precedente non è però in grado di spiegare la cooperazione nel DP non ripetuto. Inoltre, sotto l’ipotesi della “reputation building”, man mano che gli individui vengono a conoscenza dell’effettiva distribuzione dei “tipi” di giocatori all’interno del gruppo e del fatto che non esistono giocatori altruisti, la defezione dovrebbe verificarsi sempre prima nel gioco e la cooperazione dovrebbe sparire. Invece il tasso di cooperazione si abbassa con il proseguire delle interazioni ma senza mai annullarsi del tutto (Andreoni and Miller (2006)). Partendo da evidenze sperimentali di comportamenti altruistici, si possono costruire dei modelli che incorporino l’altruismo nelle preferenze individuali degli agenti. Come sintetizzato Andreoni and Miller (2006) , la maggior parte dei modelli alternativi di altruismo appartengono o tentano un’integrazione tra tre modelli base: • Altruismo puro. Sia pi il risultato in termini di utilità di un giocatore i. In questo modello, ui = pi + αpj , con 0 ≤ α ≤ 1. Questo significa che i si cura direttamente del risultato dell’altro giocatore j, in modo direttamente proporzionale al valore del parametro α. • Dovere. ui = pi +α, dove α ≥ 0 ogni volta che i coopera, e α = 0 altrimenti. Questo modello cerca di descrivere la situazione in cui i sente un obbligo “morale” a cooperare. • Altruismo reciproco. ui = pi + α, dove α ≥ 0 se sia i sia il suo avversario cooperano, e α = 0 altrimenti. Questo tipo di altruismo è anche definito “mutual altruism”. Analizzeremo brevemente un modello di preferenze altruiste e in seguito esporremo alcune considerazioni sul modello dell’altruismo puro. 4.2.1 Modello altruistico di Andreoni e Samuelson Il modello costruito da Andreoni e Samuelson ha come punto di partenza le seguenti evidenze empiriche che intende giustificare: 5 • una rilevante proporzione di individui coopera nel DP non ripetuto. • i giocatori sono eterogenei, cioè alcuni cooperano o defezionano in ogni caso e altri sono “cooperatori condizionali”, nel senso che sono più propensi a cooperare in determinate condizioni piuttosto che in altre. L’intento degli autori è quello di costruire delle funzioni di utilità individuali che tengano conto di questi risultati e siano consistenti con la cooperazione nel DP ripetuto (nel caso preso in considerazione in Andreoni and Samuelson (2006), il DP è ripetuto per due volte). Assumiamo che le utilità individuali di due giocatori nel DP non ripetuto siano, rispettivamente, per c e d: c : π(c, %, α) e d : π(d, %, α) dove % è la probabilità soggettiva che l’agente attribuisce al fatto che l’avversario cooperi, e α è un parametro che caratterizza il tipo del giocatore. Infatti α rappresenta la probabilità di cooperazione dell’avversario sotto l’ipotesi della quale un individuo preferisce cooperare invece che defezionare. Se α < 0 significa che un agente preferisce cooperare indipendente dalla probabilità che il suo avversario faccia il contrario; se α > 1, il giocatore defeziona sempre; se α ∈ (0, 1), l’agente preferisce a volte c e a volte d a seconda della probabilità che l’altro giocatore cooperi. In altre parole, un giocatore di tipo α è indifferente tra c e d quando la probabilità che l’avversario cooperi è α, cioè: π(c, α, α) = π(d, α, α). Possiamo definire il primo tipo di giocatori come “altruisti puri” e l’ultimo come “cooperatori condizionali”. La funzione π(z, %, α) con z ∈ (c, d) è una quindi una funzione di utilità prevista. Possiamo infatti considerare le funzioni π̃(c, c, α) e π̃(c, d, α) come le utilità di (c, c) e (c, d) rispettivamente. L’utilità prevista, quando l’avversario coopera con la probabilità % è dunque: %π̃(c, c, α) + (1 − %)π̃(c, d, α) = π(c, %, α) Analogamente per l’utilità prevista di d. Questo modello descrive la situazione in cui alcuni giocatori cooperano in ogni caso, altri non cooperano mai ma soprattutto alcuni individui preferiscono la cooperazione reciproca alla non cooperazione, ma non sono altruisti indipendentemente dal comportamento degli altri individui coinvolti nell’interazione. L’uso di questo modello è consistente con la cooperazione almeno nel primo dei due periodi del DP ripetuto (per i risultati sperimentali si veda ) e con le due evidenze sperimentali che Andreoni e Samuelson intendevano giustificare. 4.2.2 Altruismo puro Il modello dell’altruismo reciproco, detto anche “mutualismo”, è intuitivamente consistente con la massimizzazione dell’utilità individuale quando assumiamo che le interazioni vengano ripetute più volte tra gli stessi individui. La strategia 6 tit-for-tat per un gioco ripetuto è un esempio “ragionevole” di altruismo reciproco1 . Più difficili da giustificare sono invece le forme che Andreoni e Samuelson definiscono di “altruismo puro”, che risulterebbere invece completamente irrazionali dal punto di vista dei singoli agenti. Anche se abbiamo analizzato un modello formale di come questa cooperazione incondizionata possa essere incorporata nelle preferenze di un giocatore (in particolare quando si pone il parametro α < 0), potremmo chiederci se esitano realmente indivdui completamente altruisti, o se ogni forma di cooperazione possa essere spiegata in modo esaustivo e sostenuta solo da forme di altruismo reciproco. Gintis in numerosi articoli (Gintis (2000), Bowles and Gintis (2003), Bowles and Gintis (2006)) porta delle evidenze sperimentali di fenomeni di altruismo puro, fra cui la cooperazione nel DP non ripetuto, e ne propone una spiegazione di tipo evolutivo (cioè come esito di un processo di evoluzione). Gintis definisce l’altruismo puro come “strong reciprocity”, per differenziarlo dalla “weak reciprocity” (altruismo reciproco). Gli individui che sono “strong reciprocators” non solo massimizzano direttamente le funzioni di utilità degli altri giocatori, ma, secondo la caratterizzazione di Gintis, sono anche disposti a punire i non cooperatori a qualche costo in termini di utilità per se stessi. Nel modello costruito in Gintis (2000) e Bowles and Gintis (2003), un numero n di individui gioca ripetutamente il DP; la “punizione” inflitta a chi non coopera è l’esclusione dal gruppo. Si assume inoltre che il gruppo sia sufficientemente piccolo perché i comportamenti di tutti gli individui siano osservabili. Non potendo in questo seminario formalizzare e analizzare nello specifico tutte le condizioni del modello di Gintis, ci limitiamo a fornirne un’idea intuitiva (per la dimostrazione Gintis (2000)). L’ipotesi da cui parte Gintis è che in condizioni di crisi per una popolazione o per un gruppo di individui, la cooperazione è ancora più necessaria e utile per tutti i membri del gruppo che corre un rischio di estinzione o di scioglimento. Al diminuire però della probabilità che le interazioni con gli stessi individui vengano ripetute in futuro (cioè quando, analogamente ai modelli che abbiamo analizzato in precedenza di DP finitamente ripetuto, si avvicinano i turni finali del gioco), la cooperazione diventa strategicamente meno vantaggiosa sia dal punto di vista della “reputation building” sia dal punto di vista dell’altruismo reciproco. Se la sopravvivenza del gruppo fosse dunque determinata unicamente da questi due fenomeni, esso si estinguerebbe. Gintis dimostra invece come la presenza di una percentuale fissa di “strong reciprocators” possa “salvare” il gruppo da questa sorte nei momenti in cui è a rischio di estinzione. Questo elemento, (il rischio di estinzione), che Gintis ritiene sufficientemente realistico (in particolare fa rifrimento a piccole comunità di raccoglitori-cacciatori), costituisce la chiave per una plausibile spiegazione in termini evolutivi della “strong reciprocity”. Totale parole: 2452 1 Risulta da evidenze sperimentali che tit-for-tat è una strategia “imbattibile” nel Dilemma del Prigioniero. Si confronti Axelrod, The evolution of cooperation, 1984. 7 Riferimenti bibliografici [Andreoni and Samuelson (1993)] J. Andreoni and J. H. Miller, Rational Cooperation in the Finitely repeated Prisoner’s Dilemma: Experimental Evidence, in The Economic Journal, No. 103, 1993, pp. 570-585 [Andreoni and Samuelson (2006)] J. Andreoni and L. Samuelson, Building Rational Cooperation, in Journal of Economic Theory, No. 127, 2006, pp. 117-158 [Binmore (2007)] K. Binmore, Playing for Real, Oxford University Press, 2007, pp.319-346 [Bowles and Gintis (2003)] S. Bowles and H. Gintis, The Evolution of Strong Reciprocity: Cooperation in Heterogeneous Populations, in Theoretical Population Biology, No. 65 , 2003, pp.17-38 [Bowles and Gintis (2006)] S. Bowles, Samuel and H. Gintis, The Evolutionary Basis of Collective Action in The Oxford Handbook of Political Economy, Oxford University Press, 2006 [Gintis (2000)] H. Gintis, Strong Reciprocity and Human Sociality, in Journal of Theoretical Biology, No. 206, 2000, pp. 169-179 8