Cooperazione nel Dilemma del Prigioniero

Transcript

Cooperazione nel Dilemma del Prigioniero
Cooperazione nel Dilemma del Prigioniero
Camilla F. Colombo
16 Maggio 2011
Sia nel Dilemma del Prigioniero non ripetuto sia nel Dilemma del Prigioniero
ripetuto un numero finito di volte, la cooperazione non costituisce un Equilibrio
del gioco e non è quindi un esito razionale dell’interazione. Evidenze sperimentali mostrano però una forte tendenza alla cooperazione in entrambi i casi. A
partire da questi risultati nel seminario si analizzano alcuni modelli alternativi che modificano l’ipotesi strutturale della conoscenza condivisa o la nozione
di preferenza individuale. Il modello “reputation building” è particolarmente
interessante perché rende consistente la cooperazione con la razionalità individuale senza assumere l’esistenza di individui altruisti e “irrazionali”. I modelli
altruistici incorporano invece diverse caratterizzazioni di altruismo nel concetto di preferenza individuale. Si descrive brevemente il modello di Andreoni e
Samuelson e si forniscono alcune considerazioni sull’altruismo puro.
1
Dilemma del Prigioniero non ripetuto
Dall’analisi svolta nel corso di decisione razionale del gioco del Dilemma del Prigioniero è emerso che la defezione (la strategia d) è l’unico Equilibrio di Nash
della seguente matrice:
c
d
c
3,3
4,0
d
0,4
1,1
La cooperazione, pur costituendo l’esito Pareto-efficiente e socialmente desiderabile dell’interazione, non è una soluzione razionale (nel senso in cui abbiamo
caratterizzato la razionalità individuale come risposta agli incentivi e massimizzazione della propria funzione di utilità) per i singoli giocatori. In particolare,
la coppia (c, c) non è supportabile come Equilibrio nel Dilemma del Prigioniero
perché vi sono incentivi alla deviazione unilaterale (gli agenti non stanno giocando la risposta ottimale alla strategia dell’avversario). Da un punto di vista
normativo, dunque, la cooperazione è irrazionale nel gioco del Dilemma del
Prigioniero come descritto in questa matrice di decisione.
In questo seminario analizzeremo l’ipotesi intuitiva che la ripetizione del
gioco tra gli stessi individui possa influenzare l’emergere della cooperazione,
1
verificando quindi se la cooperazione sia razionale (cioè sia un Equilibrio di
Nash) nel DP ripetuto.
2
Giochi ripetuti finiti
In questa sezione verrà formalizzata brevemente la struttura di un gioco ripetuto
finito.
Definizione 1 (Gioco ripetuto, Binmore (2007)). Un gioco si dice non ripetuto
se viene giocato una sola volta tra gli stessi giocatori. Se un gioco G viene
ripetuto più volte dagli stessi giocatori, esso diventa lo “stage game” (gioco-base)
di un gioco ripetuto G∗ .
Queste sono le principali caratteristiche di un gioco ripetuto:
1. Ad ogni ripetizione di G∗ , le strategie a disposizione dei giocatori e le
relazione di preferenza sono le stesse del gioco-base G.
2. I risultati in termini di utilità dei giocatori si ottengono sommando i
risultati di ciascuno in ogni ripetizione.
3. Una strategia di un giocatore per un gioco ripetuto non è semplicemente
un elenco di alternative reali da giocare in ogni ripetizione del gioco,
perché un’azione di un agente alla ripetizione n può essere influenzata
e quindi contingente alla “storia del gioco”, cioè a quanto è avvenuto nelle
ripetizioni fino a n − 1.
Definizione 2 (Storia di un gioco ripetuto, Binmore (2007)). Se consideriamo
il caso di un gioco con due giocatori, definiamo l’insieme H = Ai × Aj , dove Ai
e Aj sono gli insiemi delle alternative reali rispettivamente per i giocatori i e j.
In particolare, se Ai = {s1 , s2 } e Aj = {t1 , t2 }, i quattro elementi di H sono le
quattro possibili “storie” del gioco ad ogni ripetizione.
Ad esempio potremmo avere h1 = {s2 , t1 } alla prima ripetizione e h2 =
{s2 , t2 } alla seconda ripetizione. Si assume che anche la storia del gioco (oltre
alla matrice, alle funzioni di utilità e alle razionalità individuali) sia conoscenza
condivisa tra i giocatori.
Definizione 3 (Strategia in un gioco ripetuto, Binmore (2007)). Una strategia
per i in un gioco ripetuto è una coppia (s, f ) in cui s ∈ Ai è un’alternativa reale
da giocare alla prima ripetizione di G∗ , e f : H → Ai è una funzione.
I giochi ripetuti si distinguono per il numero di ripetizioni fra finiti e infiniti.
In questo seminario verranno presi in considerazione solo i giochi ripetuti finiti.
In particolare l’ipotesi è che il numero di ripetizioni del gioco sia conoscenza
condivisa tra i giocatori.
2
2.1
Esempi di strategie nel DP ripetuto
• Tit-for-tat. La strategia tit-for-tat comincia giocando c e in seguito “copia”
l’azione compiuta dall’avversario nel turno precedente.
• Grim strategy (strategia “spietata”). Anche questa strategia comincia con
la cooperazione, ma prevede che, dopo la prima defezione dell’avversario,
venga sempre giocata la strategia d.
3
Dilemma del Prigioniero finitamente ripetuto
Abbiamo a questo punto sufficienti elementi per verificare se la cooperazione
sia una soluzione razionale del DP finitamente ripetuto. Possiamo dimostrare il
seguente teorema:
Teorema 1. Il Dilemma del Prigioniero finitamente ripetuto ha un unico Equilibrio di Nash in cui tutti i giocatori giocano d in ogni ripetizione del gioco.
Dimostrazione. La dimostrazione del Teorema 1 è per induzione. Nell caso in
cui n (numero di ripetizioni)= 1, il teorema è dimostrato per le considerazioni
esposte nella sezione1. Assumiamo ora di essere giunti alla n-esima ripetizione
del DP, dopo una storia del gioco h. Il risultato in termini di utilità all’n-esimo
turno per i sarà x(h) = x1 + x2 + ... + xn (cioè la somma dei risultati ottenuti in
ogni turno del gioco) e analogamente y(h) = y1 + y2 + ... + yn per j. Ma questo
significa che alla ripetizione n + 1 il DP è strategicamente identico al caso n = 1,
perché si aggiungono semplicemente le costanti x(h) e y(h) ai valori di utilità
dei giocatori, come descritto in questa matrice:
c
d
c
3+xh ; 3+yh
4+xh ; 0+yh
d
0+xh ;4+yh
1+xh ; 1+yh
Anche in questo caso, la desiderabilità sociale (cioè i benefici collettivi) della
cooperazione è inconsistente con l’uso strategico delle razionalità individuali.
Se il gioco G∗ è costituito da 10 ripetizioni, una strategia più vantaggiosa (che
assicura un’utilità maggiore) per entrambi i giocatori sarebbe infatti cooperare
in tutti i turni del gioco, ma possiamo verificare intuitivamente come questa
soluzione non possa costituire un equilibrio del gioco. Ammettiamo per il momento che i e j abbiano in qualche modo compreso i vantaggi reciproci della
cooperazione e giochino la strategia c, perché temono che defezionando l’avversario potrà “vendicarsi” al turno successivo annullando cosı̀ i benefici della serie
cooperativa. La decima ripetizione è però strategicamente equivalente ad un DP
non ripetuto, poiché non vi è il deteterrente della vendetta al turno successivo, e quindi la strategia dominante è d, qualsiasi storia abbia avuto fino a quel
punto il gioco. Ma se nell’ultima ripetizione del gioco la risposta ottimale di
3
entrambi i giocatori è d, anche nel penultimo turno non esiste alcun deterrente
alla defezione. Applicando questo ragionamento iteratamente e assumendo la
conoscenza condivisa delle razionalità individuali, la strategia dominante per
G∗ sarà quella di giocare sempre d.
La cooperazione non costituisce quindi una soluzione razionale neanche nella
versione finitamente ripetuta del Dilemma del Prigioniero.
4
Evidenze sperimentali
Finora abbiamo considerato la cooperazione nel DP solo da un punto di vista
normativo, e il risultato è che c è una strategia dominata sia nel gioco non
ripetuto sia nel gioco ripetuto un numero finito di volte. Evidenze sperimentali mostrano però come molti individui cooperino in entrambe le situazioni,
specialmente nei primi turni di un gioco ripetuto finito (Adreoni and Samuelson (2006)). Come notano Andreoni e Samuelson, questi risultati ci inducono
ad ampliare la nozione usata finora di razionalità, costruendo un modello in
grado di spiegare la cooperazione senza semplicemente concludere che essa sia
irrazionale. In particolare, i modelli alternativi che presenteremo brevemente andranno a modificare un’ipotesi strutturale (la conoscenza condivisa) e la nozione
di preferenza, e verranno giudicati sulla base della loro consistenza e del loro
valore predittivo rispetto ai risultati sperimentali.
Prenderemo in considerazione due classi di modelli: il primo è definito come
“rationality hypotesis”, il secondo come “altruism hypothesis”.
4.1
The Rationality Hypothesis
Questo modello si fonda sull’indebolimento dell’ipotesi della conoscenza condivisa della razionalità di tutti gli individui coinvolti nell’interazione. Come
abbiamo analizzato nella sezione 3, è proprio l’uso in modo iterato di questa
ipotesi a rendere d l’unica strategia dominante nel gioco del DP ripetuto in modo finito. La versione proposta da Andreoni and Miller (1993) assume che ci sia
un’informazione incompleta sui “tipi” dei giocatori, e che sia i sia j assegnino
una probabilità δ > 0 al fatto che l’avversario possa essere altruista (cioè, per
come abbiamo caratterizzato finora la razionalità individuale, irrazionale). L’altruismo potrebbe esprimersi ad esempio come l’uso da parte dell’altro giocatore
della strategia tit-for-tat. In questi casi, un giocatore potrebbe avere interesse a
fingere di essere altruista, e quindi cooperare nelle prime ripetizioni del DP, per
costruirsi una reputazione di “cooperatore“ e poi poter poi defezionare negli ultimi turni. L’ipotesi della “reputation building” è consistente con la razionalità
individuale, perché un giocatore massimizza la propria funzione di utilità se defeziona quando l’avversario coopera, e quindi ha un incentivo a indurre l’altro
giocatore a “fidarsi” per poi ingannarlo. Questo modello può dunque spiegare
la cooperazione nei primi turni di un DP ripetuto in modo finito senza dover
ammettere l’esistenza di individui realmente altruisti o irrazionali: è infatti sufficiente che la probabilità soggettiva che ogni giocatore assegna alla possibilità
4
che glil altri siano altruisti sia abbastanza elevata. L’indebolimento dell’ipotesi
della conoscenza condivisa sembra anche ridurre l’astrazione del modello, come
nota Binmore (2007). Andreoni e Miller mostrano il potere predittivo dell’ipotesi della “reputation builiding” per un esperimento che prevede che 14 soggetti
giochino fra di loro serie di DP ripetuto dieci volte per un totale di 200 interazioni. In queste condizioni vi è un forte incentivo alla creazione di reputazione e
la cooperazione diventa un “equilibrio reputazionale” del gioco. Particolarmente
rilevante per l’adeguatezza del modello è l’osservazione che quando gli individui
nel gruppo possono riconoscersi tra loro il tasso di cooperazione cresce notevolmente rispetto a quanto avviene nello stesso gioco fra estranei, in cui non vi è
la possibilità di costruirsi una reputazione di cooperatori.
4.2
The Altruism Hypothesis
Il modello costruito nella sezione precedente non è però in grado di spiegare
la cooperazione nel DP non ripetuto. Inoltre, sotto l’ipotesi della “reputation
building”, man mano che gli individui vengono a conoscenza dell’effettiva distribuzione dei “tipi” di giocatori all’interno del gruppo e del fatto che non esistono
giocatori altruisti, la defezione dovrebbe verificarsi sempre prima nel gioco e la
cooperazione dovrebbe sparire. Invece il tasso di cooperazione si abbassa con
il proseguire delle interazioni ma senza mai annullarsi del tutto (Andreoni and
Miller (2006)). Partendo da evidenze sperimentali di comportamenti altruistici, si possono costruire dei modelli che incorporino l’altruismo nelle preferenze
individuali degli agenti.
Come sintetizzato Andreoni and Miller (2006) , la maggior parte dei modelli
alternativi di altruismo appartengono o tentano un’integrazione tra tre modelli
base:
• Altruismo puro. Sia pi il risultato in termini di utilità di un giocatore i.
In questo modello, ui = pi + αpj , con 0 ≤ α ≤ 1. Questo significa che i si
cura direttamente del risultato dell’altro giocatore j, in modo direttamente
proporzionale al valore del parametro α.
• Dovere. ui = pi +α, dove α ≥ 0 ogni volta che i coopera, e α = 0 altrimenti.
Questo modello cerca di descrivere la situazione in cui i sente un obbligo
“morale” a cooperare.
• Altruismo reciproco. ui = pi + α, dove α ≥ 0 se sia i sia il suo avversario
cooperano, e α = 0 altrimenti. Questo tipo di altruismo è anche definito
“mutual altruism”.
Analizzeremo brevemente un modello di preferenze altruiste e in seguito
esporremo alcune considerazioni sul modello dell’altruismo puro.
4.2.1
Modello altruistico di Andreoni e Samuelson
Il modello costruito da Andreoni e Samuelson ha come punto di partenza le
seguenti evidenze empiriche che intende giustificare:
5
• una rilevante proporzione di individui coopera nel DP non ripetuto.
• i giocatori sono eterogenei, cioè alcuni cooperano o defezionano in ogni caso
e altri sono “cooperatori condizionali”, nel senso che sono più propensi a
cooperare in determinate condizioni piuttosto che in altre.
L’intento degli autori è quello di costruire delle funzioni di utilità individuali
che tengano conto di questi risultati e siano consistenti con la cooperazione
nel DP ripetuto (nel caso preso in considerazione in Andreoni and Samuelson
(2006), il DP è ripetuto per due volte). Assumiamo che le utilità individuali di
due giocatori nel DP non ripetuto siano, rispettivamente, per c e d:
c : π(c, %, α) e d : π(d, %, α)
dove % è la probabilità soggettiva che l’agente attribuisce al fatto che l’avversario
cooperi, e α è un parametro che caratterizza il tipo del giocatore. Infatti α
rappresenta la probabilità di cooperazione dell’avversario sotto l’ipotesi della
quale un individuo preferisce cooperare invece che defezionare. Se α < 0 significa
che un agente preferisce cooperare indipendente dalla probabilità che il suo
avversario faccia il contrario; se α > 1, il giocatore defeziona sempre; se α ∈
(0, 1), l’agente preferisce a volte c e a volte d a seconda della probabilità che
l’altro giocatore cooperi. In altre parole, un giocatore di tipo α è indifferente tra
c e d quando la probabilità che l’avversario cooperi è α, cioè:
π(c, α, α) = π(d, α, α).
Possiamo definire il primo tipo di giocatori come “altruisti puri” e l’ultimo come
“cooperatori condizionali”. La funzione π(z, %, α) con z ∈ (c, d) è una quindi una
funzione di utilità prevista. Possiamo infatti considerare le funzioni π̃(c, c, α)
e π̃(c, d, α) come le utilità di (c, c) e (c, d) rispettivamente. L’utilità prevista,
quando l’avversario coopera con la probabilità % è dunque:
%π̃(c, c, α) + (1 − %)π̃(c, d, α) = π(c, %, α)
Analogamente per l’utilità prevista di d.
Questo modello descrive la situazione in cui alcuni giocatori cooperano in
ogni caso, altri non cooperano mai ma soprattutto alcuni individui preferiscono
la cooperazione reciproca alla non cooperazione, ma non sono altruisti indipendentemente dal comportamento degli altri individui coinvolti nell’interazione.
L’uso di questo modello è consistente con la cooperazione almeno nel primo dei
due periodi del DP ripetuto (per i risultati sperimentali si veda ) e con le due
evidenze sperimentali che Andreoni e Samuelson intendevano giustificare.
4.2.2
Altruismo puro
Il modello dell’altruismo reciproco, detto anche “mutualismo”, è intuitivamente
consistente con la massimizzazione dell’utilità individuale quando assumiamo
che le interazioni vengano ripetute più volte tra gli stessi individui. La strategia
6
tit-for-tat per un gioco ripetuto è un esempio “ragionevole” di altruismo reciproco1 . Più difficili da giustificare sono invece le forme che Andreoni e Samuelson
definiscono di “altruismo puro”, che risulterebbere invece completamente irrazionali dal punto di vista dei singoli agenti. Anche se abbiamo analizzato
un modello formale di come questa cooperazione incondizionata possa essere
incorporata nelle preferenze di un giocatore (in particolare quando si pone il
parametro α < 0), potremmo chiederci se esitano realmente indivdui completamente altruisti, o se ogni forma di cooperazione possa essere spiegata in modo
esaustivo e sostenuta solo da forme di altruismo reciproco.
Gintis in numerosi articoli (Gintis (2000), Bowles and Gintis (2003), Bowles
and Gintis (2006)) porta delle evidenze sperimentali di fenomeni di altruismo
puro, fra cui la cooperazione nel DP non ripetuto, e ne propone una spiegazione
di tipo evolutivo (cioè come esito di un processo di evoluzione). Gintis definisce
l’altruismo puro come “strong reciprocity”, per differenziarlo dalla “weak reciprocity” (altruismo reciproco). Gli individui che sono “strong reciprocators”
non solo massimizzano direttamente le funzioni di utilità degli altri giocatori,
ma, secondo la caratterizzazione di Gintis, sono anche disposti a punire i non
cooperatori a qualche costo in termini di utilità per se stessi. Nel modello costruito in Gintis (2000) e Bowles and Gintis (2003), un numero n di individui gioca
ripetutamente il DP; la “punizione” inflitta a chi non coopera è l’esclusione dal
gruppo. Si assume inoltre che il gruppo sia sufficientemente piccolo perché i
comportamenti di tutti gli individui siano osservabili. Non potendo in questo
seminario formalizzare e analizzare nello specifico tutte le condizioni del modello
di Gintis, ci limitiamo a fornirne un’idea intuitiva (per la dimostrazione Gintis
(2000)). L’ipotesi da cui parte Gintis è che in condizioni di crisi per una popolazione o per un gruppo di individui, la cooperazione è ancora più necessaria
e utile per tutti i membri del gruppo che corre un rischio di estinzione o di
scioglimento. Al diminuire però della probabilità che le interazioni con gli stessi
individui vengano ripetute in futuro (cioè quando, analogamente ai modelli che
abbiamo analizzato in precedenza di DP finitamente ripetuto, si avvicinano i
turni finali del gioco), la cooperazione diventa strategicamente meno vantaggiosa sia dal punto di vista della “reputation building” sia dal punto di vista
dell’altruismo reciproco. Se la sopravvivenza del gruppo fosse dunque determinata unicamente da questi due fenomeni, esso si estinguerebbe. Gintis dimostra
invece come la presenza di una percentuale fissa di “strong reciprocators” possa
“salvare” il gruppo da questa sorte nei momenti in cui è a rischio di estinzione.
Questo elemento, (il rischio di estinzione), che Gintis ritiene sufficientemente realistico (in particolare fa rifrimento a piccole comunità di raccoglitori-cacciatori),
costituisce la chiave per una plausibile spiegazione in termini evolutivi della
“strong reciprocity”.
Totale parole: 2452
1 Risulta
da evidenze sperimentali che tit-for-tat è una strategia “imbattibile” nel Dilemma
del Prigioniero. Si confronti Axelrod, The evolution of cooperation, 1984.
7
Riferimenti bibliografici
[Andreoni and Samuelson (1993)] J. Andreoni and J. H. Miller, Rational Cooperation in the Finitely repeated Prisoner’s Dilemma: Experimental
Evidence, in The Economic Journal, No. 103, 1993, pp. 570-585
[Andreoni and Samuelson (2006)] J. Andreoni and L. Samuelson, Building Rational Cooperation, in Journal of Economic Theory, No. 127, 2006, pp.
117-158
[Binmore (2007)] K. Binmore, Playing for Real, Oxford University Press, 2007,
pp.319-346
[Bowles and Gintis (2003)] S. Bowles and H. Gintis, The Evolution of Strong
Reciprocity: Cooperation in Heterogeneous Populations, in Theoretical
Population Biology, No. 65 , 2003, pp.17-38
[Bowles and Gintis (2006)] S. Bowles, Samuel and H. Gintis, The Evolutionary Basis of Collective Action in The Oxford Handbook of Political
Economy, Oxford University Press, 2006
[Gintis (2000)] H. Gintis, Strong Reciprocity and Human Sociality, in Journal
of Theoretical Biology, No. 206, 2000, pp. 169-179
8