Fangens dilemma ( eller mindre almindeligt kendt som bandittens dilemma ) er et grundlæggende problem i spilteorien , ifølge hvilket rationelle spillere ikke altid vil samarbejde med hinanden, selvom det er i deres bedste interesse. Det antages, at spilleren ("fangen") maksimerer sin egen udbetaling, uden at bekymre sig om andres fordele.
Essensen af problemet blev formuleret af Meryl Flood og Melvin Drescher i 1950. Navnet på dilemmaet blev givet af matematikeren Albert Tucker .
I Fangens Dilemma dominerer forræderi strengt samarbejdet, så den eneste mulige ligevægt er forræderi fra begge deltagere. Kort sagt, uanset opførsel af den anden spiller, vil hver drage mere fordel, hvis han forråder. Da det er bedre at forråde end at samarbejde i enhver situation, vil alle rationelle spillere vælge at forråde.
Ved at opføre sig individuelt rationelt kommer deltagerne sammen til en irrationel løsning: hvis begge forråder, vil de modtage en mindre samlet gevinst, end hvis de samarbejdede (den eneste ligevægt i dette spil fører ikke til en Pareto-optimal løsning). Deri ligger dilemmaet.
I det tilbagevendende fanges dilemma spilles spillet med jævne mellemrum, og hver spiller kan "straffe" den anden for ikke at samarbejde tidligere. I et sådant spil kan samarbejde blive en ligevægt, og incitamentet til at forråde kan opvejes af truslen om straf (i takt med at antallet af iterationer stiger, tenderer Nash-ligevægten til et Pareto-optimum ).
I alle retssystemer er straffen for banditri (begå forbrydelser som del af en organiseret gruppe) meget hårdere end for de samme forbrydelser begået alene (deraf navnet "bandittens dilemma").
Den klassiske formulering af fangens dilemma er:
To kriminelle - A og B - blev taget nogenlunde samtidig for lignende forbrydelser. Der er grund til at tro, at de handlede i samspil, og politiet, efter at have isoleret dem fra hinanden, tilbyder dem den samme aftale: Hvis den ene vidner mod den anden, og han forbliver tavs, så bliver den første løsladt for at hjælpe efterforskningen, og den anden modtager den maksimale fængselstid (10 år). Hvis begge er tavse, går deres handling under en lettere artikel, og hver af dem idømmes seks måneders fængsel. Hvis begge vidner mod hinanden, får de en minimumsstraf (2 år hver). Hver fange vælger, om han vil tie eller vidne mod den anden. Ingen af dem ved dog præcis, hvad den anden vil gøre. Hvad vil der ske?
Spillet kan repræsenteres som følgende tabel:
Fange B forbliver tavs | Fange B vidner | |
Fange A forbliver tavs | Begge får seks måneder. | A får 10 år, B løslades |
Fange A vidner | A løslades, B får 10 års fængsel |
Begge får 2 års fængsel |
Fangens dilemma i normal form . |
Dilemmaet opstår, hvis vi antager, at begge kun bekymrer sig om at minimere deres egne fængselsstraffe.
Forestil dig ræsonnementet fra en af fangerne. Hvis partneren er tavs, så er det bedre at forråde ham og gå fri (ellers - seks måneders fængsel). Hvis en partner vidner, så er det bedre at vidne mod ham også for at få 2 år (ellers - 10 år) i fængsel. "Vidne"-strategien dominerer strengt "hold stille"-strategien. På samme måde kommer en anden fange til samme konklusion.
Fra gruppens (disse to fanger) synspunkt er det bedst at samarbejde med hinanden, tie og modtage seks måneder, da dette vil reducere den samlede fængselsperiode. Enhver anden løsning vil være mindre rentabel. Dette viser meget tydeligt, at i et ikke-nul sum-spil kan Pareto-optimum være det modsatte af Nash-ligevægten .
Samarbejde | forråde | |
Samarbejde | C, C | c, D |
forråde | D, c | d, d |
The Canonical Payoff Matrix of Prisoner's Dilemma |
Du kan udvide spillets skema yderligere ved at abstrahere fra fangernes undertekst. En generaliseret form for spillet bruges ofte i eksperimentel økonomi . Følgende regler giver en typisk implementering af spillet:
Disse regler blev etableret af Douglas Hofstadter og danner den kanoniske beskrivelse af den typiske fanges dilemma.
Hofstadter [2] foreslog, at folk lettere forstår problemer som Prisoner's Dilemma, når de præsenteres som et selvstændigt spil eller handelsproces. Et eksempel er "udveksling af lukkede poser":
To mennesker mødes og udveksler lukkede tasker, idet de indser, at en af dem indeholder penge, den anden - varer. Hver spiller kan respektere aftalen og lægge det, de er blevet enige om, i posen, eller bedrage partneren ved at give en tom pose.
I dette spil vil snyd altid være løsningen med den højeste kortsigtede materielle gevinst.
Nogle spilshows bruger et lignende princip til at afgøre vinderne af enten runden eller finalen. Et eksempel på dilemmaet blev vist i 2012 i det britiske gameshow The Bank Job ved finalen i hver sæson: De to spillere, der kom til finalen, skulle beslutte, hvordan de skulle disponere over gevinsterne. Halvdelen af den samlede jackpot, der blev spillet, var i kufferter mærket CASH, de to andre var avisudklip mærket TRASH (spilleren har en kuffert af hver type). Hver spiller skulle tage en af deres kufferter og give den til den anden. Hvis begge spillere modtog kufferter med KONTANT, så delte de gevinsten i halve. Hvis man gav kufferten til TRASH, så tog han hele spillets bank. Hvis begge gav TRASH, stod begge tilbage uden penge, og gevinsten gik til de spillere, der droppede ud i de foregående faser af finalen.
Eksemplerne på fanger, kortspillet og udvekslingen af lukkede tasker kan virke langt ude, men faktisk er der mange eksempler på menneske-dyr-interaktioner, der har samme udbyttematrix. Derfor er fangens dilemma af interesse for samfundsvidenskaber som økonomi , statskundskab og sociologi , samt dele af biologi - etologi og evolutionsbiologi . Mange naturlige processer er blevet generaliseret til modeller, hvor levende væsener deltager i endeløse fanges dilemma-lignende spil. Denne brede anvendelighed af dilemmaet gør dette spil af stor betydning.
I politisk realisme , for eksempel, bruges dilemma-scenariet ofte til at illustrere problemet med to stater involveret i et våbenkapløb . Begge stater vil erklære, at de har to muligheder: enten øge militærudgifter eller reducere oprustning. I dette tilfælde er postulaterne om fangens dilemma (D > C > d > c) [3] åbenlyst opfyldt :
Fra side A's synspunkt, hvis side B ikke armerer, så er valget for A mellem D og C - det er bedre at armere. Hvis B tilkobler, så er valget for A mellem d og c - igen er det mere rentabelt at tilkoble. For ethvert valg af B er det således mere rentabelt for side A at armere. Situationen for side B er nøjagtig den samme, og begge sider vil i sidste ende søge militær ekspansion .
William Poundstone beskriver i sin bog om fangens dilemma en situation i New Zealand , hvor aviskasser efterlades åbne. Det er muligt at tage en avis uden at betale for den, men det er de færreste, der gør det, for de fleste er klar over, hvilken skade det ville være, hvis alle stjal aviser. Da fangens dilemma i sin reneste form er samtidig for alle spillere (ingen kan påvirke andres beslutninger), kaldes denne fælles tankegang " magisk tænkning ". Som en forklaring på manglen på småtyveri forklarer magisk tænkning frivillig afstemning ved valg (hvor ikke-vælgeren betragtes som en hare ). Alternativt kan denne adfærd forklares med forventningen om fremtidige handlinger (og kræver ikke forbindelse med "magisk tænkning"). Modellering af fremtidige handlinger kræver tilføjelse af en tidsdimension, hvilket gøres i et tilbagevendende dilemma.
Den teoretiske konklusion på dilemmaet er en af grundene til , at anbringende forhandlinger er forbudt i mange lande . Ofte gentages scenariet med dilemmaet meget præcist: Det er i begge mistænktes interesse at tilstå og vidne mod den anden mistænkte, selvom begge er uskyldige. Måske er det værste tilfælde, når kun én er skyldig, i hvilket tilfælde det er usandsynligt, at den uskyldige vil tilstå noget, og den skyldige vil gå videre og vidne mod den uskyldige.
Mange dilemmaer fra det virkelige liv involverer flere spillere. Selvom det er metaforisk, kan Hardins " tragedy of the commons " ses som en generalisering af dilemmaet for flere spillere. Hver beboer i samfundet vælger, om de vil græsse kvæg på en fælles græsgang og drage fordel ved at udtømme deres ressourcer , eller at begrænse deres indkomst. Det kollektive resultat af den generelle (eller hyppige) maksimale udnyttelse af græsningen er lav indkomst (der fører til ødelæggelse af samfundet). Sådan et spil er dog ikke formelt, da det kan opdeles i en sekvens af klassiske 2-spiller spil.
I bogen The Evolution of Cooperation fra 1984 udforskede Robert Axelrod en udvidelse af dilemma-scenariet, som han kaldte Repetitive Prisoner's Dilemma (RPD). I den træffer deltagerne valg igen og igen og husker tidligere resultater. Axelrod inviterede akademiske kolleger fra hele verden til at udvikle computerstrategier for at konkurrere i PDD-mesterskabet. Programmerne inkluderet i det varierede i algoritmisk kompleksitet, indledende fjendtlighed, evne til at tilgive og så videre.
Axelrod opdagede, at hvis spillet blev gentaget i lang tid blandt mange spillere, hver med forskellige strategier, klarede "grådige" strategier sig dårligt i det lange løb, mens mere " altruistiske " strategier klarede sig bedre ud fra et egeninteressesynspunkt. Han brugte dette til at vise en mulig mekanisme for udviklingen af altruistisk adfærd fra mekanismer, der oprindeligt er rent egoistiske , gennem naturlig udvælgelse .
Den bedste deterministiske strategi var Tit for Tat , som blev udviklet og stillet op til mesterskabet af Anatoly Rapoport . Det var det enkleste af alle de deltagende programmer, der kun bestod af 4 linjer BASIC -kode . Strategien er enkel: samarbejde om den første iteration af spillet, hvorefter spilleren gør det samme, som modstanderen gjorde i det foregående trin. "Tit for an Tat with Forgiveness"-strategien fungerer lidt bedre. Når en modstander forråder, i det næste trin, samarbejder spilleren nogle gange, uanset det forrige trin, med en lille sandsynlighed (1-5%). Dette giver dig mulighed for tilfældigt at forlade cyklussen af gensidigt forræderi. Det fungerer bedst, når fejlkommunikation introduceres i spillet - når en spillers beslutning bliver kommunikeret til en anden ved en fejl.
Ved at analysere de strategier, der scorede de bedste resultater, nævnte Axelrod flere betingelser, der er nødvendige for, at strategien kan opnå et højt resultat:
Således kom Axelrod til den utopiske konklusion, at egoistiske individer til deres eget egoistiske bedste ville stræbe efter at være venlige, tilgivende og ikke-misundelige.
Overvej igen våbenkapløbsmodellen. Det blev konkluderet, at den eneste rationelle strategi er at bevæbne, selvom begge lande gerne vil bruge deres BNP på olie frem for våben [4] . Interessant nok viser forsøg på at demonstrere, at dilemmaslutning virker i praksis (ved at lave en analyse af "høje" og "lave" militærudgifter mellem perioder, baseret på antagelserne fra TPP) ofte, at denne adfærd ikke forekommer (f.eks. græsk og Tyrkiske militærudgifter ændres ikke i overensstemmelse med strategien "øje for øje", men følger højst sandsynligt en intern politik). Dette kan være et eksempel på rationel adfærd forskellig fra one-shot og multi-move spil.
Hvis forræderistrategien under alle omstændigheder dominerer i et et-træks-spil, så afhænger den optimale strategi i et multi-move-spil af andre deltageres adfærd. For eksempel, hvis alle i befolkningen er hinanden utro, og man opfører sig efter princippet om "øje for øje", er han på et lille tab på grund af tabet ved første træk. I sådan en befolkning er den optimale strategi altid at forråde. Hvis antallet af dem, der bekender sig til princippet om "øje for øje", er større, så afhænger resultatet allerede af deres andel i samfundet.
Der er to måder at bestemme den optimale strategi på:
Selvom tit-for-tat-strategien blev betragtet som den mest succesrige simple strategi, præsenterede et hold fra University of Southampton ledet af professor Nicholas Jennings [6] en ny strategi til 20-årsdagen for PKD-mesterskabet. Denne strategi har været mere vellykket end tit-for-tat. Den var afhængig af interaktionen mellem programmerne for at få den maksimale score for et af dem. Universitetet opstillede 60 programmer til mesterskabet, som genkendte hinanden ved en række handlinger i de første 5-10 træk. Efter at have genkendt det andet, samarbejdede det ene program altid, mens det andet forrådte, hvilket gav maksimalt point til forræderen. Hvis programmet forstod, at modstanderen ikke var fra Southampton, ville det fortsætte med at forråde ham hele tiden for at minimere modstanderens resultat. Som et resultat [7] tog denne strategi de tre første pladser i konkurrencen, samt flere pladser i træk nedenfor.
Selvom denne evolutionært stabile strategi viste sig at være mere effektiv i konkurrencen, blev dette opnået på bekostning af at tillade flere agenter at deltage i den pågældende konkurrence. Hvis spilleren kun kan kontrollere én agent, er tit for tat det bedste. Hun overholder også reglen om ingen kommunikation mellem spillere. Det faktum, at Southampton-programmerne udførte en "rituel dans" i de første 10 omgange for at lære hinanden at kende, bekræfter kun, hvor vigtig kommunikation er for at flytte balancen i spillet.
Hvis PDZ afspilles nøjagtig N gange (en eller anden kendt konstant N), er der en anden interessant kendsgerning. Nash-ligevægten er altid at forråde. Vi beviser ved induktion: Hvis begge samarbejder, er det rentabelt at forråde det sidste træk, så vil modstanderen ikke have mulighed for at tage hævn. Derfor vil begge forråde hinanden i sidste træk. Da modstanderen under alle omstændigheder vil forråde det sidste træk, vil enhver spiller ønske at forråde på det næstsidste træk, og så videre. For at samarbejdet forbliver rentabelt, skal fremtiden være usikker for begge aktører. En løsning er at gøre tallet N tilfældigt og beregne resultaterne ved den gennemsnitlige udbetaling pr. tur.
Fangens dilemma er grundlæggende for nogle teorier om menneskelig interaktion og tillid. Ud fra dilemmamodellens antagelse om, at en transaktion mellem to personer kræver tillid, kan tillidsadfærd i populationer modelleres ved hjælp af en multiplayer iterativ version af spillet. Dette har inspireret mange videnskabsmænd i årevis. I 1975 anslog Grofman og Poole antallet af artikler, der var afsat til dette emne, til omkring 2000.
Hvis spillere kan vurdere muligheden for forræderi fra andre spillere, er deres adfærd påvirket af erfaring. Simple statistik viser, at uerfarne spillere normalt opfører sig overdrevent godt eller dårligt. Hvis de opfører sig sådan hele tiden, vil de tabe, fordi de er for aggressive eller for venlige. Efterhånden som de får mere erfaring, vurderer de mere realistisk sandsynligheden for forræderi og opnår bedre resultater. Tidlige spil har en stærkere effekt på uerfarne spillere end senere spil på erfarne. Dette er et eksempel på, hvorfor tidlige oplevelser har så stor indflydelse på de unge, og hvorfor de er særligt sårbare over for umotiveret aggression, nogle gange selv bliver det samme.
Det er muligt at reducere sandsynligheden for forræderi i en befolkning gennem samarbejde i tidlige spil, hvilket gør det muligt at opbygge tillid [8] . Derfor kan selvopofrelse i nogle situationer booste gruppemoralen. Hvis gruppen er lille, er der større sandsynlighed for, at positiv adfærd bliver gengældt, hvilket vil tilskynde individer til at samarbejde yderligere. Dette hænger sammen med et andet dilemma, at det at blive behandlet godt uden grund er nydelse, der kan forringe ens moralske karakter.
Disse processer er hovedinteressefeltet inden for gensidig altruisme , gruppeudvælgelse , familieudvælgelse og etik .
Religiøse forestillinger øger graden af samarbejde mellem spillere markant. I undersøgelser førte selv den implicitte omtale af religiøse ord i den indledende opgave før spillet til en signifikant stigning i prosocial adfærd [9] .
![]() | ||||
---|---|---|---|---|
|
Spilteori | |
---|---|
Basale koncepter | |
Typer af spil |
|
Løsningskoncepter | |
Eksempler på spil | |
Beslutningsteoriens paradokser | |
---|---|
|