Spil med ufuldstændige oplysninger

Bayesiansk spil eller ufuldstændig informationsspil i spilteori er karakteriseret ved ufuldstændig information  om modstandere ( deres mulige strategier og udbytte), mens spillere har overbevisninger om denne usikkerhed . Et Bayesiansk spil kan omdannes til et spil med komplet , men uperfekt information, hvis der antages en fælles forudgående distribution. I modsætning til ufuldstændig information omfatter ufuldkommen information viden om modstandernes strategier og udbytte, men spillets historie (modstandernes tidligere handlinger) er ikke tilgængelig for alle deltagere.  

John Harsanyi beskrev Bayesianske spil som følger [1] . Ud over de faktiske deltagere i spillet dukker den virtuelle spiller " Nature " op. Naturen forlener hver af de faktiske deltagere med en tilfældig variabel , hvis værdier kaldes typer . Fordelingen ( tæthed eller sandsynlighedsfunktion ) af typer for hver af spillerne er kendt. I begyndelsen af ​​spillet "vælger" naturen typer af spillere. Typen definerer især deltagerens udbetalingsfunktion. Ufuldstændigheden af ​​information i et Bayesiansk spil er således uvidenheden hos mindst én spiller af samme type som en anden deltager. Spillere har overbevisninger om typer af modstandere; tro er en sandsynlighedsfordeling over et sæt mulige typer. Efterhånden som spillet skrider frem, opdateres overbevisninger i henhold til Bayes' teorem .

Definition

Spillet er defineret som følger: , hvor

  1. - mange spillere.
  2. - mange naturtilstande. Et eksempel på en naturtilstand: rækkefølgen af ​​bunken i et kortspil.
  3. er sættet af spillerhandlinger . Lad .
  4. er et sæt af spillertyper . Typen bestemmes af reglen .
  5. definerer de tilgængelige handlinger for en spiller , der har en eller anden type i .
  6. spillerens udbetalingsfunktion . Mere formelt, lad , og .
  7. sandsynlighedsfordelingen på for hver spiller , det vil sige, at hver spiller vurderer sandsynligheden for naturtilstandene forskelligt; under spillet kender de ham ikke.

En ren strategi skal tilfredsstille alle . Hver spillers strategi afhænger kun af hans type, da andre spillers typer er skjult for ham. Den forventede gevinst for spilleren med denne strategiske profil er .

Lad være sættet af rene strategier,

Den bayesianske ligevægt i et spil er defineret som Nash-ligevægten i et (måske i blandede strategier) spil . Hvis spillet er begrænset, eksisterer der altid Bayesiansk ligevægt.

Eksempler

Sheriffens dilemma

Sheriffen konfronterer den mistænkte. Begge skal samtidig beslutte, om de vil skyde eller ej.

Den mistænkte har to mulige typer: "kriminel" og "lovlydig". Sheriffen har kun én type. Den mistænkte kender sin type, men det gør sheriffen ikke. Der er således ufuldstændig information i spillet, det tilhører den Bayesianske klasse. Ifølge sheriffen er den mistænkte med sandsynlighed p en kriminel, med sandsynlighed 1-p - en lovlydig borger. Værdierne p og 1-p er kendt af begge spillere, da der forudsættes en fælles forudgående fordeling. Det er dette, der gør det muligt at transformere dette spil til et spil med komplet, men uperfekt information.

Sheriffen vil hellere skyde, hvis den mistænkte skyder og undgå at skyde ellers (selvom den mistænkte faktisk er en kriminel). Forbryderen er tilbøjelig til at skyde (også selvom sheriffen ikke skyder), mens den lovlydige borger på nogen måde ønsker at undgå konflikt (også selvom sheriffen skyder). Udbetalingsmatricer afhænger af typen af ​​mistænkt:

 
Type = "lovlydig" Sheriff handling
Brand Ik skyd
Den mistænktes handling Brand -3, -1 -12
Ik skyd -2, -1 0, 0
 
Type = "Kriminel" Sheriff handling
Brand Ik skyd
Den mistænktes handling Brand 0, 0 2, -2
Ik skyd -2, -1 -1.1

Hvis begge har fælles viden om spillernes rationalitet (spiller 1 er rationel; spiller 1 ved at spiller 2 er rationel; spiller 1 ved at spiller 2 ved at spiller 1 er rationel osv. i det uendelige) vil spillet fortsætte iht. følgende ligevægtsscenarie (perfekt Bayesiansk ligevægt) [2] [3] :

Når den mistænkte er af den lovlydige type, er den dominerende strategi, at han ikke skyder; når han er af den kriminelle type, er den dominerende strategi at skyde. Stærkt dominerede strategier kan udelukkes fra overvejelse. Så hvis sheriffen skyder, får han 0 med sandsynlighed p og -1 med sandsynlighed 1-p. Hans forventede udbetaling er p-1. Skyder amtmanden ikke, har han ret til -2 med sandsynlighed p og 0 med sandsynlighed 1-p; det forventede udbytte er -2p. Sheriffen vil altid skyde når p-1 > -2p, altså når p > 1/3.

Se også

Noter

  1. Harsanyi, John C., 1967/1968. "Spil med ufuldstændig information spillet af Bayesian Players, I-III." Management Science 14 (3): 159-183 (Del I), 14 (5): 320-334 (Del II), 14 (7): 486-502 (Del III).
  2. Coursera  . _ coursera . Hentet: 16. juni 2016.
  3. Hu, Yuhuang; Hej, Chu Kiong. En generaliseret kvanteinspireret beslutningsmodel for intelligent agent  //  The Scientific World Journal : journal. - 2014. - 17. marts ( vol. 2014 ). - ISSN 1537-744X . - doi : 10.1155/2014/240983 . — PMID 24778580 .

Litteratur