Spiller ruin problem

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 13. februar 2020; checks kræver 5 redigeringer .

Problemet med at ødelægge en spiller  er et problem fra sandsynlighedsteoriens felt . Det blev overvejet i detaljer af den russiske matematiker A. N. Shiryaev i monografien "Sandsynlighed" [1] .

Ordlyd

Der er to spillere ved bordet . Den første har rubler til sin rådighed, den anden har rubler til sin rådighed . Foran dem på bordet ligger en asymmetrisk mønt ( sandsynligheden for , at en forside falder ud, kan være lig med ethvert tal fra 0 til 1 inklusive). Hvis forsiden falder på mønten, så vinder den første spiller rublen (den anden spiller betaler den første 1 rubel), og hvis bagsiden falder, betaler den første spiller den anden rubel. Det er nødvendigt at finde sandsynligheden for, at en af ​​spillerne taber til nul i trin, og sandsynligheden for at miste hver spiller. Det er også nødvendigt at beregne den gennemsnitlige længde af spillet.

Denne situation kan modelleres på en lignende måde: der er en vandrende partikel og en korridor . Vi overvejer sandsynligheden for, at partiklen forlader korridoren i trin (glider gennem den øvre eller nedre væg).

Bernoulli-skema

Overvej Bernoulli-ordningen med forsøg.

Lad være  et sandsynlighedsrum, hvor

I udtrykket ovenfor kan antallet af droppede enheder findes som følger: .

Vi introducerer en sekvens af Bernoulli tilfældige variable:

Sandsynlighedsnormalisering underproblem

Bevis det


Løsning

Dette er sandt på grund af det faktum, at

, da ved betingelse .

Underproblemet om uafhængighed af stokastiske variable ξ i

Bevis det og vær uafhængig.


Løsning

Tilfældige variables uafhængighed betyder det

lad os vise det:

Tilfældig gåtur

For Bernoulli-skemaet er vi enige om følgende betydning af den stokastiske variabel ξ: betyder, at den anden spiller betaler den første, og den første spiller betaler den anden.

Lad os introducere en ny notation:

, .

Tallet  er lig med spillets varighed, og sekvensen kan betragtes som banen for en tilfældig gang af en partikel, der starter fra nul, mens ligheden er indlysende , og det betyder, at den første spiller vinder over den anden (hvilket kan være negativ).


Lad ,  være to heltal, , . Det er nødvendigt at finde sandsynligheden for, at partiklens udgang fra korridoren afgrænset af og vil blive udført i trin .

Yderligere, lad  være et heltal, . Lad også for det (hvilket betyder, at spillerne begyndte at spille med ikke-nul kapital til deres rådighed). Lad . Lad os antage, at hvis . Hvis partiklen aldrig krydsede grænserne, så er den udefineret.

For hvert øjeblik kaldes det stoppemoment , som er en tilfældig variabel defineret på rummet af elementære begivenheder .  er den begivenhed, at den tilfældige gåtur , der starter ved punktet , vil forlade intervallet på det tidspunkt . Lad os introducere ny notation: , for . Lad ,  være sandsynligheden for, at partiklen forlader intervallet i tid, henholdsvis på punkterne og .

Lad ; det er indlysende, at (indtil spillet starter, er partiklen inde i intervallet med sandsynlighed 1). Lad nu . Derefter ifølge den samlede sandsynlighedsformel

Tilbagevendende underproblem

Bevis det

(1 )

(2) .

Bevis.

(1) Lad os bevise det .

, hvor  er det sæt af baner af formen , som for første gang forlader intervallet ved punktet (vist på figuren). Hvis en tilfældig vektor falder ind i en passende bane, så falder den ind i mængden . Lad os repræsentere sættet som . Den usammenhængende forening er legitim, fordi enhver partikel, der passerer langs en bane, har .  er de baner , hvorfra .  er de baner , hvorfra . Bemærk, at hver bane fra er i en-til-en-korrespondance med bane fra . En-til-en korrespondance bevises ved modsigelse . Antag at (tvetydig korrespondance); så vil denne bane ikke være i stand til at tage partiklen ud af korridoren i trin (men kun på grund af den indledende afstand fra korridorens øvre væg). I modsat retning er korrespondancen også en-til-en fra definitionen :. Det følger af dette (da de er uafhængige identisk fordelte stokastiske variable ).

Der er en anden måde at bevise det på:

.

Dette er sandt, fordi sandsynligheden er uafhængig (dette blev bevist tidligere).


(2) På lignende måde vil vi bevise, at .

Hver bane fra er i en-til-en-korrespondance med bane fra . Herfra

Afledning af gentagelsesrelationen

Det følger af ligningen for det for og er sandt:

, for .


Den samlede sandsynlighedsformel giver os også følgende resultat: .


Bemærk også at , og derfor for . Dette udsagn er sandt, da til enhver bane, der tager partiklen ud i færre trin, kan der tilføjes et trin ( ) til begyndelsen, hvor partiklen kan komme til punktet både fra (for ) og fra ( ).

Finde sandsynligheder

For tilstrækkeligt store , er sandsynligheden tæt på  - at løse ligningen under de betingelser, at (udgangen skete umiddelbart fra punktet  - slutningen af ​​spillet, den første spiller vandt), (den første spiller vil aldrig vinde, hvis udgangen sker øjeblikkeligt på punktet ). Disse forhold følger af, at . Dette vil også blive bevist i dette afsnit.

Først får vi løsningen af ​​ligningen . Lad spillet være uretfærdigt ( ). I dette tilfælde finder vi ligningens rødder, dvs. En bestemt løsning er umiddelbart synlig: . Vi finder en anden løsning ved at bruge det faktum, at det  er en funktion. Det er tilrådeligt at bruge et udtryk med relation , da :. Derfor er det rimeligt at antage det . Tilføjelse af en konstant ændrer ikke noget, fordi .

Overvej nu den generelle løsning: . Vi bruger de samme betingelser som og , og det får vi

Delproblem om løsningens unikke

Lad os bevise det unikke ved løsningen af ​​dette problem. For at gøre dette vil vi vise, at enhver løsning på problemet med grænsebetingelser kan repræsenteres som .


Løsning

Overvej en løsning under de betingelser , . Så er det altid muligt at vælge konstanter og sådan at , . Så følger det af ligningen for det stillede problem, at . Så i det generelle tilfælde . Derfor er løsningen unik. Nøjagtig den samme tankegang kan anvendes på .

Begræns konvergens

Overvej spørgsmålet om hastigheden af ​​begrænsende konvergens af og til og . Lad gåturen starte fra oprindelsen ( ). For nemheds skyld betegner vi , , . Med andre ord,  er én minus summen af ​​sandsynligheden for, at partiklen forlader korridoren - sandsynligheden for, at den forbliver vandre i korridoren: . repræsenterer en begivenhed . Overvej et tal , hvor og en kæde af tilfældige variable . Hvis vi angiver den samlede formue for , så . Der er en rimelig forklaring på dette: hvis partiklen går ud af nul og ikke krydser grænserne, så er summen af ​​stykkerne bestemt mindre end den samlede bestand.

Underproblemet om tilfældige variables uafhængighed ζ i

Lad os bevise, at de er uafhængige og ligeligt fordelt . Det er tilstrækkeligt at bevise, at de er uafhængige, da de alle har binomialfordelingen .


Løsning

Lad os bevise det

.


Lad os vende tilbage til overvejelserne om konvergens.

Det følger af det netop beviste, at .

Overvej variansen : (som er ret legitim, da , og  er en modificeret Bernoulli tilfældig variabel ), derfor, for tilstrækkeligt store og , det er sandt: , hvor , siden hvis , så . Hvis eller , så for tilstrækkelig stor er det sandt , så uligheden er sand . Det følger af ovenstående , at hvor . Siden da ; siden og , da ; kl . Lignende skøn er også gyldige for forskellene , og da disse forskelle kan reduceres til forskellene og for .

Lad os gå tilbage til overvejelserne . I analogi med løsningen af ​​ligningen kan vi sige, at ligningen under randbetingelser har en unik løsning

Det er let at se det for enhver . Hvis spillet er retfærdigt (sandsynligheden for en forside er lig med sandsynligheden for en omvendt), så vil løsningerne se således ud: , .

Svar om sandsynligheden for ødelæggelse

Mængderne og kan kaldes ruin-sandsynlighederne for den første og anden spiller med startkapitalen og med antallet af træk, der tenderer til uendeligt og karakteriserer den stokastiske variabel som den første spillers gevinst, og den  første spillers tab. I det følgende vil det blive vist, hvorfor en sådan sekvens faktisk kan konstrueres.

Hvis , så er den intuitive betydning af funktionen  sandsynligheden for, at den partikel, der forlod positionen, når den øvre væg ( ) tidligere end nul. Det kan ses af formlerne , at

.

Paradokset ved at øge indsatsen på ugunstigt spil

Hvad skal den første spiller gøre, hvis spillet er ugunstigt for ham?

Hans sandsynlighed for at tabe er givet af formlen .


Lad nu den første spiller med kapital beslutte at fordoble indsatsen og spille for to rubler, det vil sige , , . Derefter betegner vi den begrænsende sandsynlighed for ruin af den første spiller som følger: .

Derfor , da det ganges med en brøk, der er større end én ved .


Derfor, hvis sandsynligheden for at få forsiden, som er så ønskværdig for den første spiller, er mindre end , så er det fordelagtigt for ham at øge indsatsen med en faktor på 1: dette reducerer sandsynligheden for hans terminale ruin på grund af kendsgerning, at sandsynligheden for at hoppe ud af korridoren på punktet stiger . Denne beslutning virker paradoksal, da det ser ud til, at man i en ugunstig situation bør sænke indsatsen og reducere tabet, men i virkeligheden, med et uendeligt antal spil og en lav indsats, vil den tabende spiller til sidst tabe til nul, og spilleren med en høj indsats har en større chance for at ramme det antal forsider, der er tilstrækkeligt til at fuldføre spillet på et tidspunkt .

Varigheden af ​​en tilfældig gåtur

Overvej den gennemsnitlige varighed af vores partikels gang. Lad os introducere den matematiske forventning om det øjeblik, hvor spillet stopper: for . Lad os udlede en gentagelsesrelation for den matematiske forventning om spillets varighed:

For og vi har fået en rekursiv relation for funktionen : for .


Lad os introducere grænsebetingelser: hvis spillet starter på punktet eller , så slutter det med det samme - dets varighed vil være lig med 0: .


Ud fra gentagelsesrelationen og randbetingelserne kan man beregne . Siden , så er der en grænse , der tilfredsstiller relationen : når den udføres . Disse overgange ligner dem, vi overvejede, da vi gik over til i tabssandsynlighedsligningen. For at løse denne ligning skal der indføres en betingelse mere: Forventningen til antallet af træk skal være begrænset, det vil sige , , .


Lad os løse denne ligning. I tabssandsynlighedsligningen ( ), er der allerede opnået særlige løsninger og . Her optræder endnu en udfordrer til rollen som en bestemt løsning: , derfor . Under hensyntagen til grænsebetingelsen finder vi at bruge de tidligere opnåede relationer : . I tilfælde af en ideel mønt får vi følgende udtryk: . Anvendelse af grænsebetingelsen giver :. Det følger heraf, at i tilfælde af lige startkapital . For eksempel, hvis hver spiller har 5 rubler, og indsatsen er 1 rubel, vil spillerne i gennemsnit gå i stykker efter 25 træk.

Når man overvejer ovenstående formler, blev det antaget, at den matematiske forventning til antallet af træk er begrænset: . Vi vil nu foreslå et bevis på dette faktum.

Problemet med endeligheden af ​​det forventede antal træk

Bevis det .


Løsning

Det er tilstrækkeligt at bevise dette for sagen (da det allerede er vist tidligere, at sagerne kan reduceres til en variation af og ) og , og derefter overveje sagen .

Så overvej sekvensen og indfør en tilfældig variabel , hvor  er stoppetiden.

Lad . Fortolkningen er som følger:  er værdien af ​​den tilfældige gåtur i øjeblikket . Hvis , så ; hvis , så . Husk det , og bevis det .


For at bevise den første lighed skriver vi :. Det er helt indlysende , at siden kl . Det er tilbage at bevise det .

For det er sandt, at . Den sidste begivenhed kan repræsenteres som , hvor  er en delmængde af sættet . Dette sæt er kun defineret for . For store værdier påvirker ikke . Visningssættet kan også repræsenteres som . På grund af uafhængighed (bevist i delopgave 2 ), følger det, at de stokastiske variable og er uafhængige. Derfor på grund af det faktum, at den første faktor er nul.

Det er fastslået, at for en ideel mønt , .

I tilfældet er der relationer (fordi ) og , siden . Lad os nu vise det .

I tilfælde af et fair spil er det i kraft af forholdet rigtigt, at . Så derfor . Det følger af uligheden , at den matematiske forventning konvergerer til grænseværdien . I tilfælde af unfair play . Siden tidspunktet for den første flyvning af partiklen ud af korridoren blev udpeget som, er dens matematiske forventning mindre end visse tal, derfor mindre end uendelig. Under sådan en betingelse .

Computersimulering (Monte Carlo-metoden)

For at simulere spillet vil vi bruge MATLAB -programmet .

Til at begynde med vil vi generere en sekvens , og derefter, med en vis indledende rigdom, vil vi oprette en kæde :

Sekvensen ξ (getXI)

n = 100 _ % Længden af ​​\xi_i-serien U = rand ( n , 1 ); % Generer 100 tilfældige ensartede [0;1] værdier XI = nuller ( n , 1 ); % Reserver hukommelse til 100 modificerede Bernoulli q = 0,55 ; % omvendt sandsynlighed p = 1 - q ; % modsat sandsynlighed % Den følgende cyklus skaber en Bernoulli-fordeling baseret på ensartet [0;1] for i = 1 : n % Denne cyklus deler [0;1]-arrayet i 2 dele: længderne q og p, q+p=1 hvis ( U ( i , 1 ) < q ) XI ( i , 1 ) = -1 ; _ % Hvis en ensartet tilfældig værdi falder ind i q, så er \xi=-1 ellers XI ( i , 1 ) = 1 ; % Hvis en ensartet tilfældig værdi falder ind i p, så er \xi=+1 ende ende x = 10 ; % Indledende 1. spillers budget forskydning S = nuller ( n , 1 ); % Reserver hukommelse til 100 S_1...S_100 for i = 1 : n % Lav S_k serier i henhold til reglen S_{k+1} = S_k + \xi_{k+1} S ( i , 1 ) = x + sum ( XI ( 1 : i , 1 )); % i betragtning af den indledende velfærdsforskydning x ende

Derefter introducerer vi funktionen getS(n, q, x) , der ikke bare, som ovenstående liste, genererer en serie med det samme og øjeblikkeligt, men ville tillade, baseret på de indtastede værdier , at bygge en serie på en generaliseret måde uden komplicerede beregninger. Dette ville forenkle arbejdsområdet.

Seriegenerering (getS-funktion)

funktion [S] = getS ( n, q, x ) % Denne funktion afhænger af n, q og x --- 3 variabler U = rand ( n , 1 ); XI = nuller ( n , 1 ); for i = 2 : n % Ensartet->Bernoulli fordeling transformation hvis ( U ( i , 1 ) < q ) XI ( i , 1 ) = -1 ; _ ellers XI ( i , 1 ) = 1 ; ende ende S = nuller ( n , 1 ); % Reserve hukommelse til n S_1...S_n for i = 2 : n % Beregn S_1...S_n serien S ( i , 1 ) = sum ( XI ( 1 : i , 1 )); % Opsummerer \xi'erne ende S = x + S ; % Tilføjer initial velfærd til hver S_k af hele matrixen

Et rimeligt spørgsmål opstår: hvorfor tælle kun fra den anden værdi ( for i = 2:n )? Faktum er, at dette udelukkende gøres med henblik på visualisering. Når grafen plottes i den følgende kode, vil baner blive bygget , og hvis for i = 1:n blev skrevet , så fra den allerførste værdi, ville nogle baner komme ud af , nogle - ud af . Da det i dette program af hensyn til optimaliteten er bedre ikke at bruge nulværdien (partiklen forlader den, men tegnes ikke, da tilføjelsen sker med det samme), flytter vi simpelthen nummereringen på abscisseaksen med én til ret. Lad os nu udføre en række tests og visuelt overveje mulige baner for visse sandsynligheder, spillængder og antal spil.

Visualisering (grafer)

N = 3 ; % Antal spil spillet n = 10 _ % Antal kast q = 0,45 ; % Chance 1. spiller taber 1 rubel x = 0 _ % Indledende velfærdsudligning matrS = nuller ( N , n ); % Reservehukommelse til N rækker n cols matrix for i = 1 : N % Denne sløjfe fylder S-matricen med S_k, hvilket giver N baner matrS ( i ,:) = getS ( n , q , x ) ' ; plot ( matrS ( i ,:)); % Giver et billede hold fast ; % Holder akserne for næste baneoverlejring ende hold af ; % Rydder akser for et nyt plot

Lad os nu komme til den vigtigste komponent i softwaredelen - en algoritme, der ville give os mulighed for at beregne den gennemsnitlige spillængde for givne parametre . Hvis teorien er korrekt, så vil det følgende eksperiment kun bekræfte det. Vi vil også tilføje en linje til programmet, der vil beregne sandsynligheden for ruin af den første spiller ( ) for givet startkapital og sammenligne den med den teoretiske.

Fuld spilmodel (Monte_Carlo)

N = 3000 _ % Antal spil spillet n = 3000 _ % Antal kast q = 0,5 ; % Chance 1. spiller taber 1 rubel p = 1 - q ; % Chance 1. spiller vinder 1 rubel A = -10 ; _ %1. spillerbudget B = 10 ; % 2. spillerbudget x = 0 _ % Budget offset mod 1. spiller Bs = 0 ; % antal tilfælde, partikel rammer B (det ændrer sig snart) As = 0 ; % antal tilfælde, partikel rammer A (det ændrer sig snart) matrS = nuller ( N , n ); % Reservehukommelse til N rækker n cols matrix TAU1 = n * ener ( N , n ); % Udfyld en anden N rækker n cols matrix med n'er for i = 1 : N % Denne sløjfe udgør N baner af S_k baseret på input q, x, n matrS ( i ,:) = getS ( n , q , x ) ' ; for j = 1 : n if ( matrS ( i , j ) == A ) || ( matrS ( i , j ) == B ) % Hvis en partikel overstiger A eller B, så TAU1 ( i , j ) = j ; % sætter antallet af trin i tabellen ende ende plot ( matrS ( i ,:)); % Viser et tal gitter ; hold fast ; % Samtidige plots inden for samme akser ende hold af ; % Rydder akser for et nyt plot TAU = ( min ( TAU1 ' )) ' ; % TAU = tidligste trin i [A;B] korridoroverskridelse % Da [min] påvirker kolonner og giver række, så transponerer vi TAU1, % minimer det med rækker og gør det til en kolonne igen for i = 1 : N % Vores S_n serie er klar; de rede i matrS for j = 1 : TAU ( i ) % Scan kun indtil vi støder på flugttrinnet! if ( matrS ( i , j ) == A ); % Hvis en partikel flygtede gennem A (1. spiller busted) As = As + 1 ; % tilføj derefter +1 til 1. spillers fejl elseif ( matrS ( i , j ) == B ) % Ellers hvis dens første tærskel var B Bs = Bs + 1 ; % og tilføj derefter +1 til 1. spillers gevinster ende % Hvis n ikke er stor nok, så slut % As + Bs udgør muligvis ikke N ende ALPHA = As / ( As + Bs ) % Match alfaer med deres teoretiske værdier hvis ( q == p ) THEORALPHA = ( B - x ) / ( B - A ) else THEORALPHA = (( q / p ) ^ B - ( q / p ) ^ x ) / (( q / p ) ^ B - ( q / p ) ^ A ) ende BETA = 1 - ALPHA % Samme for betas hvis ( q == p ) THEORBETA = ( x - A ) / ( B - A ) ellers THEORBETA = 1 - THEORALPHA ende meanTAU = middelværdi ( TAU ) % Lov om store tal for store N'er hvis ( q == p ) THEORTAU = ( B - x ) * ( x - A ) ellers THEORTAU = 1 / ( p - q ) * ( B * THEORBETA + A * THEORALPHA - x ) ende

Bemærk, at for små værdier er det ikke alle partikler, der slipper ud af korridoren, så her skal det understreges, at teorien siger: “for tilstrækkeligt store , er sandsynligheden tæt på ”.

Test

Følgende data er beregnet for , .

Test nr. ALPHA BETA betydeTAU
en
2
3
fire
5
6

Eksperiment 2 og 3 demonstrerer følgende egenskab: Hvis spillet taber for den første spiller, svarer en forøgelse af indsatsen i modellen til at reducere , og med det samme antal gange i forhold til nul. Satsen er tredoblet - sandsynligheden for at hoppe ud af korridoren med værdien er steget 11 gange!

Se også

Noter

  1. Shiryaev A. N. Sandsynlighed-1, Sandsynlighed-2 // Moskva, MTsNMO. – 2007.