Markovs beslutningsproces

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 27. marts 2020; verifikation kræver 1 redigering .

En Markov- beslutningsproces ( MDP) er en specifikation af et sekventielt beslutningsproblem for et fuldt observerbart miljø med en Markov-overgangsmodel og yderligere belønninger. Ordet Markov i navnet afspejler opfyldelsen af Markov-ejendommen for sådanne processer. En sådan proces tjener som et matematisk grundlag for modellering af sekventiel beslutningstagning i situationer, hvor resultaterne er dels tilfældige og dels under beslutningstagerens kontrol. I dag bruges denne specifikation inden for en række forskellige områder, herunder robotteknologi , automatiseret kontrol , økonomi og fremstilling .

Definition

For at definere en Markov beslutningsproces, skal vi definere en 4 - tuple hvor $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$

$S$ begrænset sæt af tilstande,
$EN$ et begrænset sæt af handlinger (ofte repræsenteret som sæt tilgængelige fra en tilstand ), $Som$ $s$
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ sandsynligheden for, at en handling i en tilstand på et tidspunkt vil resultere i en tilstand på et tidspunkt , $-en$ $s$ $t$ $s'$ $t+1$
$R_{a}(s,s')$ belønningen modtaget efter overgangen til staten fra staten med overgangssandsynlighed . $s'$ $s$ $P_{a}(s,s')$

Markovs beslutningsproces

Definition

Se også