Markovs beslutningsproces

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 27. marts 2020; verifikation kræver 1 redigering .

En Markov-  beslutningsproces ( MDP) er en specifikation af et sekventielt beslutningsproblem for et fuldt observerbart miljø med en Markov-overgangsmodel og yderligere belønninger. Ordet Markov i navnet afspejler opfyldelsen af ​​Markov-ejendommen for sådanne processer. En sådan proces tjener som et matematisk grundlag for modellering af sekventiel beslutningstagning i situationer, hvor resultaterne er dels tilfældige og dels under beslutningstagerens kontrol. I dag bruges denne specifikation inden for en række forskellige områder, herunder robotteknologi , automatiseret kontrol , økonomi og fremstilling .

Definition

For at definere en Markov beslutningsproces, skal vi definere en 4 - tuple hvor

Se også