En Markov- beslutningsproces ( MDP) er en specifikation af et sekventielt beslutningsproblem for et fuldt observerbart miljø med en Markov-overgangsmodel og yderligere belønninger. Ordet Markov i navnet afspejler opfyldelsen af Markov-ejendommen for sådanne processer. En sådan proces tjener som et matematisk grundlag for modellering af sekventiel beslutningstagning i situationer, hvor resultaterne er dels tilfældige og dels under beslutningstagerens kontrol. I dag bruges denne specifikation inden for en række forskellige områder, herunder robotteknologi , automatiseret kontrol , økonomi og fremstilling .
For at definere en Markov beslutningsproces, skal vi definere en 4 - tuple hvor