Hamilton-Jacobi-Bellman ligning

Hamilton-Jacobi-Bellman-ligningen  er en partiel differentialligning, der spiller en central rolle i optimal kontrolteori . Løsningen på ligningen er værdifunktionen , som giver den optimale værdi for et styret dynamisk system med en given omkostningsfunktion . 

Hvis Hamilton-Jacobi-Bellman-ligningerne løses i en del af rummet, spiller de rollen som en nødvendig betingelse; når de løses i hele rummet, bliver de også en tilstrækkelig betingelse for en optimal løsning. Teknikken kan også anvendes på stokastiske systemer.

Klassiske variationsproblemer (såsom brachistokronproblemet ) kan løses ved hjælp af denne metode.

Ligningen er resultatet af udviklingen af ​​dynamisk programmeringsteori , pioneret af Richard Bellman og kolleger. [en]

Den tilsvarende diskrete tidsligning kaldes ganske enkelt Bellman-ligningen . Når man overvejer et problem med kontinuerlig tid, kan de resulterende ligninger betragtes som en fortsættelse af tidligere arbejde inden for teoretisk fysik relateret til Hamilton-Jacobi-ligningen .

Optimale kontrolproblemer

Overvej følgende optimale kontrolproblem på tidsintervallet :

hvor C og D  er de omkostningsfunktioner, der bestemmer henholdsvis den integrale og terminale del af det funktionelle. x ( t ) er en vektor, der bestemmer systemets tilstand på hvert tidspunkt. Dets begyndelsesværdi x (0) antages at være kendt. Kontrolvektoren u ( t ) bør vælges på en sådan måde, at værdien af ​​V minimeres .

Udviklingen af ​​systemet under påvirkning af kontrol u ( t ) er beskrevet som følger:

PDE

For et så simpelt dynamisk system tager Hamilton-Jacobi-Bellman-ligningerne følgende form:

(ved det skalære produkt menes) og er givet ved værdien på det endelige tidspunkt T :

Det ukendte i denne ligning er Bellman "værdifunktionen" V ( x ,  t ), som svarer til den maksimale pris, der kan opnås ved at drive systemet fra tilstand ( x ,  t ) på en optimal måde op til tidspunktet T . Derfor er den optimale omkostning, der interesserer os, værdien V  =  V ( x (0), 0).

Afledning af ligningen

Lad os demonstrere det intuitive ræsonnement, der fører til denne ligning. Lad være  en værdifunktion, så overvej overgangen fra tidspunkt t til tidspunkt t  +  dt i overensstemmelse med Bellman-princippet :

Lad os udvide det sidste udtryk ifølge Taylor:

Det er tilbage at flytte V ( x ,  t ) til venstre, dividere med dt og passere til grænsen.

Noter

  1. RE Bellman. Dynamisk programmering. Princeton, NJ, 1957.

Litteratur