Hamilton-Jacobi-Bellman-ligningen er en partiel differentialligning, der spiller en central rolle i optimal kontrolteori . Løsningen på ligningen er værdifunktionen , som giver den optimale værdi for et styret dynamisk system med en given omkostningsfunktion .
Hvis Hamilton-Jacobi-Bellman-ligningerne løses i en del af rummet, spiller de rollen som en nødvendig betingelse; når de løses i hele rummet, bliver de også en tilstrækkelig betingelse for en optimal løsning. Teknikken kan også anvendes på stokastiske systemer.
Klassiske variationsproblemer (såsom brachistokronproblemet ) kan løses ved hjælp af denne metode.
Ligningen er resultatet af udviklingen af dynamisk programmeringsteori , pioneret af Richard Bellman og kolleger. [en]
Den tilsvarende diskrete tidsligning kaldes ganske enkelt Bellman-ligningen . Når man overvejer et problem med kontinuerlig tid, kan de resulterende ligninger betragtes som en fortsættelse af tidligere arbejde inden for teoretisk fysik relateret til Hamilton-Jacobi-ligningen .
Overvej følgende optimale kontrolproblem på tidsintervallet :
hvor C og D er de omkostningsfunktioner, der bestemmer henholdsvis den integrale og terminale del af det funktionelle. x ( t ) er en vektor, der bestemmer systemets tilstand på hvert tidspunkt. Dets begyndelsesværdi x (0) antages at være kendt. Kontrolvektoren u ( t ) bør vælges på en sådan måde, at værdien af V minimeres .
Udviklingen af systemet under påvirkning af kontrol u ( t ) er beskrevet som følger:
For et så simpelt dynamisk system tager Hamilton-Jacobi-Bellman-ligningerne følgende form:
(ved det skalære produkt menes) og er givet ved værdien på det endelige tidspunkt T :
Det ukendte i denne ligning er Bellman "værdifunktionen" V ( x , t ), som svarer til den maksimale pris, der kan opnås ved at drive systemet fra tilstand ( x , t ) på en optimal måde op til tidspunktet T . Derfor er den optimale omkostning, der interesserer os, værdien V = V ( x (0), 0).
Lad os demonstrere det intuitive ræsonnement, der fører til denne ligning. Lad være en værdifunktion, så overvej overgangen fra tidspunkt t til tidspunkt t + dt i overensstemmelse med Bellman-princippet :
Lad os udvide det sidste udtryk ifølge Taylor:
Det er tilbage at flytte V ( x , t ) til venstre, dividere med dt og passere til grænsen.