Q-læring

Q -learning er en metode, der bruges i kunstig intelligens med en agentbaseret tilgang . Henviser til forstærkende læringseksperimenter . Med udgangspunkt i den belønning, der modtages fra omgivelserne, danner agenten en nyttefunktion Q, som efterfølgende giver ham mulighed for ikke tilfældigt at vælge en adfærdsstrategi, men at tage højde for oplevelsen af ​​tidligere interaktion med omgivelserne. En af fordelene ved Q-learning er, at det er i stand til at sammenligne den forventede nytteværdi af tilgængelige aktiviteter uden at skulle modellere miljøet. Gælder situationer, der kan repræsenteres som en Markov beslutningsproces .

Q-learning algoritme

  1. Initialisering :
    1. for hver s og a gør Q[s, a] = RND // initialiser hjælpefunktionen Q fra handling a i situationen s som tilfældig for enhver input
  2. Bemærk :
    1. s' = s // Husk tidligere tilstande
    2. a' = a // Husk tidligere handlinger
    3. s = FROM_SENSOR // Få de aktuelle tilstande fra sensoren
    4. r = FROM_SENSOR // Få belønning for tidligere handling
  3. Opdatering (Utility-opdatering):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Beslutning :
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVATOR = en
  5. Gentag : GÅ TIL 2

Notation

Funktionen MAX(Q,s)

  1. max = minVærdi
  2. for hver af HANDLING(er) gør
    1. hvis Q[s, a] > max, så er max = Q[s, a]
  3. retur max

ARGMAX(Q,s)

  1. amax = Første af HANDLING(er)
  2. for hver af ACTION(er) gør
    1. hvis Q[s, a] > Q[s, amax] så er amax = a
  3. retur amax

Litteratur

Se også

Links