Q-læring

Q -learning er en metode, der bruges i kunstig intelligens med en agentbaseret tilgang . Henviser til forstærkende læringseksperimenter . Med udgangspunkt i den belønning, der modtages fra omgivelserne, danner agenten en nyttefunktion Q, som efterfølgende giver ham mulighed for ikke tilfældigt at vælge en adfærdsstrategi, men at tage højde for oplevelsen af tidligere interaktion med omgivelserne. En af fordelene ved Q-learning er, at det er i stand til at sammenligne den forventede nytteværdi af tilgængelige aktiviteter uden at skulle modellere miljøet. Gælder situationer, der kan repræsenteres som en Markov beslutningsproces .

Q-learning algoritme

Initialisering :
1. for hver s og a gør Q[s, a] = RND // initialiser hjælpefunktionen Q fra handling a i situationen s som tilfældig for enhver input
Bemærk :
1. s' = s // Husk tidligere tilstande
2. a' = a // Husk tidligere handlinger
3. s = FROM_SENSOR // Få de aktuelle tilstande fra sensoren
4. r = FROM_SENSOR // Få belønning for tidligere handling
Opdatering (Utility-opdatering):
1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
Beslutning :
1. a = ARGMAX(Q, s)
2. TO_ACTIVATOR = en
Gentag : GÅ TIL 2

Notation

LF er læringsfaktoren. Jo højere den er, jo mere stoler agenten på de nye oplysninger.
DF er diskonteringsfaktoren. Jo mindre den er, jo mindre tænker agenten på fordelene ved sine fremtidige handlinger.

Funktionen MAX(Q,s)

max = minVærdi
for hver af HANDLING(er) gør
1. hvis Q[s, a] > max, så er max = Q[s, a]
retur max

ARGMAX(Q,s)

amax = Første af HANDLING(er)
for hver af ACTION(er) gør
1. hvis Q[s, a] > Q[s, amax] så er amax = a
retur amax

Litteratur

Stuart Russell, Peter Norvig, "AI - A Modern Approach"
Machine Learning Proceedings 1991: Proceedings of the Eightth International Workshop (ML91). - Elsevier Science, 2014. - S. 364. - ISBN 978-1-4832-9817-7 .

Se også

Forstærkende læring

Links

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG