Forstærkningslæring er en af metoderne til maskinlæring , hvor systemet under test ( agent ) lærer ved at interagere med et eller andet miljø . Fra et kybernetisk synspunkt er det en af typerne af kybernetiske eksperimenter . Miljøets reaktion (og ikke et særligt forstærkningskontrolsystem, som det sker i overvåget læring ) på de trufne beslutninger er forstærkningssignaler , så sådan læring er et særligt tilfælde af overvåget læring, men læreren er miljøet eller dets model. Du skal også huske på, at nogle forstærkningsregler er baseret på implicitte lærere, for eksempel i tilfælde af et kunstigt neuralt miljø , på den samtidige aktivitet af formelle neuroner, på grund af hvilken de kan tilskrives uovervåget læring .
Agenten påvirker miljøet, og miljøet påvirker midlet. Et sådant system siges at have feedback . Et sådant system skal betragtes som en helhed, og derfor er skillelinjen mellem miljøet og agenten ret vilkårlig. Ud fra et anatomisk eller fysisk synspunkt er der naturligvis en veldefineret grænse mellem miljøet og midlet (organismen), men hvis dette system betragtes ud fra et funktionelt synspunkt, bliver opdelingen uklar. For eksempel kan en mejsel i en billedhuggers hånd betragtes som enten en del af den komplekse biofysiske mekanisme, der former et stykke marmor, eller en del af det materiale, som nervesystemet forsøger at manipulere.
For første gang blev denne form for feedback-læring foreslået og undersøgt i 1961 i arbejdet af Mikhail Lvovich Tsetlin , en berømt sovjetisk matematiker [1] .
M. L. Tsetlin placerede derefter en endelig automat af et bestemt design i det ydre miljø, som med sandsynligheder afhængigt af den handling, som automaten udførte, straffede eller opmuntrede automaten. I overensstemmelse med omgivelsernes reaktion ændrede automaten uafhængigt sin indre tilstand, hvilket førte til et gradvist fald i antallet af straffe, det vil sige læring.
For at analysere denne automats opførsel blev apparatet til Markov-kæder , udviklet af A. A. Markov, brugt for første gang, hvilket gjorde det muligt at opnå nøjagtige og afgørende resultater.
Dette materiale blev offentliggjort i en af de mest prestigefyldte og indflydelsesrige sovjetiske videnskabelige publikationer - "Reports of the Academy of Sciences of the USSR". ML Tsetlin kaldte dette problem studiet af en automats adfærd i et tilfældigt miljø.
Artiklen af M. L. Tsetlin forårsagede en bølge af publikationer, hvor alle slags forbedringer i designet af endelige automater blev foreslået, som blev intensivt brugt i adskillige applikationer.
M. L. Tsetlin opfandt et nyt udtryk - den hensigtsmæssige opførsel af en automat i et tilfældigt miljø. Hans elev, V. L. Stefanyuk, overvejede i 1963 problemet med kollektiv adfærd, definerede et nyt begreb - "kollektiv opførsel af automater" og studerede i detaljer opførselen af et par automater introduceret af M. L. Tsetlin i sin første publikation om hensigtsmæssig adfærd hos automater.
V. L. Stefanyuk lavede en operationel læringsmodel på halvlederelementer og vakuumradiorør, hvor den kollektive opførsel af to sådanne automater blev realiseret. Denne model blev forsvaret i 1962 som et kandidatarbejde ved det fysiske fakultet ved Moskva State University.
Samtidig (1963) formulerede M. L. Tsetlin problemet med automatspil, som modellerede flere vigtige problemer inden for biologi og sociologi. Noget senere beskrev M. L. Tsetlin og S. L. Ginzburg konstruktionen af den såkaldte ε-automat, som ofte bruges i moderne publikationer om forstærkningslæring.
Talrige sovjetiske publikationer om automaters målrettede adfærd, præsenteret i form af rapporter på nationale og internationale konferencer, førte mange år senere forfatterne til forstærkningslæring til ideen om at adskille denne type læring i en separat klasse.
Hvad angår den kollektive opførsel af automater, var noget lignende et resultat af udenlandske forfattere i begrebet multi-agent-systemer , som blev undersøgt med hensyn til kunstig intelligens og programmering. Imidlertid blev matematiske metoder til analyse og bevis i multi-agent-systemer praktisk talt ikke brugt, i modsætning til værkerne af M. L. Tsetlin og V. L. Stefanyuk om den hensigtsmæssige opførsel af en automat, såvel som om den kollektive adfærd og spil af flere automater.
Rosenblatt forsøgte at klassificere forskellige indlæringsalgoritmer og kaldte dem forstærkningssystemer. [2] Han giver følgende definition:
Et forstærkningssystem er ethvert sæt regler baseret på hvilke det er muligt at ændre interaktionsmatrixen (eller hukommelsestilstanden) for perceptronen over tid.
Ud over den klassiske perceptronlæringsmetode - fejlkorrektionsmetoden , som kan henføres til overvåget læring , introducerede Rosenblatt også begrebet uovervåget læring og foreslog flere læringsmetoder:
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|