Strukturel forudsigelse , eller strukturel læring , er en samlebetegnelse for overvågede maskinlæringsteknikker, der involverer at foregribe strukturelle objekter.
Ligesom overvågede læringsteknikker trænes strukturelle forudsigelsesmodeller på observerede data, hvor den sande forudsagte værdi bruges til at se på modelparametre. På grund af modellens mulige kompleksitet og forholdet mellem de forudsagte variabler, er forudsigelsesprocessen ved hjælp af modelindlæring ofte ikke beregningsmæssigt gennemførlig, så omtrentlige slutninger bruges .
For eksempel kan problemet med at oversætte en naturlig sprogsætning til en syntaktisk repræsentation såsom et parse-træ opfattes som et strukturelt forudsigelsesproblem , hvor det strukturelle inferensdomæne er sættet af alle mulige parse-træer. Strukturel forudsigelse bruges også i en lang række applikationer, herunder bioinformatik , naturlig sprogbehandling , talegenkendelse og computersyn .
Sekvensmarkering er en klasse af opgaver, der er udbredt i naturlig sprogbehandling . Indtastningsdataene i dem er ofte sekvenser (for eksempel sætninger i teksten). I nogle versioner bliver det nødvendigt at markere sådanne sekvenser, for eksempel opmærkning af dele af tale og genkendelse af navngivne enheder . I delvis markering skal hvert ord i en sekvens f.eks. modtage en " label " (etiketklasse), der udtrykker " typen " af ordet:
Dette | DT |
er | GL |
-en | DT |
markeret | IP |
dømme | IP |
Hovedmålet med problemet med mærkning af sekvenser er den korrekte definition af et koncept (element af en sekvens) i nærværelse af flere værdier, der er egnede til det. For eksempel kan ordet "sætning" på engelsk behandles som både et substantiv og et verbum. For korrekt forudsigelse skal et ord tildeles en klassebetegnelse ("label").
Ved første øjekast kan problemet beskrevet ovenfor løses ved en simpel klassificering af individuelle elementer, men denne tilgang tager ikke højde for det empiriske faktum, at etiketter ikke opstår uafhængigt. Tværtimod viser hver etiket en stærk betinget afhængighed af af etiketten for de foregående ord. Det vil sige, på hvilken etiket er for eksempel ordet "sætning" - et verbum eller et adjektiv - etiketterne for andre ord i sætningen afhænger. Dette faktum kan bruges i modeller, der forudsiger hele rækkefølgen af etiketter for en sætning, såsom en skjult Markov-model eller et betinget tilfældigt felt [1] . For modeller, der bruger individuelle etiketter, såsom Viterbi-algoritmen , er denne metode ikke egnet.
Grafsandsynlighedsmodeller udgør en stor klasse af strukturelle forudsigelsesmodeller . Især Bayesianske netværk og tilfældige felter er populære . Andre algoritmer og modeller til strukturel forudsigelse inkluderer induktiv logikprogrammering , case-baseret ræsonnement , strukturelle støttevektormaskiner , Markov logiske netværk og begrænsede betingede modeller . Grundlæggende teknikker:
En af de nemmeste måder at forstå generelle strukturelle forudsigelsesalgoritmer er Collins Structural Perceptron [2] . Denne algoritme kombinerer perceptronalgoritmen til træning af lineære klassifikatorer med en inferensalgoritme (klassisk Viterbi-algoritmen , hvis den bruges til serielle data) og kan beskrives abstrakt som følger:
Vi definerer en "fælles funktionsfunktion" Φ( x , y ), der kortlægger træningselement x og forudsagt kandidat y til en vektor med længden n. I dette tilfælde kan x og y have en hvilken som helst struktur, og værdien af n afhænger af opgaven, men er fast for hver model. Lad GEN være en funktion, der genererer en prædiktorkandidat. Derefter:
Lad være en vektor af vægte med længden n For et foruddefineret antal iterationer: For hvert tilfælde i det ægte inferenstræningssæt : At lave en forudsigelse Opdatering , fra til : , er indlæringshastigheden.I praksis kan man finde Argmax på med en algoritme som Viterbi-algoritmen eller max-sum- algoritmen frem for en udtømmende søgning over et eksponentielt stort sæt kandidater.
Ideen om at lære ligner en perceptron med mange klasser .
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|