Transformationsbaseret maskinoversættelse

Transformationsbaseret maskinoversættelse er en type maskinoversættelse (MT). Det er i øjeblikket en af de mest udbredte maskinoversættelsesmetoder. I modsætning til den mere simple model for direkte MT opdeler transformationsbaseret MT oversættelsesprocessen i tre faser: analyse af kildesprogets tekst for at bestemme dens grammatiske struktur, oversættelse af den resulterende struktur til en struktur, der er egnet til at producere tekst på målsproget, og tekstgenerering. Transformationsbaserede MT-systemer er således i stand til at bruge viden om kildesproget og målsproget [1] .

Enhed

Transformationsbaseret oversættelse og intersprog maskinoversættelse er baseret på den samme idé, ifølge hvilken det for at oversætte er nødvendigt at opnå en mellemrepræsentation. Med den kan du rette betydningen af den oprindelige sætning, så du derefter kan bygge den korrekte oversættelse. I tværsproget MT skal en sådan mellemrepræsentation være uafhængig af både kildesproget og målsproget, mens der ved overførselsbaseret MT er en vis grad af afhængighed af et bestemt sprogpar. Måden, hvorpå transformationsbaserede MT-systemer fungerer, er væsentligt forskellige, men generelt følger de samme mønster: De anvender sæt af sproglige regler bestemt af overensstemmelser mellem strukturen af kildesproget og målsproget. Det første trin involverer at analysere inputteksten i form af morfologi og syntaks (nogle gange også semantik ) for at skabe en mellemrepræsentation. En oversættelse dannes ud fra den resulterende repræsentation ved hjælp af tosprogede ordbøger og grammatiske konstruktionsregler. Denne strategi giver dig mulighed for at få en oversættelse af tilstrækkelig høj kvalitet med en nøjagtighed på omkring 90% af originalen (nøjagtigheden afhænger dog i høj grad af et specifikt sprogpar og bestemmes af graden af nærhed mellem to specifikke sprog).

Oversættelsesproces

I et regelbaseret MT-system analyseres kildeteksten først i form af morfologi og syntaks for at opnå en syntaktisk repræsentation. I fremtiden kan denne præsentation ændres mod mindre specifikation, på grund af behovet for at være øget opmærksom på de mest betydningsfulde fragmenter til oversættelse, mens andre typer information ignoreres. Under transformationsprocessen transformeres den endelige repræsentation (stadig eksisterende i kildesproget) til en repræsentation af samme niveau af instansiering i målsproget. Disse to synspunkter kaldes mellemvisninger . Processen med at transformere en repræsentation på målsproget til en færdig tekst består af lignende trin udført i omvendt rækkefølge.

Analyse og transformation

Før det endelige resultat opnås, er det muligt at ty til forskellige metoder til analyse og transformation. Sammen med statistiske tilgange kan antallet af genererende hybridsystemer øges. Udvalgte metoder og prioriteter afhænger i høj grad af selve systemets design. De fleste eksisterende systemer omfatter dog mindst følgende trin:

Morfologisk analyse . Indtastningstekstens overfladeformer er klassificeret efter deres orddele (navneord, verbum osv.) og grammatiske kategorier (tal, køn, tid osv.). Som regel udføres på dette stadium alle mulige typer analyser for hver af overfladeformerne samtidigt med ordbogsformen.
Leksisk kategorisering . I enhver tekst kan der være ord, der har mere end én betydning, hvilket skaber uklarhed i analyseprocessen. Leksisk kategorisering er opmærksom på den kontekst, et ord bruges i, for at forsøge at bestemme dets korrekte betydning. Denne proces kan omfatte markering af dele af tale såvel som løsning af semantisk homonymi .
Leksikalsk transformation . Processen involverer hovedsageligt oversættelse af ordbogens betydning . Ordets begyndelsesform søges i ordbogen, og oversættelsen vælges.
Strukturel transformation . I modsætning til de tidligere stadier, hvor det handlede om ord , taler vi på dette stadie om formationer af en større orden, såsom vendinger og tekstfragmenter . Karakteristiske træk ved denne fase er behovet for at harmonisere grammatiske kategorier såsom køn og tal, samt at ændre rækkefølgen af ord eller sætninger.
Morfologisk transformation . Baseret på de data, der er opnået på stadiet af strukturel transformation, oprettes de endelige færdige formularer på målsproget.

Typer af transformationer

Et af hovedtrækkene ved transformationsbaserede MT-systemer er det stadie, hvor den mellemliggende repræsentation af teksten på kildesproget oversættes til den mellemliggende repræsentation af teksten på målsproget. Denne proces kan finde sted på et af niveauerne for sproglig analyse eller i intervallet mellem dem. Niveauerne er vist nedenfor:

Overflade (syntaktisk) transformation . Dette niveau er karakteriseret ved overførsel af syntaktiske strukturer mellem kildesproget og målsproget. Det gælder for sprog af samme type eller som tilhører samme familie, for eksempel når man taler om romanske sprog , mellem spansk, catalansk, fransk, italiensk osv.
Dyb (semantisk) transformation . På dette niveau skabes en semantisk repræsentation, der afhænger af kildesproget. Det kan bestå af flere strukturer, der formidler en bestemt betydning. På dette transformationsniveau sker som regel skabelsen af prædikater. Desuden kræver oversættelse normalt en strukturel transformation. Dette niveau bruges til oversættelse mellem sprog, der er fjernt beslægtede med hinanden (for eksempel mellem spansk-engelsk eller spansk-baskisk par osv.)

Se også

Statistisk maskinoversættelse

Noter

↑ Jurafsky, Daniel; Martin, James H. (2009). Tale- og sprogbehandling. Pearson. pp. 906-908.

Tilgange til maskinoversættelse
Ordbog baseret Regel baseret Baseret på transformation Statistisk Baseret på eksempler Interlingual neurale Hybrid

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur