Transformationsbaseret maskinoversættelse er en type maskinoversættelse (MT). Det er i øjeblikket en af de mest udbredte maskinoversættelsesmetoder. I modsætning til den mere simple model for direkte MT opdeler transformationsbaseret MT oversættelsesprocessen i tre faser: analyse af kildesprogets tekst for at bestemme dens grammatiske struktur, oversættelse af den resulterende struktur til en struktur, der er egnet til at producere tekst på målsproget, og tekstgenerering. Transformationsbaserede MT-systemer er således i stand til at bruge viden om kildesproget og målsproget [1] .
Transformationsbaseret oversættelse og intersprog maskinoversættelse er baseret på den samme idé, ifølge hvilken det for at oversætte er nødvendigt at opnå en mellemrepræsentation. Med den kan du rette betydningen af den oprindelige sætning, så du derefter kan bygge den korrekte oversættelse. I tværsproget MT skal en sådan mellemrepræsentation være uafhængig af både kildesproget og målsproget, mens der ved overførselsbaseret MT er en vis grad af afhængighed af et bestemt sprogpar. Måden, hvorpå transformationsbaserede MT-systemer fungerer, er væsentligt forskellige, men generelt følger de samme mønster: De anvender sæt af sproglige regler bestemt af overensstemmelser mellem strukturen af kildesproget og målsproget. Det første trin involverer at analysere inputteksten i form af morfologi og syntaks (nogle gange også semantik ) for at skabe en mellemrepræsentation. En oversættelse dannes ud fra den resulterende repræsentation ved hjælp af tosprogede ordbøger og grammatiske konstruktionsregler. Denne strategi giver dig mulighed for at få en oversættelse af tilstrækkelig høj kvalitet med en nøjagtighed på omkring 90% af originalen (nøjagtigheden afhænger dog i høj grad af et specifikt sprogpar og bestemmes af graden af nærhed mellem to specifikke sprog).
I et regelbaseret MT-system analyseres kildeteksten først i form af morfologi og syntaks for at opnå en syntaktisk repræsentation. I fremtiden kan denne præsentation ændres mod mindre specifikation, på grund af behovet for at være øget opmærksom på de mest betydningsfulde fragmenter til oversættelse, mens andre typer information ignoreres. Under transformationsprocessen transformeres den endelige repræsentation (stadig eksisterende i kildesproget) til en repræsentation af samme niveau af instansiering i målsproget. Disse to synspunkter kaldes mellemvisninger . Processen med at transformere en repræsentation på målsproget til en færdig tekst består af lignende trin udført i omvendt rækkefølge.
Før det endelige resultat opnås, er det muligt at ty til forskellige metoder til analyse og transformation. Sammen med statistiske tilgange kan antallet af genererende hybridsystemer øges. Udvalgte metoder og prioriteter afhænger i høj grad af selve systemets design. De fleste eksisterende systemer omfatter dog mindst følgende trin:
Et af hovedtrækkene ved transformationsbaserede MT-systemer er det stadie, hvor den mellemliggende repræsentation af teksten på kildesproget oversættes til den mellemliggende repræsentation af teksten på målsproget. Denne proces kan finde sted på et af niveauerne for sproglig analyse eller i intervallet mellem dem. Niveauerne er vist nedenfor:
maskinoversættelse | Tilgange til|
---|---|
|
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |