Hybrid maskinoversættelse (HMT) er integrationen af forskellige maskinoversættelsesmetoder fra mulige MT-muligheder: [1]
Den hybride arkitektur forventes at kombinere fordelene ved disse tilgange. [1] Maskinoversættelse er i dag repræsenteret af to hovedteknologier: Statistisk maskinoversættelse (SMT) og regelbaseret maskinoversættelse (RBMT). [2]
Denne tilgang til hybrid maskinoversættelse involverer at køre flere maskinoversættelsessystemer parallelt. Det endelige resultat opnås ved at kombinere resultaterne af alle delsystemer. De mest almindelige undersystemer, der bruges i disse systemer, er statistisk og regelbaseret oversættelse, men andre kombinationer er blevet undersøgt. For eksempel har forskere ved Carnegie Mellon University haft en vis succes ved at fusionere de eksempelbaserede, overførsels-, videns- og statistiske oversættelsesundersystemer til et enkelt maskinoversættelsessystem.
Generering af statistiske reglerDenne tilgang involverer brug af statistiske data til at skabe leksikalske og syntaktiske regler. Inputtet behandles derefter ved hjælp af disse regler, som om det var en regelbaseret oversætter. Denne tilgang forsøger at undgå den komplekse og tidskrævende opgave at skabe et sæt omfattende, detaljerede sproglige regler ved at udtrække disse regler fra et læringskorpus. Denne tilgang lider stadig under mange af problemerne ved normal statistisk maskinoversættelse, nemlig at nøjagtigheden af oversættelsen vil afhænge stærkt af ligheden mellem inputteksten og træningskorpuset. Som følge heraf har denne metode haft størst succes i domænespecifikke applikationer og har samme domænetilpasningsvanskeligheder som mange statistiske maskinoversættelsessystemer.
MultipassDenne tilgang involverer sekventiel behandling af input flere gange. Den mest almindelige teknik, der bruges i maskinoversættelsessystemer med flere passager, er inputforbehandling med et regelbaseret maskinoversættelsessystem. Outputtet fra den regelbaserede præprocessor sendes til et statistisk maskinoversættelsessystem, som producerer det endelige resultat. Denne teknik bruges til at begrænse mængden af information, som det statistiske system skal tage højde for, hvilket i høj grad reducerer den nødvendige beregningskraft. Det eliminerer også behovet for, at et regelbaseret system skal være et komplet oversættelsessystem til et sprog, hvilket i høj grad reducerer mængden af menneskelig indsats og arbejdskraft, der kræves for at bygge systemet.
Baseret på sikkerhedDenne tilgang adskiller sig fra andre hybride tilgange ved, at der i de fleste tilfælde kun anvendes én oversættelsesteknologi. For hver oversat sætning genereres en konfidensscore, på grundlag af hvilken du kan beslutte, om du vil prøve en sekundær oversættelsesteknologi eller fortsætte med at arbejde med den originale oversættelse. Omniscien Technologies er en virksomhed, der bruger denne tilgang, hvor NMT er hovedteknologien, men falder tilbage til SMT, hvis konfidensresultatet er under en tærskel, eller sætningslængden er meget kort (f.eks. 1 eller 2 ord). SMT bruges også, når almindelige fejlmønstre såsom flere gentagne ord optræder i rækkefølge, som det ofte er tilfældet med NMT, når opmærksomhedsmekanismen er forvirret.
Hybrid oversættelsesteknologi involverer brugen af statistiske metoder til automatisk at opbygge ordforrådsdatabaser baseret på parallelle korpus, generere flere mulige oversættelser både på det leksikalske niveau og på niveauet for den syntaktiske struktur af målsprogssætningen, anvende efterredigering i automatisk tilstand og vælge den bedste (mest sandsynlige) oversættelse af det mulige ud fra en sprogmodel bygget på et specifikt korpus af målsproget. [2]
Hybrid (SMT + RBMT) System afviger: (klausul 2.4.3 [4] )
Statistisk MT søger at bruge sproglige data, mens systemer med en "klassisk" regelbaseret tilgang anvender statistiske metoder. [2] Tilføjelsen af nogle "tværgående" regler, det vil sige oprettelsen af hybride systemer, er noget[ hvor meget? ] forbedrer kvaliteten af oversættelser, især når mængden af inputdata, der bruges i konstruktionen af indeksfiler til lagring af sproglig information fra en maskinoversætter baseret på N-gram, er utilstrækkelig. [ti]
Kombination af RBMT og statistisk maskinoversættelse:
Stadier af hybrid SMT- og RBMT-teknologi: [2]
I hybrid maskinoversættelse er RBMT-systemet suppleret med to komponenter [14] : et statistisk efterredigeringsmodul og et sprogmodelmodul. Statistisk efterredigering giver dig mulighed for at udjævne RB-oversættelse og bringe den tættere på naturligt sprog, samtidig med at du bevarer en klar struktur af den syntetiserede tekst. Sprogmodeller bruges til at evaluere glatheden og den grammatiske korrekthed af de oversættelser, der genereres af hybridsystemet.
Typisk HMT-arkitektur: [14]
Kombinationen af tilsyneladende inkompatible oversættelsesmetoder, nemlig den klassiske maskinoversættelsesteknologi Rule-Based Machine Translation (Rule-Based MT) og Statistical Machine Translation (Statistical MT) kan implementeres i en hybrid oversættelsesteknologi. [15] Kardinalforskellen ved den nye løsning er, at programmet i stedet for én oversættelsesmulighed genererer mange oversættelser, hvis antal i én sætning, afhængigt af ords flertydighed, konstruktioner og resultaterne af statistisk behandling, kan nå flere hundrede. Yderligere giver den probabilistiske model for sproget dig mulighed for at vælge den mest sandsynlige af de foreslåede muligheder.
Typisk HMT-algoritme: [2]
Hvad giver hybrid oversættelsesteknologi?
Fordele ved RBMT: [16]
Gemt:
RBMT Ulemper:
Ulemperne udjævnes ved brug af parallelle korpus og statistiske metoder.
Fordele ved SMT: [17]
Ulemper ved SMT:
maskinoversættelse | Tilgange til|
---|---|
|
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |