Hybrid maskinoversættelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 29. marts 2021; checks kræver 12 redigeringer .

Hybrid maskinoversættelse (HMT) er integrationen af ​​forskellige maskinoversættelsesmetoder fra mulige MT-muligheder: [1]

Den hybride arkitektur forventes at kombinere fordelene ved disse tilgange. [1] Maskinoversættelse er i dag repræsenteret af to hovedteknologier: Statistisk maskinoversættelse (SMT) og regelbaseret maskinoversættelse (RBMT). [2]

Softwareudviklere Hybrid MT

Tilnærmelser

Lagdelt

Denne tilgang til hybrid maskinoversættelse involverer at køre flere maskinoversættelsessystemer parallelt. Det endelige resultat opnås ved at kombinere resultaterne af alle delsystemer. De mest almindelige undersystemer, der bruges i disse systemer, er statistisk og regelbaseret oversættelse, men andre kombinationer er blevet undersøgt. For eksempel har forskere ved Carnegie Mellon University haft en vis succes ved at fusionere de eksempelbaserede, overførsels-, videns- og statistiske oversættelsesundersystemer til et enkelt maskinoversættelsessystem.

Generering af statistiske regler

Denne tilgang involverer brug af statistiske data til at skabe leksikalske og syntaktiske regler. Inputtet behandles derefter ved hjælp af disse regler, som om det var en regelbaseret oversætter. Denne tilgang forsøger at undgå den komplekse og tidskrævende opgave at skabe et sæt omfattende, detaljerede sproglige regler ved at udtrække disse regler fra et læringskorpus. Denne tilgang lider stadig under mange af problemerne ved normal statistisk maskinoversættelse, nemlig at nøjagtigheden af ​​oversættelsen vil afhænge stærkt af ligheden mellem inputteksten og træningskorpuset. Som følge heraf har denne metode haft størst succes i domænespecifikke applikationer og har samme domænetilpasningsvanskeligheder som mange statistiske maskinoversættelsessystemer.

Multipass

Denne tilgang involverer sekventiel behandling af input flere gange. Den mest almindelige teknik, der bruges i maskinoversættelsessystemer med flere passager, er inputforbehandling med et regelbaseret maskinoversættelsessystem. Outputtet fra den regelbaserede præprocessor sendes til et statistisk maskinoversættelsessystem, som producerer det endelige resultat. Denne teknik bruges til at begrænse mængden af ​​information, som det statistiske system skal tage højde for, hvilket i høj grad reducerer den nødvendige beregningskraft. Det eliminerer også behovet for, at et regelbaseret system skal være et komplet oversættelsessystem til et sprog, hvilket i høj grad reducerer mængden af ​​menneskelig indsats og arbejdskraft, der kræves for at bygge systemet.

Baseret på sikkerhed

Denne tilgang adskiller sig fra andre hybride tilgange ved, at der i de fleste tilfælde kun anvendes én oversættelsesteknologi. For hver oversat sætning genereres en konfidensscore, på grundlag af hvilken du kan beslutte, om du vil prøve en sekundær oversættelsesteknologi eller fortsætte med at arbejde med den originale oversættelse. Omniscien Technologies er en virksomhed, der bruger denne tilgang, hvor NMT er hovedteknologien, men falder tilbage til SMT, hvis konfidensresultatet er under en tærskel, eller sætningslængden er meget kort (f.eks. 1 eller 2 ord). SMT bruges også, når almindelige fejlmønstre såsom flere gentagne ord optræder i rækkefølge, som det ofte er tilfældet med NMT, når opmærksomhedsmekanismen er forvirret.

Hybridteknologi "SMT og RBMT"

Hybrid oversættelsesteknologi involverer brugen af ​​statistiske metoder til automatisk at opbygge ordforrådsdatabaser baseret på parallelle korpus, generere flere mulige oversættelser både på det leksikalske niveau og på niveauet for den syntaktiske struktur af målsprogssætningen, anvende efterredigering i automatisk tilstand og vælge den bedste (mest sandsynlige) oversættelse af det mulige ud fra en sprogmodel bygget på et specifikt korpus af målsproget. [2]

Hybrid (SMT + RBMT) System afviger: (klausul 2.4.3 [4] )

  • Regelbaseret MT med en efterbehandlingsstatistisk tilgang.
  • Statistisk MT med regelbaseret forbehandling.
  • Fuld integration af RBMT og SMT. [3]

Statistisk MT søger at bruge sproglige data, mens systemer med en "klassisk" regelbaseret tilgang anvender statistiske metoder. [2] Tilføjelsen af ​​nogle "tværgående" regler, det vil sige oprettelsen af ​​hybride systemer, er noget[ hvor meget? ] forbedrer kvaliteten af ​​oversættelser, især når mængden af ​​inputdata, der bruges i konstruktionen af ​​indeksfiler til lagring af sproglig information fra en maskinoversætter baseret på N-gram, er utilstrækkelig. [ti]

Kombination af RBMT og statistisk maskinoversættelse:

  • Sproglig analyse af inputsætningen;
  • Generering af oversættelsesvarianter;
  • Brug af statistiske teknologier;
  • Evaluering og udvælgelse af den bedste oversættelsesmulighed ved hjælp af sprogmodellen. [11] [12] [13]

Stadier af hybrid SMT- og RBMT-teknologi: [2]

  • RBMT-uddannelse baseret på et parallelt korpus ved hjælp af statistiske teknologier;
  • Drift baseret på et trænet system.

Arkitektur af hybridteknologien "SMT og RBMT"

I hybrid maskinoversættelse er RBMT-systemet suppleret med to komponenter [14] : et statistisk efterredigeringsmodul og et sprogmodelmodul. Statistisk efterredigering giver dig mulighed for at udjævne RB-oversættelse og bringe den tættere på naturligt sprog, samtidig med at du bevarer en klar struktur af den syntetiserede tekst. Sprogmodeller bruges til at evaluere glatheden og den grammatiske korrekthed af de oversættelser, der genereres af hybridsystemet.

Typisk HMT-arkitektur: [14]

  • Parallelt hus;
  • Uddannelse;
  • sprogmodel;
  • Data til efterredigering;
  • Syntese regler;
  • Ordliste over terminologi.
  • Udnyttelse:
    •  - Hybrid oversættelse.

Sådan virker HMT

Kombinationen af ​​tilsyneladende inkompatible oversættelsesmetoder, nemlig den klassiske maskinoversættelsesteknologi Rule-Based Machine Translation (Rule-Based MT) og Statistical Machine Translation (Statistical MT) kan implementeres i en hybrid oversættelsesteknologi. [15] Kardinalforskellen ved den nye løsning er, at programmet i stedet for én oversættelsesmulighed genererer mange oversættelser, hvis antal i én sætning, afhængigt af ords flertydighed, konstruktioner og resultaterne af statistisk behandling, kan nå flere hundrede. Yderligere giver den probabilistiske model for sproget dig mulighed for at vælge den mest sandsynlige af de foreslåede muligheder.

Typisk HMT-algoritme: [2]

  • Oprettelse af en terminologisk ordbog fra parallelle tekster til RBMT automatisk.
  • Generering af alle mulige oversættelser baseret på:
    •  - leksikalske varianter;
    •  — muligheder for syntese af forskellige designs;
    •  - Anvendelse af efterredigering.
  • At vælge den bedste løsning gennem den implementerede sprogmodel.

Fordele og ulemper

Hvad giver hybrid oversættelsesteknologi?

  • Hurtig automatisk konfiguration baseret på kundens oversættelseshukommelser;
  • Terminologisk nøjagtighed af oversættelsen, såvel som stilens enhed;
  • Indhentning af yderligere nyttige data - en tosproget terminologisk ordbog.
Fordele og ulemper ved regelbaseret maskinoversættelse

Fordele ved RBMT: [16]

Gemt:

  •  — syntaktisk og morfologisk nøjagtighed;
  •  - stabilitet og forudsigelighed af resultatet;
  •  - evnen til at tilpasse fagområdet.

RBMT Ulemper:

  •  — kompleksiteten og varigheden af ​​udviklingen;
  •  — behovet for at vedligeholde og ajourføre sproglige databaser;
  •  - "maskinaccent" ved oversættelse.

Ulemperne udjævnes ved brug af parallelle korpus og statistiske metoder.

  •  – automatisk justering af sproglige databaser (hurtig udtræk af terminologi af høj kvalitet)
  •  — "maskine"-accenten forsvinder under oversættelse (syntesemuligheder og efterredigering).
Fordele og ulemper ved statistiske oversættelsessystemer

Fordele ved SMT: [17]

  •  - hurtig opsætning;
  •  — let at tilføje nye retninger for oversættelse;
  •  - Glathed af oversættelse.

Ulemper ved SMT:

  •  - "Mangel" ved parallelle bygninger;
  •  - talrige grammatiske fejl;
  •  — ustabilitet i oversættelsen.

Se også

Noter

  1. 1 2 Arkiveret kopi (link utilgængeligt) . Hentet 27. marts 2013. Arkiveret fra originalen 13. marts 2016. 
  2. 1 2 3 4 5 6 Hybrid oversættelsesteknologi - Y. Epifantseva, LLC <PROMT>, Konference "Russian Internet Technologies", 2011 . Arkiveret fra originalen den 8. april 2013.
  3. 12 Anmodning afvist . Dato for adgang: 29. marts 2013. Arkiveret fra originalen 4. marts 2016.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf  (downlink)
  5. Arkiveret kopi (link ikke tilgængeligt) . Dato for adgang: 29. marts 2013. Arkiveret fra originalen 4. marts 2016. 
  6. SYSTRANs maskinoversættelsesteknologi . Hentet 1. april 2013. Arkiveret fra originalen 8. april 2013.
  7. SYSTRAN Hybrid-teknologi . Hentet 1. april 2013. Arkiveret fra originalen 8. april 2013.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf  (link ikke tilgængeligt)
  9. Arkiveret kopi . Hentet 29. marts 2013. Arkiveret fra originalen 12. maj 2015.
  10. Arkiveret kopi (link ikke tilgængeligt) . Hentet 17. april 2013. Arkiveret fra originalen 19. april 2014. 
  11. Arkiveret kopi . Hentet 1. april 2013. Arkiveret fra originalen 4. marts 2016.
  12. Arkiveret kopi . Hentet 1. april 2013. Arkiveret fra originalen 5. marts 2016.
  13. Om automatik tilnærmelse af rigtige sprog - gratis download abstrakt om emnet Diskret matematik og matematisk kybernetik. Bestil levering af en afhandling om matematik ... . Hentet 4. april 2013. Arkiveret fra originalen 8. april 2013.
  14. 1 2 Hvorfor hybrid oversættelsesteknologi er nødvendig - A. Molchanov, PROMT LLC, AINL Conference, 2013 . Arkiveret fra originalen den 8. april 2013.
  15. PROMT company - oversættere og ordbøger til oversættelse af tekst fra engelsk, russisk, tysk, fransk, spansk, portugisisk og italiensk (utilgængeligt link) . Hentet 23. marts 2013. Arkiveret fra originalen 8. april 2013. 
  16. Arkiveret kopi (link ikke tilgængeligt) . Hentet 27. marts 2013. Arkiveret fra originalen 9. november 2012. 
  17. Hvorfor hybrid oversættelsesteknologi er nødvendig - A. Molchanov, OOO <PROMT>, Konference "AINL", 2013 . Arkiveret fra originalen den 8. april 2013.