Maskinoversættelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 21. oktober 2021; checks kræver 5 redigeringer .

Maskinoversættelse  er processen med at oversætte tekster (skrevne og ideelt set mundtlige) fra et naturligt sprog til et andet ved hjælp af et specielt computerprogram . Retningen af ​​videnskabelig forskning relateret til konstruktionen af ​​sådanne systemer kaldes også.

Former for organisering af interaktion mellem computere og mennesker i maskinoversættelse

Automatiseret oversættelse

I stedet for "maskine" bruges nogle gange ordet automatisk , hvilket ikke påvirker betydningen. Begrebet automatiseret oversættelse har dog en helt anden betydning – med det hjælper programmet blot en person med at oversætte tekster.

Automatiseret oversættelse involverer følgende former for interaktion:

I engelsk terminologi skelnes også termerne fra engelsk.  maskinoversættelse, MT (fuldautomatisk oversættelse) og engelsk.  maskinstøttet eller eng.  maskinassisteret oversættelse (MAT) (automatiseret); hvis det er nødvendigt at udpege begge, skriver de M(A)T.

Der er flere fundamentalt forskellige tilgange til konstruktionen af ​​maskinoversættelsesalgoritmer: regelbaseret , statistisk eller statistisk-baseret, neural maskinoversættelse (NMT). Den første tilgang er traditionel og bruges af de fleste udviklere af maskinoversættelsessystemer (PROMT i Rusland, SYSTRAN i Frankrig, Linguatec i Tyskland osv.) [1] Den anden type omfatter også den populære tjeneste Yandex.Translate , Google Translate . som en ny service fra ABBYY [2] . Nu er de fleste systemer hybride - der kombinerer regler, statistik og neurale netværk.

Statistisk maskinoversættelse

Statistisk maskinoversættelse  er en type maskinoversættelse af tekst baseret på sammenligning af store mængder sprogpar. Sprogpar - tekster, der indeholder sætninger på ét sprog og de tilsvarende sætninger i det andet, kan enten være varianter af at skrive to sætninger af en person, der har to sprog som modersmål, eller et sæt sætninger og deres oversættelser lavet af en person. Statistisk maskinoversættelse har således egenskaben "selv-læring". Jo flere sprogpar der er tilgængelige, og jo tættere de matcher hinanden, jo bedre bliver resultatet af statistisk maskinoversættelse. Begrebet "statistisk maskinoversættelse" refererer til en generel tilgang til løsning af oversættelsesproblemet, som er baseret på at finde den mest sandsynlige oversættelse af en sætning ved hjælp af data hentet fra en tosproget tekstsamling. Et eksempel på en tosproget tekstsamling er Folketingets betænkninger, som er referater af forhandlinger i Folketinget. Tosprogede parlamentariske optegnelser udgives i Canada, Hong Kong og andre lande; officielle dokumenter fra Det Europæiske Økonomiske Fællesskab udgives på 11 sprog; a FN udgiver dokumenter på flere sprog. Som det viser sig, er disse materialer uvurderlige ressourcer til statistisk maskinoversættelse.

Maskinoversættelses historie

Ideen om at bruge computere til oversættelse blev udtrykt i 1947 i USA , umiddelbart efter de første computeres fremkomst. Den første offentlige demonstration af maskinoversættelse (det såkaldte Georgetown-eksperiment ) fandt sted i 1954 . På trods af systemets primitive karakter (en ordbog med 250 ord, en grammatik med 6 regler, oversættelse af flere simple sætninger), fik dette eksperiment en bred respons: forskning begyndte i England , Bulgarien , Østtyskland , Italien , Kina , Frankrig , Tyskland , Japan og andre lande; i samme 1954 i USSR .

I midten af ​​1960'erne blev der leveret to systemer til russisk-engelsk oversættelse til praktisk brug i USA:

ALPAC -kommissionen , der blev nedsat til at evaluere sådanne systemer, kom dog til den konklusion, at denne aktivitet på grund af den lave kvalitet af maskinoversatte tekster er urentabel i USA. Selvom kommissionen anbefalede at fortsætte og uddybe den teoretiske udvikling, førte dens konklusioner generelt til en stigning i pessimisme , et fald i finansieringen og ofte til et fuldstændigt ophør af arbejdet med dette emne.

Ikke desto mindre fortsatte forskningen i en række lande, hjulpet af de konstante fremskridt inden for computerteknologi. En særlig væsentlig faktor var fremkomsten af ​​mini- og personlige computere , og med dem mere og mere komplekse ordbogs-, søge- , osv.-systemer fokuseret på at arbejde med naturlige sprogdata. Behovet for oversættelse som sådan voksede også på grund af væksten i internationale relationer. Alt dette førte til en ny stigning i dette område, som kom omkring fra midten af ​​1970'erne . I 1980'erne kom tiden til den udbredte praktiske anvendelse af oversættelsessystemer, og et marked for kommercielle udviklinger om dette emne opstod.

Men de drømme, som menneskeheden påtog sig opgaven med maskinoversættelse for et halvt århundrede siden, forbliver i vid udstrækning drømme: Oversættelse af høj kvalitet af tekster om en bred vifte af emner er stadig uopnåelig. Accelerationen af ​​oversætterens arbejde ved brug af maskinoversættelsessystemer er imidlertid utvivlsom: ifølge skøn fra slutningen af ​​1980'erne op til fem gange.

I øjeblikket er der mange kommercielle maskinoversættelsesprojekter. En af pionererne inden for maskinoversættelse var SYSTRAN . I Rusland har en gruppe ledet af prof. R. G. Piotrovsky ( det russiske statspædagogiske universitet opkaldt efter A. I. Herzen , St. Petersborg ).

Filosofiske grundlag

I 1960'erne opsummerede Stanisław Lem udsagn om problemet med maskinoversættelse og sammenhængen med selve maskinens forståelse af teksten (som f.eks. er forbundet med diskussionen om begrebet " kineserværelset " formuleret i 1980 ):

... vi insisterer på at udstyre oversættelsesmaskiner med menneskets "fylde af det indre liv"; dog ved vi simpelthen ikke i hvor høj grad man kan "undergive personlighed" til en maskine, der skal oversætte godt. Vi ved ikke, om det er muligt at "forstå" uden at have "personlighed" i hvert fald i embryo. <...> Det er ikke muligt effektivt at bruge det operationelle sprog til ende som et oversættelsesværktøj inden for de diskursive sprog – mentale. Enten vil maskiner handle "forstående", eller også vil der slet ikke være nogen virkelig effektive oversættelsesmaskiner [3] .

Oversættelseskvalitet

Kvaliteten af ​​oversættelsen afhænger af kildetekstens emne og stil , såvel som den grammatiske, syntaktiske og leksikalske affinitet af sprogene, som oversættelsen er lavet mellem. Maskinoversættelse af litterære tekster er næsten altid af utilfredsstillende kvalitet. Ikke desto mindre, for tekniske dokumenter, i nærværelse af specialiserede maskinordbøger og en vis tilpasning af systemet til funktionerne i en bestemt type tekst, er det muligt at opnå en oversættelse af acceptabel kvalitet, som kun kræver en lille redaktionel rettelse. Jo mere formel stil kildedokumentet har, desto bedre kvalitet kan oversættelsen forventes. De bedste resultater ved brug af maskinoversættelse kan opnås for tekster skrevet i en teknisk (diverse beskrivelser og manualer) og officiel forretningsstil .

Brugen af ​​maskinoversættelse uden emnejustering (eller bevidst fejljustering) er bagdelen af ​​mange internetvittigheder . Af de ældste og mest populære eksempler på sådanne vittigheder er teksten til oversættelse af dokumentationen til musedriveren kendt som " Mouse Packers" den mest berømte , angivet som "oversættelsen af ​​computerdokumentation af Poliglossums maskinoversættelsessystem baseret på medicinsk , kommercielle og juridiske ordbøger" [komm. 1] . Fra de korte - sætningen " Vores kat fødte tre killinger - to hvide og en sort ", som online-oversætteren " PROMT " (version 7.0, 2007 ) forvandlede til " Vores kat fødte tre killinger - to hvide og en afroamerikaner ». [6] Hvis "afroamerikaner" stadig kunne gøres "sort" ved at skrive " sort killing ", så kunne "kat" ikke ændre køn: for eksempel blev hunkat oversat til "hunkat".

Oftest er sådanne vittigheder relateret til det faktum, at programmet ikke genkender sætningens kontekst og oversætter begreberne ordret, udover ikke at skelne egennavne fra almindelige ord. Den samme PROMT-oversætter forvandlede " Leo Tolstoy " til "Lion Thick" ("fed løve"), " bra-ket notation " til "Katyas bh-note", " Lie algebra " til "Lie algebra", " excentricitetsvektor " - til "originalitetsvektor", " Shawnee Smith " til "Shawnee Smith", spillet "Red light, green light", populært i serien " The Squid Game", til "red light, green light" osv. Google Translate , på tværtimod blev ordet " ris " ofte forvekslet med efternavnet på den amerikanske udenrigsminister . Roblox -spil har store maskinoversættelser som "car ram" til "car ram" i Beat up-simulatorspil .

Se også

Kommentarer

  1. Dette er dog ikke tilfældet: Polyglossum ( sic ) er en elektronisk ordbog [4] , et program af samme klasse som Lingvo , som ikke er i stand til at oversætte på egen hånd. På det tidspunkt eksisterede den i versioner til DOS og Windows 3.x , og ringere end Lingvo og Context med hensyn til kvaliteten af ​​den generelle ordbog havde den et rekordstort antal specialiserede ordbøger. Derudover udsender individuelle oversættelsesfejl en falsk - sandsynligvis, efter maskinoversættelse, blev teksten redigeret manuelt: eksperimentets renhed: det kunne bestemt ikke have gjort uden ændringer foretaget af teksten af ​​en menneskelig hånd [5] .

Noter

  1. Maskinoversættelse: Regler vs. Statistik . Hentet 22. december 2011. Arkiveret fra originalen 23. november 2011.
  2. ABBYYs nye tilgang til tekstoversættelse . Dato for adgang: 22. december 2011. Arkiveret fra originalen 20. januar 2012.
  3. " Summa Technologiae ", 1963 (eller 2. udgave 1967), kapitel 4.
  4. Polyglossum på den officielle hjemmeside . Hentet 4. juli 2011. Arkiveret fra originalen 16. september 2010.
  5. K. Knop. Sokrates er min ven, men sandheden er dyrere Arkiveret 21. januar 2021 på Wayback Machine // Computerra. - 1999. - nr. 47 (23. november).
  6. Vores kat fødte tre killinger - to hvide og en afroamerikaner

Litteratur

Links