Maskinoversættelse er processen med at oversætte tekster (skrevne og ideelt set mundtlige) fra et naturligt sprog til et andet ved hjælp af et specielt computerprogram . Retningen af videnskabelig forskning relateret til konstruktionen af sådanne systemer kaldes også.
I stedet for "maskine" bruges nogle gange ordet automatisk , hvilket ikke påvirker betydningen. Begrebet automatiseret oversættelse har dog en helt anden betydning – med det hjælper programmet blot en person med at oversætte tekster.
Automatiseret oversættelse involverer følgende former for interaktion:
I engelsk terminologi skelnes også termerne fra engelsk. maskinoversættelse, MT (fuldautomatisk oversættelse) og engelsk. maskinstøttet eller eng. maskinassisteret oversættelse (MAT) (automatiseret); hvis det er nødvendigt at udpege begge, skriver de M(A)T.
Der er flere fundamentalt forskellige tilgange til konstruktionen af maskinoversættelsesalgoritmer: regelbaseret , statistisk eller statistisk-baseret, neural maskinoversættelse (NMT). Den første tilgang er traditionel og bruges af de fleste udviklere af maskinoversættelsessystemer (PROMT i Rusland, SYSTRAN i Frankrig, Linguatec i Tyskland osv.) [1] Den anden type omfatter også den populære tjeneste Yandex.Translate , Google Translate . som en ny service fra ABBYY [2] . Nu er de fleste systemer hybride - der kombinerer regler, statistik og neurale netværk.
Statistisk maskinoversættelse er en type maskinoversættelse af tekst baseret på sammenligning af store mængder sprogpar. Sprogpar - tekster, der indeholder sætninger på ét sprog og de tilsvarende sætninger i det andet, kan enten være varianter af at skrive to sætninger af en person, der har to sprog som modersmål, eller et sæt sætninger og deres oversættelser lavet af en person. Statistisk maskinoversættelse har således egenskaben "selv-læring". Jo flere sprogpar der er tilgængelige, og jo tættere de matcher hinanden, jo bedre bliver resultatet af statistisk maskinoversættelse. Begrebet "statistisk maskinoversættelse" refererer til en generel tilgang til løsning af oversættelsesproblemet, som er baseret på at finde den mest sandsynlige oversættelse af en sætning ved hjælp af data hentet fra en tosproget tekstsamling. Et eksempel på en tosproget tekstsamling er Folketingets betænkninger, som er referater af forhandlinger i Folketinget. Tosprogede parlamentariske optegnelser udgives i Canada, Hong Kong og andre lande; officielle dokumenter fra Det Europæiske Økonomiske Fællesskab udgives på 11 sprog; a FN udgiver dokumenter på flere sprog. Som det viser sig, er disse materialer uvurderlige ressourcer til statistisk maskinoversættelse.
Ideen om at bruge computere til oversættelse blev udtrykt i 1947 i USA , umiddelbart efter de første computeres fremkomst. Den første offentlige demonstration af maskinoversættelse (det såkaldte Georgetown-eksperiment ) fandt sted i 1954 . På trods af systemets primitive karakter (en ordbog med 250 ord, en grammatik med 6 regler, oversættelse af flere simple sætninger), fik dette eksperiment en bred respons: forskning begyndte i England , Bulgarien , Østtyskland , Italien , Kina , Frankrig , Tyskland , Japan og andre lande; i samme 1954 i USSR .
I midten af 1960'erne blev der leveret to systemer til russisk-engelsk oversættelse til praktisk brug i USA:
ALPAC -kommissionen , der blev nedsat til at evaluere sådanne systemer, kom dog til den konklusion, at denne aktivitet på grund af den lave kvalitet af maskinoversatte tekster er urentabel i USA. Selvom kommissionen anbefalede at fortsætte og uddybe den teoretiske udvikling, førte dens konklusioner generelt til en stigning i pessimisme , et fald i finansieringen og ofte til et fuldstændigt ophør af arbejdet med dette emne.
Ikke desto mindre fortsatte forskningen i en række lande, hjulpet af de konstante fremskridt inden for computerteknologi. En særlig væsentlig faktor var fremkomsten af mini- og personlige computere , og med dem mere og mere komplekse ordbogs-, søge- , osv.-systemer fokuseret på at arbejde med naturlige sprogdata. Behovet for oversættelse som sådan voksede også på grund af væksten i internationale relationer. Alt dette førte til en ny stigning i dette område, som kom omkring fra midten af 1970'erne . I 1980'erne kom tiden til den udbredte praktiske anvendelse af oversættelsessystemer, og et marked for kommercielle udviklinger om dette emne opstod.
Men de drømme, som menneskeheden påtog sig opgaven med maskinoversættelse for et halvt århundrede siden, forbliver i vid udstrækning drømme: Oversættelse af høj kvalitet af tekster om en bred vifte af emner er stadig uopnåelig. Accelerationen af oversætterens arbejde ved brug af maskinoversættelsessystemer er imidlertid utvivlsom: ifølge skøn fra slutningen af 1980'erne op til fem gange.
I øjeblikket er der mange kommercielle maskinoversættelsesprojekter. En af pionererne inden for maskinoversættelse var SYSTRAN . I Rusland har en gruppe ledet af prof. R. G. Piotrovsky ( det russiske statspædagogiske universitet opkaldt efter A. I. Herzen , St. Petersborg ).
I 1960'erne opsummerede Stanisław Lem udsagn om problemet med maskinoversættelse og sammenhængen med selve maskinens forståelse af teksten (som f.eks. er forbundet med diskussionen om begrebet " kineserværelset " formuleret i 1980 ):
... vi insisterer på at udstyre oversættelsesmaskiner med menneskets "fylde af det indre liv"; dog ved vi simpelthen ikke i hvor høj grad man kan "undergive personlighed" til en maskine, der skal oversætte godt. Vi ved ikke, om det er muligt at "forstå" uden at have "personlighed" i hvert fald i embryo. <...> Det er ikke muligt effektivt at bruge det operationelle sprog til ende som et oversættelsesværktøj inden for de diskursive sprog – mentale. Enten vil maskiner handle "forstående", eller også vil der slet ikke være nogen virkelig effektive oversættelsesmaskiner [3] .
Kvaliteten af oversættelsen afhænger af kildetekstens emne og stil , såvel som den grammatiske, syntaktiske og leksikalske affinitet af sprogene, som oversættelsen er lavet mellem. Maskinoversættelse af litterære tekster er næsten altid af utilfredsstillende kvalitet. Ikke desto mindre, for tekniske dokumenter, i nærværelse af specialiserede maskinordbøger og en vis tilpasning af systemet til funktionerne i en bestemt type tekst, er det muligt at opnå en oversættelse af acceptabel kvalitet, som kun kræver en lille redaktionel rettelse. Jo mere formel stil kildedokumentet har, desto bedre kvalitet kan oversættelsen forventes. De bedste resultater ved brug af maskinoversættelse kan opnås for tekster skrevet i en teknisk (diverse beskrivelser og manualer) og officiel forretningsstil .
Brugen af maskinoversættelse uden emnejustering (eller bevidst fejljustering) er bagdelen af mange internetvittigheder . Af de ældste og mest populære eksempler på sådanne vittigheder er teksten til oversættelse af dokumentationen til musedriveren kendt som " Mouse Packers" den mest berømte , angivet som "oversættelsen af computerdokumentation af Poliglossums maskinoversættelsessystem baseret på medicinsk , kommercielle og juridiske ordbøger" [komm. 1] . Fra de korte - sætningen " Vores kat fødte tre killinger - to hvide og en sort ", som online-oversætteren " PROMT " (version 7.0, 2007 ) forvandlede til " Vores kat fødte tre killinger - to hvide og en afroamerikaner ». [6] Hvis "afroamerikaner" stadig kunne gøres "sort" ved at skrive " sort killing ", så kunne "kat" ikke ændre køn: for eksempel blev hunkat oversat til "hunkat".
Oftest er sådanne vittigheder relateret til det faktum, at programmet ikke genkender sætningens kontekst og oversætter begreberne ordret, udover ikke at skelne egennavne fra almindelige ord. Den samme PROMT-oversætter forvandlede " Leo Tolstoy " til "Lion Thick" ("fed løve"), " bra-ket notation " til "Katyas bh-note", " Lie algebra " til "Lie algebra", " excentricitetsvektor " - til "originalitetsvektor", " Shawnee Smith " til "Shawnee Smith", spillet "Red light, green light", populært i serien " The Squid Game", til "red light, green light" osv. Google Translate , på tværtimod blev ordet " ris " ofte forvekslet med efternavnet på den amerikanske udenrigsminister . Roblox -spil har store maskinoversættelser som "car ram" til "car ram" i Beat up-simulatorspil .
![]() | ||||
---|---|---|---|---|
|
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |