Maskinoversættelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 21. oktober 2021; checks kræver 5 redigeringer .

Maskinoversættelse er processen med at oversætte tekster (skrevne og ideelt set mundtlige) fra et naturligt sprog til et andet ved hjælp af et specielt computerprogram . Retningen af videnskabelig forskning relateret til konstruktionen af sådanne systemer kaldes også.

Former for organisering af interaktion mellem computere og mennesker i maskinoversættelse

Med efterredigering: den originale tekst behandles af maskinen, og den menneskelige editor retter resultatet.
Med forhåndsredigering: en person tilpasser teksten til maskinbehandling (eliminerer mulige tvetydige aflæsninger, forenkler og markerer teksten), hvorefter softwarebehandlingen begynder.
Med interediting: en person forstyrrer arbejdet i oversættelsessystemet og løser vanskelige sager.
Blandede systemer (f.eks. samtidig med før- og efterredigering).

Automatiseret oversættelse

I stedet for "maskine" bruges nogle gange ordet automatisk , hvilket ikke påvirker betydningen. Begrebet automatiseret oversættelse har dog en helt anden betydning – med det hjælper programmet blot en person med at oversætte tekster.

Automatiseret oversættelse involverer følgende former for interaktion:

Delvis automatiseret oversættelse: for eksempel brugen af computerordbøger af en menneskelig oversætter .
Systemer med en arbejdsdeling: en computer er trænet til kun at oversætte sætninger med en stift defineret struktur (men gør det på en sådan måde, at det ikke behøver at blive rettet), og alt, der ikke passer ind i skemaet, gives til en person.

I engelsk terminologi skelnes også termerne fra engelsk. maskinoversættelse, MT (fuldautomatisk oversættelse) og engelsk. maskinstøttet eller eng. maskinassisteret oversættelse (MAT) (automatiseret); hvis det er nødvendigt at udpege begge, skriver de M(A)T.

Der er flere fundamentalt forskellige tilgange til konstruktionen af maskinoversættelsesalgoritmer: regelbaseret , statistisk eller statistisk-baseret, neural maskinoversættelse (NMT). Den første tilgang er traditionel og bruges af de fleste udviklere af maskinoversættelsessystemer (PROMT i Rusland, SYSTRAN i Frankrig, Linguatec i Tyskland osv.) [1] Den anden type omfatter også den populære tjeneste Yandex.Translate , Google Translate . som en ny service fra ABBYY [2] . Nu er de fleste systemer hybride - der kombinerer regler, statistik og neurale netværk.

Statistisk maskinoversættelse

Statistisk maskinoversættelse er en type maskinoversættelse af tekst baseret på sammenligning af store mængder sprogpar. Sprogpar - tekster, der indeholder sætninger på ét sprog og de tilsvarende sætninger i det andet, kan enten være varianter af at skrive to sætninger af en person, der har to sprog som modersmål, eller et sæt sætninger og deres oversættelser lavet af en person. Statistisk maskinoversættelse har således egenskaben "selv-læring". Jo flere sprogpar der er tilgængelige, og jo tættere de matcher hinanden, jo bedre bliver resultatet af statistisk maskinoversættelse. Begrebet "statistisk maskinoversættelse" refererer til en generel tilgang til løsning af oversættelsesproblemet, som er baseret på at finde den mest sandsynlige oversættelse af en sætning ved hjælp af data hentet fra en tosproget tekstsamling. Et eksempel på en tosproget tekstsamling er Folketingets betænkninger, som er referater af forhandlinger i Folketinget. Tosprogede parlamentariske optegnelser udgives i Canada, Hong Kong og andre lande; officielle dokumenter fra Det Europæiske Økonomiske Fællesskab udgives på 11 sprog; a FN udgiver dokumenter på flere sprog. Som det viser sig, er disse materialer uvurderlige ressourcer til statistisk maskinoversættelse.

Maskinoversættelses historie

Ideen om at bruge computere til oversættelse blev udtrykt i 1947 i USA , umiddelbart efter de første computeres fremkomst. Den første offentlige demonstration af maskinoversættelse (det såkaldte Georgetown-eksperiment ) fandt sted i 1954 . På trods af systemets primitive karakter (en ordbog med 250 ord, en grammatik med 6 regler, oversættelse af flere simple sætninger), fik dette eksperiment en bred respons: forskning begyndte i England , Bulgarien , Østtyskland , Italien , Kina , Frankrig , Tyskland , Japan og andre lande; i samme 1954 i USSR .

I midten af 1960'erne blev der leveret to systemer til russisk-engelsk oversættelse til praktisk brug i USA:

MARK (i US Air Force Department of Foreign Vehicles);
GAT (udviklet af Georgetown University, brugt på National Atomic Energy Laboratory ved Oak Ridge og ved Euratom-centret i Ispra, Italien).

ALPAC -kommissionen , der blev nedsat til at evaluere sådanne systemer, kom dog til den konklusion, at denne aktivitet på grund af den lave kvalitet af maskinoversatte tekster er urentabel i USA. Selvom kommissionen anbefalede at fortsætte og uddybe den teoretiske udvikling, førte dens konklusioner generelt til en stigning i pessimisme , et fald i finansieringen og ofte til et fuldstændigt ophør af arbejdet med dette emne.

Ikke desto mindre fortsatte forskningen i en række lande, hjulpet af de konstante fremskridt inden for computerteknologi. En særlig væsentlig faktor var fremkomsten af mini- og personlige computere , og med dem mere og mere komplekse ordbogs-, søge- , osv.-systemer fokuseret på at arbejde med naturlige sprogdata. Behovet for oversættelse som sådan voksede også på grund af væksten i internationale relationer. Alt dette førte til en ny stigning i dette område, som kom omkring fra midten af 1970'erne . I 1980'erne kom tiden til den udbredte praktiske anvendelse af oversættelsessystemer, og et marked for kommercielle udviklinger om dette emne opstod.

Men de drømme, som menneskeheden påtog sig opgaven med maskinoversættelse for et halvt århundrede siden, forbliver i vid udstrækning drømme: Oversættelse af høj kvalitet af tekster om en bred vifte af emner er stadig uopnåelig. Accelerationen af oversætterens arbejde ved brug af maskinoversættelsessystemer er imidlertid utvivlsom: ifølge skøn fra slutningen af 1980'erne op til fem gange.

I øjeblikket er der mange kommercielle maskinoversættelsesprojekter. En af pionererne inden for maskinoversættelse var SYSTRAN . I Rusland har en gruppe ledet af prof. R. G. Piotrovsky ( det russiske statspædagogiske universitet opkaldt efter A. I. Herzen , St. Petersborg ).

Filosofiske grundlag

I 1960'erne opsummerede Stanisław Lem udsagn om problemet med maskinoversættelse og sammenhængen med selve maskinens forståelse af teksten (som f.eks. er forbundet med diskussionen om begrebet " kineserværelset " formuleret i 1980 ):

... vi insisterer på at udstyre oversættelsesmaskiner med menneskets "fylde af det indre liv"; dog ved vi simpelthen ikke i hvor høj grad man kan "undergive personlighed" til en maskine, der skal oversætte godt. Vi ved ikke, om det er muligt at "forstå" uden at have "personlighed" i hvert fald i embryo. <...> Det er ikke muligt effektivt at bruge det operationelle sprog til ende som et oversættelsesværktøj inden for de diskursive sprog – mentale. Enten vil maskiner handle "forstående", eller også vil der slet ikke være nogen virkelig effektive oversættelsesmaskiner [3] .

Oversættelseskvalitet

Kvaliteten af oversættelsen afhænger af kildetekstens emne og stil , såvel som den grammatiske, syntaktiske og leksikalske affinitet af sprogene, som oversættelsen er lavet mellem. Maskinoversættelse af litterære tekster er næsten altid af utilfredsstillende kvalitet. Ikke desto mindre, for tekniske dokumenter, i nærværelse af specialiserede maskinordbøger og en vis tilpasning af systemet til funktionerne i en bestemt type tekst, er det muligt at opnå en oversættelse af acceptabel kvalitet, som kun kræver en lille redaktionel rettelse. Jo mere formel stil kildedokumentet har, desto bedre kvalitet kan oversættelsen forventes. De bedste resultater ved brug af maskinoversættelse kan opnås for tekster skrevet i en teknisk (diverse beskrivelser og manualer) og officiel forretningsstil .

Brugen af maskinoversættelse uden emnejustering (eller bevidst fejljustering) er bagdelen af mange internetvittigheder . Af de ældste og mest populære eksempler på sådanne vittigheder er teksten til oversættelse af dokumentationen til musedriveren kendt som " Mouse Packers" den mest berømte , angivet som "oversættelsen af computerdokumentation af Poliglossums maskinoversættelsessystem baseret på medicinsk , kommercielle og juridiske ordbøger" [komm. 1] . Fra de korte - sætningen " Vores kat fødte tre killinger - to hvide og en sort ", som online-oversætteren " PROMT " (version 7.0, 2007 ) forvandlede til " Vores kat fødte tre killinger - to hvide og en afroamerikaner ». [6] Hvis "afroamerikaner" stadig kunne gøres "sort" ved at skrive " sort killing ", så kunne "kat" ikke ændre køn: for eksempel blev hunkat oversat til "hunkat".

Oftest er sådanne vittigheder relateret til det faktum, at programmet ikke genkender sætningens kontekst og oversætter begreberne ordret, udover ikke at skelne egennavne fra almindelige ord. Den samme PROMT-oversætter forvandlede " Leo Tolstoy " til "Lion Thick" ("fed løve"), " bra-ket notation " til "Katyas bh-note", " Lie algebra " til "Lie algebra", " excentricitetsvektor " - til "originalitetsvektor", " Shawnee Smith " til "Shawnee Smith", spillet "Red light, green light", populært i serien " The Squid Game", til "red light, green light" osv. Google Translate , på tværtimod blev ordet " ris " ofte forvekslet med efternavnet på den amerikanske udenrigsminister . Roblox -spil har store maskinoversættelser som "car ram" til "car ram" i Beat up-simulatorspil .

Se også

Kommentarer

↑ Dette er dog ikke tilfældet: Polyglossum ( sic ) er en elektronisk ordbog [4] , et program af samme klasse som Lingvo , som ikke er i stand til at oversætte på egen hånd. På det tidspunkt eksisterede den i versioner til DOS og Windows 3.x , og ringere end Lingvo og Context med hensyn til kvaliteten af den generelle ordbog havde den et rekordstort antal specialiserede ordbøger. Derudover udsender individuelle oversættelsesfejl en falsk - sandsynligvis, efter maskinoversættelse, blev teksten redigeret manuelt: eksperimentets renhed: det kunne bestemt ikke have gjort uden ændringer foretaget af teksten af en menneskelig hånd [5] .

Noter

↑ Maskinoversættelse: Regler vs. Statistik . Hentet 22. december 2011. Arkiveret fra originalen 23. november 2011. (ubestemt)
↑ ABBYYs nye tilgang til tekstoversættelse . Dato for adgang: 22. december 2011. Arkiveret fra originalen 20. januar 2012. (ubestemt)
↑ " Summa Technologiae ", 1963 (eller 2. udgave 1967), kapitel 4.
↑ Polyglossum på den officielle hjemmeside . Hentet 4. juli 2011. Arkiveret fra originalen 16. september 2010. (ubestemt)
↑ K. Knop. Sokrates er min ven, men sandheden er dyrere Arkiveret 21. januar 2021 på Wayback Machine // Computerra. - 1999. - nr. 47 (23. november).
↑ Vores kat fødte tre killinger - to hvide og en afroamerikaner

Litteratur

Automatisk oversættelse / I. M. Boguslavsky // Great Russian Encyclopedia : [i 35 bind] / kap. udg. Yu. S. Osipov . - M . : Great Russian Encyclopedia, 2004-2017.

Grashchenko L. A., Klyshinsky E. S., Tumkovsky S. R., Usmanov Z. D. Konceptuel model af det russisk-tadsjikiske maskinoversættelsessystem // Rapporter fra Videnskabernes Akademi i Republikken Tadsjikistan. - 2011. - Bind 54, nr. 4. - S. 279-285.

O.S. Kulagina. Om den nuværende tilstand af maskinoversættelse // Mathematical issues of cybernetics, vol. 3, M.: Nauka, 1991, s. 5-50. Bibliografi over 140 titler. ISBN 5-02-014323-5 .

Nikolaev I.S., Mitrenina O.V., Lando T.M. Anvendt og datalingvistik. - M . : Forlagsgruppe URSS, 2017.

Maskinoversættelsens fremtid // Computerra nr. 21, 5. juni 2002.

Links

Maskinoversættelse. Fra den kolde krig til dyb læring

Ordbøger og encyklopædier

I bibliografiske kataloger
BNF : 11947452q GND : 4003966-3 J9U : 987007292868605171 LCCN : sh00006582 NDL : 00565743 NKC : ph436036

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur

Kunstig intelligens
Historie	Historien om kunstig intelligens Vinter med kunstig intelligens Dartmouth Seminar
Filosofi	Turing test kinesisk værelse Stærk og svag kunstig intelligens Venlig kunstig intelligens Etik om kunstig intelligens Kontrol problem
Vejbeskrivelse	Agent tilgang Adaptiv kontrol Viden Engineering Levedygtig systemmodel Maskinelæring Neuralt netværk sløret logik naturlig sprogbehandling Mønster genkendelse Sværm intelligens Symbolsk AI Evolutionære algoritmer Ekspertsystem
Ansøgning	Stemmekontrol Klassificeringsproblem Dokumentklassificering Dokumentklynger klyngeanalyse Lokal søgning Maskinoversættelse Optisk tegngenkendelse Tale genkendelse Håndskriftsgenkendelse Spil AI
Forskere	Charles Babbage Vladimir Vapnik Joseph Weizenbaum Norbert Wiener Victor Glushkov Vladimir Gorodetsky Jan LeCun Alexey Lyapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Juda Perle Germogen Pospelov Dmitry Pospelov Frank Rosenblatt Herbert Alexander Simon Alan Turing Patrick Winston Victor Finn Sergey Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Yudkovsky