Statistisk maskinoversættelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 18. juni 2021; checks kræver 2 redigeringer .

Statistisk maskinoversættelse ( SMT ) er en type maskinoversættelse, hvor oversættelsen genereres ud fra statistiske modeller, hvis parametre er afledt af analysen af tosprogede tekstkorpus (tekstkorpus).

Statistisk maskinoversættelse står i kontrast til regelbaserede maskinoversættelsessystemer (RBMT) og eksempelbaserede MT (EBMT) maskinoversættelsessystemer.

De første ideer til statistisk maskinoversættelse blev udgivet af Warren Weaver i 1949. "Anden bølge" - begyndelsen af 1990'erne, IBM . "Tredje bølge" - Google, Microsoft, Language Weaver, Yandex ...

Udviklere af maskinoversættelsessystemer introducerer nogle "tværgående" regler for at forbedre kvaliteten og gør derved rent statistiske systemer til hybrid maskinoversættelse . Tilføjelsen af nogle regler, det vil sige oprettelsen af hybride systemer, forbedrer kvaliteten af oversættelser noget, især når mængden af inputdata, der bruges til at opbygge maskinoversætterindekset, er utilstrækkelig.

Grundlæggende

Fordele ved SMT

Hurtig opsætning
Nemt at tilføje nye oversættelsesvejledninger
Oversættelsens glathed

Ulemper ved SMT

"Mangel" af parallelle sager
Talrige grammatiske fejl
Oversættelse ustabilitet

Sprogmodeller

Som sprogmodel bruger statistiske oversættelsessystemer hovedsageligt forskellige modifikationer af n-gram-modellen, som siger, at " grammatikaliteten " ved at vælge det næste ord, når du danner en tekst, kun bestemmes af, hvilke (n-1) ord der kommer før det [ 1] .

n-gram.
- — Fordele: — høj kvalitet af oversættelse for sætninger, der passer helt ind i n-gram-modellen.
- — Ulemper: — Oversættelse af høj kvalitet er kun mulig for sætninger, der passer helt ind i n-gram-modellen.

Statistiske modeller for oversættelse

ifølge (Ord-baseret oversættelse - WBT) [2]
Sætningsbaseret oversættelse (PBT) [3] [4]
Syntaksbaseret oversættelse (SBT) [5]
ved hierarkisk sætningsbaseret oversættelse (HPBT) [6]

Se også

Kilder

↑ Statistisk maskinoversættelsessystem (Distribueret statistisk maskinoversættelsessystem) | Ilya (w-495) Nikitin - Academia.edu . Hentet 19. marts 2013. Arkiveret fra originalen 22. marts 2013. (ubestemt)
↑ Arkiveret kopi (link ikke tilgængeligt) . Hentet 17. marts 2013. Arkiveret fra originalen 3. november 2013. (ubestemt)
↑ Kilde . Hentet 17. marts 2013. Arkiveret fra originalen 3. november 2013. (ubestemt)
↑ Kilde . Hentet 17. marts 2013. Arkiveret fra originalen 26. maj 2013. (ubestemt)
↑ Arkiveret kopi (link ikke tilgængeligt) . Hentet 17. marts 2013. Arkiveret fra originalen 3. februar 2013. (ubestemt)
↑ Arkiveret kopi (link ikke tilgængeligt) . Hentet 17. marts 2013. Arkiveret fra originalen 26. maj 2013. (ubestemt)

Tilgange til maskinoversættelse
Ordbog baseret Regel baseret Baseret på transformation Statistisk Baseret på eksempler Interlingual neurale Hybrid

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur