Statistisk maskinoversættelse ( SMT ) er en type maskinoversættelse, hvor oversættelsen genereres ud fra statistiske modeller, hvis parametre er afledt af analysen af tosprogede tekstkorpus (tekstkorpus).
Statistisk maskinoversættelse står i kontrast til regelbaserede maskinoversættelsessystemer (RBMT) og eksempelbaserede MT (EBMT) maskinoversættelsessystemer.
De første ideer til statistisk maskinoversættelse blev udgivet af Warren Weaver i 1949. "Anden bølge" - begyndelsen af 1990'erne, IBM . "Tredje bølge" - Google, Microsoft, Language Weaver, Yandex ...
Udviklere af maskinoversættelsessystemer introducerer nogle "tværgående" regler for at forbedre kvaliteten og gør derved rent statistiske systemer til hybrid maskinoversættelse . Tilføjelsen af nogle regler, det vil sige oprettelsen af hybride systemer, forbedrer kvaliteten af oversættelser noget, især når mængden af inputdata, der bruges til at opbygge maskinoversætterindekset, er utilstrækkelig.
Som sprogmodel bruger statistiske oversættelsessystemer hovedsageligt forskellige modifikationer af n-gram-modellen, som siger, at " grammatikaliteten " ved at vælge det næste ord, når du danner en tekst, kun bestemmes af, hvilke (n-1) ord der kommer før det [ 1] .
maskinoversættelse | Tilgange til|
---|---|
|
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |