Skriftlig korpus af det tatariske sprog | |
---|---|
URL | corpus.tatar |
Site type | korpus af tekster |
Sprog) | tatarisk/russisk/engelsk |
Serverplacering | Tatarstan |
Forfatter | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Begyndelse af arbejdet | 2011 |
Nuværende status | Arbejder og udvikler |
Det skriftlige korpus af det tatariske sprog er et elektronisk korpus af det tatariske sprog, tilgængeligt til onlinebrug. Korpuset er beregnet til dem, der er interesserede i det tatariske sprogs system, tilstand og udsigter. Det er nødvendigt for lingvister, der studerer det tatariske sprog inden for rammerne af korpuslingvistik.
Siden blev åbnet den 15. marts 2012. Nuværende adresse er http://corpus.tatar Arkiveret 26. april 2016 på Wayback Machine .
Fås på tatarisk, russisk og engelsk.
Siden slutningen af 2014 har korpusets volumen mere end 116 millioner ord, som udgør mere end 10 millioner sætninger, antallet af forskellige ordformer nærmer sig 1,5 millioner
Tekster i korpuset gemmes som separate sætninger mhp. forhindre deres kopiering.
Adgang til brugen af bygningen er gratis.
Oprettelsen af sagen begyndte i 2010 af en gruppe entusiaster. Det blev dikteret af behovet for at udvikle et system til maskinoversættelse af tekster fra tatarisk til et fremmedsprog og omvendt, samt et system til automatisk syntese og genkendelse af tatarisk tale om et bestemt emne.
Korpuset kan bruges af lingvister, der studerer det tatariske sprog som led i korpuslingvistik, samt ved undervisning i sproget og som reference ved udarbejdelse af forskellige dokumenter.
Korpuset giver dig mulighed for at se konteksten, bestemme hyppigheden af forekomster og finde ord med de nødvendige egenskaber.
Denne type søgning Arkiveret 26. april 2016 på Wayback Machine giver dig mulighed for at se højre, venstre og semantiske sammenhænge for det søgte ord sorteret efter frekvens.
Ret kontekst - ord placeret umiddelbart efter det aktuelle ord.
Den venstre kontekst er ordene umiddelbart før det aktuelle ord.
Semantisk kontekst - ord placeret i samme sætning med det aktuelle ord, det vil sige at have en semantisk forbindelse med det i en eller anden grad.
I 2014 blev den morfologiske markering af Korpset lavet. Metasproget for grammatiske mærker er baseret på systemet med "tags" for de tyrkiske sprog, udviklet af det internationale projekt Apertium Archived April 14, 2016 at the Wayback Machine . Som en del af dette projekt bliver der skabt et maskinoversættelsessystem til en lang række sprog. De vigtigste argumenter for at vælge Apertiums morfologiske tagger til markering af det skrevne korpus er:
— høj kvalitet af den morfologiske annotation;
- absolut åbenhed i dette projekt: alle kildekoder og udviklinger er offentligt tilgængelige for alle gratis. Det komplekse morfologiske søgesystem
udviklet af os i 2015-2016 Arkiveret 26. april 2016 på Wayback Machine giver dig mulighed for at søge i Corpus baseret på forskellige kombinationer af sådanne parametre som ordform, lemma, et sæt morfologiske (grammatiske) tags, begyndelse, midte, slutning af et ord med angivelse af mulige afstande mellem leksemer.
På hjemmesiden for Written Corpus of the Tatar Language er det muligt at lytte til både fundne sætninger og fritekst Arkiveret 26. april 2016 på Wayback Machine .
Corpus-webstedet er vært for forskellige statistiske data Arkivkopi dateret 26. april 2016 på Wayback Machine , som forfatterne modtager, efterhånden som dataene behandles.
Skaberne af korpuset er:
Assisteret af: