Skriftlig korpus af det tatariske sprog

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 25. december 2017; checks kræver 2 redigeringer .
Skriftlig korpus af det tatariske sprog
URL corpus.tatar
Site type korpus af tekster
Sprog) tatarisk/russisk/engelsk
Serverplacering Tatarstan
Forfatter Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Begyndelse af arbejdet 2011
Nuværende status Arbejder og udvikler

Det skriftlige korpus af det tatariske sprog  er et elektronisk korpus af det tatariske sprog, tilgængeligt til onlinebrug. Korpuset er beregnet til dem, der er interesserede i det tatariske sprogs system, tilstand og udsigter. Det er nødvendigt for lingvister, der studerer det tatariske sprog inden for rammerne af korpuslingvistik.
Siden blev åbnet den 15. marts 2012. Nuværende adresse er http://corpus.tatar Arkiveret 26. april 2016 på Wayback Machine .
Fås på tatarisk, russisk og engelsk.

Skrogvolumen

Siden slutningen af ​​2014 har korpusets volumen mere end 116 millioner ord, som udgør mere end 10 millioner sætninger, antallet af forskellige ordformer nærmer sig 1,5 millioner
Tekster i korpuset gemmes som separate sætninger mhp. forhindre deres kopiering.

Adgang

Adgang til brugen af ​​bygningen er gratis.

Om at bygge et korps

Oprettelsen af ​​sagen begyndte i 2010 af en gruppe entusiaster. Det blev dikteret af behovet for at udvikle et system til maskinoversættelse af tekster fra tatarisk til et fremmedsprog og omvendt, samt et system til automatisk syntese og genkendelse af tatarisk tale om et bestemt emne.

Praktisk betydning og anvendelsesmuligheder

Korpuset kan bruges af lingvister, der studerer det tatariske sprog som led i korpuslingvistik, samt ved undervisning i sproget og som reference ved udarbejdelse af forskellige dokumenter.
Korpuset giver dig mulighed for at se konteksten, bestemme hyppigheden af ​​forekomster og finde ord med de nødvendige egenskaber.

Kontekstuel statistisk søgning

Denne type søgning Arkiveret 26. april 2016 på Wayback Machine giver dig mulighed for at se højre, venstre og semantiske sammenhænge for det søgte ord sorteret efter frekvens.
Ret kontekst - ord placeret umiddelbart efter det aktuelle ord.
Den venstre kontekst er ordene umiddelbart før det aktuelle ord.
Semantisk kontekst - ord placeret i samme sætning med det aktuelle ord, det vil sige at have en semantisk forbindelse med det i en eller anden grad.

Kompleks morfologisk søgning

I 2014 blev den morfologiske markering af Korpset lavet. Metasproget for grammatiske mærker er baseret på systemet med "tags" for de tyrkiske sprog, udviklet af det internationale projekt Apertium Archived April 14, 2016 at the Wayback Machine . Som en del af dette projekt bliver der skabt et maskinoversættelsessystem til en lang række sprog. De vigtigste argumenter for at vælge Apertiums morfologiske tagger til markering af det skrevne korpus er:
— høj kvalitet af den morfologiske annotation;
- absolut åbenhed i dette projekt: alle kildekoder og udviklinger er offentligt tilgængelige for alle gratis. Det komplekse morfologiske søgesystem
udviklet af os i 2015-2016 Arkiveret 26. april 2016 på Wayback Machine giver dig mulighed for at søge i Corpus baseret på forskellige kombinationer af sådanne parametre som ordform, lemma, et sæt morfologiske (grammatiske) tags, begyndelse, midte, slutning af et ord med angivelse af mulige afstande mellem leksemer.

Tatarisk talesyntesesystem

På hjemmesiden for Written Corpus of the Tatar Language er det muligt at lytte til både fundne sætninger og fritekst Arkiveret 26. april 2016 på Wayback Machine .

Statistik

Corpus-webstedet er vært for forskellige statistiske data Arkivkopi dateret 26. april 2016 på Wayback Machine , som forfatterne modtager, efterhånden som dataene behandles.

Ulemper og udviklingsmuligheder

Kompilere

Skaberne af korpuset er:

Assisteret af:

Litteratur [1]

Noter

  1. Skrevet korpus af det tatariske sprog . Hentet 22. april 2016. Arkiveret fra originalen 25. april 2016.

Links