Russisk nationalkorpus | |
---|---|
URL | ruscorpora.ru |
Kommerciel | Ingen |
Site type | pædagogisk/videnskabeligt projekt |
Registrering | ja : påkrævet for at få adgang til teksterne; licensaftale |
Sprog) | Russisk / engelsk |
Serverplacering | Rusland |
Ejer | Institut for det russiske sprog opkaldt efter V. V. Vinogradov RAS |
Begyndelse af arbejdet | 2003 |
Nuværende status | virker og udvikler sig |
National Corpus of the Russian Language (NCRL) er et søgbart elektronisk onlinekorpus af russiske tekster. Åbnet 29. april 2004 . Det historiske korpus af kirkeslaviske, gammelrussiske (XI-XIV århundreder) og centralrussiske (XV-begyndelsen af XVIII århundreder) tekster er også tilgængelige for søgning.
Arbejdet med oprettelsen af korpuset blev startet i 2001 af en gruppe filologer fra Moskva , Skt. Petersborg , Voronezh og andre byer.
Følgende organisationer deltager i programmet for oprettelsen af det russiske sprogs nationale korpus [1] :
Korpuset omfatter både skriftlige tekster (fiktion, erindringer, journalistik, videnskabelig, religiøs litteratur, hverdagstryksager) og optegnelser af mundtlige tekster (offentlige taler og private samtaler).
Korpuset omfatter også underkorpus af poetiske og dialektale tekster, korpus af parallelle tekster (korpus parallelt med russisk er tilgængelige for følgende sprog: engelsk, armensk, hviderussisk, bulgarsk, buryat, spansk, italiensk, kinesisk, lettisk, tysk, polsk , ukrainsk, fransk, svensk, estisk og flersproget), et separat aviskorpus (mediemateriale fra begyndelsen af det 21. århundrede), kirkeslavisk korpus (liturgiske tekster, moderne (XIX-XX århundreder) og tidligere perioder), historisk (inkl. Gammelrussisk, gammelrussisk, birkebarkbogstaver), syntaktiske, accentologiske, multimedie- og undervisningsunderkorpuser.
Siden 2010, som en del af det historiske underkorpus af National Corpus of the Russian Language, har et tekstkorpus af birkebarkbogstaver med fuld morfologisk markering været tilgængeligt. Teksterne af birkebarkbogstaver som en del af korpuset er interaktivt knyttet til deres præsentation på webstedet gramoty.ru [3] .
Volumen af hovedkorpuset i juni 2022 var 375 millioner ordbrug, og den samlede mængde korpus overstiger 1,5 milliarder ordbrug [4] .
Tekster er forsynet med meta-markering (efter oprettelsesdato, forfatter, genre osv.); ordformer i tekster er udstyret med automatisk morfologisk og semantisk markering; parallelle tekster er justeret; teksterne i det poetiske korpus er også forsynet med særlige metriske markeringer.
1,5 % af teksterne er forsynet med morfologisk [5] og semantisk [6] markup med manuelt fjernet homonymi ("disambiguated subcorpus").
Ramme | Antal tekster | Antal tilbud | Antal ordbrug | % af ordbrug |
---|---|---|---|---|
Dezambiguirovannaya del af kroppen | 2 tusind | 500 tusind | 6 mio | 1,6 % |
Hovedbygning | 84 tusind | 19,1 mio | 209 mio | 57,3 % |
Hele kroppen | 342 tusind | 32 mio | 364 mio | 100 % |
I øjeblikket er det kun korpussøgning , der er gratis og gratis . Korpuswebstedet og dets søgning vedligeholdes af Yandex - virksomheden, hvis medarbejdere også deltog i udviklingen af korpussoftwaren. Adgang til hele korpuset (kopiering og overførsel af dets database) er forbudt i henhold til licensaftalen. For at få adgang til 1/6 af den markerede del af underkorpuset skal du registrere og acceptere licensaftalen [7] . Problemet med adgangsbegrænsning er beregnet til at blive løst af Open Corpus-projektet, som også skaber et korpus af det russiske sprog, men under en gratis licens [8] .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |