Russisk nationalkorpus

Russisk nationalkorpus
URL ruscorpora.ru
Kommerciel Ingen
Site type pædagogisk/videnskabeligt projekt
Registrering ja : påkrævet for at få adgang til teksterne; licensaftale
Sprog) Russisk / engelsk
Serverplacering Rusland
Ejer Institut for det russiske sprog opkaldt efter V. V. Vinogradov RAS
Begyndelse af arbejdet 2003
Nuværende status virker og udvikler sig

National Corpus of the Russian Language (NCRL) er  et søgbart elektronisk onlinekorpus af russiske tekster. Åbnet 29. april 2004 . Det historiske korpus af kirkeslaviske, gammelrussiske (XI-XIV århundreder) og centralrussiske (XV-begyndelsen af ​​XVIII århundreder) tekster er også tilgængelige for søgning.

Kompilere

Arbejdet med oprettelsen af ​​korpuset blev startet i 2001 af en gruppe filologer fra Moskva , Skt. Petersborg , Voronezh og andre byer.

Følgende organisationer deltager i programmet for oprettelsen af ​​det russiske sprogs nationale korpus [1] :

Korpsets sammensætning

Korpuset omfatter både skriftlige tekster (fiktion, erindringer, journalistik, videnskabelig, religiøs litteratur, hverdagstryksager) og optegnelser af mundtlige tekster (offentlige taler og private samtaler).

Korpuset omfatter også underkorpus af poetiske og dialektale tekster, korpus af parallelle tekster (korpus parallelt med russisk er tilgængelige for følgende sprog: engelsk, armensk, hviderussisk, bulgarsk, buryat, spansk, italiensk, kinesisk, lettisk, tysk, polsk , ukrainsk, fransk, svensk, estisk og flersproget), et separat aviskorpus (mediemateriale fra begyndelsen af ​​det 21. århundrede), kirkeslavisk korpus (liturgiske tekster, moderne (XIX-XX århundreder) og tidligere perioder), historisk (inkl. Gammelrussisk, gammelrussisk, birkebarkbogstaver), syntaktiske, accentologiske, multimedie- og undervisningsunderkorpuser.

Siden 2010, som en del af det historiske underkorpus af National Corpus of the Russian Language, har et tekstkorpus af birkebarkbogstaver med fuld morfologisk markering været tilgængeligt. Teksterne af birkebarkbogstaver som en del af korpuset er interaktivt knyttet til deres præsentation på webstedet gramoty.ru [3] .

Skrogvolumen

Volumen af ​​hovedkorpuset i juni 2022 var 375 millioner ordbrug, og den samlede mængde korpus overstiger 1,5 milliarder ordbrug [4] .

Tekster er forsynet med meta-markering (efter oprettelsesdato, forfatter, genre osv.); ordformer i tekster er udstyret med automatisk morfologisk og semantisk markering; parallelle tekster er justeret; teksterne i det poetiske korpus er også forsynet med særlige metriske markeringer.

1,5 % af teksterne er forsynet med morfologisk [5] og semantisk [6] markup med manuelt fjernet homonymi ("disambiguated subcorpus").

Ramme Antal tekster Antal tilbud Antal ordbrug % af ordbrug
Dezambiguirovannaya del af kroppen 2 tusind 500 tusind 6 mio 1,6 %
Hovedbygning 84 tusind 19,1 mio 209 mio 57,3 %
Hele kroppen 342 tusind 32 mio 364 mio 100 %

Adgang

I øjeblikket er det kun korpussøgning , der er gratis og gratis . Korpuswebstedet og dets søgning vedligeholdes af Yandex - virksomheden, hvis medarbejdere også deltog i udviklingen af ​​korpussoftwaren. Adgang til hele korpuset (kopiering og overførsel af dets database) er forbudt i henhold til licensaftalen. For at få adgang til 1/6 af den markerede del af underkorpuset skal du registrere og acceptere licensaftalen [7] . Problemet med adgangsbegrænsning er beregnet til at blive løst af Open Corpus-projektet, som også skaber et korpus af det russiske sprog, men under en gratis licens [8] .

Se også

Noter

  1. Projektdeltagere . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018.
  2. Om projektet. Parallelle korpuser af skrevne tekster . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018.
  3. Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod bogstaver på birkebark (fra udgravninger i 2001-2014) Arkivkopi dateret 27. marts 2019 på Wayback Machine . Bind XII. - M .: Sprog i slavisk kultur, 2015. - 288 s.
  4. Det russiske sprogs nationale korpus . ruscorpora.ru. Hentet 7. marts 2018. Arkiveret fra originalen 7. oktober 2011.
  5. Morfologi . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 19. februar 2018.
  6. Semantik . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 19. februar 2018.
  7. Brug af kroppen. Licensaftale . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018.
  8. OpenCorpora: åbent korpus af det russiske sprog . opencorpora.org . Hentet 26. januar 2022. Arkiveret fra originalen 26. januar 2022.

Litteratur

Links