Russisk nationalkorpus

Russisk nationalkorpus
URL	ruscorpora.ru
Kommerciel	Ingen
Site type	pædagogisk/videnskabeligt projekt
Registrering	ja : påkrævet for at få adgang til teksterne; licensaftale
Sprog)	Russisk / engelsk
Serverplacering	Rusland
Ejer	Institut for det russiske sprog opkaldt efter V. V. Vinogradov RAS
Begyndelse af arbejdet	2003
Nuværende status	virker og udvikler sig

National Corpus of the Russian Language (NCRL) er et søgbart elektronisk onlinekorpus af russiske tekster. Åbnet 29. april 2004 . Det historiske korpus af kirkeslaviske, gammelrussiske (XI-XIV århundreder) og centralrussiske (XV-begyndelsen af XVIII århundreder) tekster er også tilgængelige for søgning.

Kompilere

Arbejdet med oprettelsen af korpuset blev startet i 2001 af en gruppe filologer fra Moskva , Skt. Petersborg , Voronezh og andre byer.

Følgende organisationer deltager i programmet for oprettelsen af det russiske sprogs nationale korpus [1] :

Institut for det russiske sprog opkaldt efter V. V. Vinogradov RAS (IRL RAS).
Institut for Lingvistik RAS (ILS RAS).
Institut for informationstransmissionsproblemer opkaldt efter A. A. Kharkevich RAS (IITP RAS).
Institut for sproglige studier ved det russiske videnskabsakademi (IL RAS) i Skt. Petersborg (sammen med St. Petersborgs statsuniversitet (SPbSU)).
Voronezh State University [2] .

Korpsets sammensætning

Korpuset omfatter både skriftlige tekster (fiktion, erindringer, journalistik, videnskabelig, religiøs litteratur, hverdagstryksager) og optegnelser af mundtlige tekster (offentlige taler og private samtaler).

Korpuset omfatter også underkorpus af poetiske og dialektale tekster, korpus af parallelle tekster (korpus parallelt med russisk er tilgængelige for følgende sprog: engelsk, armensk, hviderussisk, bulgarsk, buryat, spansk, italiensk, kinesisk, lettisk, tysk, polsk , ukrainsk, fransk, svensk, estisk og flersproget), et separat aviskorpus (mediemateriale fra begyndelsen af det 21. århundrede), kirkeslavisk korpus (liturgiske tekster, moderne (XIX-XX århundreder) og tidligere perioder), historisk (inkl. Gammelrussisk, gammelrussisk, birkebarkbogstaver), syntaktiske, accentologiske, multimedie- og undervisningsunderkorpuser.

Siden 2010, som en del af det historiske underkorpus af National Corpus of the Russian Language, har et tekstkorpus af birkebarkbogstaver med fuld morfologisk markering været tilgængeligt. Teksterne af birkebarkbogstaver som en del af korpuset er interaktivt knyttet til deres præsentation på webstedet gramoty.ru [3] .

Skrogvolumen

Volumen af hovedkorpuset i juni 2022 var 375 millioner ordbrug, og den samlede mængde korpus overstiger 1,5 milliarder ordbrug [4] .

Tekster er forsynet med meta-markering (efter oprettelsesdato, forfatter, genre osv.); ordformer i tekster er udstyret med automatisk morfologisk og semantisk markering; parallelle tekster er justeret; teksterne i det poetiske korpus er også forsynet med særlige metriske markeringer.

1,5 % af teksterne er forsynet med morfologisk [5] og semantisk [6] markup med manuelt fjernet homonymi ("disambiguated subcorpus").

Ramme	Antal tekster	Antal tilbud	Antal ordbrug	% af ordbrug
Dezambiguirovannaya del af kroppen	2 tusind	500 tusind	6 mio	1,6 %
Hovedbygning	84 tusind	19,1 mio	209 mio	57,3 %
Hele kroppen	342 tusind	32 mio	364 mio	100 %

Adgang

I øjeblikket er det kun korpussøgning , der er gratis og gratis . Korpuswebstedet og dets søgning vedligeholdes af Yandex - virksomheden, hvis medarbejdere også deltog i udviklingen af korpussoftwaren. Adgang til hele korpuset (kopiering og overførsel af dets database) er forbudt i henhold til licensaftalen. For at få adgang til 1/6 af den markerede del af underkorpuset skal du registrere og acceptere licensaftalen [7] . Problemet med adgangsbegrænsning er beregnet til at blive løst af Open Corpus-projektet, som også skaber et korpus af det russiske sprog, men under en gratis licens [8] .

Se også

Noter

↑ Projektdeltagere . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018. (ubestemt)
↑ Om projektet. Parallelle korpuser af skrevne tekster . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018. (ubestemt)
↑ Zaliznyak A. A., Yanin V. L., Gippius A. A. Novgorod bogstaver på birkebark (fra udgravninger i 2001-2014) Arkivkopi dateret 27. marts 2019 på Wayback Machine . Bind XII. - M .: Sprog i slavisk kultur, 2015. - 288 s.
↑ Det russiske sprogs nationale korpus . ruscorpora.ru. Hentet 7. marts 2018. Arkiveret fra originalen 7. oktober 2011. (ubestemt)
↑ Morfologi . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 19. februar 2018. (ubestemt)
↑ Semantik . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 19. februar 2018. (ubestemt)
↑ Brug af kroppen. Licensaftale . Nationalkorpus af det russiske sprog . Hentet 7. marts 2018. Arkiveret fra originalen 8. marts 2018. (ubestemt)
↑ OpenCorpora: åbent korpus af det russiske sprog . opencorpora.org . Hentet 26. januar 2022. Arkiveret fra originalen 26. januar 2022. (ubestemt)

Litteratur

Det russiske sprogs nationale korpus: 2003-2005. Samling af artikler / Otv. udg. V. A. Plungyan . — M .: Indrik , 2005. — 502 s. — ISBN ISBN 5-85759-358-1 .
Nationalkorpus af det russiske sprog: 2006-2008. Nye resultater og udsigter / Udg. udg. V. A. Plungyan . - Sankt Petersborg. : Nestor-Historie, 2009. - 502 s. — ISBN ISBN 978-5-98187-327-0 .
Plungyan V. A. Hvorfor skaber vi det russiske sprogs nationale korpus? // Indenlandske sedler . - 2005. - Nr. 2 (23) .

Links

Officiel side

Korpuslingvistik
engelske korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language britiske nationale korps Brunt Corpus Buckeye Corpus Cambridge engelsk korpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford engelsk korpus Prop Bank Talt engelsk korpus TID VerbNet Wellington Corpus af talt newzealandsk engelsk
Russisksprogede korpus	Generelt internetkorpus af det russiske sprog Russisk nationalkorpus Åbent korpus af det russiske sprog SinTagRus Tübingen Corpus af det russiske sprog Uppsala korpus af russiske tekster Helsinki kommenterede korpus af det russiske sprog
Corpora på andre sprog	Bijankhan Corpus BØRN Korpus af kroatisk Kroatisk nationalkorpus Europarl Corpus Mannheim Corpus tysk Hamshahri korps polsk nationalkorpus Neo-assyrisk tekstkorpusprojekt Koranens korpus Scottish National Corpus Slovensk nationalkorpus talebank Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGE