Generelt internetkorpus af det russiske sprog

Generelt internetkorpus af det russiske sprog
URL	webcorpora.ru
Kommerciel	Ingen
Site type	pædagogisk/videnskabeligt projekt
Registrering	ja : påkrævet for at få adgang til søgning
Sprog)	Russisk
Serverplacering	Rusland
Begyndelse af arbejdet	år 2012
Nuværende status	virker og udvikler sig

General Internet Corpus of the Russian Language (GIKRYA) er et søgbart elektronisk onlinekorpus af russiske tekster fra internettet. Åbnede i 2013 . Korpuset omfatter tekstmateriale fra blogosfæren , sociale netværk , fra de største nyhedsressourcer og fra litterære magasiner .

Projektmål

Projektet har status som pædagogisk og videnskabeligt, og mange problemer inden for computerlingvistik løses af uafhængige forskere og videnskabelige grupper på grundlag af det materiale, som GICR har modtaget. Mens andre korpusprojekter fokuserer på fiktion og redigerede tekster, giver General Internet Corpus russiske lingvister en rettidig [1] mulighed for at studere sproget, som det er, med alle regionale og slangegenskaber .

Kroppen gør det muligt at:

Sproglige studier af en bred vifte: dialektologiske studier, studiet af ordfordelingen, studiet af sproget i sociale netværk , studiet af indflydelsen af køn , alder og andre faktorer på sproget , hyppigheden af ord, fastlagte udtryk og forskellige konstruktioner, stilistiske træk ved tekster fra forskellige segmenter af internettet og så videre;
Analyse af sociale medier ;
Corpus-baseret maskinlæring [2] , der forbedrer automatiske mærkningsalgoritmer.

På forskellige tidspunkter blev forskning og uafhængig forskning i projektets materiale udført af studerende, kandidatstuderende og ansatte ved Moscow State University , Moskva Institute of Physics and Technology , Russian State University for the Humanities , Novosibirsk State University , National Research University Higher School of Economics , Institute of Nuclear Research, Russian Academy of Sciences , Southern Federal University , ChSU , VGPU , ISAA MSU .

Videnskabelige vejledere af projektet:

Belikov V. I. - Moscow State University , Russian State Humanitarian University , Moskva , Rusland ;
Selegey V.P. - Russian State University for Humanities ; MIPT ; ABBYY , Moskva , Rusland ;
Sharov S. A. - Russian State University for Humanities , Moskva , Rusland ; University of Leeds , Storbritannien [3] .

Følgende personer deltog i oprettelsen og støtten af projektet:

Kroppens volumen og sammensætning

Mængden af korpus for sommeren 2016 er 19,8 milliarder ordbrug, hvoraf 49 % er på Vkontakte , 40 % på LiveJournal , yderligere 4 % på [email protected] og News og 2 % på Journal hall [4] . Nyhedssegmentet indeholder materialer fra kilder: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Tekster er forsynet med meta-markup (efter datoen for oprettelse af teksten, køn, sted og fødselsår for forfatteren, internetgenre og så videre); alle tekster er udstyret med automatisk morfologisk markering og lemmatiseret [4] . De fleste af teksterne er skabt af poster for 2013-2014 , selvom nogle segmenter, for eksempel i Journal Hall, indeholder tekster fra 1994 [5] .

Underkorpus	Ord, millioner	tekster
[email protected]	707	9882120
I kontakt med	9820	193770717
Livejournal	8110	73229158
magasinrum	313	56547
Nyhedsunderkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt )	851	2964897
Hele kroppen	19801	279903439

GICR er et af de få megakorpora, der når op på flere milliarder ord.

Ramme	Sprog	Adgang	Internet side	Bind	Evner
COW: Gratis, Large Web Corpora på europæiske sprog	Engelsk , fransk , tysk , spansk , svensk , hollandsk	gratis, efter registrering er prøveadgang mulig uden registrering	https://web.archive.org/web/20160221212019/https://webcorpora.org/	omkring 30 milliarder ord	KWIC-format, morph-markering, CQP-søgning, markup og søg efter dato, URL , land, by osv.
skitsemotor	engelsk , fransk , tysk , italiensk , arabisk , russisk , spansk , portugisisk , koreansk , japansk , kinesisk ; flere sprog tilgængelige mod et gebyr	mod betaling, efter registrering er prøveadgang mulig	https://www.sketchengine.co.uk/	86 milliarder ord	konkordanser, skitsegrammatik, synonymordbog , KWIC, morpho-tagging, CQP-søgning
Aranea Corpora	Engelsk , russisk , finsk , fransk , tysk , ungarsk , spansk , italiensk , hollandsk , polsk , slovakisk	gratis, efter registrering er prøveadgang mulig uden registrering	http://sketch.juls.savba.sk/aranea_about/	omkring 14 milliarder ord	noSketch Engine, konkordanser, skitsegrammatik, KWIC, morpho-markering, CQP-søgning, sammenligning af forespørgselsresultater på forskellige sprog
GIKRYA General Internet Corpus of the Russian Language	Russisk	gratis, tilmelding efter anmodning	http://www.webcorpora.ru/	20 milliarder ord	KWIC-format, morpho-markup, konkordanser, CQP-søgning, markup og søgning efter dato, land, by, runet segment , køn, år og fødested for forfatteren, sender resultater af brugere til hinanden
CORPUS OF GLOBAL WEB-BASERET ENGELSK (GloWbE)	Engelsk , 20 lande specifikation	uden tilmelding	http://corpus.byu.edu/glowbe/	1,9 milliarder ord	KWIC, konkordanser, kollokater , sammenligning af resultater efter dialekter , CQP, hele korpus kan downloades

Adgang

Korpusgrænsefladen er i øjeblikket i beta-testning , så adgang til korpussøgning er givet og er gratis, dog efter anmodning.

Se også

Noter

↑ VLADIMIR BELIKOV . Hentet 26. december 2019. Arkiveret fra originalen 16. november 2019. (Russisk)
↑ Automatisk klassificering af webtekster ved hjælp af funktionelle tekstdimensioner . Hentet 8. juni 2016. Arkiveret fra originalen 26. juni 2016. (ubestemt)
↑ Hold | GIKRYA . Hentet 26. december 2019. Arkiveret fra originalen 5. januar 2020. (Russisk)
↑ 1 2 Korps | GIKRYA . Hentet 26. december 2019. Arkiveret fra originalen 3. december 2019. (Russisk)
↑ #geekrya #geekrya_stats Til hvad.. | GIKRYA General Internet Corpus of the Russian Language | VK

Litteratur

Links

GIKRYAs officielle hjemmeside

Korpuslingvistik
engelske korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language britiske nationale korps Brunt Corpus Buckeye Corpus Cambridge engelsk korpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford engelsk korpus Prop Bank Talt engelsk korpus TID VerbNet Wellington Corpus af talt newzealandsk engelsk
Russisksprogede korpus	Generelt internetkorpus af det russiske sprog Russisk nationalkorpus Åbent korpus af det russiske sprog SinTagRus Tübingen Corpus af det russiske sprog Uppsala korpus af russiske tekster Helsinki kommenterede korpus af det russiske sprog
Corpora på andre sprog	Bijankhan Corpus BØRN Korpus af kroatisk Kroatisk nationalkorpus Europarl Corpus Mannheim Corpus tysk Hamshahri korps polsk nationalkorpus Neo-assyrisk tekstkorpusprojekt Koranens korpus Scottish National Corpus Slovensk nationalkorpus talebank Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGE