Generelt internetkorpus af det russiske sprog | |
---|---|
URL | webcorpora.ru |
Kommerciel | Ingen |
Site type | pædagogisk/videnskabeligt projekt |
Registrering | ja : påkrævet for at få adgang til søgning |
Sprog) | Russisk |
Serverplacering | Rusland |
Begyndelse af arbejdet | år 2012 |
Nuværende status | virker og udvikler sig |
General Internet Corpus of the Russian Language (GIKRYA) er et søgbart elektronisk onlinekorpus af russiske tekster fra internettet. Åbnede i 2013 . Korpuset omfatter tekstmateriale fra blogosfæren , sociale netværk , fra de største nyhedsressourcer og fra litterære magasiner .
Projektet har status som pædagogisk og videnskabeligt, og mange problemer inden for computerlingvistik løses af uafhængige forskere og videnskabelige grupper på grundlag af det materiale, som GICR har modtaget. Mens andre korpusprojekter fokuserer på fiktion og redigerede tekster, giver General Internet Corpus russiske lingvister en rettidig [1] mulighed for at studere sproget, som det er, med alle regionale og slangegenskaber .
Kroppen gør det muligt at:
På forskellige tidspunkter blev forskning og uafhængig forskning i projektets materiale udført af studerende, kandidatstuderende og ansatte ved Moscow State University , Moskva Institute of Physics and Technology , Russian State University for the Humanities , Novosibirsk State University , National Research University Higher School of Economics , Institute of Nuclear Research, Russian Academy of Sciences , Southern Federal University , ChSU , VGPU , ISAA MSU .
Videnskabelige vejledere af projektet:
Følgende personer deltog i oprettelsen og støtten af projektet:
Mængden af korpus for sommeren 2016 er 19,8 milliarder ordbrug, hvoraf 49 % er på Vkontakte , 40 % på LiveJournal , yderligere 4 % på [email protected] og News og 2 % på Journal hall [4] . Nyhedssegmentet indeholder materialer fra kilder: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Tekster er forsynet med meta-markup (efter datoen for oprettelse af teksten, køn, sted og fødselsår for forfatteren, internetgenre og så videre); alle tekster er udstyret med automatisk morfologisk markering og lemmatiseret [4] . De fleste af teksterne er skabt af poster for 2013-2014 , selvom nogle segmenter, for eksempel i Journal Hall, indeholder tekster fra 1994 [5] .
Underkorpus | Ord, millioner | tekster |
[email protected] | 707 | 9882120 |
I kontakt med | 9820 | 193770717 |
Livejournal | 8110 | 73229158 |
magasinrum | 313 | 56547 |
Nyhedsunderkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) | 851 | 2964897 |
Hele kroppen | 19801 | 279903439 |
GICR er et af de få megakorpora, der når op på flere milliarder ord.
Ramme | Sprog | Adgang | Internet side | Bind | Evner |
---|---|---|---|---|---|
COW: Gratis, Large Web Corpora på europæiske sprog | Engelsk , fransk , tysk , spansk , svensk , hollandsk | gratis, efter registrering er prøveadgang mulig uden registrering | https://web.archive.org/web/20160221212019/https://webcorpora.org/ | omkring 30 milliarder ord | KWIC-format, morph-markering, CQP-søgning, markup og søg efter dato, URL , land, by osv. |
skitsemotor | engelsk , fransk , tysk , italiensk , arabisk , russisk , spansk , portugisisk , koreansk , japansk , kinesisk ; flere sprog tilgængelige mod et gebyr | mod betaling, efter registrering er prøveadgang mulig | https://www.sketchengine.co.uk/ | 86 milliarder ord | konkordanser, skitsegrammatik, synonymordbog , KWIC, morpho-tagging, CQP-søgning |
Aranea Corpora | Engelsk , russisk , finsk , fransk , tysk , ungarsk , spansk , italiensk , hollandsk , polsk , slovakisk | gratis, efter registrering er prøveadgang mulig uden registrering | http://sketch.juls.savba.sk/aranea_about/ | omkring 14 milliarder ord | noSketch Engine, konkordanser, skitsegrammatik, KWIC, morpho-markering, CQP-søgning, sammenligning af forespørgselsresultater på forskellige sprog |
GIKRYA General Internet Corpus of the Russian Language | Russisk | gratis, tilmelding efter anmodning | http://www.webcorpora.ru/ | 20 milliarder ord | KWIC-format, morpho-markup, konkordanser, CQP-søgning, markup og søgning efter dato, land, by, runet segment , køn, år og fødested for forfatteren, sender resultater af brugere til hinanden |
CORPUS OF GLOBAL WEB-BASERET ENGELSK (GloWbE) | Engelsk , 20 lande specifikation | uden tilmelding | http://corpus.byu.edu/glowbe/ | 1,9 milliarder ord | KWIC, konkordanser, kollokater , sammenligning af resultater efter dialekter , CQP, hele korpus kan downloades |
Korpusgrænsefladen er i øjeblikket i beta-testning , så adgang til korpussøgning er givet og er gratis, dog efter anmodning.
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |