Generelt internetkorpus af det russiske sprog

Generelt internetkorpus af det russiske sprog
URL webcorpora.ru
Kommerciel Ingen
Site type pædagogisk/videnskabeligt projekt
Registrering ja : påkrævet for at få adgang til søgning
Sprog) Russisk
Serverplacering Rusland
Begyndelse af arbejdet år 2012
Nuværende status virker og udvikler sig

General Internet Corpus of the Russian Language (GIKRYA)  er et søgbart elektronisk onlinekorpus af russiske tekster fra internettet. Åbnede i 2013 . Korpuset omfatter tekstmateriale fra blogosfæren , sociale netværk , fra de største nyhedsressourcer og fra litterære magasiner .

Projektmål

Projektet har status som pædagogisk og videnskabeligt, og mange problemer inden for computerlingvistik løses af uafhængige forskere og videnskabelige grupper på grundlag af det materiale, som GICR har modtaget. Mens andre korpusprojekter fokuserer på fiktion og redigerede tekster, giver General Internet Corpus russiske lingvister en rettidig [1] mulighed for at studere sproget, som det er, med alle regionale og slangegenskaber .

Kroppen gør det muligt at:

På forskellige tidspunkter blev forskning og uafhængig forskning i projektets materiale udført af studerende, kandidatstuderende og ansatte ved Moscow State University , Moskva Institute of Physics and Technology , Russian State University for the Humanities , Novosibirsk State University , National Research University Higher School of Economics , Institute of Nuclear Research, Russian Academy of Sciences , Southern Federal University , ChSU , VGPU , ISAA MSU .

Videnskabelige vejledere af projektet:

Følgende personer deltog i oprettelsen og støtten af ​​projektet:

Kroppens volumen og sammensætning

Mængden af ​​korpus for sommeren 2016 er 19,8 milliarder ordbrug, hvoraf 49 % er på Vkontakte , 40 % på LiveJournal , yderligere 4 % på [email protected] og News og 2 % på Journal hall [4] . Nyhedssegmentet indeholder materialer fra kilder: RIA Novosti , Regnum , Lenta.ru , Rosbalt . Tekster er forsynet med meta-markup (efter datoen for oprettelse af teksten, køn, sted og fødselsår for forfatteren, internetgenre og så videre); alle tekster er udstyret med automatisk morfologisk markering og lemmatiseret [4] . De fleste af teksterne er skabt af poster for 2013-2014 , selvom nogle segmenter, for eksempel i Journal Hall, indeholder tekster fra 1994 [5] .

Underkorpus Ord, millioner tekster
[email protected] 707 9882120
I kontakt med 9820 193770717
Livejournal 8110 73229158
magasinrum 313 56547
Nyhedsunderkorpus ( RIA Novosti , Regnum , Lenta.ru , Rosbalt ) 851 2964897
Hele kroppen 19801 279903439

GICR er et af de få megakorpora, der når op på flere milliarder ord.

Ramme Sprog Adgang Internet side Bind Evner
COW: Gratis, Large Web Corpora på europæiske sprog Engelsk , fransk , tysk , spansk , svensk , hollandsk gratis, efter registrering er prøveadgang mulig uden registrering https://web.archive.org/web/20160221212019/https://webcorpora.org/ omkring 30 milliarder ord KWIC-format, morph-markering, CQP-søgning, markup og søg efter dato, URL , land, by osv.
skitsemotor engelsk , fransk , tysk , italiensk , arabisk , russisk , spansk , portugisisk , koreansk , japansk , kinesisk ; flere sprog tilgængelige mod et gebyr mod betaling, efter registrering er prøveadgang mulig https://www.sketchengine.co.uk/ 86 milliarder ord konkordanser, skitsegrammatik, synonymordbog , KWIC, morpho-tagging, CQP-søgning
Aranea Corpora Engelsk , russisk , finsk , fransk , tysk , ungarsk , spansk , italiensk , hollandsk , polsk , slovakisk gratis, efter registrering er prøveadgang mulig uden registrering http://sketch.juls.savba.sk/aranea_about/ omkring 14 milliarder ord noSketch Engine, konkordanser, skitsegrammatik, KWIC, morpho-markering, CQP-søgning, sammenligning af forespørgselsresultater på forskellige sprog
GIKRYA General Internet Corpus of the Russian Language Russisk gratis, tilmelding efter anmodning http://www.webcorpora.ru/ 20 milliarder ord KWIC-format, morpho-markup, konkordanser, CQP-søgning, markup og søgning efter dato, land, by, runet segment , køn, år og fødested for forfatteren, sender resultater af brugere til hinanden
CORPUS OF GLOBAL WEB-BASERET ENGELSK (GloWbE) Engelsk , 20 lande specifikation uden tilmelding http://corpus.byu.edu/glowbe/ 1,9 milliarder ord KWIC, konkordanser, kollokater , sammenligning af resultater efter dialekter , CQP, hele korpus kan downloades

Adgang

Korpusgrænsefladen er i øjeblikket i beta-testning , så adgang til korpussøgning er givet og er gratis, dog efter anmodning.

Se også

Noter

  1. VLADIMIR BELIKOV . Hentet 26. december 2019. Arkiveret fra originalen 16. november 2019.
  2. Automatisk klassificering af webtekster ved hjælp af funktionelle tekstdimensioner . Hentet 8. juni 2016. Arkiveret fra originalen 26. juni 2016.
  3. Hold | GIKRYA . Hentet 26. december 2019. Arkiveret fra originalen 5. januar 2020.
  4. 1 2 Korps | GIKRYA . Hentet 26. december 2019. Arkiveret fra originalen 3. december 2019.
  5. #geekrya #geekrya_stats Til hvad.. | GIKRYA General Internet Corpus of the Russian Language | VK

Litteratur

Links