SinTagRus

SinTagRus
Sag volumen	over 1,1 millioner ord
Sprog	Russisk
Grundlæggende opmærkningstyper	morfologisk , syntaktisk , leksikosemantisk
Kompilere	Laboratoriet for datalingvistik IPTP RAS
dato for oprettelse	1998
Adgang	ledig
Licens	proprietære
Internet side	proling.iitp.ru/ru/proje...

SynTagRus ( eng. SynTagRus , forkortelse for engelsk. Syntactically Tagged Russisk tekstkorpus , "syntaktisk annoteret korpus af russiske tekster") er et dybt kommenteret korpus af russiske tekster , det første korpus af russiske tekster med syntaktisk opmærkning. Det er blevet udviklet siden 1998 af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS . Korpuset består af tekster af forskellige genrer; det samlede antal ordbrug er mere end 1 million .

SynTagRus er baseret på ideologien bag den multi-purpose sproglige processor ETAP . Et træk ved korpuset er tilstedeværelsen af flere niveauer af annotering af forskellige dybder, herunder komplet morfologisk og syntaktisk markup med fjernet homonymi . Markup-sproget er XML .

SynTagRus distribueres under en ikke-kommerciel licens . Derudover er korpuset blevet konverteret til forskellige formater; nogle af disse versioner (eller konvertere) er i det offentlige domæne, og en begrænset version af det originale korpus er en del af det russiske nationale korpus .

Historie

Fremkomsten af syntaktiske markup-korpora i begyndelsen af 1990'erne resulterede i udviklingen af empiriske metoder til behandling af naturlige sprogproblemer . Desuden har brugen af sådanne korpus fundet sin anvendelse ikke kun i forbindelse med selve syntaktisk analyse, men også i en række andre opgaver, herunder leksikalsk polysemi-opløsning , semantisk analyse , etc. [1]

I slutningen af 1990'erne var kommenterede korpus blevet oprettet for de fleste af de store europæiske sprog , mens der faktisk ikke eksisterede sådanne korpus for det russiske sprog [2] . Desuden var selv de umærkede korpus, der eksisterede på det tidspunkt (for eksempel Uppsala Corpus of Russian Texts ) ikke offentligt tilgængelige [3] .

Af disse grunde begyndte udviklingen af det første kommenterede korpus af det russiske sprog SinTagRus [2] [5] siden 1998 [4] , som senere blev standarden blandt korpus med syntaktisk opmærkning [6] . Samtidig deltog udviklerne også i oprettelsen af det russiske sprogs nationale korpus; især SynTagRus (med nogle begrænsninger) har været en integreret, men fuldstændig autonom del af NCRP siden oprettelsen af sidstnævnte [7] [8] . I NKRY for SinTagRus (som et underkorpus) bruges også navnet "dybt kommenteret korpus" [9] .

Udviklingen af SinTagRus udføres af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS [10] .

Korpsets sammensætning

Kildematerialet til SinTagRus var Uppsala Corpus of Russian Texts : omkring 10.000 sætninger blev taget fra skønlitterære tekster. Efterfølgende blev korte (op til 30 sætninger) tekster tilføjet til korpuset, hentet fra webstederne for populære nyhedspublikationer ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus udvikler sig konstant og har fra 2020 omkring 77 tusinde sætninger (mere end 1,1 millioner ordbrug) [12] hentet fra teksterne i følgende genrer [13] [8] [14] :

kunstnerisk prosa fra det 20. århundrede;
moderne faglitteratur ;
journalistik ;
biografier ;
avis- og magasinartikler udgivet fra 1960 til i dag ;
nyhedsfeeds (tekster af sociopolitisk, kulturel, økonomisk, videnskabelig og teknisk karakter).

Markup typer og format

Et karakteristisk træk ved SynTagRus sammenlignet med andre kommenterede korpus af det russiske sprog er tilstedeværelsen af flere niveauer af annotering af forskellige dybder, som uafhængigt kan udvindes fra korpuset, og antallet af disse niveauer er potentielt ubegrænset. Korpusets opmærkningssprog er XML , og opmærkningsformatet er kompatibelt med TEI formalismen , med undtagelse af nogle yderligere indførte elementer og attributter [2] . Grundlæggende udføres fritekstmarkering i to trin [11] :

Foreløbig opmærkning af tekst i automatisk tilstand ved hjælp af den ETAP sproglige processor, som er en praktisk implementering af Meaning-Text modellen .
Kontrol og om nødvendigt korrigering af markeringen af en ekspert lingvist .

Det følgende viser de markup-typer, der er tilgængelige i korpuset.

Opdeling af teksten i sætninger og leksikale elementer

Hver tekst i SinTagRus er opdelt i sætninger. Hver sætning er et element ved navn S , og hvert sådant element har en ID - attribut, hvis værdi er serienummeret på sætningen i teksten. På samme måde er hver sætning opdelt i leksikalske elementer med navnet W , og hvert sådant element har en ID - attribut , hvis værdi er ordenstallet for ordet i denne sætning [11] . Tegnsætningstegn er formateret som teksten i sætningstagget (bevarer deres relative position i kildeteksten) og udtrykkes ikke af deres egne tags [ 15] .

Morfologisk markup

Den morfologiske struktur af en ordform er navnet på et leksem eller lemma , som en del af talen og morfologiske karakteristika tilskrives , det vil sige betydningen af de tilsvarende morfologiske kategorier . For den tilsvarende ordform er lemma værdien af LEMMA- attributten , og ordleddet og morfologiske karakteristika tilsammen er værdien af FEAT [8] [16] -attributten .

Beskrivelse af morfologisk markup [17] Brugte dele af tale

Del af tale	Reduktion	Eksempler
Navneord	S	fabrik , dvs
Adjektiv	EN	ny min _
Udsagnsord	V	kjole
Biord	ADV	dårligt , sådan set
tal	NUM	fem , 2
Påskud	PR	under
Sammensatte	COM	luft , hydro
Union	CONJ	og
Partikel	EN DEL	trods alt
Interjektion	INTJ	sådan og så
Ordet er en fremmedsprogsoptagelse	NID	Whatsapp , Berliner Zeitung

Brugte morfologiske egenskaber

Morfologiske egenskaber	Reduktion	Bemærk
Animation
animeret	OD
livløse	NEOD
Slægt
Han	ÆGTEMAND
Kvinde	KVINDE
Gennemsnit	ONSDAG
Nummer
Den eneste ting	ED
flertal	MN
sag
Nominativ	DEM
Genitiv	SLÆGT
Partitiv	EN DEL	Angivet kun for navneord, hvor denne form er grafisk forskellig fra genitivformen
Dativ	DAT
Akkusativ	VIN
Medvirkende	TVOR
Præpositionel	ETC
Lokal	LOKAL	Angivet kun for navneord, hvor denne form er grafisk forskellig fra præpositionsformen
Vokativ	SW	Angivet kun for navneord, hvor denne form er grafisk forskellig fra nominativ kasusform
Sammenligningsgrad
Sammenlignende	SRAV
fremragende	FORR
Korthed
Kort	KR
repræsentation
Infinitiv	INF
Participium	PRICH
gerund	DYB
Humør
vejledende	FIASKO
bydende nødvendigt	POV
Udsigt
Ufuldkommen	NESOV
Perfekt	UGLE
Tid
Ikke-fortid	NEPROSH
Forbi	PROSH
Gaven	NAST	Tilskrives kun verbet at være i personlig form
ansigt
Først	1-L	Tilskrives kun verber
Sekund	2-L
Tredje	3-L
Løfte
Passiv	STRAD
yderligere egenskaber
Sammensætning	SL
Blødgjort sammenlignende grad	SMYAG

Syntaktisk opmærkning

Den syntaktiske markering af korpussætninger udføres inden for rammerne af afhængighedsgrammatikken : den syntaktiske struktur er et orienteret træ , hvis noder er ord, og hver kant er rettet fra hovedordet til tjenerordet og svarer til en eller anden syntaktisk relation . . Ordet, der svarer til træets rod, kaldes toppen af sætningen og er i modsætning til resten af ordene i sætningen ikke syntaktisk afhængig af nogen anden. Syntaktiske grupper er arrangeret i form af undertræer af kildetræet: i hvert sådant undertræ er et af medlemmerne af gruppen dens repræsentant i eksterne relationer og underordner de resterende medlemmer af gruppen [18] . I alt skelnes der omkring 70 typer syntaktiske relationer i SinTagRus [13] .

Brugte syntaktiske relationer [17] Aktant syntaktiske relationer

Syntaks relation	Reduktion	Word vært	Ordtjener
Prædikativ	prædikat	Prædikat	Emne
Dativ-subjektiv	date-emne	Angiv ord	statens subjekt angivet med værtsordet
Agent	agent	ord for handling	Emnet for handlingen angivet med værtsordet
Kvasi-agent	kvasi-agent	prædikat navneord	Ord, der implementerer den første syntaktiske valens af værtsordet
Proprietær-agent	fejlagent	Udsagnsord	Et ord, der implementerer den første semantiske valens af et substantiv, der er en semantisk aktant af værtsordet
Først færdig	1-sæt	prædikatord	Værtsordets syntaktiske aktant, undtagen det første. Således refererer den første komplekse relation til den anden aktant, den anden til den tredje og så videre.
Anden fuldført	2-sæt
Tredje fuldført	3-sæt
Fjerde fuldført	4-sæt
Femte fuldført	5-sæt
Vedhæftet fil	bundet	Link verbum	Nominel del af prædikatet
Den første ukorrekt-komplet	1-forkert-sæt	funktionelt verbum	Komplement (første, anden osv.), hvis semantiske vært er en semantisk aktant af værtsordet
Den anden ukorrekt-fuldstændig	2-forkert-sæt
Tredje ukorrekt-fuldstændig	3-forkert-sæt
Fjerde ukorrekt-komplet	4-forkert-sæt
Femte ukorrekt-komplet	5-forkert-sæt
Ikke-aktant-komplet	ikke-skuespil	prædikatord	Et ord, der ikke er en fuldgyldig semantisk aktant af værtsordet, men som i syntaktisk funktion ligner komplementet
Komplementært-positiv	sæt appos	Parametrisk navneord eller navneord af typen flyvning , rute , tog	Værtsordets semantiske aktant, hvis denne aktant er udtrykt i nominativ kasus eller dets syntaktiske ækvivalent
præpositional	tilbud	Påskud	Toppunkt for en substantivfrase afhængig af en præposition
Underordnet-allieret	underalliance	Underordnet fagforening	Toppen af den underordnede klausul indført af reparationsforbundet
infinitiv-union	inf-union	Underordnet fagforening	Infinitiv
Sammenlignende	sammenligne	Komparativt adjektiv eller adverb	Toppunktet af en substantivsætning i genitiv-kasus, der repræsenterer det andet af de sammenlignede medlemmer, eller en sammenlignende forening end
Sammenlignende	sammenligne	Verbum, navn eller adverb	sammenlignende forening
sammenlignende forening	sammenligne-union	sammenlignende forening	Den anden af de sammenlignede vilkår for den sammenlignende konstruktion
valgfag	valgfag	Tal, ordinal adjektiv, superlativ adjektiv eller adjektiv med ordet mest	Præposition fra eller blandt introduktion af en indikation af det sæt, hvor valget er truffet
sætningsprædikativ	helgenprædikat	Den øverste del af sætningen udtrykker situationen beskrevet i den identificerende konstruktion	Demonstrativt pronominal substantiv dette eller hint i nominativ kasus
Destinationsbinding	assign-adr	Relationsord, der fungerer som en nominel del af prædikatet med et (muligvis nul) led	Navneord i dativ-kasus, udfylder i det væsentlige værtsordets syntaktiske valens

Attribut syntaktiske relationer

Syntaks relation	Reduktion	Word vært	Ordtjener
Determinanter
endeligt	defineret	Navneord eller adjektiv	adjektiv eller participium
Beskrivende-definitiv	op-def	Navneord eller adjektiv	Adjektiv eller participium fungerer som en separat definition
Cirka ordinal	omtrentlig rækkefølge	Navneord	ordinært adjektiv
I forhold	forhold	Navneord eller adjektiv	Toppen af det relative attributiv
generel attributiv
attributive	atrib	Navneord eller adjektiv	Inkonsekvent definition
Sammensatte	sammensætning	Anden del af det sammensatte ord	Den første del af et sammensat ord
tiltalende
tiltalende	appos	Navneord	Den næste ansøgning
Separat-positiv	ob-appos	Navneord	Separat applikation til værtsordet
nominativ-appositiv	nom-appos	Navneord	Toppen af enhver citeret gruppe, der udtrykker et navn
Numerativ-positiv	num appoz	Navneord, der angiver regelmæssigt nummererede objekter	Navnet er tal i nominativ kasus eller skrevet i tal (angiver et tal)
kvantitative
kvantitative	antal	Navneord	Tal i præposition
Approksimativ-kvantitativ	omtrentlige antal	Navneord	Tal i postposition
Kvantitativ-Koprædikativ	nummer-copred	Et verbum, hvor der er et substantiv i genitiv kasus, der fungerer som et subjekt med det	Toppen af talgruppen eller toppen af den nominelle gruppe med en kardinalværdi
Kvantitativt-begrænsende	antal-grænse	Komparativt adjektiv eller adverb	Adverbium eller toppen af gruppen med præpositioner i eller på , der angiver intensitet
fordeling	fordeling	Toppen af en substantivsætning, der angiver en bestemt parameter (pris, hastighed, vægt osv.)	Et navneord i nominativ kasus eller toppen af en gruppe med præpositioner i , på , for , der angiver en måleenhed
tilsætningsstof	tilføje	Tal eller toppen af en kvantitativ gruppe	Tal eller toppen af en kvantitativ gruppe
indicier
indicier	obst	Et verbum eller et ord i en anden del af tale, der er toppen af en sætning	Omstændighed
lang	lang	Udsagnsord	En omstændighed af varighed udtrykt ved et substantiv i akkusativ kasus eller af en præpositionsgruppe med betydningen omtrentlig mængde eller fordeling
Flere lange	flere lange	Udsagnsord	En omstændighed af flere varighed udtrykt ved et substantiv i instrumental flertal
fjern	afstand	Udsagnsord	En omstændighed af rumlig udstrækning udtrykt ved et substantiv i akkusativ kasus eller af en præpositionsgruppe med betydningen omtrentlig mængde eller fordeling
omstændighed-tautologisk	obst-stramt	Udsagnsord	Et navneord i det instrumentelle kasus, der kopierer en del af betydningen af værtsordet
subjektiv omstændighed	undermiljø	Udsagnsord	En omstændighed i den instrumentelle sag, der samtidig præger handlingens genstand
Objekt omstændighed	obst	Udsagnsord	En omstændighed i den instrumentelle sag, der på samme tid kendetegner handlingens genstand
subjektiv-koprædikativ	underkopr	Udsagnsord	Toppen af nominalfrasen i nominativ eller instrumental kasus, eller toppen af præpositionsgruppen, der virker i en funktion tæt på funktionen af den nominale del af det sammensatte prædikat, men karakteriserer subjektet i betydning og (hvis der er tale om den nominelle sætning) i overensstemmelse med den i køn og tal
Objekt-koprædikativ	ob-copr	Udsagnsord	Toppen af nominalgruppen i instrumental eller akkusativ kasus eller toppen af præpositionsgruppen, som karakteriserer objektet. Hvis ordtjeneren er udtrykt ved en navneord, så stemmer det overens med komplementet i køn og tal
Restriktiv	begrænset	Ord i enhver del af talen	Partikel eller restriktivt adverbium
indledende	introduktion	Prædikat eller andet medlem af sætningen	Indledende ord , indledende tur, sætning eller appel
Forklarende	klar	Øverst i hovedklausulen	Toppen af den underordnede klausul, inklusive det allierede ord hvad , hvorfor eller hvorfor
forklarende	forklare	Vilkårligt ord	Et ord, der har pårørende og sammen med dem giver yderligere information om værtsordet eller den gruppe af ord, der repræsenteres af værtsordet. Der kræves en formel "afklaringsmarkør", som kan være et tegnsætningstegn eller et udtryk, der introducerer yderligere information
tilstødende	tilstødende	Ordet, der er udtrykkets "herre", hvis top er ordtjeneren	Toppen af et udtryk, der afhænger af værtsordet, placeret til højre for værtsordet og omgivet af parenteser eller afgrænset på begge sider af en bindestreg
kvalifikation	afklaring	Repræsentativ (vertex) for et eller andet udtryk	Repræsentant for et eller andet udtryk. Dette udtryk forfiner semantisk udtrykket repræsenteret af værtsordet, men begge disse udtryk har den samme syntaktiske funktion.

Koordinering af syntaktiske relationer

Syntaks relation	Reduktion	Word vært	Ordtjener
skrivning	skrivning	Medlem af den koordinerende struktur	Medlem af en koordinerende konstruktion eller en koordinerende konjunktion. Placeret umiddelbart til højre for værtsordet.
sentential-koordinerende	helgen op	Toppen af den første af homogene sætninger	Øverst i anden sætning eller koordinerende fagforening
Koordinerende fagforening	op-union	skriveforbund _	Toppen af den anden af de homogene udtryk eller sætninger
Mange	mange	Hovedmedlemmet i en multipelkonstruktion er et substantiv , adjektiv , adverbium , tal eller verbum	Afhængigt medlem af en multipel konstruktion. Dannet enten på samme måde som hovedmedlemmet og adskilt fra det med en bindestreg, bindestreg, kolon eller skråstreg, eller introduceret af præpositionen "på" eller "til"

Service syntaktiske relationer

Syntaks relation	Reduktion	Word vært	Ordtjener
Analytisk	analyt	Elementer af det sammensatte verbale prædikat . Disse elementer danner en kompleks fremtidsform eller konjunktiv .
Passiv-analytisk	bestå anal	Verbum - link "at være"	Passiv nadver
Kvantitativ-hjælpemiddel	nummer-hjælpe	Højre side af et sammensat tal eller sammensat ordensadjektiv	Venstre side af et sammensat tal eller sammensat ordensadjektiv
i forhold	korrelation	Venstre side af en brudt parret konjunktion , præposition eller partikel , eller højre side af en brudt parret koordinerende konjunktion	Højre side af en brudt parret konjunktion, præposition eller partikel eller venstre side af en brudt parret koordinerende konjunktion
UDTAGENDE	explet	Demonstrativt pronomen - "pakning" sådan , det	Underordnet fagforening eller toppen af sætningen. Mesterordet "dechifreres" af tjenerordet
Proleptisk	proleptus	Semantisk tvetydigt ord, der indtager en fuld position i en sætning	Ord udadtil
Hjælpe	hjælpe	Dele af syntaktisk og semantisk enhed af sætninger

For at registrere information om den syntaktiske struktur af en sætning i SynTagRus bruges to attributter for hvert ord i sætningen: DOM , hvis værdi er ID'et for værtsordet, og LINK , hvis værdi er navnet på tilsvarende syntaktisk relation [16] . Toppen af sætningen har den særlige værdi af _root DOM - attributten [19] .

Leksiko-semantisk markup

Hver ordform, udover lemmaet , tildeles attributten KSNAME , hvis værdi er navnet på den tilsvarende post i den forklarende-kombinatoriske ordbog for den sproglige ETAP-processor. På grund af dette er på den ene side betydningen af polysemantiske og enslydende ord specificeret, og på den anden side etableres en forbindelse med indgange i ordbogen, som bruges af ETAP-processoren, og informationen indeholdt i disse poster om ords semantiske egenskaber bliver tilgængelige [10] .

Leksiko-funktionel markup

Sætninger er markeret med sætninger, der kan fortolkes ud fra leksikalske funktioner . For at markere sådanne sætninger inde i sætningen oprettes yderligere elementer separat fra selve ordformerne [13] .

Mikrosyntaktisk markup

Mikrosyntaktiske enheder i SynTagRus forstås som fraseologiske enheder med syntaktisk specificitet [20] . Et eksempel er den gældende sammensatte præposition . På den ene side er det syntaktisk tæt på primitive præpositioner. Det er faktisk umuligt at indsætte en pronomindefinition til et navneord mellem elementerne i denne præposition, som i andre præpositionelle konstruktioner af typen i formen , i kasus osv. Desuden, hvis det personlige stedord for den tredje person er subjekt til denne præposition i sætningen, så i de fleste tilfælde begyndelses -n- , som ved primitive præpositioner. På den anden side kan den første del af nogle parrede konjunktioner samt partiklen om eller , være placeret mellem den gældende præposition og det navneord, der afhænger af det, hvilket gør det umuligt at tilskrive denne præposition til primitiver [21] .

Hvis der forekommer en mikrosyntaktisk enhed i en eller anden sætning af korpuset, tilføjes en ny sætningsattribut - MICROSYNT , hvis værdi er navnet på den tilsvarende mikrosyntaktiske enhed og dens lineære grænser [20] .

Anaforisk markup

For et anaforisk pronomen , der stødes på i teksten , er dets antecedent angivet , det vil sige det udtryk, som dette pronomen refererer til. En sætning, hvori der findes et anaforisk pronomen, har en ekstra COREF- attribut, hvis værdi er en liste over pronomen-forudgående par, der svarer til det givne pronomen. For hvert anaforisk pronomen er dets lineære position i sætningen angivet, og for antecedenten er det desuden angivet i hvilken sætning i forhold til den undersøgte den befinder sig (inden for tre sætninger i begge retninger) [4] .

Behandling af elliptiske strukturer

I SynTagRus gendannes udeladte fragmenter af elliptiske sætninger eksplicit. Den tilsvarende gendannede ordform er markeret på samme måde som andre ordformer; især er alle de nødvendige syntaktiske links trukket fra sådanne "fantom"-ord. Denne ordform er tildelt attributten NODETYPE med værdien FANTOM [2] [22] .

Brug af kroppen

SynTagRus bruges på forskellige områder. På den ene side udføres rent sproglig forskning på dets grundlag, både teoretisk og praktisk (især inden for leksikografi ). På den anden side finder korpuset sin anvendelse i datalingvistiks opgaver som en kilde til sproglige data, for eksempel ved oprettelse af parsere . Disse opgaver kan løses ved hjælp af forskellige opmærkningsformater. Samtidig gør kombinationen af flere bygninger med forskellige markeringer til én sidstnævnte mere repræsentativ. Disse omstændigheder fører til problemet med korpuskonvertering [4] .

Der har været gentagne forsøg på at oversætte SynTagRus til andre markup-formater: eksperimenter er kendt for at konvertere korpus til HPSG og PDT [13] formater . Derudover blev SynTagRus med succes konverteret til formaterne CoNLL-U [22] , PTB [23] og SD [24] . Konvertering vedrørte dog for det første i alle tilfælde kun morfologiske og syntaktiske markeringer, og for det andet blev den udført automatisk, hvilket blev en hindring for fuldgyldig konvertering. Så for eksempel kunne NID-leddet ikke automatisk oversættes til CoNLL-U -formatet (hvor der ikke er en sådan del af tale) automatisk, så alle SinTagRus-sætninger, hvor mindst én ordform havde en sådan en del af tale blev udelukket fra korpus før konvertering [22] .

Adgang

SynTagRus distribueres gratis under en ikke-kommerciel licens [25] . Derudover er en version af korpuset uden nogle typer opmærkning tilgængelig til ikke-kommerciel brug til forsknings- og undervisningsformål som et underkorpus af det russiske sprogs nationale korpus og er i det offentlige domæne [13] , såvel som versioner i CoNLL-U formater (licens CC BY-NC-SA 4.0 ) [22] og PTB (kun konverter tilgængelig) [23] .

Noter

↑ Eric Brill , Raymond J. Mooney. En oversigt over empirisk naturlig sprogbehandling // AI Magazine. - AAAI, 1997. - Vol. 18 , nr. 4 . - S. 13-24 .
↑ 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. An annotated corpus of Russian texts: concept, markup tools, types of information // Proceedings International seminar on computational and its application linguistic-20o ". - Protvino, 2000. Arkiveret den 31. juli 2019. (Russisk)
↑ Reznikova T. I. , Kopotev M. V. Sprogligt kommenterede korpus af det russiske sprog (gennemgang af offentlige ressourcer) // National Corpus of the Russian Language: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus today // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Udgave. 21 . - S. 14-40 . Arkiveret 26. marts 2020. (Russisk)
↑ Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Udvikling af en parserkerne til det russiske sprog baseret på NLTK-biblioteker // Proceedings of the United Scientific Conference "Internet and Modern Society". - 2016. - S. 44-54 . Arkiveret fra originalen den 10. oktober 2019. (Russisk)
↑ Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I. , Nikolaeva Yu. V., Daniel' M. A. B. Bergel O. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I., Krivnova O. F. Corpus linguistics // Introduktion til sprogvidenskaben / red. O.V. Fedorova og S.G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 . (Russisk)
↑ Sichinava D.V. Nationalt korpus af det russiske sprog: en oversigt over forhistorien // Nationalt korpus af det russiske sprog: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntaktisk og semantisk annoterede sprogkorpus: // det nuværende russiske sprogkorpus Russisk sprog: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ Zakharov V.P. , Bogdanova S.Yu. Korpuslingvistik . - 3. udg., revideret. - Sankt Petersborg. : St. Petersburg University Press, 2020. - S. 47. - 234 s. - ISBN 978-5-288-05997-1 . (Russisk)
↑ 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Semantisk markup i et dybt kommenteret korpus af det russiske sprog // Proceedings of the International Conference "Corpus Linguistics-2004". - Sankt Petersborg. : St. Petersburg State University, 2004. - S. 41-54 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Udvikling af et syntaktisk markeret korpus af det russiske sprog // Rapporter fra den videnskabelige konference "Corpus Linguistic Databases". - Sankt Petersborg. : St. Petersburg State University, 2002. - S. 40-50 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ Korpuslingvistik . Laboratory of Computational Linguistics IPTP RAS (11. februar 2020). Hentet 12. februar 2020. Arkiveret fra originalen 22. februar 2020. (Russisk)
↑ 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Den nuværende tekst i det korpustiske og ikke-russiske sprog. ) // Samling "National korpus af det russiske sprog: 10 år af projektet." - M . : Proceedings of the Institute of the Russian Language. V. V. Vinogradova, 2015. - Udgave. 6 . - S. 272-299 . Arkiveret fra originalen den 31. juli 2019. (Russisk)
↑ Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Regelbaseret afhængighedsparser raffineret af og empirisk korpusstatistik // Proceedings of the International Conference on Dependency Linguistics. - 2011. - S. 318-327 . Arkiveret fra originalen den 31. juli 2019.
↑ Droganova K. , Lyashevskaya O. , Zeman D. Datakonvertering og konsistens af monolingual corpora: Russian UD treebanks (engelsk) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslo Universitet, Norge: Linköping University Electronic Press, 2018. - S. 52-65 . Arkiveret 19. marts 2020.
↑ 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Udvikling af en afhængighedstræbank for russisk og dets mulige anvendelser i NLP (engelsk) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . - S. 852-856 . Arkiveret fra originalen den 10. august 2017.
↑ 1 2 Syntaktisk markeret korpus af det russiske sprog: information til brugere . Nationalkorpus af det russiske sprog . Hentet 29. marts 2020. Arkiveret fra originalen 25. marts 2020. (Russisk)
↑ Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Lingvistisk processor til komplekse informationssystemer. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
↑ Leonid Iomdin , Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora // Research Infrastructure for Digital Lexicography. - Ljubljana: Jožef Stefan Instituttet, 2009. - S. 1-12 .
↑ 1 2 Iomdin L. L. Mikrosyntaktisk markup i korpus af russiske tekster // Proceedings of the international videnskabelig konference "Corpus Linguistics - 2017". - Sankt Petersborg. : St. Petersburg State University, 2017. - S. 188-194 . Arkiveret fra originalen den 20. november 2021. (Russisk)
↑ Iomdin L. L. I dybden af mikrosyntaks: en leksikalsk klasse af syntaktiske sætninger // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arkiveret fra originalen den 29. august 2019. (Russisk)
↑ 1 2 3 4 Droganova K. , Zeman D. Konvertering af SynTagRus (den russiske afhængighedstræbank) til Universal Dependencies (engelsk) // Teknisk rapport. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Arkiveret fra originalen den 8. juni 2021.
↑ 1 2 Luu A. , Malamud SA , Xue N. Konvertering af SynTagRus-afhængighedstræbank til Penn treebank-stil // Proceedings of the 10th Linguistic Annotation Workshop holdt i forbindelse med ACL 2016 (LAW-X 2016). - 2016. - S. 16-21 . Arkiveret fra originalen den 27. februar 2019.
↑ Lipenkova J. , Souček M. Konvertering af russisk afhængighedstræbank til Stanford-typede afhængighedsrepræsentation (engelsk) // Proceedings of the 14th Conference of the European Chapter of Association for Computational Linguistics. - 2014. - Bd. 2 . - S. 143-147 . Arkiveret fra originalen den 8. juni 2018.
↑ Lyashevskaya O. N. Corpus instrumenter i grammatiske studier af det russiske sprog. - M . : Forlaget YASK, 2016. - S. 193. - 520 s.

Links

Korpuslingvistik
engelske korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language britiske nationale korps Brunt Corpus Buckeye Corpus Cambridge engelsk korpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford engelsk korpus Prop Bank Talt engelsk korpus TID VerbNet Wellington Corpus af talt newzealandsk engelsk
Russisksprogede korpus	Generelt internetkorpus af det russiske sprog Russisk nationalkorpus Åbent korpus af det russiske sprog SinTagRus Tübingen Corpus af det russiske sprog Uppsala korpus af russiske tekster Helsinki kommenterede korpus af det russiske sprog
Corpora på andre sprog	Bijankhan Corpus BØRN Korpus af kroatisk Kroatisk nationalkorpus Europarl Corpus Mannheim Corpus tysk Hamshahri korps polsk nationalkorpus Neo-assyrisk tekstkorpusprojekt Koranens korpus Scottish National Corpus Slovensk nationalkorpus talebank Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGE