SinTagRus

SinTagRus
Sag volumen over 1,1 millioner ord
Sprog Russisk
Grundlæggende opmærkningstyper morfologisk , syntaktisk , leksikosemantisk
Kompilere Laboratoriet for datalingvistik IPTP RAS
dato for oprettelse 1998
Adgang ledig
Licens proprietære
Internet side proling.iitp.ru/ru/proje...

SynTagRus ( eng.  SynTagRus , forkortelse for engelsk.  Syntactically Tagged Russisk tekstkorpus , "syntaktisk annoteret korpus af russiske tekster") er et dybt kommenteret korpus af russiske tekster , det første korpus af russiske tekster med syntaktisk opmærkning. Det er blevet udviklet siden 1998 af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS . Korpuset består af tekster af forskellige genrer; det samlede antal ordbrug er mere end 1 million .

SynTagRus er baseret på ideologien bag den multi-purpose sproglige processor ETAP . Et træk ved korpuset er tilstedeværelsen af ​​flere niveauer af annotering af forskellige dybder, herunder komplet morfologisk og syntaktisk markup med fjernet homonymi . Markup-sproget er XML .

SynTagRus distribueres under en ikke-kommerciel licens . Derudover er korpuset blevet konverteret til forskellige formater; nogle af disse versioner (eller konvertere) er i det offentlige domæne, og en begrænset version af det originale korpus er en del af det russiske nationale korpus .

Historie

Fremkomsten af ​​syntaktiske markup-korpora i begyndelsen af ​​1990'erne resulterede i udviklingen af ​​empiriske metoder til behandling af naturlige sprogproblemer . Desuden har brugen af ​​sådanne korpus fundet sin anvendelse ikke kun i forbindelse med selve syntaktisk analyse, men også i en række andre opgaver, herunder leksikalsk polysemi-opløsning , semantisk analyse , etc. [1]

I slutningen af ​​1990'erne var kommenterede korpus blevet oprettet for de fleste af de store europæiske sprog , mens der faktisk ikke eksisterede sådanne korpus for det russiske sprog [2] . Desuden var selv de umærkede korpus, der eksisterede på det tidspunkt (for eksempel Uppsala Corpus of Russian Texts ) ikke offentligt tilgængelige [3] .

Af disse grunde begyndte udviklingen af ​​det første kommenterede korpus af det russiske sprog SinTagRus [2] [5] siden 1998 [4] , som senere blev standarden blandt korpus med syntaktisk opmærkning [6] . Samtidig deltog udviklerne også i oprettelsen af ​​det russiske sprogs nationale korpus; især SynTagRus (med nogle begrænsninger) har været en integreret, men fuldstændig autonom del af NCRP siden oprettelsen af ​​sidstnævnte [7] [8] . I NKRY for SinTagRus (som et underkorpus) bruges også navnet "dybt kommenteret korpus" [9] .

Udviklingen af ​​SinTagRus udføres af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS [10] .

Korpsets sammensætning

Kildematerialet til SinTagRus var Uppsala Corpus of Russian Texts : omkring 10.000 sætninger blev taget fra skønlitterære tekster. Efterfølgende blev korte (op til 30 sætninger) tekster tilføjet til korpuset, hentet fra webstederne for populære nyhedspublikationer ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus udvikler sig konstant og har fra 2020 omkring 77 tusinde sætninger (mere end 1,1 millioner ordbrug) [12] hentet fra teksterne i følgende genrer [13] [8] [14] :

Markup typer og format

Et karakteristisk træk ved SynTagRus sammenlignet med andre kommenterede korpus af det russiske sprog er tilstedeværelsen af ​​flere niveauer af annotering af forskellige dybder, som uafhængigt kan udvindes fra korpuset, og antallet af disse niveauer er potentielt ubegrænset. Korpusets opmærkningssprog er XML , og opmærkningsformatet er kompatibelt med TEI formalismen , med undtagelse af nogle yderligere indførte elementer og attributter [2] . Grundlæggende udføres fritekstmarkering i to trin [11] :

  1. Foreløbig opmærkning af tekst i automatisk tilstand ved hjælp af den ETAP sproglige processor, som er en praktisk implementering af Meaning-Text modellen .
  2. Kontrol og om nødvendigt korrigering af markeringen af ​​en ekspert lingvist .

Det følgende viser de markup-typer, der er tilgængelige i korpuset.

Opdeling af teksten i sætninger og leksikale elementer

Hver tekst i SinTagRus er opdelt i sætninger. Hver sætning er et element ved navn S , og hvert sådant element har en ID - attribut, hvis værdi er serienummeret på sætningen i teksten. På samme måde er hver sætning opdelt i leksikalske elementer med navnet W , og hvert sådant element har en ID - attribut , hvis værdi er ordenstallet for ordet i denne sætning [11] . Tegnsætningstegn er formateret som teksten i sætningstagget (bevarer deres relative position i kildeteksten) og udtrykkes ikke af deres egne tags [ 15] .

Morfologisk markup

Den morfologiske struktur af en ordform er navnet på et leksem eller lemma , som en del af talen og morfologiske karakteristika tilskrives , det vil sige betydningen af ​​de tilsvarende morfologiske kategorier . For den tilsvarende ordform er lemma værdien af ​​LEMMA- attributten , og ordleddet og morfologiske karakteristika tilsammen er værdien af ​​FEAT [8] [16] -attributten .

Beskrivelse af morfologisk markup [17] Brugte dele af tale Brugte morfologiske egenskaber

Syntaktisk opmærkning

Den syntaktiske markering af korpussætninger udføres inden for rammerne af afhængighedsgrammatikken : den syntaktiske struktur er et orienteret træ , hvis noder er ord, og hver kant er rettet fra hovedordet til tjenerordet og svarer til en eller anden syntaktisk relation . . Ordet, der svarer til træets rod, kaldes toppen af ​​sætningen og er i modsætning til resten af ​​ordene i sætningen ikke syntaktisk afhængig af nogen anden. Syntaktiske grupper er arrangeret i form af undertræer af kildetræet: i hvert sådant undertræ er et af medlemmerne af gruppen dens repræsentant i eksterne relationer og underordner de resterende medlemmer af gruppen [18] . I alt skelnes der omkring 70 typer syntaktiske relationer i SinTagRus [13] .

Brugte syntaktiske relationer [17] Aktant syntaktiske relationer Attribut syntaktiske relationer Koordinering af syntaktiske relationer Service syntaktiske relationer

For at registrere information om den syntaktiske struktur af en sætning i SynTagRus bruges to attributter for hvert ord i sætningen: DOM , hvis værdi er ID'et for værtsordet, og LINK , hvis værdi er navnet på tilsvarende syntaktisk relation [16] . Toppen af ​​sætningen har den særlige værdi af _root DOM - attributten [19] .

Leksiko-semantisk markup

Hver ordform, udover lemmaet , tildeles attributten KSNAME , hvis værdi er navnet på den tilsvarende post i den forklarende-kombinatoriske ordbog for den sproglige ETAP-processor. På grund af dette er på den ene side betydningen af ​​polysemantiske og enslydende ord specificeret, og på den anden side etableres en forbindelse med indgange i ordbogen, som bruges af ETAP-processoren, og informationen indeholdt i disse poster om ords semantiske egenskaber bliver tilgængelige [10] .

Leksiko-funktionel markup

Sætninger er markeret med sætninger, der kan fortolkes ud fra leksikalske funktioner . For at markere sådanne sætninger inde i sætningen oprettes yderligere elementer separat fra selve ordformerne [13] .

Mikrosyntaktisk markup

Mikrosyntaktiske enheder i SynTagRus forstås som fraseologiske enheder med syntaktisk specificitet [20] . Et eksempel er den gældende sammensatte præposition . På den ene side er det syntaktisk tæt på primitive præpositioner. Det er faktisk umuligt at indsætte en pronomindefinition til et navneord mellem elementerne i denne præposition, som i andre præpositionelle konstruktioner af typen i formen , i kasus osv. Desuden, hvis det personlige stedord for den tredje person er subjekt til denne præposition i sætningen, så i de fleste tilfælde begyndelses -n- , som ved primitive præpositioner. På den anden side kan den første del af nogle parrede konjunktioner samt partiklen om eller , være placeret mellem den gældende præposition og det navneord, der afhænger af det, hvilket gør det umuligt at tilskrive denne præposition til primitiver [21] .

Hvis der forekommer en mikrosyntaktisk enhed i en eller anden sætning af korpuset, tilføjes en ny sætningsattribut - MICROSYNT , hvis værdi er navnet på den tilsvarende mikrosyntaktiske enhed og dens lineære grænser [20] .

Anaforisk markup

For et anaforisk pronomen , der stødes på i teksten , er dets antecedent angivet , det vil sige det udtryk, som dette pronomen refererer til. En sætning, hvori der findes et anaforisk pronomen, har en ekstra COREF- attribut, hvis værdi er en liste over pronomen-forudgående par, der svarer til det givne pronomen. For hvert anaforisk pronomen er dets lineære position i sætningen angivet, og for antecedenten er det desuden angivet i hvilken sætning i forhold til den undersøgte den befinder sig (inden for tre sætninger i begge retninger) [4] .

Behandling af elliptiske strukturer

I SynTagRus gendannes udeladte fragmenter af elliptiske sætninger eksplicit. Den tilsvarende gendannede ordform er markeret på samme måde som andre ordformer; især er alle de nødvendige syntaktiske links trukket fra sådanne "fantom"-ord. Denne ordform er tildelt attributten NODETYPE med værdien FANTOM [2] [22] .

Brug af kroppen

SynTagRus bruges på forskellige områder. På den ene side udføres rent sproglig forskning på dets grundlag, både teoretisk og praktisk (især inden for leksikografi ). På den anden side finder korpuset sin anvendelse i datalingvistiks opgaver som en kilde til sproglige data, for eksempel ved oprettelse af parsere . Disse opgaver kan løses ved hjælp af forskellige opmærkningsformater. Samtidig gør kombinationen af ​​flere bygninger med forskellige markeringer til én sidstnævnte mere repræsentativ. Disse omstændigheder fører til problemet med korpuskonvertering [4] .

Der har været gentagne forsøg på at oversætte SynTagRus til andre markup-formater: eksperimenter er kendt for at konvertere korpus til HPSG og PDT [13] formater . Derudover blev SynTagRus med succes konverteret til formaterne CoNLL-U [22] , PTB [23] og SD [24] . Konvertering vedrørte dog for det første i alle tilfælde kun morfologiske og syntaktiske markeringer, og for det andet blev den udført automatisk, hvilket blev en hindring for fuldgyldig konvertering. Så for eksempel kunne NID-leddet ikke automatisk oversættes til CoNLL-U -formatet (hvor der ikke er en sådan del af tale) automatisk, så alle SinTagRus-sætninger, hvor mindst én ordform havde en sådan en del af tale blev udelukket fra korpus før konvertering [22] .

Adgang

SynTagRus distribueres gratis under en ikke-kommerciel licens [25] . Derudover er en version af korpuset uden nogle typer opmærkning tilgængelig til ikke-kommerciel brug til forsknings- og undervisningsformål som et underkorpus af det russiske sprogs nationale korpus og er i det offentlige domæne [13] , såvel som versioner i CoNLL-U formater (licens CC BY-NC-SA 4.0 ) [22] og PTB (kun konverter tilgængelig) [23] .

Noter

  1. Eric Brill , Raymond J. Mooney. En oversigt over empirisk naturlig sprogbehandling  //  AI Magazine. - AAAI, 1997. - Vol. 18 , nr. 4 . - S. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. An annotated corpus of Russian texts: concept, markup tools, types of information  // Proceedings International seminar on computational and its application linguistic-20o ". - Protvino, 2000. Arkiveret den 31. juli 2019.
  3. Reznikova T. I. , Kopotev M. V. Sprogligt kommenterede korpus af det russiske sprog (gennemgang af offentlige ressourcer)  // National Corpus of the Russian Language: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Arkiveret fra originalen den 31. juli 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus today  // Proceedings of the Institute of the Russian Language. V. V. Vinogradova. - M . : "Nestor-History", 2019. - Udgave. 21 . - S. 14-40 . Arkiveret 26. marts 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Udvikling af en parserkerne til det russiske sprog baseret på NLTK-biblioteker  // Proceedings of the United Scientific Conference "Internet and Modern Society". - 2016. - S. 44-54 . Arkiveret fra originalen den 10. oktober 2019.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I. , Nikolaeva Yu. V., Daniel' M. A. B. Bergel O. S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I., Krivnova O. F. Corpus linguistics // Introduktion til sprogvidenskaben / red. O.V. Fedorova og S.G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 s. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Nationalt korpus af det russiske sprog: en oversigt over forhistorien  // Nationalt korpus af det russiske sprog: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Arkiveret fra originalen den 31. juli 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Syntaktisk og semantisk annoterede sprogkorpus:  // det nuværende russiske sprogkorpus Russisk sprog: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Arkiveret fra originalen den 31. juli 2019.
  9. Zakharov V.P. , Bogdanova S.Yu. Korpuslingvistik . - 3. udg., revideret. - Sankt Petersborg. : St. Petersburg University Press, 2020. - S. 47. - 234 s. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Semantisk markup i et dybt kommenteret korpus af det russiske sprog  // Proceedings of the International Conference "Corpus Linguistics-2004". - Sankt Petersborg. : St. Petersburg State University, 2004. - S. 41-54 . Arkiveret fra originalen den 31. juli 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Udvikling af et syntaktisk markeret korpus af det russiske sprog  // Rapporter fra den videnskabelige konference "Corpus Linguistic Databases". - Sankt Petersborg. : St. Petersburg State University, 2002. - S. 40-50 . Arkiveret fra originalen den 31. juli 2019.
  12. Korpuslingvistik . Laboratory of Computational Linguistics IPTP RAS (11. februar 2020). Hentet 12. februar 2020. Arkiveret fra originalen 22. februar 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. Den nuværende tekst i det korpustiske og ikke-russiske sprog. )  // Samling "National korpus af det russiske sprog: 10 år af projektet." - M . : Proceedings of the Institute of the Russian Language. V. V. Vinogradova, 2015. - Udgave. 6 . - S. 272-299 . Arkiveret fra originalen den 31. juli 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Regelbaseret afhængighedsparser raffineret af og empirisk korpusstatistik  //  Proceedings of the International Conference on Dependency Linguistics. - 2011. - S. 318-327 . Arkiveret fra originalen den 31. juli 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Datakonvertering og konsistens af monolingual corpora: Russian UD treebanks  (engelsk)  // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). - Oslo Universitet, Norge: Linköping University Electronic Press, 2018. - S. 52-65 . Arkiveret 19. marts 2020.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Udvikling af en afhængighedstræbank for russisk og dets mulige anvendelser i NLP  (engelsk)  // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . - S. 852-856 . Arkiveret fra originalen den 10. august 2017.
  17. 1 2 Syntaktisk markeret korpus af det russiske sprog: information til brugere . Nationalkorpus af det russiske sprog . Hentet 29. marts 2020. Arkiveret fra originalen 25. marts 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Lingvistisk processor til komplekse informationssystemer. - M .: Science , 1992. - S. 32-40, 56-73. — 256 s.
  19. Leonid Iomdin , Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora  //  Research Infrastructure for Digital Lexicography. - Ljubljana: Jožef Stefan Instituttet, 2009. - S. 1-12 .
  20. 1 2 Iomdin L. L. Mikrosyntaktisk markup i korpus af russiske tekster  // Proceedings of the international videnskabelig konference "Corpus Linguistics - 2017". - Sankt Petersborg. : St. Petersburg State University, 2017. - S. 188-194 . Arkiveret fra originalen den 20. november 2021.
  21. Iomdin L. L. I dybden af ​​mikrosyntaks: en leksikalsk klasse af syntaktiske sætninger  // Computer Linguistics and Intelligent Technologies. - M. : RGGU, 2008. - S. 178-184 . Arkiveret fra originalen den 29. august 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. Konvertering af SynTagRus (den russiske afhængighedstræbank) til Universal Dependencies  (engelsk)  // Teknisk rapport. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Arkiveret fra originalen den 8. juni 2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. Konvertering af SynTagRus-afhængighedstræbank til Penn treebank-stil  //  Proceedings of the 10th Linguistic Annotation Workshop holdt i forbindelse med ACL 2016 (LAW-X 2016). - 2016. - S. 16-21 . Arkiveret fra originalen den 27. februar 2019.
  24. Lipenkova J. , Souček M. Konvertering af russisk afhængighedstræbank til Stanford-typede afhængighedsrepræsentation  (engelsk)  // Proceedings of the 14th Conference of the European Chapter of Association for Computational Linguistics. - 2014. - Bd. 2 . - S. 143-147 . Arkiveret fra originalen den 8. juni 2018.
  25. Lyashevskaya O. N. Corpus instrumenter i grammatiske studier af det russiske sprog. - M . : Forlaget YASK, 2016. - S. 193. - 520 s.

Links