SinTagRus | |
---|---|
Sag volumen | over 1,1 millioner ord |
Sprog | Russisk |
Grundlæggende opmærkningstyper | morfologisk , syntaktisk , leksikosemantisk |
Kompilere | Laboratoriet for datalingvistik IPTP RAS |
dato for oprettelse | 1998 |
Adgang | ledig |
Licens | proprietære |
Internet side | proling.iitp.ru/ru/proje... |
SynTagRus ( eng. SynTagRus , forkortelse for engelsk. Syntactically Tagged Russisk tekstkorpus , "syntaktisk annoteret korpus af russiske tekster") er et dybt kommenteret korpus af russiske tekster , det første korpus af russiske tekster med syntaktisk opmærkning. Det er blevet udviklet siden 1998 af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS . Korpuset består af tekster af forskellige genrer; det samlede antal ordbrug er mere end 1 million .
SynTagRus er baseret på ideologien bag den multi-purpose sproglige processor ETAP . Et træk ved korpuset er tilstedeværelsen af flere niveauer af annotering af forskellige dybder, herunder komplet morfologisk og syntaktisk markup med fjernet homonymi . Markup-sproget er XML .
SynTagRus distribueres under en ikke-kommerciel licens . Derudover er korpuset blevet konverteret til forskellige formater; nogle af disse versioner (eller konvertere) er i det offentlige domæne, og en begrænset version af det originale korpus er en del af det russiske nationale korpus .
Fremkomsten af syntaktiske markup-korpora i begyndelsen af 1990'erne resulterede i udviklingen af empiriske metoder til behandling af naturlige sprogproblemer . Desuden har brugen af sådanne korpus fundet sin anvendelse ikke kun i forbindelse med selve syntaktisk analyse, men også i en række andre opgaver, herunder leksikalsk polysemi-opløsning , semantisk analyse , etc. [1]
I slutningen af 1990'erne var kommenterede korpus blevet oprettet for de fleste af de store europæiske sprog , mens der faktisk ikke eksisterede sådanne korpus for det russiske sprog [2] . Desuden var selv de umærkede korpus, der eksisterede på det tidspunkt (for eksempel Uppsala Corpus of Russian Texts ) ikke offentligt tilgængelige [3] .
Af disse grunde begyndte udviklingen af det første kommenterede korpus af det russiske sprog SinTagRus [2] [5] siden 1998 [4] , som senere blev standarden blandt korpus med syntaktisk opmærkning [6] . Samtidig deltog udviklerne også i oprettelsen af det russiske sprogs nationale korpus; især SynTagRus (med nogle begrænsninger) har været en integreret, men fuldstændig autonom del af NCRP siden oprettelsen af sidstnævnte [7] [8] . I NKRY for SinTagRus (som et underkorpus) bruges også navnet "dybt kommenteret korpus" [9] .
Udviklingen af SinTagRus udføres af Laboratory of Computational Linguistics i IPTP RAS i samarbejde med Sector of Theoretical Semantics i IRL RAS [10] .
Kildematerialet til SinTagRus var Uppsala Corpus of Russian Texts : omkring 10.000 sætninger blev taget fra skønlitterære tekster. Efterfølgende blev korte (op til 30 sætninger) tekster tilføjet til korpuset, hentet fra webstederne for populære nyhedspublikationer ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .
SynTagRus udvikler sig konstant og har fra 2020 omkring 77 tusinde sætninger (mere end 1,1 millioner ordbrug) [12] hentet fra teksterne i følgende genrer [13] [8] [14] :
Et karakteristisk træk ved SynTagRus sammenlignet med andre kommenterede korpus af det russiske sprog er tilstedeværelsen af flere niveauer af annotering af forskellige dybder, som uafhængigt kan udvindes fra korpuset, og antallet af disse niveauer er potentielt ubegrænset. Korpusets opmærkningssprog er XML , og opmærkningsformatet er kompatibelt med TEI formalismen , med undtagelse af nogle yderligere indførte elementer og attributter [2] . Grundlæggende udføres fritekstmarkering i to trin [11] :
Det følgende viser de markup-typer, der er tilgængelige i korpuset.
Hver tekst i SinTagRus er opdelt i sætninger. Hver sætning er et element ved navn S , og hvert sådant element har en ID - attribut, hvis værdi er serienummeret på sætningen i teksten. På samme måde er hver sætning opdelt i leksikalske elementer med navnet W , og hvert sådant element har en ID - attribut , hvis værdi er ordenstallet for ordet i denne sætning [11] . Tegnsætningstegn er formateret som teksten i sætningstagget (bevarer deres relative position i kildeteksten) og udtrykkes ikke af deres egne tags [ 15] .
Den morfologiske struktur af en ordform er navnet på et leksem eller lemma , som en del af talen og morfologiske karakteristika tilskrives , det vil sige betydningen af de tilsvarende morfologiske kategorier . For den tilsvarende ordform er lemma værdien af LEMMA- attributten , og ordleddet og morfologiske karakteristika tilsammen er værdien af FEAT [8] [16] -attributten .
Beskrivelse af morfologisk markup [17]Del af tale | Reduktion | Eksempler |
---|---|---|
Navneord | S | fabrik , dvs |
Adjektiv | EN | ny min _ |
Udsagnsord | V | kjole |
Biord | ADV | dårligt , sådan set |
tal | NUM | fem , 2 |
Påskud | PR | under |
Sammensatte | COM | luft , hydro |
Union | CONJ | og |
Partikel | EN DEL | trods alt |
Interjektion | INTJ | sådan og så |
Ordet er en fremmedsprogsoptagelse | NID | Whatsapp , Berliner Zeitung |
Morfologiske egenskaber | Reduktion | Bemærk |
---|---|---|
Animation | ||
animeret | OD | |
livløse | NEOD | |
Slægt | ||
Han | ÆGTEMAND | |
Kvinde | KVINDE | |
Gennemsnit | ONSDAG | |
Nummer | ||
Den eneste ting | ED | |
flertal | MN | |
sag | ||
Nominativ | DEM | |
Genitiv | SLÆGT | |
Partitiv | EN DEL | Angivet kun for navneord, hvor denne form er grafisk forskellig fra genitivformen |
Dativ | DAT | |
Akkusativ | VIN | |
Medvirkende | TVOR | |
Præpositionel | ETC | |
Lokal | LOKAL | Angivet kun for navneord, hvor denne form er grafisk forskellig fra præpositionsformen |
Vokativ | SW | Angivet kun for navneord, hvor denne form er grafisk forskellig fra nominativ kasusform |
Sammenligningsgrad | ||
Sammenlignende | SRAV | |
fremragende | FORR | |
Korthed | ||
Kort | KR | |
repræsentation | ||
Infinitiv | INF | |
Participium | PRICH | |
gerund | DYB | |
Humør | ||
vejledende | FIASKO | |
bydende nødvendigt | POV | |
Udsigt | ||
Ufuldkommen | NESOV | |
Perfekt | UGLE | |
Tid | ||
Ikke-fortid | NEPROSH | |
Forbi | PROSH | |
Gaven | NAST | Tilskrives kun verbet at være i personlig form |
ansigt | ||
Først | 1-L | Tilskrives kun verber |
Sekund | 2-L | |
Tredje | 3-L | |
Løfte | ||
Passiv | STRAD | |
yderligere egenskaber | ||
Sammensætning | SL | |
Blødgjort sammenlignende grad | SMYAG |
Den syntaktiske markering af korpussætninger udføres inden for rammerne af afhængighedsgrammatikken : den syntaktiske struktur er et orienteret træ , hvis noder er ord, og hver kant er rettet fra hovedordet til tjenerordet og svarer til en eller anden syntaktisk relation . . Ordet, der svarer til træets rod, kaldes toppen af sætningen og er i modsætning til resten af ordene i sætningen ikke syntaktisk afhængig af nogen anden. Syntaktiske grupper er arrangeret i form af undertræer af kildetræet: i hvert sådant undertræ er et af medlemmerne af gruppen dens repræsentant i eksterne relationer og underordner de resterende medlemmer af gruppen [18] . I alt skelnes der omkring 70 typer syntaktiske relationer i SinTagRus [13] .
Brugte syntaktiske relationer [17]Syntaks relation | Reduktion | Word vært | Ordtjener |
---|---|---|---|
Prædikativ | prædikat | Prædikat | Emne |
Dativ-subjektiv | date-emne | Angiv ord | statens subjekt angivet med værtsordet |
Agent | agent | ord for handling | Emnet for handlingen angivet med værtsordet |
Kvasi-agent | kvasi-agent | prædikat navneord | Ord, der implementerer den første syntaktiske valens af værtsordet |
Proprietær-agent | fejlagent | Udsagnsord | Et ord, der implementerer den første semantiske valens af et substantiv, der er en semantisk aktant af værtsordet |
Først færdig | 1-sæt | prædikatord | Værtsordets syntaktiske aktant, undtagen det første. Således refererer den første komplekse relation til den anden aktant, den anden til den tredje og så videre. |
Anden fuldført | 2-sæt | ||
Tredje fuldført | 3-sæt | ||
Fjerde fuldført | 4-sæt | ||
Femte fuldført | 5-sæt | ||
Vedhæftet fil | bundet | Link verbum | Nominel del af prædikatet |
Den første ukorrekt-komplet | 1-forkert-sæt | funktionelt verbum | Komplement (første, anden osv.), hvis semantiske vært er en semantisk aktant af værtsordet |
Den anden ukorrekt-fuldstændig | 2-forkert-sæt | ||
Tredje ukorrekt-fuldstændig | 3-forkert-sæt | ||
Fjerde ukorrekt-komplet | 4-forkert-sæt | ||
Femte ukorrekt-komplet | 5-forkert-sæt | ||
Ikke-aktant-komplet | ikke-skuespil | prædikatord | Et ord, der ikke er en fuldgyldig semantisk aktant af værtsordet, men som i syntaktisk funktion ligner komplementet |
Komplementært-positiv | sæt appos | Parametrisk navneord eller navneord af typen flyvning , rute , tog | Værtsordets semantiske aktant, hvis denne aktant er udtrykt i nominativ kasus eller dets syntaktiske ækvivalent |
præpositional | tilbud | Påskud | Toppunkt for en substantivfrase afhængig af en præposition |
Underordnet-allieret | underalliance | Underordnet fagforening | Toppen af den underordnede klausul indført af reparationsforbundet |
infinitiv-union | inf-union | Underordnet fagforening | Infinitiv |
Sammenlignende | sammenligne | Komparativt adjektiv eller adverb | Toppunktet af en substantivsætning i genitiv-kasus, der repræsenterer det andet af de sammenlignede medlemmer, eller en sammenlignende forening end |
Verbum, navn eller adverb | sammenlignende forening | ||
sammenlignende forening | sammenligne-union | sammenlignende forening | Den anden af de sammenlignede vilkår for den sammenlignende konstruktion |
valgfag | valgfag | Tal, ordinal adjektiv, superlativ adjektiv eller adjektiv med ordet mest | Præposition fra eller blandt introduktion af en indikation af det sæt, hvor valget er truffet |
sætningsprædikativ | helgenprædikat | Den øverste del af sætningen udtrykker situationen beskrevet i den identificerende konstruktion | Demonstrativt pronominal substantiv dette eller hint i nominativ kasus |
Destinationsbinding | assign-adr | Relationsord, der fungerer som en nominel del af prædikatet med et (muligvis nul) led | Navneord i dativ-kasus, udfylder i det væsentlige værtsordets syntaktiske valens |
Syntaks relation | Reduktion | Word vært | Ordtjener |
---|---|---|---|
Determinanter | |||
endeligt | defineret | Navneord eller adjektiv | adjektiv eller participium |
Beskrivende-definitiv | op-def | Navneord eller adjektiv | Adjektiv eller participium fungerer som en separat definition |
Cirka ordinal | omtrentlig rækkefølge | Navneord | ordinært adjektiv |
I forhold | forhold | Navneord eller adjektiv | Toppen af det relative attributiv |
generel attributiv | |||
attributive | atrib | Navneord eller adjektiv | Inkonsekvent definition |
Sammensatte | sammensætning | Anden del af det sammensatte ord | Den første del af et sammensat ord |
tiltalende | |||
tiltalende | appos | Navneord | Den næste ansøgning |
Separat-positiv | ob-appos | Navneord | Separat applikation til værtsordet |
nominativ-appositiv | nom-appos | Navneord | Toppen af enhver citeret gruppe, der udtrykker et navn |
Numerativ-positiv | num appoz | Navneord, der angiver regelmæssigt nummererede objekter | Navnet er tal i nominativ kasus eller skrevet i tal (angiver et tal) |
kvantitative | |||
kvantitative | antal | Navneord | Tal i præposition |
Approksimativ-kvantitativ | omtrentlige antal | Navneord | Tal i postposition |
Kvantitativ-Koprædikativ | nummer-copred | Et verbum, hvor der er et substantiv i genitiv kasus, der fungerer som et subjekt med det | Toppen af talgruppen eller toppen af den nominelle gruppe med en kardinalværdi |
Kvantitativt-begrænsende | antal-grænse | Komparativt adjektiv eller adverb | Adverbium eller toppen af gruppen med præpositioner i eller på , der angiver intensitet |
fordeling | fordeling | Toppen af en substantivsætning, der angiver en bestemt parameter (pris, hastighed, vægt osv.) | Et navneord i nominativ kasus eller toppen af en gruppe med præpositioner i , på , for , der angiver en måleenhed |
tilsætningsstof | tilføje | Tal eller toppen af en kvantitativ gruppe | Tal eller toppen af en kvantitativ gruppe |
indicier | |||
indicier | obst | Et verbum eller et ord i en anden del af tale, der er toppen af en sætning | Omstændighed |
lang | lang | Udsagnsord | En omstændighed af varighed udtrykt ved et substantiv i akkusativ kasus eller af en præpositionsgruppe med betydningen omtrentlig mængde eller fordeling |
Flere lange | flere lange | Udsagnsord | En omstændighed af flere varighed udtrykt ved et substantiv i instrumental flertal |
fjern | afstand | Udsagnsord | En omstændighed af rumlig udstrækning udtrykt ved et substantiv i akkusativ kasus eller af en præpositionsgruppe med betydningen omtrentlig mængde eller fordeling |
omstændighed-tautologisk | obst-stramt | Udsagnsord | Et navneord i det instrumentelle kasus, der kopierer en del af betydningen af værtsordet |
subjektiv omstændighed | undermiljø | Udsagnsord | En omstændighed i den instrumentelle sag, der samtidig præger handlingens genstand |
Objekt omstændighed | obst | Udsagnsord | En omstændighed i den instrumentelle sag, der på samme tid kendetegner handlingens genstand |
subjektiv-koprædikativ | underkopr | Udsagnsord | Toppen af nominalfrasen i nominativ eller instrumental kasus, eller toppen af præpositionsgruppen, der virker i en funktion tæt på funktionen af den nominale del af det sammensatte prædikat, men karakteriserer subjektet i betydning og (hvis der er tale om den nominelle sætning) i overensstemmelse med den i køn og tal |
Objekt-koprædikativ | ob-copr | Udsagnsord | Toppen af nominalgruppen i instrumental eller akkusativ kasus eller toppen af præpositionsgruppen, som karakteriserer objektet. Hvis ordtjeneren er udtrykt ved en navneord, så stemmer det overens med komplementet i køn og tal |
Restriktiv | begrænset | Ord i enhver del af talen | Partikel eller restriktivt adverbium |
indledende | introduktion | Prædikat eller andet medlem af sætningen | Indledende ord , indledende tur, sætning eller appel |
Forklarende | klar | Øverst i hovedklausulen | Toppen af den underordnede klausul, inklusive det allierede ord hvad , hvorfor eller hvorfor |
forklarende | forklare | Vilkårligt ord | Et ord, der har pårørende og sammen med dem giver yderligere information om værtsordet eller den gruppe af ord, der repræsenteres af værtsordet. Der kræves en formel "afklaringsmarkør", som kan være et tegnsætningstegn eller et udtryk, der introducerer yderligere information |
tilstødende | tilstødende | Ordet, der er udtrykkets "herre", hvis top er ordtjeneren | Toppen af et udtryk, der afhænger af værtsordet, placeret til højre for værtsordet og omgivet af parenteser eller afgrænset på begge sider af en bindestreg |
kvalifikation | afklaring | Repræsentativ (vertex) for et eller andet udtryk | Repræsentant for et eller andet udtryk. Dette udtryk forfiner semantisk udtrykket repræsenteret af værtsordet, men begge disse udtryk har den samme syntaktiske funktion. |
Syntaks relation | Reduktion | Word vært | Ordtjener |
---|---|---|---|
skrivning | skrivning | Medlem af den koordinerende struktur | Medlem af en koordinerende konstruktion eller en koordinerende konjunktion. Placeret umiddelbart til højre for værtsordet. |
sentential-koordinerende | helgen op | Toppen af den første af homogene sætninger | Øverst i anden sætning eller koordinerende fagforening |
Koordinerende fagforening | op-union | skriveforbund _ | Toppen af den anden af de homogene udtryk eller sætninger |
Mange | mange | Hovedmedlemmet i en multipelkonstruktion er et substantiv , adjektiv , adverbium , tal eller verbum | Afhængigt medlem af en multipel konstruktion. Dannet enten på samme måde som hovedmedlemmet og adskilt fra det med en bindestreg, bindestreg, kolon eller skråstreg, eller introduceret af præpositionen "på" eller "til" |
Syntaks relation | Reduktion | Word vært | Ordtjener |
---|---|---|---|
Analytisk | analyt | Elementer af det sammensatte verbale prædikat . Disse elementer danner en kompleks fremtidsform eller konjunktiv . | |
Passiv-analytisk | bestå anal | Verbum - link "at være" | Passiv nadver |
Kvantitativ-hjælpemiddel | nummer-hjælpe | Højre side af et sammensat tal eller sammensat ordensadjektiv | Venstre side af et sammensat tal eller sammensat ordensadjektiv |
i forhold | korrelation | Venstre side af en brudt parret konjunktion , præposition eller partikel , eller højre side af en brudt parret koordinerende konjunktion | Højre side af en brudt parret konjunktion, præposition eller partikel eller venstre side af en brudt parret koordinerende konjunktion |
UDTAGENDE | explet | Demonstrativt pronomen - "pakning" sådan , det | Underordnet fagforening eller toppen af sætningen. Mesterordet "dechifreres" af tjenerordet |
Proleptisk | proleptus | Semantisk tvetydigt ord, der indtager en fuld position i en sætning | Ord udadtil |
Hjælpe | hjælpe | Dele af syntaktisk og semantisk enhed af sætninger |
For at registrere information om den syntaktiske struktur af en sætning i SynTagRus bruges to attributter for hvert ord i sætningen: DOM , hvis værdi er ID'et for værtsordet, og LINK , hvis værdi er navnet på tilsvarende syntaktisk relation [16] . Toppen af sætningen har den særlige værdi af _root DOM - attributten [19] .
Hver ordform, udover lemmaet , tildeles attributten KSNAME , hvis værdi er navnet på den tilsvarende post i den forklarende-kombinatoriske ordbog for den sproglige ETAP-processor. På grund af dette er på den ene side betydningen af polysemantiske og enslydende ord specificeret, og på den anden side etableres en forbindelse med indgange i ordbogen, som bruges af ETAP-processoren, og informationen indeholdt i disse poster om ords semantiske egenskaber bliver tilgængelige [10] .
Sætninger er markeret med sætninger, der kan fortolkes ud fra leksikalske funktioner . For at markere sådanne sætninger inde i sætningen oprettes yderligere elementer separat fra selve ordformerne [13] .
Mikrosyntaktiske enheder i SynTagRus forstås som fraseologiske enheder med syntaktisk specificitet [20] . Et eksempel er den gældende sammensatte præposition . På den ene side er det syntaktisk tæt på primitive præpositioner. Det er faktisk umuligt at indsætte en pronomindefinition til et navneord mellem elementerne i denne præposition, som i andre præpositionelle konstruktioner af typen i formen , i kasus osv. Desuden, hvis det personlige stedord for den tredje person er subjekt til denne præposition i sætningen, så i de fleste tilfælde begyndelses -n- , som ved primitive præpositioner. På den anden side kan den første del af nogle parrede konjunktioner samt partiklen om eller , være placeret mellem den gældende præposition og det navneord, der afhænger af det, hvilket gør det umuligt at tilskrive denne præposition til primitiver [21] .
Hvis der forekommer en mikrosyntaktisk enhed i en eller anden sætning af korpuset, tilføjes en ny sætningsattribut - MICROSYNT , hvis værdi er navnet på den tilsvarende mikrosyntaktiske enhed og dens lineære grænser [20] .
For et anaforisk pronomen , der stødes på i teksten , er dets antecedent angivet , det vil sige det udtryk, som dette pronomen refererer til. En sætning, hvori der findes et anaforisk pronomen, har en ekstra COREF- attribut, hvis værdi er en liste over pronomen-forudgående par, der svarer til det givne pronomen. For hvert anaforisk pronomen er dets lineære position i sætningen angivet, og for antecedenten er det desuden angivet i hvilken sætning i forhold til den undersøgte den befinder sig (inden for tre sætninger i begge retninger) [4] .
I SynTagRus gendannes udeladte fragmenter af elliptiske sætninger eksplicit. Den tilsvarende gendannede ordform er markeret på samme måde som andre ordformer; især er alle de nødvendige syntaktiske links trukket fra sådanne "fantom"-ord. Denne ordform er tildelt attributten NODETYPE med værdien FANTOM [2] [22] .
SynTagRus bruges på forskellige områder. På den ene side udføres rent sproglig forskning på dets grundlag, både teoretisk og praktisk (især inden for leksikografi ). På den anden side finder korpuset sin anvendelse i datalingvistiks opgaver som en kilde til sproglige data, for eksempel ved oprettelse af parsere . Disse opgaver kan løses ved hjælp af forskellige opmærkningsformater. Samtidig gør kombinationen af flere bygninger med forskellige markeringer til én sidstnævnte mere repræsentativ. Disse omstændigheder fører til problemet med korpuskonvertering [4] .
Der har været gentagne forsøg på at oversætte SynTagRus til andre markup-formater: eksperimenter er kendt for at konvertere korpus til HPSG og PDT [13] formater . Derudover blev SynTagRus med succes konverteret til formaterne CoNLL-U [22] , PTB [23] og SD [24] . Konvertering vedrørte dog for det første i alle tilfælde kun morfologiske og syntaktiske markeringer, og for det andet blev den udført automatisk, hvilket blev en hindring for fuldgyldig konvertering. Så for eksempel kunne NID-leddet ikke automatisk oversættes til CoNLL-U -formatet (hvor der ikke er en sådan del af tale) automatisk, så alle SinTagRus-sætninger, hvor mindst én ordform havde en sådan en del af tale blev udelukket fra korpus før konvertering [22] .
SynTagRus distribueres gratis under en ikke-kommerciel licens [25] . Derudover er en version af korpuset uden nogle typer opmærkning tilgængelig til ikke-kommerciel brug til forsknings- og undervisningsformål som et underkorpus af det russiske sprogs nationale korpus og er i det offentlige domæne [13] , såvel som versioner i CoNLL-U formater (licens CC BY-NC-SA 4.0 ) [22] og PTB (kun konverter tilgængelig) [23] .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |