Korpus af tekster

I lingvistik er et korpus (i denne betydning er flertallet corpus , ikke korpus [1] ) et sæt tekster udvalgt og bearbejdet efter bestemte regler, der bruges som grundlag for at studere et sprog. De bruges til statistisk analyse og statistisk hypotesetestning , validering af sproglige regler på et givet sprog. Korpus af tekster er genstand for undersøgelse i korpuslingvistik .

Grundlæggende egenskaber for skroget

Blandt de mange definitioner af korpuset kan dets vigtigste egenskaber skelnes :

Sagsklassifikation

Corpora kan klassificeres efter forskellige kriterier: formålet med at skabe korpus, typen af ​​sprogdata, "litterær", genre, dynamik, type markup, mængde af tekster og så videre. Ifølge kriteriet parallelisme kan corpora for eksempel opdeles i ensproget, tosproget og flersproget. Flersproget og tosproget er opdelt i to typer:

  1. parallel  - et sæt tekster og deres oversættelser til et eller flere sprog.
  2. sammenlignelig (pseudo-parallel) - originaltekster på to eller flere sprog.

Skrogmarkeringer

Markup'et består i at tilskrive særlige tags til tekster og deres komponenter : sproglige og eksterne (ekstrallingvistiske). Der skelnes mellem følgende sproglige typer af markup: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs osv. Yderligere strukturelle analyseniveauer anvendes på nogle korpus. Især nogle små korpus kan mærkes helt syntaktisk. Sådanne korpus kaldes normalt dybt kommenterede eller syntaktiske korpus , og selve den syntaktiske struktur er et afhængighedstræ .

Manuel opmærkning (annotering) af tekster er en dyr og tidskrævende opgave. I øjeblikket præsenteres forskellige softwareværktøjer til mærkning af corpora i det offentlige domæne [3] . Konventionelt kan de opdeles i separate (stand-alone) og web-orienterede (web-baserede) . Samtidig har udviklernes fokus i de senere år flyttet sig mod webapplikationer. Disse systemer har en række fordele:

Internettet som et korpus

Moderne teknologier gør det muligt at skabe "webkorpora", det vil sige korpus opnået ved at behandle internetkilder:

Et web-korpus er en særlig form for sproglig korpus, som skabes ved gradvist at downloade tekster fra internettet ved hjælp af automatiserede procedurer, der bestemmer sproget og kodningen af ​​individuelle websider i farten, fjerner skabeloner, navigationselementer, links og reklamer (den såkaldte boilerplate), udføre transformation til tekst, filtrering, normalisering og deduplikering af de modtagne dokumenter, som derefter kan behandles med traditionelle værktøjer inden for korpuslingvistik (tokenisering, mirfosyntaktisk og syntaktisk annotering) og implementeres i et søgekorpussystem. At skabe et webkorpus er ikke kun meget billigere, men frem for alt kan dets størrelse endda være en størrelsesorden større end traditionelt korpus [4] .

— Vladimir Benko ARANEA — EN FAMILIE PÅ MILLIARD WEB-KORPS

Ansøgning

Corpus er hovedbegrebet og databasen for korpuslingvistik. Analysen og bearbejdningen af ​​forskellige typer af korpus er genstand for det meste arbejde inden for computerlingvistik (f.eks. søgeordsekstraktion ), talegenkendelse og maskinoversættelse , hvor korpus ofte bruges til at skabe skjulte Markov -modeller til ordstedetagging og andre opgaver. Corpora- og frekvensordbøger kan være nyttige til undervisning i fremmedsprog.

Russisk tekstkorpus

Se også

Noter

  1. GRAMOTA.RU - reference og information Internetportal "russisk sprog" | Ordbøger | Ordkontrol . gramota.ru. Hentet 26. december 2019. Arkiveret fra originalen 17. september 2019.
  2. Diagrammet blev oprettet baseret på materialerne i bogen "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: lærebog. 3. udg., revideret - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 s. "
  3. Vanyushkin, Grashchenko, 2017 .
  4. ARANEA: A FAMILY OF BILLION WEB CASES - The Written Heritage Community . textualheritage.org. Hentet 26. december 2019. Arkiveret fra originalen 9. august 2020.
  5. Glazkova, A. (2018), Automatisk søgning efter fragmenter, der indeholder biografisk information i naturlig sprogtekst , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Opbygning af et tekstkorpus til opsætning af en toneklassificering , Softwareprodukter og systemer T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arkiveret 7. august 2020 på Wayback Machine 

Litteratur