Korpus af tekster

I lingvistik er et korpus (i denne betydning er flertallet corpus , ikke korpus [1] ) et sæt tekster udvalgt og bearbejdet efter bestemte regler, der bruges som grundlag for at studere et sprog. De bruges til statistisk analyse og statistisk hypotesetestning , validering af sproglige regler på et givet sprog. Korpus af tekster er genstand for undersøgelse i korpuslingvistik .

Grundlæggende egenskaber for skroget

Blandt de mange definitioner af korpuset kan dets vigtigste egenskaber skelnes :

elektronisk - i moderne forstand skal korpuset være i elektronisk form
repræsentant - bør godt "repræsentere" objektet, der modellerer
markeret - hovedforskellen mellem et korpus og en tekstsamling
pragmatisk orienteret - bør skabes til en specifik opgave

Sagsklassifikation

Corpora kan klassificeres efter forskellige kriterier: formålet med at skabe korpus, typen af sprogdata, "litterær", genre, dynamik, type markup, mængde af tekster og så videre. Ifølge kriteriet parallelisme kan corpora for eksempel opdeles i ensproget, tosproget og flersproget. Flersproget og tosproget er opdelt i to typer:

parallel - et sæt tekster og deres oversættelser til et eller flere sprog.
sammenlignelig (pseudo-parallel) - originaltekster på to eller flere sprog.

Skrogmarkeringer

Markup'et består i at tilskrive særlige tags til tekster og deres komponenter : sproglige og eksterne (ekstrallingvistiske). Der skelnes mellem følgende sproglige typer af markup: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs osv. Yderligere strukturelle analyseniveauer anvendes på nogle korpus. Især nogle små korpus kan mærkes helt syntaktisk. Sådanne korpus kaldes normalt dybt kommenterede eller syntaktiske korpus , og selve den syntaktiske struktur er et afhængighedstræ .

Manuel opmærkning (annotering) af tekster er en dyr og tidskrævende opgave. I øjeblikket præsenteres forskellige softwareværktøjer til mærkning af corpora i det offentlige domæne [3] . Konventionelt kan de opdeles i separate (stand-alone) og web-orienterede (web-baserede) . Samtidig har udviklernes fokus i de senere år flyttet sig mod webapplikationer. Disse systemer har en række fordele:

muligheden for at markere ét dokument af flere personer på samme tid
kræver ikke installation af yderligere software end en browser
fleksibel differentiering af adgangsrettigheder
visning af det aktuelle forløb af opmærkningsprocessen
muligheden for at ændre den markerede krop

Internettet som et korpus

Moderne teknologier gør det muligt at skabe "webkorpora", det vil sige korpus opnået ved at behandle internetkilder:

Et web-korpus er en særlig form for sproglig korpus, som skabes ved gradvist at downloade tekster fra internettet ved hjælp af automatiserede procedurer, der bestemmer sproget og kodningen af individuelle websider i farten, fjerner skabeloner, navigationselementer, links og reklamer (den såkaldte boilerplate), udføre transformation til tekst, filtrering, normalisering og deduplikering af de modtagne dokumenter, som derefter kan behandles med traditionelle værktøjer inden for korpuslingvistik (tokenisering, mirfosyntaktisk og syntaktisk annotering) og implementeres i et søgekorpussystem. At skabe et webkorpus er ikke kun meget billigere, men frem for alt kan dets størrelse endda være en størrelsesorden større end traditionelt korpus [4] .

— Vladimir Benko ARANEA — EN FAMILIE PÅ MILLIARD WEB-KORPS

Ansøgning

Corpus er hovedbegrebet og databasen for korpuslingvistik. Analysen og bearbejdningen af forskellige typer af korpus er genstand for det meste arbejde inden for computerlingvistik (f.eks. søgeordsekstraktion ), talegenkendelse og maskinoversættelse , hvor korpus ofte bruges til at skabe skjulte Markov -modeller til ordstedetagging og andre opgaver. Corpora- og frekvensordbøger kan være nyttige til undervisning i fremmedsprog.

Russisk tekstkorpus

Se også

Noter

↑ GRAMOTA.RU - reference og information Internetportal "russisk sprog" | Ordbøger | Ordkontrol . gramota.ru. Hentet 26. december 2019. Arkiveret fra originalen 17. september 2019. (ubestemt)
↑ Diagrammet blev oprettet baseret på materialerne i bogen "Zakharov V.P., Bogdanova S.Yu. Corpus linguistics: lærebog. 3. udg., revideret - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 s. "
↑ Vanyushkin, Grashchenko, 2017 .
↑ ARANEA: A FAMILY OF BILLION WEB CASES - The Written Heritage Community . textualheritage.org. Hentet 26. december 2019. Arkiveret fra originalen 9. august 2020. (ubestemt)
↑ Glazkova, A. (2018), Automatisk søgning efter fragmenter, der indeholder biografisk information i naturlig sprogtekst , Proceedings of the Institute for System Programming RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Opbygning af et tekstkorpus til opsætning af en toneklassificering , Softwareprodukter og systemer T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Arkiveret 7. august 2020 på Wayback Machine

Litteratur

Vanyushkin A.S., Grashchenko L.A. Estimering af nøgleordsudtrækningsalgoritmer: værktøjer og ressourcer // Nye informationsteknologier i automatiserede systemer. - 2017. - Udgave. 20 . — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Applied and Computational Linguistics. - M. : URSS, 2016. - 320 s.

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur