I lingvistik er et korpus (i denne betydning er flertallet corpus , ikke korpus [1] ) et sæt tekster udvalgt og bearbejdet efter bestemte regler, der bruges som grundlag for at studere et sprog. De bruges til statistisk analyse og statistisk hypotesetestning , validering af sproglige regler på et givet sprog. Korpus af tekster er genstand for undersøgelse i korpuslingvistik .
Blandt de mange definitioner af korpuset kan dets vigtigste egenskaber skelnes :
Corpora kan klassificeres efter forskellige kriterier: formålet med at skabe korpus, typen af sprogdata, "litterær", genre, dynamik, type markup, mængde af tekster og så videre. Ifølge kriteriet parallelisme kan corpora for eksempel opdeles i ensproget, tosproget og flersproget. Flersproget og tosproget er opdelt i to typer:
Markup'et består i at tilskrive særlige tags til tekster og deres komponenter : sproglige og eksterne (ekstrallingvistiske). Der skelnes mellem følgende sproglige typer af markup: morfologisk, semantisk, syntaktisk, anaforisk, prosodisk, diskurs osv. Yderligere strukturelle analyseniveauer anvendes på nogle korpus. Især nogle små korpus kan mærkes helt syntaktisk. Sådanne korpus kaldes normalt dybt kommenterede eller syntaktiske korpus , og selve den syntaktiske struktur er et afhængighedstræ .
Manuel opmærkning (annotering) af tekster er en dyr og tidskrævende opgave. I øjeblikket præsenteres forskellige softwareværktøjer til mærkning af corpora i det offentlige domæne [3] . Konventionelt kan de opdeles i separate (stand-alone) og web-orienterede (web-baserede) . Samtidig har udviklernes fokus i de senere år flyttet sig mod webapplikationer. Disse systemer har en række fordele:
Moderne teknologier gør det muligt at skabe "webkorpora", det vil sige korpus opnået ved at behandle internetkilder:
Et web-korpus er en særlig form for sproglig korpus, som skabes ved gradvist at downloade tekster fra internettet ved hjælp af automatiserede procedurer, der bestemmer sproget og kodningen af individuelle websider i farten, fjerner skabeloner, navigationselementer, links og reklamer (den såkaldte boilerplate), udføre transformation til tekst, filtrering, normalisering og deduplikering af de modtagne dokumenter, som derefter kan behandles med traditionelle værktøjer inden for korpuslingvistik (tokenisering, mirfosyntaktisk og syntaktisk annotering) og implementeres i et søgekorpussystem. At skabe et webkorpus er ikke kun meget billigere, men frem for alt kan dets størrelse endda være en størrelsesorden større end traditionelt korpus [4] .
— Vladimir Benko ARANEA — EN FAMILIE PÅ MILLIARD WEB-KORPSCorpus er hovedbegrebet og databasen for korpuslingvistik. Analysen og bearbejdningen af forskellige typer af korpus er genstand for det meste arbejde inden for computerlingvistik (f.eks. søgeordsekstraktion ), talegenkendelse og maskinoversættelse , hvor korpus ofte bruges til at skabe skjulte Markov -modeller til ordstedetagging og andre opgaver. Corpora- og frekvensordbøger kan være nyttige til undervisning i fremmedsprog.
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |