Korpus [1] lingvistik er en gren af lingvistik , der beskæftiger sig med udvikling, skabelse og brug af tekstkorpus . Begrebet blev introduceret i 1960'erne i forbindelse med udviklingen af praksis med oprettelse af sager, som siden 1980'erne blev lettet af udviklingen af computerteknologi.
Et sprogligt eller sprogligt korpus af tekster er et stort, maskinlæsbart format, samlet, struktureret, markeret, filologisk kompetent række af sproglige data, designet til at løse specifikke sproglige problemer [2] . Hovedtrækkene i det moderne korpus er et maskinlæsbart format, repræsentativitet og tilstedeværelsen af metalsproglig information [2] . Repræsentativitet opnås gennem en særlig procedure for udvælgelse af tekster.
Et sprogligt korpus er en samling af tekster indsamlet i overensstemmelse med bestemte principper, markeret efter en bestemt standard og forsynet med en specialiseret søgemaskine . . Nogle gange kaldes et korpus ("korpus af den første orden") simpelthen for enhver samling af tekster, der er forenet af et eller andet fælles træk (sprog, genre , forfatter, periode for oprettelse af tekster).
Det hensigtsmæssige i at skabe tekstkorpus forklares ved:
Brown Corpus (BK, engelsk Brown Corpus , BC), som blev skabt i 1960'erne ved Brown University og indeholdt 500 fragmenter af tekster på hver 2 tusind ord, som blev udgivet på engelsk i USA i 1961. Som et resultat satte han standarden på 1 million ordbrug for at skabe repræsentative korpus på andre sprog. Ifølge en model tæt på BK blev der i 1970'erne oprettet en frekvensordbog over det russiske sprog Zasorina , bygget på grundlag af et korpus af tekster med en volumen på også 1 million ord og med omtrent lige store andele af socio-politiske tekster , skønlitterære, videnskabelige og populærvidenskabelige tekster fra forskellige områder og dramaturgi. Det russiske korps, der blev oprettet i 1980'erne ved Universitetet i Uppsala , Sverige, blev også bygget efter en lignende model.
En størrelse på en million ord er tilstrækkelig til en leksikografisk beskrivelse af kun de mest hyppige ord, da ord og grammatiske konstruktioner med gennemsnitsfrekvens forekommer flere gange pr. million ord (fra et statistisk synspunkt er et sprog et stort sæt af sjældne begivenheder ). Så hvert af sådanne almindelige ord som engelsk. høflig (høflig) eller eng. solskin (solskin) forekommer i f.Kr. kun 7 gange, udtrykket er engelsk. høfligt brev kun én gang, og så stabile udtryk som engelsk. høflig samtale, smil, anmodning - aldrig.
Af disse grunde, og i forbindelse med væksten i computerkraft, der er i stand til at arbejde med store mængder tekster, blev der i 1980'erne gjort adskillige forsøg rundt om i verden på at skabe større korpus. I Storbritannien var sådanne projekter Bank of English (Bank of English) ved University of Birmingham og British National Corpus ( British National Corpus , BNC). I USSR var et sådant projekt Machine Fund of the Russian Language , oprettet på initiativ af A. P. Ershov .
Tilstedeværelsen af et stort antal tekster i elektronisk form lettede i høj grad opgaven med at skabe store repræsentative korpus af titusinder og hundreder af millioner af ord, men eliminerede ikke problemerne: indsamling af tusindvis af tekster, fjerne ophavsretlige problemer, bringe alle tekster ind i en enkelt form, afbalancering af korpus efter emne og genre tager meget tid. Repræsentative korpus eksisterer (eller er under udvikling) for tysk, polsk, tjekkisk, slovensk, finsk, moderne græsk, armensk, kinesisk, japansk, bulgarsk og andre sprog.
Det russiske sprogs nationale korpus , oprettet ved det russiske videnskabsakademi , indeholder i øjeblikket mere end 500 millioner ordbrug [4] .
Sammen med repræsentative korpus, der dækker en bred vifte af genrer og funktionelle stilarter, bruges opportunistiske tekstsamlinger ofte i sproglig forskning, såsom aviser (ofte The Wall Street Journal og The New York Times ), nyhedsfeeds ( Reuters ), samlinger af fiktion ( Bibliotek af Maxim Moshkov eller Project Gutenberg ).
Korpuset består af et begrænset antal tekster, men det er designet til at afspejle de leksikogrammatiske fænomener, der er typiske for hele mængden af tekster på det tilsvarende sprog (eller undersprog ). For repræsentativiteten er både størrelsen og opbygningen af sagen vigtig. Den repræsentative størrelse afhænger af opgaven, da den er bestemt af, hvor mange eksempler der kan findes på de fænomener, der undersøges. På grund af det faktum, at sproget statistisk set indeholder et stort antal relativt sjældne ord ( Zipfs lov ), for at studere de første fem tusinde mest hyppige ord (f.eks. tab, undskyld ), et korpus på ca. Der kræves 10-20 millioner ordbrug, mens hvordan man beskriver de første tyve tusinde ord ( uhøjtideligt, hjerteslag, sværm ) allerede kræver et korpus på over hundrede millioner ordbrug.
Den primære opmærkning af tekster inkluderer de trin, der kræves for hvert korpus:
I store korpora opstår et problem, som tidligere var irrelevant: En forespørgselssøgning kan producere hundredvis og endda tusindvis af resultater (brugskontekster), som simpelthen er fysisk umulige at se på en begrænset tid. For at løse dette problem udvikles systemer, der tillader gruppering af søgeresultater og automatisk opdeling af dem i delmængder ( klynger af søgeresultater ), eller udlevering af de mest stabile sætninger ( samlokaliseringer ) med en statistisk vurdering af deres signifikans.
Mange tekster, der er tilgængelige på internettet , kan bruges som et korpus (det vil sige milliarder af ordbrug for verdens vigtigste sprog). For lingvister er den mest almindelige måde at arbejde med internettet på at lave forespørgsler til en søgemaskine og fortolke resultaterne enten ud fra antallet af fundne sider eller ved de første links, der returneres. Denne metode kaldes Googleologi [5] . Det skal bemærkes, at denne tilgang er velegnet til at løse en begrænset klasse af problemer, da tekstmarkeringsværktøjerne, der bruges på nettet, ikke beskriver en række sproglige træk ved teksten (angiver belastninger , grammatiske klasser, sætningsgrænser osv.) . Derudover kompliceres sagen af den lave udbredelse af semantisk layout .
I praksis fører begrænsningerne ved denne tilgang til, at det er nemmest at kontrollere for eksempel kompatibiliteten af to ord gennem en forespørgsel som "ord1 ord2". Ud fra de opnåede resultater kan man vurdere, hvor almindelig denne kombination er, og i hvilke tekster den er mere almindelig. Se også forespørgselsstatistik .
Den anden måde er automatisk at udtrække et stort antal sider fra internettet og derefter bruge dem som et almindeligt korpus, hvilket gør det muligt at markere det og bruge sproglige parametre i forespørgsler. Denne metode giver dig mulighed for hurtigt at skabe et repræsentativt korpus for ethvert sprog, der er tilstrækkeligt repræsenteret på internettet, men dets genre og tematiske mangfoldighed vil afspejle internetbrugernes interesser [6] .
Brugen af Wikipedia som en samling af tekster vinder mere og mere popularitet i det videnskabelige samfund [7] .
I 2006 dukkede webstedet Tatoeba (Tatoeba), som giver dig mulighed for frit at tilføje nye og ændre eksisterende sætninger på forskellige sprog, relateret i betydning. Det var kun baseret på det anglo-japanske korpus, og allerede nu overstiger antallet af sprog 80, og antallet af sætninger er 600.000 [8] . Alle kan tilføje nye sætninger og deres oversættelser, og om nødvendigt downloade alle eller dele af alle sprogkorpus gratis.
Af interesse er projektet med det åbne korpus af det russiske sprog , som ikke kun bruger tekster udgivet under gratis licenser, men også tillader alle, der ønsker at deltage i den sproglige opmærkning af korpuset. Denne form for crowdsourcing er muliggjort ved at opdele markup-opgaven i små opgaver, hvoraf de fleste kan varetages af en person uden særlig sproglig uddannelse [9] . Korpuset opdateres konstant, alle tekster og software relateret til det er tilgængelige under GNU GPL v2 og CC-BY-SA licenserne .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |