britiske nationale korps | |
---|---|
URL | www.natcorp.ox.ac.uk |
Site type | Videnskabelig litteratur |
Sprog) | britisk engelsk |
Serverplacering | |
Forfatter | Oxford University Press , Longman , W. & R. Chambers |
Begyndelse af arbejdet | 1994 |
British National Corpus ( BNC ) er et korpus på 100 millioner ord af skrevet og talt britisk engelsk fra en lang række kilder [1] [2] [3] . Korpuset dækker britisk engelsk fra slutningen af det 20. århundrede, repræsenteret af en bred vifte af genrer , og er beregnet til at være repræsentativ for tidens typiske talte og skrevne britiske engelsk.
Tre forlag ( Oxford University Press som hovedbidragyder, og Longman og W. & R. Chambers ), to universiteter ( Oxford og Lancaster ) og British Library [2] samarbejdede om projektet for at skabe BNC .
Oprettelsen af BNC begyndte i 1991 under ledelse af BNC-konsortiet og blev afsluttet i 1994. Efter 1994 blev der ikke tilføjet nye eksempler, men BNC undergik mindre ændringer før udgivelsen af den anden (BNC World, 2001) og tredje (BNC) XML Edition, 2007) udgaver [4] .
Efter beregningslingvisters opfattelse skulle BNC være et korpus af moderne, på tidspunktet for kompilering, der forekommer i det virkelige sprog , hvad enten det er talt eller skrevet . Som et resultat er BNC blevet kompileret til en computervenlig form for at tillade automatisk søgning og behandling ved hjælp af korpuslingvistiske metoder . En af forskellene mellem BNC og datidens eksisterende korpus var åbenheden af data til brug ikke kun i videnskabelig forskning, men også til kommercielle og uddannelsesmæssige formål [3] .
Skaberne begrænsede korpuset til kun britisk engelsk og havde ikke til hensigt at inkludere eksempler på brugen af verdensengelsk . Dette blev delvist gjort, fordi en betydelig del af omkostningerne ved projektet blev betalt af den britiske regering, som naturligvis var interesseret i at understøtte dokumentationen af sit lands sproglige mangfoldighed [3] .
Opbygning af et korpus af den hidtil usete størrelse af BNC krævede finansiering fra både kommercielle og akademiske institutioner. Til gengæld blev BNC -dataene efterfølgende tilgængelige til kommerciel brug og videnskabelig forskning [3] .
BNC er et ensproget korpus, da det kun indeholder eksempler på britisk engelsk, selvom der nogle gange forekommer ord og sætninger fra andre sprog i teksterne. Dette er et synkront korpus, da det kun indeholder eksempler på brugen af sproget i én tidsperiode - slutningen af det 20. århundrede. Af denne grund kan BNC ikke tjene som en kilde til data om historien om udviklingen af britisk engelsk [4] . Fra begyndelsen havde de involverede i indsamlingen af skriftlige data til formål at gøre BNC til et afbalanceret korpus og søgte derfor efter og inkluderede data fra forskellige kilder [3] .
90 % af korpuset består af eksempler på brug af skriftsproget . Disse eksempler er hentet fra regionale og nationale aviser, videnskabelige tidsskrifter og tidsskrifter inden for forskellige videnskabelige områder, skønlitteratur og journalistik , både fra offentliggjorte og upublicerede materialer (såsom brochurer, breve, studenteressays, manuskripter, taler) samt fra mange andre kilder [5] .
SamtalekorpusDe resterende 10 % af BNC-materialet er talesprogsbrugsmønstre, der blev præsenteret og registreret ved hjælp af praktisk transskription .
Samtalekorpuset består af to dele. Den demografiske del indeholder en transskription af spontane samtaler, der fandt sted under virkelige forhold med deltagelse af frivillige fra forskellige aldersgrupper, regioner og sociale lag. Disse samtaler fandt sted i en række forskellige situationer, herunder forretnings- eller regeringsmøder og diskussioner på radioudsendelser eller over telefon [5] . Dette blev gjort for at tage højde for både den demografiske fordeling af det talte sprog og sprogets sprogligt betydningsfulde mangfoldighed på grund af konteksten [6] .
Den anden del af det daglige korpus omfatter kontekstfølsomme prøver, såsom transskriptioner af optagelser, der er udarbejdet under særlige møder eller begivenheder.
Alle originale optagelser transskriberet til optagelse i BNC er blevet placeret i British Library Sound Archive . De fleste af indlæggene er tilgængelige på webstedet for Oxford University Phonetic Laboratory .
BNC-pakken indeholder delvise markeringer . For at gøre dette, når man oprettede skroget, blev CLAWS-mærkesystemet brugt. Dette system gennemgik en række modifikationer inden den sidste blev modtaget - CLAWS4, som blev brugt i sagen. CLAWS1-systemet var baseret på en skjult Markov-model og var i stand til korrekt at markere 96 % til 97 % af enhver tekst. Når du flytter fra CLAWS1 til CLAWS2, er behovet for manuel tekstforberedelse inden start af opmærkningsprocessen forsvundet. CLAWS4 indeholder forbedringer såsom mere kraftfuld leksikalsk disambiguation og stavevariation. Det videre arbejde med opmærkningssystemet har fokuseret på at øge succesraten for automatisk opmærkning og reducere det manuelle arbejde med at udarbejde tekster før opmærkning påbegyndes ved at introducere yderligere software til at erstatte manuelt arbejde [2] [7] .
Senere blev markup tilføjet for at indikere tvetydigheden af visse ord og udtryk. På samme tid, på trods af CLAWS4's evne til automatisk at bestemme taletyper og ordbetydninger, forblev behovet for manuel markering, da andre sprog end engelsk ikke understøttes i CLAWS4 [8] [9] .
To underkorporaer (BNC-dataundersæt) blev frigivet under navnene BNC Baby og BNC Sampler. Begge disse underkorpuser kan fås ved at bestille dem fra BNC's websted [10] .
BNC Baby er et underkorpus af BNC, der består af fire prøvesæt på hver en million ord. Ordene i hvert sæt svarer til en bestemt genrekategori . Et sæt prøver indeholder transskriptioner af samtaler, mens de resterende tre sæt indeholder prøver af skrevne tekster fra faglitteratur , skønlitteratur og aviser . Samtidig bevares den markup, der er tilgængelig i BNC [11] i underkorpuset . Den seneste (tredje) udgave blev udgivet i XML-format [12] .
BNC Sampler er et underlegeme, der består af to dele. Den første del indeholder skriftlige data, den anden del indeholder dagligtale. Hver del indeholder en million ord. BNC-sampleren blev oprindeligt brugt til at forbedre BNC-markeringsprocessen, som til sidst førte til offentliggørelsen af BNC World. I løbet af projektet er BNC Sampler blevet forbedret i takt med, at erfaring og viden om markup er vokset. Som et resultat blev BNC Sampler, som vi kender i dag [13] oprettet .
Korpuset er markeret i overensstemmelse med anbefalingerne fra Text Encoding Initiative (TEI) konsortiet og inkluderer komplette sproglige annotationer og kontekstuel information [14] .
For at bruge CLAWS4 Partial Marking Tool skal du købe en licens [15] . Alternativt kan du bruge opmærkningstjenesten leveret af Lancaster University [16] .
BNC selv kan købes med både en personlig og kollektiv licens. BNC-udgaven er tilgængelig i XML-format og leveres med Xaira søgemaskinesoftware . Pakken kan bestilles via BNC's hjemmeside [17] .
Til XML-udgaven af BNC blev der udviklet en corpus manager BNCweb, som er tilgængelig online. Dens grænseflade er nem at bruge og understøtter forespørgsel og analyse af korpusmaterialer [18] .
BNC var det første korpus af sin størrelse tilgængelig for et bredt publikum. Måske skyldtes det standardformer for aftaler mellem rettighedshavere og konsortiet på den ene side og mellem brugere af korpuset og konsortiet på den anden side. Skaberne af korpuset forsøgte at indgå en standardlicensaftale med ejerne af intellektuelle ejendomsrettigheder , hvoraf en af bestemmelserne var medtagelsen af materiale i korpuset uden betaling af monetære gebyrer. En sådan aftale blev lettet af sagens originalitet og unikke karakter [6] .
Det har dog vist sig svært at bevare bidragydernes anonymitet uden at nedtone betydningen af deres arbejde. Enhver uigennemsigtig hentydning til forfatterens identitet blev fjernet fra korpusmaterialet. Samtidig blev muligheden for at erstatte rigtige navne med andre navne overvejet for at bevare anonymiteten, hvilket dog blev anset for uhensigtsmæssigt [6] .
Derudover blev forfatterne i første omgang bedt om tilladelse til kun at medtage transskriberede versioner af deres tale, men ikke at inkludere selve talen. Selvom en sådan tilladelse kunne anmodes om igen, kan søgningen efter de originale forfattere blive kompliceret af den igangværende anonymiseringsproces. Samtidig blev faktorer tydelige, der forværrede ophavsretsindehavernes modvilje mod at donere deres materialer til korpuset: fulde tekster blev udelukket fra korpuset, hvilket førte til manglende motivation for indehavere af ophavsret til at distribuere information gennem korpuset (især pga. til dets ikke-kommercielle grundlag) [6] .
Fra 2001 manglede BNC stadig en klassificering af skrevne tekster på anden måde end efter sfære (aviser, skønlitteratur osv.), og en klassificering af talte tekster på anden måde end efter kontekst og demografisk eller socioøkonomisk klasse af deltagerne i samtalen. For eksempel var et stort udvalg af fiktive teksteksempler ( romaner , noveller , digte osv.) inkluderet i korpuset , men oplysninger om deres undergenrer manglede i prøveoverskrifterne og BNC-dokumentationen. For forskere var viden om genrediversitet således praktisk talt ubrugelig, da det ikke var let for dem at få værker af den ønskede undergenre [19] .
I 2002, med udgivelsen af en ny version af korpuset - BNC World Edition, blev der gjort et forsøg på at løse klassifikationsproblemet. Ud over sfærer for talte og skrevne tekster blev der identificeret 70 klasser, som gjorde det muligt for forskere at udtrække tekster af en bestemt genre fra korpuset [20] .
Men selv efter disse innovationer har implementeringen af klassificering stadig problemer, da tildelingen af en genre eller subgenre til en tekst er kompliceret af forskellige finesser. Opdelingen i klasser for talte data er mindre indlysende end for skriftlige data, på grund af den meget større variation af emner involveret i samtaler. Der er også problemer og uklarheder med definitionen af en undergenre af enhver genre, eftersom opdelingen i undergenrer i korpuset var forudbestemt til standardiseringsformål [20] .
Ved oprettelsen af korpuset blev nogle tekster forkert kategoriseret, ofte på grund af vildledende overskrifter. For eksempel er mange tekster med ordet "forelæsning" i titlen faktisk klasseværelsesdiskussioner eller uddannelsesseminarer, der involverer små grupper af mennesker, eller populære foredrag rettet mod et generelt publikum (i stedet for forelæsninger for universitetsstuderende ) [ 19] . En årsag til fejlklassificering er, at genre og subgenre kan specificeres for de fleste tekster, men ikke alle. Derudover kan teksten i hele sin længde henvise til forskellige undergenrer, kan falde ind under definitionen af forskellige genrer [20] .
Forholdet mellem skrevet og talt materiale i BNC er 10:1 [6] . Dette skyldes, at omkostningerne ved at indsamle, transskribere og digitalisere en million ord i den virkelige verden er mindst 10 gange større end omkostningerne ved at tilføje en million ord fra aviser. Der er dog en opfattelse af, at da mundtlig og skriftlig tale er lige vigtige, bør de præsenteres i lige store forhold i korpuset [6] .
BNC er ikke særlig nyttig til at studere nogle træk ved det talte sprog, da kun praktiske transskriptioner er inkluderet i det , og paralingvistiske træk ved kommunikation er angivet meget overfladisk [21] .
Relationer mellem nogle leksikalske enheder er for tvetydige til effektivt at blive opdaget ved hjælp af søgeforespørgsler. Ethvert forsøg på at søge efter attributive klausuler vil give brugeren fejlagtige data, hvilket giver eksempler på brugen af spørgende pronominer og ordet "det". Derudover er det generelt ikke muligt programmæssigt at identificere bisætninger, hvor pronominer er udeladt (som f.eks. i "manden jeg så"). Af samme grund er det vanskeligt at bestemme brugen af nogle semantiske og pragmatiske kategorier (tvivl, uenighed, anerkendelse) [21] .
Ifølge korpusmaterialets materialer er det muligt at afgøre, om en tale bliver holdt af en mand eller en kvinde, men det er umuligt ud fra dem at finde ud af, om personen, der holder talen, henvender sig til en mand eller en kvinde [21] .
BNC er et meget forskelligartet og blandet korpus, så det er ikke egnet til at studere nogen meget specifikke typer eller genrer af tekster, da en sådan type eller genre sandsynligvis vil være ekstremt begrænset, og tekster af denne type er ikke lette at finde i korpuset. For eksempel er der meget få forretningsbreve eller registrerede regeringsmøder i BNC, så for at studere deres detaljer er det ønskeligt at indsamle et mindre korpus, der kun består af tekster af denne type [21] .
Der er to hovedmåder at bruge korpuset i sprogundervisningen: oprettelse af metodiske materialer og læring gennem analyse [21] .
UndervisningsmaterialeUdgivere og forskere kan bruge prøverne fra korpuset til at skabe sprogindlæringsanbefalinger, læseplaner og andet undervisningsmateriale.
For eksempel blev BNC brugt af en gruppe japanske forskere som et værktøj i udviklingen af et webbaseret system til at lære engelsk inden for visse områder (erhverv, medicin) [22] . Systemet gav eleverne adgang til de mest brugte sætningsskabeloner for at lære af disse eksempler. Kilden til sådanne forslag i systemet var BNC (forslagene blev ledsaget af henvisninger til BNC for at bevise, at ansøgningen var realitet).
Læring gennem analyseKorpusanalyse kan indarbejdes direkte i sprogundervisningsmetoder. I dette tilfælde får eleverne mulighed for selvstændigt at klassificere korpusets sproglige data og danne sig derfor en idé om mønstrene og evnerne i det sprog, der studeres, baseret på denne klassifikation. Dataene fra korpuserne, der bruges i denne undervisningsmetode, er relativt små og kan derfor føre til en generalisering af ideer om det sprog, der studeres, hvilket kan have lidt at gøre med den virkelige tilstand [21] .
DiverseBNC kan bruges som referencekilde ved oprettelse og analyse af tekster, for eksempel når man studerer brugen af enkelte ord i forskellige sammenhænge. Dette giver dig mulighed for at blive bekendt med forskellige måder at bruge de samme ord på [21] .
Ud over sprogrelateret information kan BNC også tjene som en kilde til encyklopædiske data såsom britisk kultur og stereotyper , der er populære i Storbritannien [21] .
I Indien i 2012 blev mere end 12.000 ord og sætninger fra BNC brugt til at udvikle 22 oversættelsesordbøger fra lokale sprog til engelsk. Udviklingen blev gennemført som en del af bevægelsen for at reformere uddannelsessystemet og bevare sprogene hos små folk i Indien [23] .
BNC er på grund af sin størrelse fremragende til brug som materiale til softwaretest [24] . For eksempel blev det brugt til at teste Markup Language Specifications for Text Encoding Initiative (TEI). Derudover blev 20 millioner ord fra BNC brugt til at evaluere underkategoritildelingssystemet i Senseval [25] ordbetydningsanalyseprojekt .
En undersøgelse fra 2000 af Hofmann og Lehmann, der så på de mekanismer, der sætter mennesker i stand til frit at håndtere deres enorme sæt af kollokationer . Især to mekanismer er blevet undersøgt, hvoraf den ene gør det muligt for kollokationer altid at være klar til brug, og den anden giver folk mulighed for nemt at udvide kollokationer grammatisk eller syntaktisk for at tilpasse sig en specifik situation. Til disse formål er sjældne kombinationer af ord blevet ekstraheret fra BNC [26] .
En undersøgelse fra 2002 af Fernandez og Ginzburg, som undersøgte dialoger fyldt med ytringer, der kun sluttede intuitivt og ikke bar information uden for kontekst. Grundlæggende er det typiske korte svar på spørgsmål. I løbet af undersøgelsen blev fragmenter af BNC-data brugt til at kompilere en komplet og teoretisk forsvarlig klassificering af sådanne udsagn [27] .
Naturlig sprogbehandlingBNC er meget brugt i arbejde inden for morfologisk behandling (en gren af naturlig sprogbehandling ). Data fra BNC bruges især til at teste nøjagtigheden, pålideligheden og hastigheden af værktøjer til behandling af morfologiske markører på britisk engelsk [28] . Derudover er data fra BNC blevet brugt til at skabe et omfattende depot af information om morfologiske markører på engelsk [28] .
Det er almindeligt accepteret blandt computer- og korpuslingvister, at BNC er en enestående præstation, et korpus af enorm størrelse. Takket være den enorme indsats for at indsamle og viderebehandle en stor mængde data, er BNC blevet et af de mest værdifulde korpora. BNC anses for at være et modelkorpus, hvorfra efterfølgende korpus udvikles (f.eks. amerikanske , tjekkiske og polske nationale corpora) [29] [30] .
I juli 2014 blev BNC annonceret af Cambridge University Press og Center for Corpus Approach to the Social Sciences ved Lancaster University, at arbejdet var i gang med at skabe et nyt British National Corpus [31] . Den første fase af disse to institutioners fælles projekt var udarbejdelsen af et nyt dagligdags korpus af britisk engelsk fra begyndelsen til midten af 2010'erne [32] .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |