Britiske nationale korps

britiske nationale korps
URL www.natcorp.ox.ac.uk
Site type Videnskabelig litteratur
Sprog) britisk engelsk
Serverplacering
Forfatter Oxford University Press , Longman , W. & R. Chambers
Begyndelse af arbejdet 1994

British National Corpus ( BNC ) er et korpus   100 millioner ord af skrevet og talt britisk engelsk fra en lang række kilder [1] [2] [3] . Korpuset dækker britisk engelsk fra slutningen af ​​det 20. århundrede, repræsenteret af en bred vifte af genrer , og er beregnet til at være repræsentativ for tidens typiske talte og skrevne britiske engelsk.

Historie

Tre forlag ( Oxford University Press som hovedbidragyder, og Longman og W. & R. Chambers ), to universiteter ( Oxford og Lancaster ) og British Library [2] samarbejdede om projektet for at skabe BNC .

Oprettelsen af ​​BNC begyndte i 1991 under ledelse af BNC-konsortiet og blev afsluttet i 1994. Efter 1994 blev der ikke tilføjet nye eksempler, men BNC undergik mindre ændringer før udgivelsen af ​​den anden (BNC World, 2001) og tredje (BNC) XML Edition, 2007) udgaver [4] .

Baggrund

Efter beregningslingvisters opfattelse skulle BNC være et korpus af moderne, på tidspunktet for kompilering, der forekommer i det virkelige sprog , hvad enten det er talt eller skrevet . Som et resultat er BNC blevet kompileret til en computervenlig form for at tillade automatisk søgning og behandling ved hjælp af korpuslingvistiske metoder . En af forskellene mellem BNC og datidens eksisterende korpus var åbenheden af ​​data til brug ikke kun i videnskabelig forskning, men også til kommercielle og uddannelsesmæssige formål [3] .

Skaberne begrænsede korpuset til kun britisk engelsk og havde ikke til hensigt at inkludere eksempler på brugen af ​​verdensengelsk . Dette blev delvist gjort, fordi en betydelig del af omkostningerne ved projektet blev betalt af den britiske regering, som naturligvis var interesseret i at understøtte dokumentationen af ​​sit lands sproglige mangfoldighed [3] .

Opbygning af et korpus af den hidtil usete størrelse af BNC krævede finansiering fra både kommercielle og akademiske institutioner. Til gengæld blev BNC -dataene efterfølgende tilgængelige til kommerciel brug og videnskabelig forskning [3] .

Beskrivelse

BNC er et ensproget korpus, da det kun indeholder eksempler på britisk engelsk, selvom der nogle gange forekommer ord og sætninger fra andre sprog i teksterne. Dette er et synkront korpus, da det kun indeholder eksempler på brugen af ​​sproget i én tidsperiode - slutningen af ​​det 20. århundrede. Af denne grund kan BNC ikke tjene som en kilde til data om historien om udviklingen af ​​britisk engelsk [4] . Fra begyndelsen havde de involverede i indsamlingen af ​​skriftlige data til formål at gøre BNC til et afbalanceret korpus og søgte derfor efter og inkluderede data fra forskellige kilder [3] .

Komponenter og indhold

Skrivekorpus

90 % af korpuset består af eksempler på brug af skriftsproget . Disse eksempler er hentet fra regionale og nationale aviser, videnskabelige tidsskrifter og tidsskrifter inden for forskellige videnskabelige områder, skønlitteratur og journalistik , både fra offentliggjorte og upublicerede materialer (såsom brochurer, breve, studenteressays, manuskripter, taler) samt fra mange andre kilder [5] .

Samtalekorpus

De resterende 10 % af BNC-materialet er talesprogsbrugsmønstre, der blev præsenteret og registreret ved hjælp af praktisk transskription .

Samtalekorpuset består af to dele. Den demografiske del indeholder en transskription af spontane samtaler, der fandt sted under virkelige forhold med deltagelse af frivillige fra forskellige aldersgrupper, regioner og sociale lag. Disse samtaler fandt sted i en række forskellige situationer, herunder forretnings- eller regeringsmøder og diskussioner på radioudsendelser eller over telefon [5] . Dette blev gjort for at tage højde for både den demografiske fordeling af det talte sprog og sprogets sprogligt betydningsfulde mangfoldighed på grund af konteksten [6] .

Den anden del af det daglige korpus omfatter kontekstfølsomme prøver, såsom transskriptioner af optagelser, der er udarbejdet under særlige møder eller begivenheder.

Alle originale optagelser transskriberet til optagelse i BNC er blevet placeret i British Library Sound Archive . De fleste af indlæggene er tilgængelige på webstedet for Oxford University Phonetic Laboratory .

Markup

BNC-pakken indeholder delvise markeringer . For at gøre dette, når man oprettede skroget, blev CLAWS-mærkesystemet brugt. Dette system gennemgik en række modifikationer inden den sidste blev modtaget - CLAWS4, som blev brugt i sagen. CLAWS1-systemet var baseret på en skjult Markov-model og var i stand til korrekt at markere 96 % til 97 % af enhver tekst. Når du flytter fra CLAWS1 til CLAWS2, er behovet for manuel tekstforberedelse inden start af opmærkningsprocessen forsvundet. CLAWS4 indeholder forbedringer såsom mere kraftfuld leksikalsk disambiguation og stavevariation. Det videre arbejde med opmærkningssystemet har fokuseret på at øge succesraten for automatisk opmærkning og reducere det manuelle arbejde med at udarbejde tekster før opmærkning påbegyndes ved at introducere yderligere software til at erstatte manuelt arbejde [2] [7] .

Senere blev markup tilføjet for at indikere tvetydigheden af ​​visse ord og udtryk. På samme tid, på trods af CLAWS4's evne til automatisk at bestemme taletyper og ordbetydninger, forblev behovet for manuel markering, da andre sprog end engelsk ikke understøttes i CLAWS4 [8] [9] .

Underkorpuser

To underkorporaer (BNC-dataundersæt) blev frigivet under navnene BNC Baby og BNC Sampler. Begge disse underkorpuser kan fås ved at bestille dem fra BNC's websted [10] .

BNC Baby er et underkorpus af BNC, der består af fire prøvesæt på hver en million ord. Ordene i hvert sæt svarer til en bestemt genrekategori . Et sæt prøver indeholder transskriptioner af samtaler, mens de resterende tre sæt indeholder prøver af skrevne tekster fra faglitteratur , skønlitteratur og aviser . Samtidig bevares den markup, der er tilgængelig i BNC [11] i underkorpuset . Den seneste (tredje) udgave blev udgivet i XML-format [12] .

BNC Sampler er et underlegeme, der består af to dele. Den første del indeholder skriftlige data, den anden del indeholder dagligtale. Hver del indeholder en million ord. BNC-sampleren blev oprindeligt brugt til at forbedre BNC-markeringsprocessen, som til sidst førte til offentliggørelsen af ​​BNC World. I løbet af projektet er BNC Sampler blevet forbedret i takt med, at erfaring og viden om markup er vokset. Som et resultat blev BNC Sampler, som vi kender i dag [13] oprettet .

Teknisk information

Korpuset er markeret i overensstemmelse med anbefalingerne fra Text Encoding Initiative (TEI) konsortiet og inkluderer komplette sproglige annotationer og kontekstuel information [14] .

Få adgang til funktioner

For at bruge CLAWS4 Partial Marking Tool skal du købe en licens [15] . Alternativt kan du bruge opmærkningstjenesten leveret af Lancaster University [16] .

BNC selv kan købes med både en personlig og kollektiv licens. BNC-udgaven er tilgængelig i XML-format og leveres med Xaira søgemaskinesoftware . Pakken kan bestilles via BNC's hjemmeside [17] .

Til XML-udgaven af ​​BNC blev der udviklet en corpus manager BNCweb, som er tilgængelig online. Dens grænseflade er nem at bruge og understøtter forespørgsel og analyse af korpusmaterialer [18] .

Problemer med materialetilladelser

BNC var det første korpus af sin størrelse tilgængelig for et bredt publikum. Måske skyldtes det standardformer for aftaler mellem rettighedshavere og konsortiet på den ene side og mellem brugere af korpuset og konsortiet på den anden side. Skaberne af korpuset forsøgte at indgå en standardlicensaftale med ejerne af intellektuelle ejendomsrettigheder , hvoraf en af ​​bestemmelserne var medtagelsen af ​​materiale i korpuset uden betaling af monetære gebyrer. En sådan aftale blev lettet af sagens originalitet og unikke karakter [6] .

Det har dog vist sig svært at bevare bidragydernes anonymitet uden at nedtone betydningen af ​​deres arbejde. Enhver uigennemsigtig hentydning til forfatterens identitet blev fjernet fra korpusmaterialet. Samtidig blev muligheden for at erstatte rigtige navne med andre navne overvejet for at bevare anonymiteten, hvilket dog blev anset for uhensigtsmæssigt [6] .

Derudover blev forfatterne i første omgang bedt om tilladelse til kun at medtage transskriberede versioner af deres tale, men ikke at inkludere selve talen. Selvom en sådan tilladelse kunne anmodes om igen, kan søgningen efter de originale forfattere blive kompliceret af den igangværende anonymiseringsproces. Samtidig blev faktorer tydelige, der forværrede ophavsretsindehavernes modvilje mod at donere deres materialer til korpuset: fulde tekster blev udelukket fra korpuset, hvilket førte til manglende motivation for indehavere af ophavsret til at distribuere information gennem korpuset (især pga. til dets ikke-kommercielle grundlag) [6] .

Ulemper og begrænsninger

For generel klassificering af tekster

Fra 2001 manglede BNC stadig en klassificering af skrevne tekster på anden måde end efter sfære (aviser, skønlitteratur osv.), og en klassificering af talte tekster på anden måde end efter kontekst og demografisk eller socioøkonomisk klasse af deltagerne i samtalen. For eksempel var et stort udvalg af fiktive teksteksempler ( romaner , noveller , digte osv.) inkluderet i korpuset , men oplysninger om deres undergenrer manglede i prøveoverskrifterne og BNC-dokumentationen. For forskere var viden om genrediversitet således praktisk talt ubrugelig, da det ikke var let for dem at få værker af den ønskede undergenre [19] .

I 2002, med udgivelsen af ​​en ny version af korpuset - BNC World Edition, blev der gjort et forsøg på at løse klassifikationsproblemet. Ud over sfærer for talte og skrevne tekster blev der identificeret 70 klasser, som gjorde det muligt for forskere at udtrække tekster af en bestemt genre fra korpuset [20] .

Men selv efter disse innovationer har implementeringen af ​​klassificering stadig problemer, da tildelingen af ​​en genre eller subgenre til en tekst er kompliceret af forskellige finesser. Opdelingen i klasser for talte data er mindre indlysende end for skriftlige data, på grund af den meget større variation af emner involveret i samtaler. Der er også problemer og uklarheder med definitionen af ​​en undergenre af enhver genre, eftersom opdelingen i undergenrer i korpuset var forudbestemt til standardiseringsformål [20] .

Klassifikationsfejl og vildledende titler

Ved oprettelsen af ​​korpuset blev nogle tekster forkert kategoriseret, ofte på grund af vildledende overskrifter. For eksempel er mange tekster med ordet "forelæsning" i titlen faktisk klasseværelsesdiskussioner eller uddannelsesseminarer, der involverer små grupper af mennesker, eller populære foredrag rettet mod et generelt publikum (i stedet for forelæsninger for universitetsstuderende ) [ 19] . En årsag til fejlklassificering er, at genre og subgenre kan specificeres for de fleste tekster, men ikke alle. Derudover kan teksten i hele sin længde henvise til forskellige undergenrer, kan falde ind under definitionen af ​​forskellige genrer [20] .

Mangel på talt materiale

Forholdet mellem skrevet og talt materiale i BNC er 10:1 [6] . Dette skyldes, at omkostningerne ved at indsamle, transskribere og digitalisere en million ord i den virkelige verden er mindst 10 gange større end omkostningerne ved at tilføje en million ord fra aviser. Der er dog en opfattelse af, at da mundtlig og skriftlig tale er lige vigtige, bør de præsenteres i lige store forhold i korpuset [6] .

BNC er ikke særlig nyttig til at studere nogle træk ved det talte sprog, da kun praktiske transskriptioner er inkluderet i det , og paralingvistiske træk ved kommunikation er angivet meget overfladisk [21] .

Begrænsede muligheder for at studere leksikalske relationer

Relationer mellem nogle leksikalske enheder er for tvetydige til effektivt at blive opdaget ved hjælp af søgeforespørgsler. Ethvert forsøg på at søge efter attributive klausuler vil give brugeren fejlagtige data, hvilket giver eksempler på brugen af ​​spørgende pronominer og ordet "det". Derudover er det generelt ikke muligt programmæssigt at identificere bisætninger, hvor pronominer er udeladt (som f.eks. i "manden jeg så"). Af samme grund er det vanskeligt at bestemme brugen af ​​nogle semantiske og pragmatiske kategorier (tvivl, uenighed, anerkendelse) [21] .

Begrænset beskrivelse af situationer

Ifølge korpusmaterialets materialer er det muligt at afgøre, om en tale bliver holdt af en mand eller en kvinde, men det er umuligt ud fra dem at finde ud af, om personen, der holder talen, henvender sig til en mand eller en kvinde [21] .

Ikke anvendelig til undersøgelse af særlige typer tekster

BNC er et meget forskelligartet og blandet korpus, så det er ikke egnet til at studere nogen meget specifikke typer eller genrer af tekster, da en sådan type eller genre sandsynligvis vil være ekstremt begrænset, og tekster af denne type er ikke lette at finde i korpuset. For eksempel er der meget få forretningsbreve eller registrerede regeringsmøder i BNC, så for at studere deres detaljer er det ønskeligt at indsamle et mindre korpus, der kun består af tekster af denne type [21] .

Brug af BNC

Undervisning i engelsk

Der er to hovedmåder at bruge korpuset i sprogundervisningen: oprettelse af metodiske materialer og læring gennem analyse [21] .

Undervisningsmateriale

Udgivere og forskere kan bruge prøverne fra korpuset til at skabe sprogindlæringsanbefalinger, læseplaner og andet undervisningsmateriale.

For eksempel blev BNC brugt af en gruppe japanske forskere som et værktøj i udviklingen af ​​et webbaseret system til at lære engelsk inden for visse områder (erhverv, medicin) [22] . Systemet gav eleverne adgang til de mest brugte sætningsskabeloner for at lære af disse eksempler. Kilden til sådanne forslag i systemet var BNC (forslagene blev ledsaget af henvisninger til BNC for at bevise, at ansøgningen var realitet).

Læring gennem analyse

Korpusanalyse kan indarbejdes direkte i sprogundervisningsmetoder. I dette tilfælde får eleverne mulighed for selvstændigt at klassificere korpusets sproglige data og danne sig derfor en idé om mønstrene og evnerne i det sprog, der studeres, baseret på denne klassifikation. Dataene fra korpuserne, der bruges i denne undervisningsmetode, er relativt små og kan derfor føre til en generalisering af ideer om det sprog, der studeres, hvilket kan have lidt at gøre med den virkelige tilstand [21] .

Diverse

BNC kan bruges som referencekilde ved oprettelse og analyse af tekster, for eksempel når man studerer brugen af ​​enkelte ord i forskellige sammenhænge. Dette giver dig mulighed for at blive bekendt med forskellige måder at bruge de samme ord på [21] .

Ud over sprogrelateret information kan BNC også tjene som en kilde til encyklopædiske data såsom britisk kultur og stereotyper , der er populære i Storbritannien [21] .

Oversættelsesordbøger

I Indien i 2012 blev mere end 12.000 ord og sætninger fra BNC brugt til at udvikle 22 oversættelsesordbøger fra lokale sprog til engelsk. Udviklingen blev gennemført som en del af bevægelsen for at reformere uddannelsessystemet og bevare sprogene hos små folk i Indien [23] .

Test og evaluering

BNC er på grund af sin størrelse fremragende til brug som materiale til softwaretest [24] . For eksempel blev det brugt til at teste Markup Language Specifications for Text Encoding Initiative (TEI). Derudover blev 20 millioner ord fra BNC brugt til at evaluere underkategoritildelingssystemet i Senseval [25] ordbetydningsanalyseprojekt .

Videnskabelig forskning

  • Samlokaliseringsbeviser fra British National Corpus [26]

En undersøgelse fra 2000 af Hofmann og Lehmann, der så på de mekanismer, der sætter mennesker i stand til frit at håndtere deres enorme sæt af kollokationer . Især to mekanismer er blevet undersøgt, hvoraf den ene gør det muligt for kollokationer altid at være klar til brug, og den anden giver folk mulighed for nemt at udvide kollokationer grammatisk eller syntaktisk for at tilpasse sig en specifik situation. Til disse formål er sjældne kombinationer af ord blevet ekstraheret fra BNC [26] .

  • Ikke-sætningsmæssige ytringer: A Corpus Study [27]

En undersøgelse fra 2002 af Fernandez og Ginzburg, som undersøgte dialoger fyldt med ytringer, der kun sluttede intuitivt og ikke bar information uden for kontekst. Grundlæggende er det typiske korte svar på spørgsmål. I løbet af undersøgelsen blev fragmenter af BNC-data brugt til at kompilere en komplet og teoretisk forsvarlig klassificering af sådanne udsagn [27] .

Naturlig sprogbehandling

BNC er meget brugt i arbejde inden for morfologisk behandling (en gren af ​​naturlig sprogbehandling ). Data fra BNC bruges især til at teste nøjagtigheden, pålideligheden og hastigheden af ​​værktøjer til behandling af morfologiske markører på britisk engelsk [28] . Derudover er data fra BNC blevet brugt til at skabe et omfattende depot af information om morfologiske markører på engelsk [28] .

Anerkendelse

Det er almindeligt accepteret blandt computer- og korpuslingvister, at BNC er en enestående præstation, et korpus af enorm størrelse. Takket være den enorme indsats for at indsamle og viderebehandle en stor mængde data, er BNC blevet et af de mest værdifulde korpora. BNC anses for at være et modelkorpus, hvorfra efterfølgende korpus udvikles (f.eks. amerikanske , tjekkiske og polske nationale corpora) [29] [30] .

BNC2014

I juli 2014 blev BNC annonceret af Cambridge University Press og Center for Corpus Approach to the Social Sciences ved Lancaster University, at arbejdet var i gang med at skabe et nyt British National Corpus [31] . Den første fase af disse to institutioners fælles projekt var udarbejdelsen af ​​et nyt dagligdags korpus af britisk engelsk fra begyndelsen til midten af ​​2010'erne [32] .

Se også

Noter

  1. Lou Burnard et al., 1998 , XIII.
  2. 1 2 3 Geoffrey Leech et al., 1994 , s. 47-63.
  3. 1 2 3 4 5 Geoffrey Leech, 1993 , s. 9-15.
  4. 1 2 Hvad er BNC? Arkiveret 7. april 2022 på Wayback Machine . Hentet 12. marts 2012.
  5. 1 2 British National Corpus Arkiveret 4. marts 2016 på Wayback Machine . Hentet 12. marts 2012.
  6. 1 2 3 4 5 6 Lou Burnard, 2002 .
  7. Geoffrey Leech 1994, 1994 , s. 622-628.
  8. Leech, Geoffrey; Smith, Nicholas The British National Corpus (version 2) med forbedret tagging i ordklasse . UCREL, Lancaster University, Storbritannien (2000). Hentet 17. marts 2012. Arkiveret fra originalen 5. april 2016.
  9. Leech, Geoffrey; Smith, Nicholas Automatisk POS-tagging af Corpus . UCREL, Lancaster University, Storbritannien (2000). Hentet 17. marts 2012. Arkiveret fra originalen 5. april 2016.
  10. BNC-produkter . Hentet 18. marts 2012. Arkiveret fra originalen 24. marts 2016.
  11. Burnard, Lou Referencevejledning til BNC-baby (2003). Dato for adgang: 18. marts 2012. Arkiveret fra originalen 4. marts 2016.
  12. Ny udgave af BNC Baby tilgængelig . Hentet 19. marts 2012. Arkiveret fra originalen 4. juni 2016.
  13. BNC Sampler: XML-udgave (2008). Dato for adgang: 18. marts 2012. Arkiveret fra originalen 4. marts 2016.
  14. Burnard, Lou Brugervejledning til British National Corpus (1995). Dato for adgang: 18. marts 2012. Arkiveret fra originalen 2. april 2016.
  15. Indhentning af en licens til CLAWS-taggeren . UCREL, Lancaster University, Storbritannien. Hentet 17. marts 2012. Arkiveret fra originalen 5. marts 2016.
  16. CLAWS-mærketjenesten . UCREL, Lancaster University, Storbritannien. Hentet 17. marts 2012. Arkiveret fra originalen 7. april 2016.
  17. Sådan bestiller du . Hentet 17. marts 2012. Arkiveret fra originalen 23. oktober 2015.
  18. Peter Lang, 2008 .
  19. 12 David Lee , 2001 .
  20. 1 2 3 Lee, David BEMÆRKNINGER, DER SKAL MEDFØRE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX (link utilgængeligt) (2002). Hentet 17. marts 2012. Arkiveret fra originalen 26. september 2012. 
  21. 1 2 3 4 5 6 7 8 Guy Aston, 1998 .
  22. Danny Minn et al., 2005 .
  23. Tosprogede ordbøger til fremme af Indiens modersmål  (14. marts 2012). Arkiveret fra originalen den 31. december 2010. Hentet 17. marts 2012.
  24. Hvad kan jeg gøre med BNC? . Hentet 18. marts 2012. Arkiveret fra originalen 13. marts 2016.
  25. Korhonen, Anna EVALUERINGSRESOURCER for engelske subcategorization Acquisition Systems (utilgængeligt link) (2002). Hentet 18. marts 2012. Arkiveret fra originalen 13. december 2012. 
  26. 1 2 Sebastian Hoffmann & Hans-Martin Lehmann, 2000 .
  27. 1 2 Raquel Fernandez & Jonathan Ginzburg, 2002 .
  28. 12 Guido Minnen et al., 2001 .
  29. František Čermák, 2003 .
  30. Richard Xiao, 2008 .
  31. Tony McEnery på Twitter Arkiveret 5. marts 2016 på Wayback Machine . Hentet 17. marts 2015.
  32. "Centre for Corpus Approaches to Social Science" Arkiveret 15. september 2016 på Wayback Machine . Hentet 17. marts 2015.

Litteratur

  • Lou Burnard, Guy Aston. BNC-håndbogen: udforskning af British National Corpus. - Edinburgh: Edinburgh University Press, 1998. - P. xiii. - ISBN 0-7486-1055-3 .
  • Peter Lang. Korpuslingvistik med BNCweb: en praktisk guide. - Peter Lang Publishing Group, 2008. - ISBN 978-3-631-56315-1 .

Links