Corpus of Modern American English

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 6. september 2021; checks kræver 3 redigeringer .

The Corpus of Contemporary American English  ( COCA ) er et elektronisk korpus af tekster skabt af professor i korpuslingvistik Mark Davis fra Brigham Young University i 2000-2003, baseret på Time magazine -tekster skrevet siden 1923 [1] .

Det er det største (450 millioner ord) korpus af tekster på amerikansk engelsk og det eneste frit tilgængelige korpus på dette sprog, som omfatter en bred vifte af tekster af forskellige genrer . Det er sammensat af over 160.000 tekster, herunder 20 millioner ord hvert år fra 1990 til 2011. Det er det mest udbredte strukturerede korpus af tekster med cirka 10.000 månedlige brugere.

Sammensætning

Andet Davis Corps

TIME Magazine korpus

Korpuset er sammensat af over 275.000 artikler fra TIME-magasinets arkiv Arkiveret 20. oktober 2013 på Wayback Machine og indeholder over 100 millioner ord fra tekster skrevet mellem 1923 og 2006. TIME Magazine Corpus er integreret i et fælles system af andre korpus skabt af Mark Davis (som også omfatter Corpus of Historical American English (COHA), Corpus del Español eller Corpus of American Soap Operas databaser) [2] .

Sådan virker det

Korpusets arkitektur er bygget på princippet om andre projekter af Mark Davis, såsom Corpus of Contemporary American English (COCA) . Der er en central n-gram database , der indeholder information om hvert af de hundrede millioner ord i korpuset. De er knyttet til tabeller, der tillader analyse af kasus, samt separate tabeller for synonymer, lemmaer og former, der optræder med et ord over tid.

Teksterne blev markeret ved hjælp af CLAWS-taggeren (Constituent Likelihood Automatic Word-tagging System) [3] . Det samme program blev brugt i oprettelsen af ​​andre Mark Davis Corps såvel som British National Corps .

Hardwaren til korpuset er valgt til at give ekstremt hurtige søgninger - normalt tager det mindre end et sekund for selv de mest komplekse forespørgsler, der indeholder ordform, orddel, frekvens og kasus.

Bruger

TIME Magazine Corpus giver dig mulighed for at søge efter både individuelle ord og sætninger, såvel som specifikke grammatiske former eller synonyme serier, samt se konteksten for deres brug og ændring i brugshyppighed.

Korpuset giver dig mulighed for at udforske:

Adgang

Adgang til bygningen er gratis.

Registrering er påkrævet med levering af en e-mailadresse eller oplysninger om brugerens organisation og status, afhængigt af det påkrævede adgangsniveau. Der er fem adgangsniveauer i tre kategorier: ikke forsker, semi-forsker, forsker. De er alle forskellige i mængden af ​​oplysninger, der gives pr. dag (hvis en nybegynderbruger kan fremsætte 100 anmodninger om dagen, kan en professor eller kandidatstuderende, der er registreret som forsker, søge 600 gange i samme tidsrum).

Se også

Noter

  1. Kauhanen, Henri The Corpus of Contemporary American English: Baggrund og historie . VARIENG (21. marts 2011). Hentet 13. oktober 2011. Arkiveret fra originalen 12. januar 2012.
  2. Liste over korpus oprettet af Mark Davis Arkiveret 7. november 2013 på Wayback Machine . Ifølge Google Analytics pr. marts 2012. Arkiveret 6. november 2013 på Wayback Machine bruger mere end 100.000 unikke brugere denne database hver måned.
  3. CLAWS ordstemmetagger for engelsk . Hentet 27. oktober 2013. Arkiveret fra originalen 2. april 2019.

Links