The Corpus of Contemporary American English ( COCA ) er et elektronisk korpus af tekster skabt af professor i korpuslingvistik Mark Davis fra Brigham Young University i 2000-2003, baseret på Time magazine -tekster skrevet siden 1923 [1] .
Det er det største (450 millioner ord) korpus af tekster på amerikansk engelsk og det eneste frit tilgængelige korpus på dette sprog, som omfatter en bred vifte af tekster af forskellige genrer . Det er sammensat af over 160.000 tekster, herunder 20 millioner ord hvert år fra 1990 til 2011. Det er det mest udbredte strukturerede korpus af tekster med cirka 10.000 månedlige brugere.
Korpuset er sammensat af over 275.000 artikler fra TIME-magasinets arkiv Arkiveret 20. oktober 2013 på Wayback Machine og indeholder over 100 millioner ord fra tekster skrevet mellem 1923 og 2006. TIME Magazine Corpus er integreret i et fælles system af andre korpus skabt af Mark Davis (som også omfatter Corpus of Historical American English (COHA), Corpus del Español eller Corpus of American Soap Operas databaser) [2] .
Korpusets arkitektur er bygget på princippet om andre projekter af Mark Davis, såsom Corpus of Contemporary American English (COCA) . Der er en central n-gram database , der indeholder information om hvert af de hundrede millioner ord i korpuset. De er knyttet til tabeller, der tillader analyse af kasus, samt separate tabeller for synonymer, lemmaer og former, der optræder med et ord over tid.
Teksterne blev markeret ved hjælp af CLAWS-taggeren (Constituent Likelihood Automatic Word-tagging System) [3] . Det samme program blev brugt i oprettelsen af andre Mark Davis Corps såvel som British National Corps .
Hardwaren til korpuset er valgt til at give ekstremt hurtige søgninger - normalt tager det mindre end et sekund for selv de mest komplekse forespørgsler, der indeholder ordform, orddel, frekvens og kasus.
TIME Magazine Corpus giver dig mulighed for at søge efter både individuelle ord og sætninger, såvel som specifikke grammatiske former eller synonyme serier, samt se konteksten for deres brug og ændring i brugshyppighed.
Korpuset giver dig mulighed for at udforske:
Adgang til bygningen er gratis.
Registrering er påkrævet med levering af en e-mailadresse eller oplysninger om brugerens organisation og status, afhængigt af det påkrævede adgangsniveau. Der er fem adgangsniveauer i tre kategorier: ikke forsker, semi-forsker, forsker. De er alle forskellige i mængden af oplysninger, der gives pr. dag (hvis en nybegynderbruger kan fremsætte 100 anmodninger om dagen, kan en professor eller kandidatstuderende, der er registreret som forsker, søge 600 gange i samme tidsrum).
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |