The American National Corpus ( ANC) er et korpus af amerikansk engelske tekster indeholdende 22 millioner ord fra skriftlige og mundtlige kilder udgivet siden 1990. ANC inkluderer en række tekster fra nye kilder, herunder såsom e- mail , tweets og tekst fra websider , som ikke er inkluderet i tidligere engelske korpus såsom British National Corpus . Den implementerer orddelsoverensstemmelse med lemmatisering , herunder egennavne og overfladisk parsing .
ANC er tilgængelig for medlemmer af Linguistic Data Consortium . En ressource (underkorpus) indeholdende 15 millioner ord af korpuset kaldes Open American National Corpus (OANC) og er offentligt tilgængelig fra ANC's hjemmeside [1] .
Teksterne til Corpus er dannet i overensstemmelse med kravene fra den tekniske komité ISO/TC 37 "Linguistic Annotation Framework". Takket være det offentligt tilgængelige ANC2Go-transduktionsværktøj præsenteres brugergenererede korpusfragmenter og annoteringer i flere formater, såsom CoNLL IOB, et XML-format, der er i overensstemmelse med XCES kodningsstandarden (som kan bruges i British National Corpus XAIRA) søgemaskine ), UIMA -kompatibelt format og formater, der egner sig til en lang række konkordansprogrammer. Plugins er også tilgængelige til at importere annoteringer til GATEs naturlige sprogbehandlingssystem .
ANC adskiller sig fra andre engelske korpora i sin omfattende annotering, herunder forskellige ordstemme-tags (Penn-tags, CLAWS5 og CLAWS7-tags), lavvandede parsing-annoteringer og annoteringer til flere typer navngivne objekter. Yderligere anmærkninger føjes til hele korpuset eller dele af det, efterhånden som det bliver tilgængeligt, ofte som følge af andre projekter. I modsætning til online tekstkorpus, som på grund af ophavsretlige begrænsninger kun giver adgang til individuelle sætninger, er hele ANC-korpuset tilgængeligt for forskning, herunder udvikling af statistiske sprogmodeller og fuldtekst sproglige annoteringer.
ANC-annoteringer genereres automatisk og valideres ikke. Den 500.000-ord store sektion af OANC, kendt som det håndannoterede ANC subcorpus (MASC), er kommenteret for omkring 20 forskellige slags sproglige annoteringer, der manuelt gennemgås eller oprettes. Disse omfatter Penn Treebanks syntaktiske annotering, WordNet og FrameNet semantiske netværk og andre. Ligesom OANC er MASC frit tilgængeligt til enhver brug og kan downloades fra ANCs hjemmeside eller Linguistic Data Consortium. Det distribueres også med Natural Language Toolkit , en pakke af biblioteker og programmer til symbolsk og statistisk behandling af naturligt sprog .
ANC og dets underkorporaer adskiller sig fra lignende tekstkorpus hovedsageligt i karakteristika ved sproglige annoteringer og medtagelsen af tekster i nutidige genrer, der ikke findes i ressourcer som for eksempel British National Corpus . Derudover, da det oprindelige formål med ANC er at udvikle statistiske sprogmodeller, er fuldstændige data og alle annotationer tilgængelige for ANC-brugere, i modsætning til Corpus of Modern American English (COCA), hvis tekster kun er selektivt tilgængelige via en webbrowser.
Væksten i OANC- og MASC-tekstbaserne fortsætter med tilføjelsen af data og annotationer produceret af datalingvistik- og korpuslingvistiksamfundene .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |