Scottish Corpus of Text and Speech ( Scottish Corpus of Text and Speech ) er det nationale korpus for det skotske (germanske) sprog , oprettet i 2004 af en gruppe eksperter: medlemmer af English Language Project og Stella Project of School of Critical Studerer på University of Glasgow .
I de senere år er der sket betydelige ændringer i den politiske situation i Skotland. Den nye politiske bevægelse genoplivede interessen for lokale sprog og kultur. I Skotland er den sproglige arv lys, isoleret fra andre. Den moderne sprogsituation her er meget rig, fordi skotsk, engelsk, gælisk og mange andre sprogsamfund sameksisterer her. Spørgsmål såsom bevarelsen af det skotske sprog, de særlige kendetegn ved skotsk engelsk eller brugen af ikke-oprindelige sprog som kinesisk eller urdu har imidlertid ikke nok data og entydige svar. Og denne mangel på information skaber betydelige problemer for dem, der arbejder inden for uddannelse eller blot er interesseret i dette spørgsmål.
Moderne teknologier har gjort det muligt at lagre og analysere meget store mængder information. Og "THE SCOTS" er det første storstilede projekt, der udelukkende er dedikeret til Skotlands sprog. Det giver et stort elektronisk korpus af skrevne og talte tekster til sprogene i dette land. Korpuset har eksisteret siden november 2004, og efter regelmæssige opdateringer og tilføjelser nåede antallet af ord på siden i maj 2007 op på 4 millioner. Det er håbet, at for dem, der er interesseret i Skotlands sproglige mangfoldighed, vil THE SCOTS give svar på alle deres spørgsmål. Korpuset har mulighed for at udforske Skotlands sprog på nye måder og bygge bro over de huller, der i øjeblikket eksisterer i vores viden om dem.
Hvad angår selve sagen, giver den indtryk af en moderne, yderst bekvem, brugervenlig sag, der konstant udvikler sig og i stand til at besvare mange spørgsmål. Så for eksempel kan alle, der har nogen form for kommentarer, sende deres ønsker til skaberne på e-mail, hvor de til gengæld kan overveje dem og foretage passende justeringer.
The Scottish Corpus indeholder i øjeblikket over 1.100 skrevne og talte tekster, i alt over 4.000.000 ord. 80% er skriftlige tekster, 20% er mundtlige tekster, som leveres til os i form af ortografisk transskription, synkroniseret med lyd- eller videokilden.
En af korpusets funktioner er at vise hele tekster, hvor det er muligt, hvilket gør korpuset mærkbart mere folkerigt. I nogle tilfælde vil kun en del af teksten blive vist på grund af copyright-tilladelse. I "THE SCOTS" er de fremlagte oplysninger hentet fra kilder fra 1945 til i dag. SCOTS stræber efter at opnå retfærdighed for en bred vifte af tekster, tekster på forskellige sprog, genrer og registre; præsentere talere eller forfattere i størst muligt omfang efter genre, alder, køn, faglige og geografiske karakteristika.
Der er tre forskellige søgemetoder. De brugere, der er interesseret i statistisk information, såsom den relative hyppighed af visse ord i forskellige genrer, kan bruge skotske data i denne retning. Afhængigt af mængden af efterspurgt information kan du vælge en hurtig, standard eller avanceret søgetype.
Hurtig søgning er den nemmeste måde at finde hyppigheden af brugen af det ord, du er interesseret i, i forskellige lydfiler og tekstdokumenter. Som et resultat får du ordets hyppighed og formatet på de filer, det bruges i.
Standardsøgningen giver dig mulighed for at udføre nogle simple typer søgninger og giver dig også mulighed for at se alle dokumenter i korpuset.
Avanceret søgning giver et bredere udvalg af muligheder end standard. Her er de vigtigste statistiske oplysninger, konkordanceren og de kort, som resultaterne vises på. Den avancerede søgning er opdelt efter søgekriterier, som kan indstilles til at begrænse søgningen efter ord i tekster af en bestemt tilstand (mundtlig eller skriftlig tale), genre (korrespondance, fiktion, interviews) eller med et bestemt sæt kriterier (samtaler) efter 2000, faglige videnskabelige artikler mv.) Yderligere). Således kan resultaterne af forskellige søgeforespørgsler stemme overens med hinanden.
Når du søger ved hjælp af hurtig- eller standardsøgning, vil du blive ført til en resultatside med to hoveddele: en oversigt over søgeresultaterne og en liste over dokumenter.
Ud over University of Glasgow deltog specialister fra følgende organisationer i projektet:
I øjeblikket er kun korpussøgning gratis.
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |