Frekvensordbog

En frekvensordbog (eller frekvensliste) er et sæt ord på et givet sprog (eller undersprog) sammen med information om deres frekvens . Ordbogen kan sorteres efter frekvens, alfabetisk (derefter vil dets frekvens for hvert ord blive angivet), efter grupper af ord (f.eks. de første tusinde af de mest hyppige ord, efterfulgt af det andet osv.), efter typiske ( ord, der er hyppige for de fleste tekster) osv. Frekvenslister bruges til sprogundervisning, skabelse af nye ordforråd, computerlingvistiske applikationer, sproglig typologiforskning mv.

Opbygning af frekvenslister

Sædvanligvis bygges frekvensordbøger på basis af tekstkorpus : der tages et sæt tekster, der er repræsentative for sproget som helhed, for et eller andet fagområde eller en given forfatter (se Griboyedovs Frekvensordbog ) og ordformer, lemmaer og dele tale uddrages fra det (sidstnævnte uddrages, hvis korpuset har morfologiske markeringer).

Problemerne med at oprette frekvenslister er:

Alle disse problemer skyldes, at sproget set fra et statistisk synspunkt er et stort antal sjældne hændelser ( Zipfs lov ), som et resultat af, at et lille antal ord forekommer meget ofte, og det store flertal af ord har en meget lav frekvens. Hyppigheden af ​​ordet og (det hyppigste ord i det russiske sprog) er omkring 10 gange højere end hyppigheden af ​​ordet om , som igen forekommer 100 gange oftere end sådanne almindelige ord som rejser, alderdom eller mode .

Hobbit- metaforen kan bruges til at beskrive udbrud af frekvens (Adam Kilgarriff brugte oprindeligt det relativt sjældne engelske ord whelk, en type havbløddyr , engelsk whelk  ) : hvis der er flere tekster i korpuset om hobbitter, så vil dette ord blive brugt i næsten hver eneste sætning. Som et resultat vil dets frekvens i disse tekster være sammenlignelig med frekvensen af ​​funktionelle ord, men i frekvenslisten for et stort korpus, som omfatter sådanne tekster, vil dette ord have en utrolig høj rang. Sådanne udbrud af frekvens kan estimeres ved hjælp af variationskoefficienten : forholdet mellem standardafvigelsen og den gennemsnitlige frekvens.

Skrogsammenligning

Frekvensordbøger giver mulighed for at sammenligne to korpus for at bestemme de mest karakteristiske ord for hver. Nogle gange angiver ordbøger "absolut frekvens", det vil sige antallet af forekomster af et ord i et korpus. På grund af det faktum, at størrelserne af korpus kan være forskellige, angives den relative frekvens (normalt blot kaldet "frekvens"), det vil sige forholdet mellem antallet af forekomster af et ord i et korpus og det samlede antal ord i et korpus. Nogle gange er begge værdier givet. Relativ frekvens er nogle gange angivet som en procentdel, i ppm eller i dele pr. million ( engelsk  ipm, instanser pr. million ord ). For eksempel har ordet og en frekvens på 0,03 (3% eller 30‰ eller omkring 30.000 ord pr. million, ordet alderdom  - 0,00003 (0,003% eller 0,03‰ eller omkring 30 ord pr. million).

For at bestemme det sæt af søgeord, der adskiller et korpus fra et andet, kan du bruge forskellige statistiske mål: chi -square , likelihood -ratio test , osv.  

Se også

Litteratur

Links