Zipfs lov (“rangfrekvens”) er en empirisk regelmæssighed af fordelingen af frekvensen af ord i et naturligt sprog : hvis alle ord i et sprog (eller bare en ret lang tekst ) er ordnet i faldende rækkefølge efter deres frekvens på bruge, så vil frekvensen af det n'te ord i en sådan liste være omtrent omvendt proportional med dets ordenstal n (den såkaldte rangorden af dette ord, se rækkefølgeskala ). For eksempel er det næstmest brugte ord cirka dobbelt så almindeligt som det første, det tredje er tre gange så sjældent som det første, og så videre.
Forfatteren til opdagelsen af regelmæssigheden er den franske stenograf Jean-Baptiste Estoup ( fr. Jean-Baptiste Estoup ), som beskrev den i 1908 i sit værk "Range of stenograph" [1] . Loven blev første gang brugt til at beskrive fordelingen af bystørrelser af den tyske fysiker Felix Auerbach i hans værk "The Law of Population Concentration" i 1913 [2] og er opkaldt efter den amerikanske lingvist George Zipf , som i 1949 aktivt populariserede dette mønster , som først foreslår at bruge det til at beskrive fordelingens økonomiske kræfter og social status [2] .
En forklaring af Zipfs lov baseret på korrelationsegenskaberne af additive Markov-kæder (med trinhukommelsesfunktion) blev givet i 2005 [3] .
Zipfs lov er matematisk beskrevet af Pareto-fordelingen . Det er en af de grundlæggende love, der bruges i infometrics .
George Zipf viste i 1949 første gang fordelingen af folks indkomster efter deres størrelse: Den rigeste person har dobbelt så mange penge som den næstrigeste, og så videre. Dette udsagn viste sig at være sandt for en række lande (England, Frankrig, Danmark, Holland, Finland, Tyskland, USA) i perioden fra 1926 til 1936 [2] .
Denne lov virker også i forhold til fordelingen af bysystemet: Byen med den største befolkning i noget land er dobbelt så stor som den næststørste by, og så videre [2] . Hvis du arrangerer alle byerne i et bestemt land på listen i faldende rækkefølge efter befolkning, kan hver by tildeles en bestemt rang, det vil sige det nummer, den modtager på denne liste. Samtidig adlyder befolkningens størrelse og rang et simpelt mønster udtrykt ved formlen [4] :
,hvor er befolkningen i byen af n . rang; - befolkningen i landets hovedby (1. rang).
Empiriske undersøgelser understøtter dette udsagn [5] [6] [7] [8] [9] .
I 1999 beskrev økonomen Xavier Gabet Zipfs lov som et eksempel på en magtlov : hvis byer vokser tilfældigt med den samme standardafvigelse, vil fordelingen ved grænsen reduceres til Zipfs lov [10] .
Ifølge konklusionerne fra forskere i forhold til bymæssig bebyggelse i Den Russiske Føderation , i overensstemmelse med Zipfs lov [11] :
Den amerikanske bioinformatiker Wentian Li foreslog en statistisk forklaring af Zipfs lov, der beviser, at en tilfældig sekvens af tegn også adlyder denne lov [12] . Forfatteren konkluderer, at Zipfs lov tilsyneladende er et rent statistisk fænomen, der ikke har noget at gøre med tekstens semantik og har en overfladisk relation til lingvistik.
Generelt er beviset for denne teori som følger. Sandsynligheden for en tilfældig forekomst af et ord med længden n i en kæde af tilfældige tegn falder med væksten af n i samme forhold, som rangen af dette ord i frekvenslisten (ordensskalaen) stiger. Derfor er produktet af rangen af et ord og dets frekvens en konstant .
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |