Zipfs lov

Zipfs lov (“rangfrekvens”) er en empirisk regelmæssighed af fordelingen af ​​frekvensen af ​​ord i et naturligt sprog : hvis alle ord i et sprog (eller bare en ret lang tekst ) er ordnet i faldende rækkefølge efter deres frekvens på bruge, så vil frekvensen af ​​det n'te ord i en sådan liste være omtrent omvendt proportional med dets ordenstal n (den såkaldte rangorden af ​​dette ord, se rækkefølgeskala ). For eksempel er det næstmest brugte ord cirka dobbelt så almindeligt som det første, det tredje er tre gange så sjældent som det første, og så videre.

Oprettelseshistorie

Forfatteren til opdagelsen af ​​regelmæssigheden er den franske stenograf Jean-Baptiste Estoup ( fr.  Jean-Baptiste Estoup ), som beskrev den i 1908 i sit værk "Range of stenograph" [1] . Loven blev første gang brugt til at beskrive fordelingen af ​​bystørrelser af den tyske fysiker Felix Auerbach i hans værk "The Law of Population Concentration" i 1913 [2] og er opkaldt efter den amerikanske lingvist George Zipf , som i 1949 aktivt populariserede dette mønster , som først foreslår at bruge det til at beskrive fordelingens økonomiske kræfter og social status [2] .

En forklaring af Zipfs lov baseret på korrelationsegenskaberne af additive Markov-kæder (med trinhukommelsesfunktion) blev givet i 2005 [3] .

Zipfs lov er matematisk beskrevet af Pareto-fordelingen . Det er en af ​​de grundlæggende love, der bruges i infometrics .

Anvendelser af loven

George Zipf viste i 1949 første gang fordelingen af ​​folks indkomster efter deres størrelse: Den rigeste person har dobbelt så mange penge som den næstrigeste, og så videre. Dette udsagn viste sig at være sandt for en række lande (England, Frankrig, Danmark, Holland, Finland, Tyskland, USA) i perioden fra 1926 til 1936 [2] .

Denne lov virker også i forhold til fordelingen af ​​bysystemet: Byen med den største befolkning i noget land er dobbelt så stor som den næststørste by, og så videre [2] . Hvis du arrangerer alle byerne i et bestemt land på listen i faldende rækkefølge efter befolkning, kan hver by tildeles en bestemt rang, det vil sige det nummer, den modtager på denne liste. Samtidig adlyder befolkningens størrelse og rang et simpelt mønster udtrykt ved formlen [4] :

,

hvor  er befolkningen i byen af ​​n . rang;  - befolkningen i landets hovedby (1. rang).

Empiriske undersøgelser understøtter dette udsagn [5] [6] [7] [8] [9] .

I 1999 beskrev økonomen Xavier Gabet Zipfs lov som et eksempel på en magtlov : hvis byer vokser tilfældigt med den samme standardafvigelse, vil fordelingen ved grænsen reduceres til Zipfs lov [10] .

Ifølge konklusionerne fra forskere i forhold til bymæssig bebyggelse i Den Russiske Føderation , i overensstemmelse med Zipfs lov [11] :

Kritik

Den amerikanske bioinformatiker Wentian Li foreslog en statistisk forklaring af Zipfs lov, der beviser, at en tilfældig sekvens af tegn også adlyder denne lov [12] . Forfatteren konkluderer, at Zipfs lov tilsyneladende er et rent statistisk fænomen, der ikke har noget at gøre med tekstens semantik og har en overfladisk relation til lingvistik.

Generelt er beviset for denne teori som følger. Sandsynligheden for en tilfældig forekomst af et ord med længden n i en kæde af tilfældige tegn falder med væksten af ​​n i samme forhold, som rangen af ​​dette ord i frekvenslisten (ordensskalaen) stiger. Derfor er produktet af rangen af ​​et ord og dets frekvens en konstant .

Se også

Noter

  1. Alain Lelu. Jean-Baptiste Estoup og oprindelsen af ​​Zipfs lov: en stenograf med et videnskabeligt sind (1868-1950)  // Boletín de Estadística e Investigación Operativa. - 2014. - T. 30 , nr. 1 . - S. 66-77 .
  2. ↑ 1 2 3 4 Zipf GK Menneskelig adfærd og princippet om mindste anstrengelse . - Addison-Wesley Press, 1949. - S.  484-490 . — 573 s.
  3. KE Kechedzhy, OV Usatenko, VA Yampol'skii. Rangfordelinger af ord i additive mangetrins Markov-kæder og Zipf-loven   // Phys . Rev. E.. - 2004. - Vol. 72 . — P. 046138(1)-046138(6) . — arXiv : fysik/0406099 .
  4. Zanadvorov V.S., Zanadvorova A.V. Byens økonomi: et introduktionskursus . ISBN 5-94628-099-6 . Akademisk bog (2003). Hentet 31. august 2015. Arkiveret fra originalen 25. september 2015.
  5. Jiang B., Jia T. Zipfs lov for alle de naturlige byer i USA: et geospatialt perspektiv . International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Hentet 31. august 2015. Arkiveret fra originalen 20. september 2014.
  6. Kali R. Byen som en kæmpe komponent: en tilfældig grafisk tilgang til Zipfs lov. - Anvendt økonomibreve 10: 717-720(4), 2003.
  7. Axtell, Robert L. Zipf distribution af amerikanske firmastørrelser (downlink) . American Association for the Advancement of Science (2001). Arkiveret fra originalen den 23. september 2015. 
  8. Rozenfeld H., Rybski D., Andrade J.S., Batty M., Stanley. Love for befolkningsvækst (link utilgængeligt) . Proc. Nat. Acad. sci. 105, 18702-18707 (2008). Arkiveret fra originalen den 16. februar 2015. 
  9. O'Sullivan A. Byens økonomi. - M. : Infra-M, 2002. - S. 122. - 706 s. — ISBN 5-16-000673-7 .
  10. Gabaix, Xavier. Zipfs lov for byer: en forklaring . Quarterly Journal of Economics 114(3): 739–67 (1999). Hentet 31. august 2015. Arkiveret fra originalen 24. februar 2021.
  11. Fattakhov R.V., Stroev P.V. Rumlig udvikling af Rusland: Moderne udfordringer og dannelsen af ​​punkter for økonomisk vækst (utilgængeligt link) . Finansielt universitet under Den Russiske Føderations regering (22. juni 2015). Arkiveret fra originalen den 25. september 2015. 
  12. Wentian Li. Zipfs lov virker også for tilfældige tekster  = Tilfældige tekster udviser Zipfs-lov-lignende ordfrekvensfordeling. - Santa Fe Institute, 1991. - S. 8 . Arkiveret fra originalen den 24. oktober 2022.