Benfords lov

Benfords lov , eller loven om det første ciffer , er en lov, der beskriver sandsynligheden for, at et bestemt første signifikante ciffer optræder i fordelinger af mængder taget fra det virkelige liv.

Loven gælder for mange sådanne distributioner, men ikke for alle. Gør også en række forudsigelser om hyppigheden af ​​forekomsten af ​​det andet og tredje ciffer.

Loven opdaget af Frank Benford ser sådan ud: hvis vi har en talbase b ( b > 2), så er sandsynligheden for at være den første signifikante for et ciffer d ( d ∈ {1, ..., b − 1}) ciffer er

Dette er præcis afstanden mellem d og d+1 på en log-skala med basis b .

For lige fordeling, hvis du har tallene 1, 2, 3, 4,5,6,7, 8, 9, 0 (=10), så har du 10 segmenter (fra 0 til 1, ..., fra 8 til 9, fra 9 til 10). Bemærk, at alle segmenter ligger i området [0, 10]. For segmentet [d, d+1] skal den ensartede fordeling være proportional med dets længde, det vil sige længden af ​​segmentet [d, d+1], dvs. (d+1)-d divideret med længden af segmentet [0, 10], som er lig med 10.

.

Hvis logaritmerne er kontinuerligt fordelt, skal du tage logaritmen af ​​tallet, før du overvejer segmenterne. For logaritmer betragter vi segmenter fra 1 til 10 (da log 10 0 ikke giver mening). I dette tilfælde vil du have intervaller fra log 10 1 til log 10 2,..., fra log 10 8 til log 10 9, fra log 10 9 til log 10 10. Alle segmenter ligger i intervallet [log 10 1, log 10 10] =[0, 1]. Længden af ​​sidstnævnte er 1. Så vi betragter segmentet [d, d + 1] på den sædvanlige skala, i den logaritmiske skala vil den ensartede fordeling være proportional med dens længde, det vil sige:

.

Tabellen nedenfor viser sandsynligheder fundet af Benford for det første ciffer for decimaltalsystemet.

d en 2 3 fire 5 6 7 otte 9
s 30,1 % 17,6 % 12,5 % 9,7 % 7,9 % 6,7 % 5,8 % 5,1 % 4,6 %

I dette tilfælde afhænger fordelingen kun af talsystemet, men ikke af måleenheden. Med andre ord, hvis tons konverteres til pund , og kvadratkilometer konverteres til acres , ændres fordelingen ikke.

Historie

For første gang blev manifestationen af ​​denne lov bemærket af den amerikanske astronom Simon Newcome i 1881. Han fandt ud af, at bøger, der indeholdt logaritmiske tabeller, var flosset, hvor logaritmerne af tal, der starter med et, var indeholdt, og intakte for tal, der begynder med 9.

Dette fænomen blev genopdaget af fysikeren Frank Benford i 1938. Benford analyserede omkring 20 tabeller, blandt hvilke var data om arealet af bassinet med 335 floder, den specifikke varme og molekylvægten af ​​tusindvis af kemiske forbindelser, inklusive husnumrene på de første 342 gader, der er opført i biblioteket. Analysen af ​​tallene viste, at enheden er det første signifikante ciffer med en sandsynlighed ikke 1/9, som man kunne forvente, men omkring 1/3.

Efterfølgende fik Benfords lov sin forklaring - den er anvendelig på talsæt, der kan vokse eksponentielt (med andre ord er vækstraten af ​​en værdi proportional med dens nuværende værdi, ). For eksempel omfatter de elregninger, lagerbalancer, aktiekurser, befolkning, dødsfald, flodlængder, landområder, højderne af de højeste bygninger i verden.

Begrænsninger

Loven gælder normalt ikke for distributioner med specificerede minimums- eller maksimumværdier (liste over virksomheder med indtægter mellem $50.000 og $100.000). Fordelinger, der kun dækker en eller to størrelsesordener ( IQ'er for voksne ) er også uhensigtsmæssige . Benfords lov gælder ikke for mange bogstaver (fig.). Mængden af ​​data bør være tilstrækkelig til anvendelse af statistiske metoder.

Forklaringer

Benfords lov kan forklares på mange måder.

Resultatet af en proces med eksponentiel vækst

Den nøjagtige form for Benfords lov kan forklares ved at antage, at logaritmerne af tal er ensartet fordelt; for eksempel er sandsynligheden for at finde et tal mellem 100 og 1000 (logaritme mellem 2 og 3) den samme som mellem 10.000 og 100.000 (logaritme mellem 4 og 5). For mange sæt tal, især dem med eksponentiel vækst , såsom indtjening eller aktiekurser, er dette en rimelig antagelse.

For eksempel, hvis mængden øges kontinuerligt og fordobles hvert år, så vil den være det dobbelte af startværdien efter et år, fire gange startværdien efter to år, otte gange startværdien efter tre år osv. Når dette tal når en værdi på 100, vil det have et betydeligt tal på 1 i løbet af året og nå 200 ved udgangen af ​​det første år. I løbet af det næste år vil værdien stige fra 200 til 400; det signifikante tal vil være 2 (værdien vil være fra 200 til 300) i lidt over syv måneder (husk, vi har at gøre med eksponentiel vækst, dvs. fra 200 til 300 vokser funktionen "langsommere" end fra 300 til 400 ) og 3 i de resterende fem måneder. I det tredje år vil det signifikante ciffer passere 4, 5, 6 og 7, hvilket tager mindre og mindre tid at nå det næste ciffer og når 800 ved udgangen af ​​det år. I begyndelsen af ​​det fjerde år vil det signifikante ciffer gå fra 8 til 9. Det signifikante ciffer bliver igen 1, når værdien når 1000 og starter forfra, tager det et år at fordoble værdien fra 1000 til 2000. Dette eksempel viser, at datatabeller, der inkluderer dimensioner eksponentielt voksende værdier, vil være i overensstemmelse med Benfords lov. Denne lov gælder dog også for mange tilfælde, hvor eksponentiel vækst ikke er indlysende.

Skalainvarians

Denne lov kan alternativt forklares med, at hvis det faktisk er rigtigt, at det første ciffer har en særlig fordeling , så skal det være uafhængigt af de mængder, det måles i. Det betyder, at når man konverterer f.eks. fod til yards (multipliceret med en konstant), skal fordelingen forblive uændret - dette er skalainvarians , og den eneste kontinuerlige fordeling, der opfylder dette krav, er en, hvor logaritmen er ensartet fordelt.

For eksempel skal det første (ikke-nul) ciffer af et objekts længde eller afstand have samme fordeling, uanset om målingen er i fod, yards eller noget andet. Men der er tre fod i en yard, så sandsynligheden for, at det første ciffer i længden i yards er 1, skal være det samme som sandsynligheden for, at det første ciffer i længden i fod er 3, 4 eller 5. Anvendelse af dette til alle mulige måleskalaer giver en logaritmisk fordeling, og givet at log 10 (1) = 0 og log 10 (10) = 1 giver Benfords lov. Det vil sige, at hvis der er en fordeling af det første ciffer, der er enhedsuafhængig, kan den eneste fordeling af det første ciffer være en, der overholder Benfords lov.

Flere sandsynlighedsfordelinger

For tal hentet fra en bestemt fordeling, såsom IQ-værdier, personers højder eller andre variabler, der følger en normalfordeling , gælder loven ikke. Men hvis du "blander" tal fra mange lignende distributioner, for eksempel ved at tage tal fra avisartikler, vil Benfords lov igen dukke op. Dette kan også bevises matematisk: hvis du gentagne gange "tilfældigt" vælger en sandsynlighedsfordeling og derefter tilfældigt vælger et tal i henhold til denne fordeling, vil den resulterende liste adlyde Benfords lov [1] [2] [3] .

Eksempler

På listen over 58 højeste bygninger i verden i deres kategori (fra september 2010) er tallet "1" i første position meget oftere end tallet "9", uanset måleenheden:

Første ciffer meter fødder
Antal % Antal %
en 27 47,4 % 13 22,8 %
2 otte 14,0 % otte 14,0 %
3 7 12,3 % otte 14,0 %
fire 5 8,8 % 3 5,3 %
5 2 3,5 % fjorten 24,6 %
6 3 5,3 % 5 8,8 %
7 2 3,5 % 3 5,3 %
otte 3 5,3 % en 1,8 %
9 0 0,0 % 2 3,5 %


Ansøgning

Benford distributionstesten bruges til at opdage ondsindet manipulation af data, herunder:

Noter

  1. Theodore P. Hill. Det første digitale fænomen. En århundrede gammel observation om et uventet mønster i mange numeriske tabeller gælder for aktiemarkedet, folketællingsstatistikker og regnskabsdata.  (engelsk)  (utilgængeligt link) 358-363. American Scientist 86.4 (1998). Hentet 24. september 2016. Arkiveret fra originalen 24. september 2016.
  2. Theodore P. Hill. The Significant-Cigit Phenomenon  (engelsk) 322-327. The American Mathematical Monthly 102.4 (1995): 322-327. (april 1995). Hentet 24. september 2016. Arkiveret fra originalen 24. september 2016.
  3. Theodore P. Hill. En statistisk afledning af loven med signifikant ciffer  . Statistical Science, 1995, bind 10, nr. 4, 354-363 (1995). Hentet 24. september 2016. Arkiveret fra originalen 14. marts 2016.
  4. Jeg har dit nummer. Hvordan et matematisk fænomen kan hjælpe CPA'er med at afdække bedrageri og andre uregelmæssigheder.  (engelsk) . Journal of Accountancy (1999). - eksempler på anvendelse af Benfords lov. Arkiveret fra originalen den 1. juli 2012.
  5. Valgsvindel. Sådan stjæler du et valg" Arkiveret 14. maj 2012 på Wayback Machine / The Economist 3. marts 2012  

Links