Fødselsdagsparadokset er et udsagn om, at i en gruppe på 23 eller flere personer overstiger sandsynligheden for sammenfald af fødselsdage (dag og måned) for mindst to personer 50 % . For eksempel, hvis der er 23 eller flere elever i en klasse , så er det mere sandsynligt, at et par klassekammerater har fødselsdag på samme dag, end at hver enkelt har en unik fødselsdag [1] . Dette problem blev først overvejet af Richard Mises i 1939 [2] [3] .
For 57 eller flere personer overstiger sandsynligheden for en sådan tilfældighed 99% , selvom den når 100% ifølge Dirichlet-princippet (sund fornuft), kun når der er mindst 367 personer i gruppen (præcis 1 mere end antallet af dage i et skudår ; med hensyntagen til skudår ) .
Et sådant udsagn kan virke ikke-oplagt, da sandsynligheden for, at to personers fødselsdage falder sammen med en hvilken som helst dag på året , ganget med antallet af personer i gruppen (23), kun giver . Dette ræsonnement er forkert, da antallet af mulige par væsentligt overstiger antallet af personer i gruppen ( 253 > 23 ). Udsagnet er således ikke et paradoks i streng videnskabelig forstand: der er ingen logisk modsigelse i det, og paradokset ligger kun i forskellene mellem en persons intuitive opfattelse af situationen og resultaterne af en matematisk beregning.
I en gruppe på 23 personer er sandsynligheden for, at to personer har samme fødselsdag, så høj, fordi der tages højde for sandsynligheden for, at to personer i gruppen har samme fødselsdag. Denne sandsynlighed bestemmes af antallet af personpar , der kan bestå af 23 personer. Da rækkefølgen af personer i par ikke betyder noget, er det samlede antal af sådanne par lig med antallet af kombinationer af 23 gange 2, det vil sige (23 × 22) / 2 = 253 par .
I formuleringen af paradokset taler vi om sammenfaldet af fødselsdage for alle to medlemmer af gruppen. En almindelig misforståelse er, at denne sag forveksles med en anden tilsyneladende lignende sag, hvor en person er udvalgt fra en gruppe, og sandsynligheden for, at fødselsdagen for andre medlemmer af gruppen vil falde sammen med den valgte persons fødselsdag. I sidstnævnte tilfælde er sandsynligheden for et match meget lavere.
Det er nødvendigt at bestemme sandsynligheden for, at i en gruppe på n personer har mindst to af dem samme fødselsdag.
Lad fødselsdagene fordele sig ligeligt , det vil sige, vi antager, at:
I virkeligheden er dette ikke helt sandt - især i nogle lande bliver der på grund af hospitalernes karakter født flere børn på bestemte dage i ugen. Ujævn fordeling kan dog kun øge sandsynligheden for sammenfald af fødselsdage, men ikke reducere: hvis alle mennesker kun blev født på 3 dage ud af 365, så ville sandsynligheden for sammenfald af fødselsdage være meget høj.
Lad os først beregne sandsynligheden for, at alle menneskers fødselsdage vil være forskellige i en gruppe mennesker. Hvis , så i kraft af Dirichlet-princippet , er sandsynligheden nul. Hvis , så vil vi argumentere som følger. Lad os tilfældigt tage en person fra gruppen og huske hans fødselsdag. Så tager vi anden person tilfældigt, mens sandsynligheden for, at hans fødselsdag ikke falder sammen med fødselsdagen for første person, er lig med . Så tag den tredje person; sandsynligheden for, at hans fødselsdag ikke falder sammen med fødselsdagen for en af de to første er lig med . Ved at argumentere analogt vil vi nå den sidste person, for hvem sandsynligheden for en mismatch af hans fødselsdag med alle de foregående vil være lig med . Multiplicerer vi alle disse sandsynligheder, får vi sandsynligheden for, at alle fødselsdage i gruppen vil være forskellige:
Så er sandsynligheden for, at mindst to personer ud af n har samme fødselsdag lig med
Værdien af denne funktion overstiger 1/2 ved , mens sandsynligheden for tilfældighed er cirka 50,73 %, og . Listen over n værdier og deres tilsvarende sandsynligheder er angivet i følgende tabel.
n | p ( n ) |
---|---|
ti | 12 % |
tyve | 41 % |
tredive | 70 % |
halvtreds | 97 % |
100 | 99,99996 % |
200 | 99,999999999999999999999999999998 % |
300 | (1 − 7×10 −73 ) × 100 % |
350 | (1 − 3×10 −131 ) × 100 % |
367 | 100 % |
Denne problemstilling kan omformuleres i form af det klassiske "tilfældighedsproblem". Lade:
Det er nødvendigt at beregne sandsynligheden for, at en begivenhed består i fravær af gentagelser i stikprøven. Alle beregninger er de samme som ovenfor .
Sandsynligheden for, at to personer i en gruppe på n har samme fødselsdag kan også beregnes ved hjælp af kombinatoriske formler [4] . Forestil dig, at hver dag i året er ét bogstav i alfabetet, og alfabetet består af 365 bogstaver. Fødselsdagene for n personer kan repræsenteres af en streng bestående af n bogstaver i dette alfabet. Ved Hartleys formel er antallet af mulige rækker
Antallet af mulige strenge, hvor bogstaver ikke gentages ( placering af 365 gange n ) vil være
Hvis rækkerne er valgt tilfældigt (med en ensartet fordeling ), er sandsynligheden for at vælge en række, hvor mindst to bogstaver matcher
kl og kl .På denne måde
og dette udtryk svarer til det ovenfor præsenterede .
Det samlede antal mulige rækker kan også beregnes ved hjælp af den kombinatoriske formel for antallet af placeringer med gentagelser A (gentagelser) n /365 = 365 n .
Brug af Taylor-seriens udvidelse af eksponentialfunktionen
Ovenstående udtryk for kan tilnærmes som følger:
Følgelig:
Bemærk, at den forenklede tilnærmelse
som du kan se på grafen, giver den stadig tilstrækkelig nøjagtighed.
Lad os give endnu en tilnærmelse .
Sandsynligheden for at to personer har samme fødselsdag er 364/365. I en gruppe mennesker , par. Derfor kan sandsynligheden , forudsat at disse hændelser er uafhængige , tilnærmes med tallet
Derfor får vi en tilnærmelse for den krævede sandsynlighed p ( n ) :
Ved at bruge Poisson- tilnærmelsen for binomialet , baseret på den tidligere tilnærmelse for , får vi lidt mere end 50 % :
Lad os udtrykke n fra ovenstående formel . Så, i stedet for p ( n ), erstatter vi 50 % (0,5). Som et resultat får vi:
Der er en anden måde at estimere n på 50% sandsynlighed . Som bevist ovenfor :
Find det mindste n for hvilket
eller, som er det samme,
Lad os bruge ovenstående tilnærmelse af funktionen ved den eksponentielle funktion :
Substituerer i stedet i udtrykket , får vi
Løsning for n , får vi
Herfra finder vi n og runder op til et heltal :
n =23 .Lad os sammenligne sandsynligheden p ( n ) med sandsynligheden for, at i en gruppe på n personer vil fødselsdagen for en person fra gruppen falde sammen med fødselsdagen for en eller anden forudvalgt person, der ikke tilhører gruppen. Denne sandsynlighed er
Ved at erstatte n = 23 får vi q ( n ) ≈ 6,12 % . For at sandsynligheden for q ( n ) skal overstige 50 % , skal antallet af personer i gruppen være mindst 253 ( q (252) ≈ 49,91 % ; q (253) ≈ 50,05 % ). Dette tal er mere end halvdelen af årets dage ( 365/2 = 182,5 ); dette skyldes, at andre medlemmer af gruppen kan have samme fødselsdag, og det reducerer sandsynligheden q ( n ) . Mere præcist skyldes dette, at når vi tilføjer sandsynligheden for tilfældigheder, trækker vi hver gang sandsynligheden for den fælles forekomst af disse begivenheder, da begivenhederne er fælles, og sandsynligheden for deres fælles forekomst i additionen tages i betragtning. to gange. P ( A + B ) = P ( A ) + P ( B ) − P ( AB ) og så videre med hver tilføjelse af et nyt led.
Det beskrevne problem kan formuleres i generel form:
Hvis du ræsonnerer på samme måde som beskrevet ovenfor , kan du få generelle løsninger:
Omvendt problem:
Løsning:
Ovenfor blev fødselsdagsparadokset præsenteret for én "type" mennesker. Det er muligt at generalisere problemet ved at introducere flere "typer", for eksempel at opdele mennesker i mandlige ( m ) og kvindelige ( n ). Lad os beregne sandsynligheden for, at mindst én kvinde og én mand har samme fødselsdag (sammenfald af fødselsdage for to kvinder eller to mænd tages ikke i betragtning):
hvor d \u003d 365 og S 2 () er stirlingtal af anden art . Interessant nok er der ikke noget entydigt svar på spørgsmålet om værdien af n + m for en given sandsynlighed. For eksempel giver en sandsynlighed på 0,5 både et sæt på 16 mænd og 16 kvinder og et sæt på 43 mænd og 6 kvinder.
En anden generalisering af fødselsdagsparadokset er at angive problemet med, hvor mange mennesker der skal til, for at sandsynligheden for at have i en gruppe mennesker, hvis fødselsdage ikke afviger mere end én dag (eller to, tre dage, og så videre) overstiger 50 % . Ved løsning af dette problem anvendes princippet om inklusion-eksklusion . Resultatet (igen forudsat at fødselsdage er jævnt fordelt ) er:
Maksimal forskel i fødselsdage, antal dage | Nødvendigt antal personer |
---|---|
en | 23 |
2 | fjorten |
3 | elleve |
fire | 9 |
5 | otte |
6 | otte |
7 | 7 |
otte | 7 |
Således overstiger sandsynligheden for, at selv i en gruppe på 7 personer fødselsdagene for mindst to af dem højst vil afvige med en uge 50% .
Fødselsdagsparadokset gælder generelt for hash-funktioner : hvis en hash-funktion genererer en N -bit-værdi, så er antallet af tilfældige input, for hvilke hash-koder højst sandsynligt vil kollidere (det vil sige, at der er ens hash-koder opnået på forskellige inputdata ) er ikke 2 N , men kun omkring 2 N /2 . Denne observation udnyttes i et angreb på kryptografiske hash-funktioner kaldet fødselsdagsangrebet .
N | Antal forskellige udgangskæder (2 N ) | Sandsynlighed for mindst én kollision ( p ) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
10-18 _ | 10-15 _ | 10-12 _ | 10-9 _ | 10-6 _ | 0,1 % | en % | 25 % | halvtreds % | 75 % | ||
32 | 4,3× 109 | 2 | 2 | 2 | 2.9 | 93 | 2,9×10³ | 9,3×10³ | 5,0x104 | 7,7×104 | 1,1×10⁵ |
64 | 1,8 × 10 19 | 6.1 | 1,9×10² | 6,1×10³ | 1,9×10⁵ | 6,1×10⁶ | 1,9×10⁸ | 6,1×10⁸ | 3,3×10⁹ | 5,1×10⁹ | 7,2×10⁹ |
128 | 3,4 × 10 38 | 2,6 × 10 10 | 8,2 × 10 11 | 2,6 × 10 13 | 8,2 × 10 14 | 2,6 × 10 16 | 8,3 × 10 17 | 2,6 × 10 18 | 1,4 × 10 19 | 2,2 × 10 19 | 3,1 × 10 19 |
256 | 1,2 × 10 77 | 4,8 × 10 29 | 1,5 × 10 31 | 4,8 × 10 32 | 1,5×10 34 | 4,8 × 10 35 | 1,5 × 10 37 | 4,8 × 10 37 | 2,6 × 10 38 | 4,0 × 10 38 | 5,7 × 10 38 |
384 | 3,9 × 10 115 | 8,9 × 10 48 | 2,8 × 10 50 | 8,9 × 1051 | 2,8× 1053 | 8,9 × 1054 | 2,8× 1056 | 8,9 × 1056 | 4,8× 1057 | 7,4× 1057 | 1,0 × 10 58 |
512 | 1,3× 10154 | 1,6×10 68 | 5,2 × 10 69 | 1,6 × 10 71 | 5,2× 1072 | 1,6× 1074 | 5,2 × 1075 | 1,6 × 10 76 | 8,8 × 1076 | 1,4 × 10 77 | 1,9 × 10 77 |
De hvide celler angiver antallet af personer i gruppen, hvor en kollision vil ske med en given sandsynlighed (i analogi med paradokset er antallet af udgangskæder 365).
Et lignende matematisk apparat bruges til at estimere bestandsstørrelsen af fisk , der lever i søer . Metoden kaldes "capture-recapture" ("fang - fange igen"). Faktisk, hvis hver fanget fisk er markeret og genudsat, så vil sandsynligheden for at fange en markeret fisk vokse ikke-lineært (i overensstemmelse med grafen ovenfor) med en stigning i antallet af forsøg. Populationsstørrelsen kan groft estimeres som kvadratet af antallet af forsøg, der er gjort, før den første mærkede fisk fanges .
Løsningen af problemet i generelle vendinger finder anvendelse i mange grene af matematikken , for eksempel i ikke-deterministiske faktoriseringsalgoritmer . Så en af de enkleste forklaringer på Pollards ρ-metode ligner forklaringen på fødselsdagsparadokset: det er nok at have tilnærmelsesvis tilfældige tal fra 0 til , hvor er primtal, således at for mindst et af talparrene med stor sandsynlighed er der , hvilket vil være en divisor af tallet n .
Ved at bruge formlen ovenfor får vi:
s | n | n ↓ | p ( n ↓) | n ↑ | p ( n ↑) |
---|---|---|---|---|---|
0,01 | 0,14178√365 = 2,70864 | 2 | 0,00274 | 3 | 0,00820 |
0,05 | 0,32029√365 = 6,11916 | 6 | 0,04046 | 7 | 0,05624 |
0,1 | 0,45904√365 = 8,77002 | otte | 0,07434 | 9 | 0,09462 |
0,2 | 0,66805√365 = 12,76302 | 12 | 0,16702 | 13 | 0,19441 |
0,3 | 0,84460√365 = 16,13607 | 16 | 0,28360 | 17 | 0,31501 |
0,5 | 1,17741√365 = 22,49439 | 22 | 0,47570 | 23 | 0,50730 |
0,7 | 1,55176√365 = 29,64625 | 29 | 0,68097 | tredive | 0,70632 |
0,8 | 1,79412√365 = 34,27666 | 34 | 0,79532 | 35 | 0,81438 |
0,9 | 2,14597√365 = 40,99862 | 40 | 0,89123 | 41 | 0,90315 |
0,95 | 2,44775√365 = 46,76414 | 46 | 0,94825 | 47 | 0,95477 |
0,99 | 3,03485√365 = 57,98081 | 57 | 0,99012 | 58 | 0,99166 |
Lad der være n - 1 personer i lokalet, og deres fødselsdage er forskellige. Lad g ( n ) være sandsynligheden for, at fødselsdagen for den person, der trådte ind, er den samme som fødselsdagen for en tilstedeværende i lokalet. Det er nødvendigt at finde værdien af n , hvor værdien af funktionen g ( n ) er maksimal.
Løsningen handler om at finde den maksimale værdi af udtrykket
p ( n ) -p ( n - 1) .Ved at bruge ovenstående formel for p ( n ) får vi n = 20 .
Lad os overveje et andet problem. Hvor mange mennesker skal der i gennemsnit til for at have mindst to af dem samme fødselsdag?
Dette problem havde at gøre med hashing- algoritmer og blev undersøgt af Donald Knuth . Det viser sig, at den for os interesserede stokastiske variabel har en matematisk forventning svarende til
hvor
Fungere
blev udforsket af Ramanujan . Han opnåede også følgende asymptotiske ekspansion for denne funktion :
Med M = 365 er det gennemsnitlige antal personer
Dette tal er lidt større end antallet af personer, der giver en chance på 50 % . Overraskende nok er det nødvendige antal personer M + 1 = 366 (for 365 personer kan deres fødselsdage fordeles over hver af årets 365 dage uden overlap), selvom der i gennemsnit kun er brug for 25.