Berkson's paradox , collider error - the position of matematisk statistik , formuleret af J. Berkson ( engelsk Joseph Berkson ) i 1946. Udsagn: To uafhængige hændelser kan blive betinget afhængige, hvis en tredje hændelse indtræffer . Denne konklusion er kontraintuitiv for nogle mennesker og kan derfor beskrives som et paradoks . Den tredje hændelse, som kan gøre de to første hændelser betinget afhængige, kaldes en kolliderer . Berksons paradoks er ofte beskrevet inden for medicinsk statistik eller biostatistik . Det er en komplicerende faktor, der optræder i statistiske test af forhold.
Det samme paradoks er nævnt i teorien om kunstige neurale netværk som en forbigående forklaring , retfærdiggørelseseffekt eller reduktion af årsagen ( eng. forklaring bort ) [1] [2] .
Vi vil undersøge statistikken for et tilfældigt udvalg af frimærker fra et sæt, idet vi tager to uafhængige frimærkeegenskaber i betragtning: "sjældenhed" og "skønhed".
Antag, at der er 1000 frimærker, blandt hvilke 300 er smukke, 100 er sjældne, og 30 er både smukke og sjældne. Det er klart, at ud af hele sættet er 10% af frimærkerne sjældne, men af alle de smukke frimærker er 10% også sjældne, det vil sige, at frimærkets skønhed ikke siger noget om dets sjældenhed.
Men hvis vi fra hele sættet (1000) udvælger alle smukke frimærker og alle sjældne frimærker (der er 370 sådanne frimærker), så vil der i denne prøve af sjældne frimærker allerede være 27 % (100 ud af 370), men blandt de smukke frimærker vil der stadig kun være 10 % (30 ud af 300). Så vil observatøren, når han analyserer en sådan prøve (og ikke hele sættet), se et tilsyneladende omvendt forhold mellem mærkets skønhed og sjældenhed (hvis mærket er smukt, så er sandsynligheden for dets sjældenhed lavere). Men i virkeligheden er der ingen sådan sammenhæng.
Det beskrevne resultat er matematisk fuldstændig korrekt, dets "paradoksalitet" er forbundet med de særlige forhold ved opfattelsen af mennesker, der har tendens til intuitivt at tro, at hvis to parametre er uafhængige, så forbliver de det i enhver prøve. I virkeligheden, i tilfælde af selektionsbias mellem uafhængige parametre, kan der opstå betingede afhængigheder, hvilket fører til grove fejl i analysen, når de udvides til hele populationen .
Lad det enkleste Bayesianske kunstige neurale netværk med en sigmoid aktiveringsfunktion blive givet , indeholdende to uafhængige begivenheder (årsager) til, at en tredje begivenhed vil forekomme - huset vil ryste. En bias på -10 i jordskælvsbegivenhedsneuronen betyder, at i mangel af observationer og a priori-viden er det meget mere sandsynligt, at denne begivenhed ikke sker, end at den sker. Hvis der indtræffer et jordskælvshændelse, men ingen lastbilhændelse forekommer, så har husrystehændelsesneuronen et samlet input på 0, hvilket betyder, at sandsynligheden for, at hændelsen indtræffer (det vil sige neuronaktivering) er 0,5. Således, hvis vi har en observation af begivenheden "huset ryster", så er den bedste forklaring på dette faktum forekomsten af en af begivenhedsårsagerne. Det er dog ulogisk at antage, at begge årsagsbegivenheder indtraf på én gang for at forklare begivenheden med at ryste huset, da sandsynligheden for deres samtidige forekomst er lig med . Hvis vi således både observerer en hændelse af husrystelser og ved, hvad der skete, for eksempel en hændelse, der forårsagede jordskælv, så afslører dette en forklaring ( bortforklarer , reducerer årsagen), at lastbilen var skyld i, at huset rystede [3 ] .