Bayes' sætning

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 6. februar 2022; checks kræver 3 redigeringer .

Bayes' sætning (eller Bayes' formel ) er en af ​​hovedsætningerne i elementær sandsynlighedsteori , som giver dig mulighed for at bestemme sandsynligheden for en hændelse, forudsat at en anden hændelse, der er statistisk afhængig af den, er indtruffet. Med andre ord er det ifølge Bayes-formlen muligt mere præcist at genberegne sandsynligheden under hensyntagen til både tidligere kendt information og data fra nye observationer. Bayes' formel kan udledes af sandsynlighedsteoriens grundlæggende aksiomer, især fra betinget sandsynlighed . Et træk ved Bayes-sætningen er, at dens praktiske anvendelse kræver et stort antal beregninger, beregninger, så Bayesianske estimater begyndte først at blive brugt aktivt efter revolutionen inden for computer- og netværksteknologier.

Da Bayes' sætning opstod, var de sandsynligheder, der blev brugt i sætningen, underlagt en række sandsynlighedsfortolkninger. En af disse fortolkninger sagde, at udledningen af ​​formlen er direkte relateret til anvendelsen af ​​en særlig tilgang til statistisk analyse. Hvis vi bruger den Bayesianske fortolkning af sandsynlighed , så viser sætningen, hvordan det personlige tillidsniveau kan ændre sig dramatisk på grund af antallet af hændelser, der har fundet sted. Dette er konklusionen fra Bayes, som blev grundlæggende for Bayesiansk statistik. Sætningen bruges dog ikke kun i Bayesiansk analyse, men bruges også aktivt til en lang række andre beregninger.

Psykologiske eksperimenter [1] har vist, at folk ofte fejlagtigt estimerer den reelle (matematisk korrekte) sandsynlighed for en begivenhed baseret på nogle erfaringer ( a posteriori sandsynlighed ), fordi de ignorerer selve sandsynligheden for en antagelse ( a priori sandsynlighed ). Derfor kan det korrekte resultat ifølge Bayes-formlen være meget anderledes end det intuitivt forventede.

Bayes' sætning er opkaldt efter dens forfatter, Thomas Bayes (1702-1761), en engelsk matematiker og præst, der først foreslog brugen af ​​sætningen til at korrigere overbevisninger baseret på opdaterede data. Hans værk " An Essay to Solving a Problem in the Doctrine of Chances " blev første gang udgivet i 1763 [2] , 2 år efter forfatterens død. Før Bayes' posthume arbejde blev accepteret og læst i Royal Society, blev det i vid udstrækning redigeret og opdateret af Richard Price . Disse ideer blev dog ikke offentliggjort, før de blev genopdaget og udviklet af Pierre-Simon Laplace , som først udgav den moderne formulering af teoremet i sin bog fra 1812 The Analytic Theory of Probability.

Sir Harold Jeffreys skrev, at Bayes' sætning er "for sandsynlighedsteorien, hvad Pythagoras sætning er for geometri " [3] .

Ordlyd

Bayes formel :

,

hvor

— a priori sandsynlighed for hypotese A (se nedenfor for betydningen af ​​en sådan terminologi); er sandsynligheden for hypotese A ved forekomsten af ​​begivenhed B (a posteriori sandsynlighed); er sandsynligheden for at hændelsen B indtræffer, hvis hypotesen A er sand ; er den samlede sandsynlighed for at hændelsen B indtræffer .

Bevis

Bayes' formel følger af definitionen af ​​betinget sandsynlighed . Sandsynligheden for en fælles begivenhed udtrykkes på to måder i form af betingede sandsynligheder

følgelig

Beregning af P(B)

I problemer og statistiske applikationer beregnes det normalt ved formlen for den samlede sandsynlighed for en begivenhed afhængig af flere inkonsistente hypoteser med en samlet sandsynlighed på 1.

,

hvor sandsynligheden under sumtegnet er kendt eller kan estimeres eksperimentelt.

I dette tilfælde er Bayes-formlen skrevet som følger:

"Fysisk betydning" og terminologi

Bayes' formel giver dig mulighed for at "omorganisere årsag og virkning": givet det kendte faktum af en begivenhed, beregne sandsynligheden for, at den var forårsaget af en given årsag. Samtidig er det nødvendigt at forstå, at for anvendelsen af ​​teoremet er en årsagssammenhæng mellem og ikke obligatorisk.

Begivenheder, der afspejler handlingen af ​​"årsager" i dette tilfælde kaldes hypoteser , da de er de påståede begivenheder, der forårsagede det givne. Den ubetingede sandsynlighed for hypotesens gyldighed kaldes a priori (hvor sandsynlig årsagen er generelt ), og den betingede, under hensyntagen til begivenhedens kendsgerning, kaldes a posteriori (hvor sandsynligt årsagen viste sig at være , under hensyntagen til data om begivenheden ).

Eksempler

Eksempel 1

Lad begivenheden  - bilen starter ikke, og hypotesen  - der er ingen brændstof i tanken. Det er klart, at sandsynligheden for, at bilen ikke starter, hvis der ikke er brændstof i tanken, er lig med én. Som en konsekvens heraf er den bageste sandsynlighed for, at der ikke er brændstof i tanken, hvis bilen ikke starter, dvs. lig med , dvs. forholdet mellem den forudgående sandsynlighed for, at der ikke er brændstof i tanken, og sandsynligheden for, at bilen starter ikke. For eksempel, hvis den forudgående sandsynlighed for, at der ikke er brændstof i tanken, er 0,01, og sandsynligheden for, at bilen ikke starter er 0,02, og en tilfældigt udvalgt bil ikke startede, så er sandsynligheden for, at der ikke er brændstof i dens tank. er 0,5.

Eksempel 2

Lad sandsynligheden for ægteskab for den første arbejder være , for den anden arbejder - og for den tredje - . Den første lavede delene, den anden lavede delene, og den tredje lavede delene. Formanden tager en tilfældig del, og den viser sig at være defekt. Spørgsmålet er, hvad er sandsynligheden for, at denne del er lavet af den tredje arbejder?

En begivenhed  er en defekt del, en begivenhed  er en del produceret af en arbejder . Så , hvor , en .

Ifølge den samlede sandsynlighedsformel

Ifølge Bayes formlen får vi:

Eksempel 3

Entomologen foreslår, at billen kan være en sjælden billeunderart , da den har et mønster på sin krop. Hos de sjældne underarter er 98 % af billerne mønstrede, eller P(mønster | sjælden) = 0,98. Blandt almindelige biller er kun 5% mønstrede: P(mønster | regulær) = 0,05. Der er kun 0,1% af de sjældne arter af biller blandt hele bestanden: P(sjælden) = 0,001. Hvad er sandsynligheden for, at en mønstret bille er en sjælden underart, det vil sige, hvad er P(sjælden | mønster) ?

Fra den udvidede Bayes-sætning får vi (enhver bille kan enten være sjælden eller almindelig):

Eksempel 4 er et paradoks i Bayes' sætning

Lad der være en sygdom med en fordelingshyppighed blandt befolkningen på 0,001 og en diagnostisk undersøgelsesmetode, der med en sandsynlighed på 0,9 identificerer en patient, men samtidig har en sandsynlighed på 0,01 for et falsk positivt resultat - en fejlagtig påvisning af en sygdom hos en rask person ( mere... ). Find sandsynligheden for, at en person er rask, hvis han blev erkendt som syg under undersøgelsen.

Lad os betegne den begivenhed, som undersøgelsen viste, at personen er syg på, som "syg" med anførselstegn, syg - den begivenhed, at personen er virkelig syg, rask - begivenheden, at personen er virkelig rask. Derefter omskrives de givne betingelser som følger:

, mens , betyder:

Sandsynligheden for, at en person er rask, hvis han blev anerkendt som syg, er lig med den betingede sandsynlighed:

For at finde det, beregner vi først den samlede sandsynlighed for at blive anerkendt som patient:

Sandsynligheden for, at en person er rask, hvis resultatet er "syg":

Således er 91,7% af personer, hvis undersøgelse viste resultatet "syge", faktisk raske mennesker. Årsagen til dette er, at sandsynligheden for et falsk positivt resultat, selv om det er lille, alt efter problemets tilstand er en størrelsesorden større end andelen af ​​patienter i den undersøgte gruppe af mennesker.

Hvis de fejlagtige resultater af undersøgelsen kan betragtes som tilfældige, vil en anden undersøgelse af den samme person give et uafhængigt resultat fra den første. I dette tilfælde, for at reducere andelen af ​​falske positive resultater, giver det mening at genundersøge folk, der modtog resultatet "syge". Sandsynligheden for, at en person er rask efter at have modtaget et gentaget resultat af "syg", kan også beregnes ved hjælp af Bayes' formel:

Muligheder for fortolkning af sandsynligheder i Bayes' sætning

Matematisk viser Bayes' sætning sammenhængen mellem sandsynligheden for begivenhed A og sandsynligheden for begivenhed B, P ( A ) og P ( B ), den betingede sandsynlighed for forekomsten af ​​begivenhed A med eksisterende B og forekomsten af ​​begivenhed B med eksisterende A, P ( A | B ) og P ( B | A).

Generelt ser Bayes-formlen sådan ud:

Betydningen af ​​udtrykket afhænger af, hvordan sandsynligheden i den givne formel fortolkes.

Bayes' fortolkning

I Bayesiansk fortolkning måler sandsynlighed niveauet af tillid. Bayes' sætning forbinder troværdigheden af ​​en antagelse før og efter at have taget højde for de åbenlyse beviser. For eksempel foreslog nogen, at når en mønt kastes, vil den lande 2 gange oftere med hale op og hoved ned. I første omgang, graden af ​​tillid til, at en sådan begivenhed vil ske, vil mønten falde præcis sådan - 50%. Tillidsniveauet kan stige til 70 %, hvis antagelsen understøttes af beviser. [ ryd op ]

For antagelse (hypotese) A og bevis B

Frekvenstolkning

I frekvensfortolkningen beregner Bayes' sætning proportionerne af visse udfald af en begivenhed. Antag, at et eksperiment er blevet kørt mange gange og i nogle tilfælde har resulteret i resultater A og/eller B. Så:

Rollen af ​​Bayes' sætning kan bedst forstås ud fra trædiagrammerne præsenteret til højre. Diagrammerne viser den forskellige rækkefølge af fordeling af begivenheder ved tilstedeværelsen eller fraværet af resultaterne A og B. Bayes' sætning fungerer som et bindeled mellem disse fordelinger.

Formularer

Begivenheder

Simpel form

For hændelser A og B , forudsat at P ( B ) ≠ 0,

Mange tillæg til Bayes' sætning siger, at hændelsen B er kendt, og man skal forstå, hvordan viden om hændelsen B påvirker sikkerheden for, at hændelsen A vil indtræffe. I dette tilfælde er nævneren for det sidste udtryk - sandsynligheden for forekomsten af ​​begivenheden B - er kendt; vi vil ændre A. Bayes' sætning viser, at de posteriore sandsynligheder er proportionale med tælleren:

(Proportionalitet af A for et givet B ). Kort sagt er posterior proportional med prior (se Lee, 2012, kapitel 1).

Hvis begivenhederne A 1 , A 2 , ... er gensidigt udelukkende og udtømmende, det vil sige, kun en af ​​begivenhederne er mulig, to begivenheder kan ikke ske samtidigt, vi kan bestemme proportionalitetskoefficienten, med fokus på det faktum, at deres sandsynligheder bør tilføje op til én. For en given begivenhed A  er for eksempel selve begivenheden A og dens modsætning ¬ A gensidigt udelukkende og udtømmende. Ved at betegne proportionalitetsfaktoren som C har vi:

og .

Ved at kombinere disse to formler får vi det:

Udvidet form

Ofte er hændelsesrummet (såsom { A j } ) defineret i form af P ( A j ) og P ( B | A j ). Det er i dette tilfælde, at det er nyttigt at bestemme P ( B ) ved at anvende den samlede sandsynlighedsformel :

I særdeleshed

.

Kontinuerlige tilfældige variabler

Overvej rummet af elementære begivenheder Ω dannet af to størrelser X og Y . Grundlæggende gælder Bayes' sætning for begivenhederne A = { X = x } og B = { Y = y }. Udtrykkene bliver dog 0 på punkter, hvor variablen har en endelig sandsynlighedstæthed . For nyttigt at kunne fortsætte med at bruge Bayes' sætning kan man angive det i form af passende tætheder (se Formelafledning ).

Simpel form

Hvis X er kontinuert og Y er diskret, så

Hvis X er diskret og Y er kontinuert,

Hvis både X og Y er kontinuerlige,

Udvidet form

Det kontinuerlige hændelsesrum er ofte defineret som tælleren af ​​betingelserne A. Det kontinuerlige hændelsesrum er ofte repræsenteret som tælleren. I fremtiden er det nyttigt at slippe af med nævneren ved hjælp af formlen for den samlede sandsynlighed . For 'f Y ( y ) bliver dette et integral:

Bayes' regel

Bayes' regel er en modificeret Bayes' sætning:

hvor

Dette kaldes Bayes' regel eller likelihood ratio. Forskellen i sandsynligheden for, at to begivenheder indtræffer, er simpelthen forholdet mellem sandsynligheden for de to begivenheder. På denne måde

, ,

Afledning af formler

Til begivenheder

Bayes' sætning kan udledes af definitionen af ​​sandsynlighed :

For tilfældige variabler

For to kontinuerte stokastiske variable X og Y kan Bayes' sætning på lignende måde udledes af definitionen af ​​en betinget fordeling :

Se også

Noter

  1. Kahneman, et al., 2005 , s. 153-160.
  2. Bayes, Thomas og Price, Richard (1763). "Et essay om at løse et problem i tilfældighedslæren. Af afdøde Rev. Hr. Bayes, meddelt af Mr. Price, i et brev til John Canton, MA og FRS." Philosophical Transactions of the Royal Society of London 53: 370-418. (utilgængeligt link) . Hentet 21. april 2010. Arkiveret fra originalen 10. april 2011. 
  3. Jeffreys, Harold (1973), Scientific Inference (3. udgave), Cambridge University Press, s. 31, ISBN 978-0-521-18078-8

Litteratur

  • Gmurman V. E. Sandsynlighedsteori og matematisk statistik, - M . : Højere uddannelse. 2005
  • Bedømmelse under usikkerhed: heuristik og skævheder / Daniel Kahneman, et al. — 21. - Cambridge University Press, 2005. - 555 s. - ISBN 978-0-521-28414-1 .
  • Eliezer Yudkowsky . Visuel forklaring af Bayes' sætning

For yderligere undersøgelse

  • McGrayne, Sharon Bertsch. Teorien der ikke ville dø: Hvordan Bayes' styre knækkede gådekoden, jagede russiske ubåde og kom triumferende ud af to århundreders  kontroverser . - Yale University Press , 2011. - ISBN 978-0-300-18822-6 .
  • Andrew Gelman, John B. Carlin, Hal S. Stern og Donald B. Rubin (2003), Bayesian Data Analysis, anden udgave, CRC Press.
  • Charles M. Grinstead og J. Laurie Snell (1997), "Introduction to Probability (2nd edition)", American Mathematical Society (gratis pdf tilgængelig [1] .
  • Pierre-Simon Laplace. (1774/1986), "Memoir om sandsynligheden for årsagerne til begivenheder", Statistical Science 1(3):364-378.
  • Peter M. Lee (2012), Bayesian Statistics: An Introduction, Wiley.
  • Rosenthal, Jeffrey S. (2005): "Struck by Lightning: The Curious World of Probabilities." Harper Collings.
  • Stephen M. Stigler (1986), "Laplace's 1774 Memoir on Inverse Probability", Statistical Science 1(3):359-363.
  • Stone, JV (2013). Kapitel 1 i bogen Bayes' Rule: A Tutorial Introduction , University of Sheffield, England.

Links