Bayes' sætning (eller Bayes' formel ) er en af hovedsætningerne i elementær sandsynlighedsteori , som giver dig mulighed for at bestemme sandsynligheden for en hændelse, forudsat at en anden hændelse, der er statistisk afhængig af den, er indtruffet. Med andre ord er det ifølge Bayes-formlen muligt mere præcist at genberegne sandsynligheden under hensyntagen til både tidligere kendt information og data fra nye observationer. Bayes' formel kan udledes af sandsynlighedsteoriens grundlæggende aksiomer, især fra betinget sandsynlighed . Et træk ved Bayes-sætningen er, at dens praktiske anvendelse kræver et stort antal beregninger, beregninger, så Bayesianske estimater begyndte først at blive brugt aktivt efter revolutionen inden for computer- og netværksteknologier.
Da Bayes' sætning opstod, var de sandsynligheder, der blev brugt i sætningen, underlagt en række sandsynlighedsfortolkninger. En af disse fortolkninger sagde, at udledningen af formlen er direkte relateret til anvendelsen af en særlig tilgang til statistisk analyse. Hvis vi bruger den Bayesianske fortolkning af sandsynlighed , så viser sætningen, hvordan det personlige tillidsniveau kan ændre sig dramatisk på grund af antallet af hændelser, der har fundet sted. Dette er konklusionen fra Bayes, som blev grundlæggende for Bayesiansk statistik. Sætningen bruges dog ikke kun i Bayesiansk analyse, men bruges også aktivt til en lang række andre beregninger.
Psykologiske eksperimenter [1] har vist, at folk ofte fejlagtigt estimerer den reelle (matematisk korrekte) sandsynlighed for en begivenhed baseret på nogle erfaringer ( a posteriori sandsynlighed ), fordi de ignorerer selve sandsynligheden for en antagelse ( a priori sandsynlighed ). Derfor kan det korrekte resultat ifølge Bayes-formlen være meget anderledes end det intuitivt forventede.
Bayes' sætning er opkaldt efter dens forfatter, Thomas Bayes (1702-1761), en engelsk matematiker og præst, der først foreslog brugen af sætningen til at korrigere overbevisninger baseret på opdaterede data. Hans værk " An Essay to Solving a Problem in the Doctrine of Chances " blev første gang udgivet i 1763 [2] , 2 år efter forfatterens død. Før Bayes' posthume arbejde blev accepteret og læst i Royal Society, blev det i vid udstrækning redigeret og opdateret af Richard Price . Disse ideer blev dog ikke offentliggjort, før de blev genopdaget og udviklet af Pierre-Simon Laplace , som først udgav den moderne formulering af teoremet i sin bog fra 1812 The Analytic Theory of Probability.
Sir Harold Jeffreys skrev, at Bayes' sætning er "for sandsynlighedsteorien, hvad Pythagoras sætning er for geometri " [3] .
Bayes formel : ,hvor — a priori sandsynlighed for hypotese A (se nedenfor for betydningen af en sådan terminologi); er sandsynligheden for hypotese A ved forekomsten af begivenhed B (a posteriori sandsynlighed); er sandsynligheden for at hændelsen B indtræffer, hvis hypotesen A er sand ; er den samlede sandsynlighed for at hændelsen B indtræffer . |
Bayes' formel følger af definitionen af betinget sandsynlighed . Sandsynligheden for en fælles begivenhed udtrykkes på to måder i form af betingede sandsynligheder
følgelig
I problemer og statistiske applikationer beregnes det normalt ved formlen for den samlede sandsynlighed for en begivenhed afhængig af flere inkonsistente hypoteser med en samlet sandsynlighed på 1.
,hvor sandsynligheden under sumtegnet er kendt eller kan estimeres eksperimentelt.
I dette tilfælde er Bayes-formlen skrevet som følger:
Bayes' formel giver dig mulighed for at "omorganisere årsag og virkning": givet det kendte faktum af en begivenhed, beregne sandsynligheden for, at den var forårsaget af en given årsag. Samtidig er det nødvendigt at forstå, at for anvendelsen af teoremet er en årsagssammenhæng mellem og ikke obligatorisk.
Begivenheder, der afspejler handlingen af "årsager" i dette tilfælde kaldes hypoteser , da de er de påståede begivenheder, der forårsagede det givne. Den ubetingede sandsynlighed for hypotesens gyldighed kaldes a priori (hvor sandsynlig årsagen er generelt ), og den betingede, under hensyntagen til begivenhedens kendsgerning, kaldes a posteriori (hvor sandsynligt årsagen viste sig at være , under hensyntagen til data om begivenheden ).
Lad begivenheden - bilen starter ikke, og hypotesen - der er ingen brændstof i tanken. Det er klart, at sandsynligheden for, at bilen ikke starter, hvis der ikke er brændstof i tanken, er lig med én. Som en konsekvens heraf er den bageste sandsynlighed for, at der ikke er brændstof i tanken, hvis bilen ikke starter, dvs. lig med , dvs. forholdet mellem den forudgående sandsynlighed for, at der ikke er brændstof i tanken, og sandsynligheden for, at bilen starter ikke. For eksempel, hvis den forudgående sandsynlighed for, at der ikke er brændstof i tanken, er 0,01, og sandsynligheden for, at bilen ikke starter er 0,02, og en tilfældigt udvalgt bil ikke startede, så er sandsynligheden for, at der ikke er brændstof i dens tank. er 0,5.
Lad sandsynligheden for ægteskab for den første arbejder være , for den anden arbejder - og for den tredje - . Den første lavede delene, den anden lavede delene, og den tredje lavede delene. Formanden tager en tilfældig del, og den viser sig at være defekt. Spørgsmålet er, hvad er sandsynligheden for, at denne del er lavet af den tredje arbejder?
En begivenhed er en defekt del, en begivenhed er en del produceret af en arbejder . Så , hvor , en .
Ifølge den samlede sandsynlighedsformel
Ifølge Bayes formlen får vi:
Entomologen foreslår, at billen kan være en sjælden billeunderart , da den har et mønster på sin krop. Hos de sjældne underarter er 98 % af billerne mønstrede, eller P(mønster | sjælden) = 0,98. Blandt almindelige biller er kun 5% mønstrede: P(mønster | regulær) = 0,05. Der er kun 0,1% af de sjældne arter af biller blandt hele bestanden: P(sjælden) = 0,001. Hvad er sandsynligheden for, at en mønstret bille er en sjælden underart, det vil sige, hvad er P(sjælden | mønster) ?
Fra den udvidede Bayes-sætning får vi (enhver bille kan enten være sjælden eller almindelig):
Lad der være en sygdom med en fordelingshyppighed blandt befolkningen på 0,001 og en diagnostisk undersøgelsesmetode, der med en sandsynlighed på 0,9 identificerer en patient, men samtidig har en sandsynlighed på 0,01 for et falsk positivt resultat - en fejlagtig påvisning af en sygdom hos en rask person ( mere... ). Find sandsynligheden for, at en person er rask, hvis han blev erkendt som syg under undersøgelsen.
Lad os betegne den begivenhed, som undersøgelsen viste, at personen er syg på, som "syg" med anførselstegn, syg - den begivenhed, at personen er virkelig syg, rask - begivenheden, at personen er virkelig rask. Derefter omskrives de givne betingelser som følger:
, mens , betyder:
Sandsynligheden for, at en person er rask, hvis han blev anerkendt som syg, er lig med den betingede sandsynlighed:
For at finde det, beregner vi først den samlede sandsynlighed for at blive anerkendt som patient:
Sandsynligheden for, at en person er rask, hvis resultatet er "syg":
Således er 91,7% af personer, hvis undersøgelse viste resultatet "syge", faktisk raske mennesker. Årsagen til dette er, at sandsynligheden for et falsk positivt resultat, selv om det er lille, alt efter problemets tilstand er en størrelsesorden større end andelen af patienter i den undersøgte gruppe af mennesker.
Hvis de fejlagtige resultater af undersøgelsen kan betragtes som tilfældige, vil en anden undersøgelse af den samme person give et uafhængigt resultat fra den første. I dette tilfælde, for at reducere andelen af falske positive resultater, giver det mening at genundersøge folk, der modtog resultatet "syge". Sandsynligheden for, at en person er rask efter at have modtaget et gentaget resultat af "syg", kan også beregnes ved hjælp af Bayes' formel:
Matematisk viser Bayes' sætning sammenhængen mellem sandsynligheden for begivenhed A og sandsynligheden for begivenhed B, P ( A ) og P ( B ), den betingede sandsynlighed for forekomsten af begivenhed A med eksisterende B og forekomsten af begivenhed B med eksisterende A, P ( A | B ) og P ( B | A).
Generelt ser Bayes-formlen sådan ud:
Betydningen af udtrykket afhænger af, hvordan sandsynligheden i den givne formel fortolkes.
I Bayesiansk fortolkning måler sandsynlighed niveauet af tillid. Bayes' sætning forbinder troværdigheden af en antagelse før og efter at have taget højde for de åbenlyse beviser. For eksempel foreslog nogen, at når en mønt kastes, vil den lande 2 gange oftere med hale op og hoved ned. I første omgang, graden af tillid til, at en sådan begivenhed vil ske, vil mønten falde præcis sådan - 50%. Tillidsniveauet kan stige til 70 %, hvis antagelsen understøttes af beviser. [ ryd op ]
For antagelse (hypotese) A og bevis B
I frekvensfortolkningen beregner Bayes' sætning proportionerne af visse udfald af en begivenhed. Antag, at et eksperiment er blevet kørt mange gange og i nogle tilfælde har resulteret i resultater A og/eller B. Så:
Rollen af Bayes' sætning kan bedst forstås ud fra trædiagrammerne præsenteret til højre. Diagrammerne viser den forskellige rækkefølge af fordeling af begivenheder ved tilstedeværelsen eller fraværet af resultaterne A og B. Bayes' sætning fungerer som et bindeled mellem disse fordelinger.
For hændelser A og B , forudsat at P ( B ) ≠ 0,
Mange tillæg til Bayes' sætning siger, at hændelsen B er kendt, og man skal forstå, hvordan viden om hændelsen B påvirker sikkerheden for, at hændelsen A vil indtræffe. I dette tilfælde er nævneren for det sidste udtryk - sandsynligheden for forekomsten af begivenheden B - er kendt; vi vil ændre A. Bayes' sætning viser, at de posteriore sandsynligheder er proportionale med tælleren:
(Proportionalitet af A for et givet B ). Kort sagt er posterior proportional med prior (se Lee, 2012, kapitel 1).Hvis begivenhederne A 1 , A 2 , ... er gensidigt udelukkende og udtømmende, det vil sige, kun en af begivenhederne er mulig, to begivenheder kan ikke ske samtidigt, vi kan bestemme proportionalitetskoefficienten, med fokus på det faktum, at deres sandsynligheder bør tilføje op til én. For en given begivenhed A er for eksempel selve begivenheden A og dens modsætning ¬ A gensidigt udelukkende og udtømmende. Ved at betegne proportionalitetsfaktoren som C har vi:
og .Ved at kombinere disse to formler får vi det:
Udvidet formOfte er hændelsesrummet (såsom { A j } ) defineret i form af P ( A j ) og P ( B | A j ). Det er i dette tilfælde, at det er nyttigt at bestemme P ( B ) ved at anvende den samlede sandsynlighedsformel :
I særdeleshed
.Overvej rummet af elementære begivenheder Ω dannet af to størrelser X og Y . Grundlæggende gælder Bayes' sætning for begivenhederne A = { X = x } og B = { Y = y }. Udtrykkene bliver dog 0 på punkter, hvor variablen har en endelig sandsynlighedstæthed . For nyttigt at kunne fortsætte med at bruge Bayes' sætning kan man angive det i form af passende tætheder (se Formelafledning ).
Simpel formHvis X er kontinuert og Y er diskret, så
Hvis X er diskret og Y er kontinuert,
Hvis både X og Y er kontinuerlige,
Udvidet formDet kontinuerlige hændelsesrum er ofte defineret som tælleren af betingelserne A. Det kontinuerlige hændelsesrum er ofte repræsenteret som tælleren. I fremtiden er det nyttigt at slippe af med nævneren ved hjælp af formlen for den samlede sandsynlighed . For 'f Y ( y ) bliver dette et integral:
Bayes' regel er en modificeret Bayes' sætning:
hvor
Dette kaldes Bayes' regel eller likelihood ratio. Forskellen i sandsynligheden for, at to begivenheder indtræffer, er simpelthen forholdet mellem sandsynligheden for de to begivenheder. På denne måde
, ,Bayes' sætning kan udledes af definitionen af sandsynlighed :
For to kontinuerte stokastiske variable X og Y kan Bayes' sætning på lignende måde udledes af definitionen af en betinget fordeling :
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |