Bayesiansk statistik

Bayesiansk statistik er en teori inden for statistikområdet baseret på den Bayesianske fortolkning af sandsynlighed , hvor sandsynligheden afspejler graden af ​​tillid til en hændelse , som kan ændre sig, når ny information indsamles, i modsætning til en fast værdi baseret på en frekvenstilgang [1] . Graden af ​​tillid kan være baseret på a priori viden om begivenheden, såsom resultaterne af tidligere eksperimenter eller personlig tillid til begivenheden. Dette adskiller sig fra en række andre fortolkninger af sandsynlighed , såsom frekvensfortolkningen , der ser sandsynlighed som en grænse for den relative hyppighed af en hændelse, der indtræffer efter et stort antal forsøg [2] .

Introduktion

Bayesianske statistiske metoder bruger Bayes' teorem til at beregne og opdatere sandsynligheder, når nye data modtages. Bayes' sætning beskriver den betingede sandsynlighed for en hændelse baseret på både data og a priori information, eller tillid til hændelsen eller betingelserne forbundet med hændelsen. For eksempel, i Bayesiansk inferens , kan Bayes' sætning bruges til at estimere en parameter for en sandsynlighedsfordeling eller en statistisk model . Fordi Bayesiansk statistik behandler sandsynlighed som en grad af konfidens, kan Bayes' sætning direkte tildele en sandsynlighedsfordeling, der kvantificerer en parameter eller et sæt af parametre [2] .

Bayesiansk statistik er opkaldt efter Thomas Bayes , som formulerede et særligt tilfælde af Bayes' sætning i sit papir udgivet i 1763. I flere artikler udgivet fra slutningen af ​​1700-tallet til begyndelsen af ​​1800-tallet udviklede Pierre-Simon Laplace den Bayesianske fortolkning af sandsynlighed . Laplace brugte, hvad der nu betragtes som Bayesianske metoder til at løse en række statistiske problemer. Mange Bayesianske metoder blev udviklet af senere forfattere, men udtrykket blev ikke brugt til at beskrive sådanne metoder før i 1950'erne. I det meste af det 20. århundrede var Bayesianske metoder uønskede for de fleste statistikere af filosofiske og praktiske årsager. Mange Bayesianske metoder er beregningsintensive, og de fleste af de metoder, der har været brugt i over et århundrede, har været baseret på frekvensfortolkning. Men med fremkomsten af ​​kraftfulde computere og nye algoritmer , såsom Monte Carlo-metoden for Markov-kæder , begynder Bayesianske metoder at blive brugt med stigende intensitet med fremkomsten af ​​det 21. århundrede [2] [3] .

Bayes' sætning

Bayes' sætning er en grundlæggende sætning i Bayesiansk statistik, fordi den bruges af Bayesianske metoder til at opdatere sandsynligheder, som er grader af tillid, når nye data modtages. Givet to hændelser og , er den betingede sandsynlighed , forudsat at det er sandt, udtrykt ved formlen [4] :

hvor . Selvom Bayes' teorem er et grundlæggende resultat af sandsynlighedsteori , har det en specifik fortolkning i Bayesiansk statistik. I ligningen ovenfor repræsenterer det normalt et udsagn (såsom udsagnet om, at en mønt vil komme op i hovedet halvtreds procent af tiden) og repræsenterer et rationale eller nye data, der skal tages i betragtning (såsom resultatet af en række af møntkast). er den forudgående sandsynlighed for hændelsen , som udtrykker tillid til hændelsen, før begrundelsen tages i betragtning. Forudgående sandsynlighed kan også kvantificere viden eller information om en begivenhed . er sandsynlighedsfunktionen , der kan tolkes som sandsynligheden for beviser , givet at hændelsen er indtruffet . Sandsynlighed kvantificerer, i hvilket omfang beviser understøtter en påstand . er den bageste sandsynlighed , sandsynligheden for påstanden efter at have overvejet beviserne . Grundlæggende opdaterer Bayes' sætning a priori sikkerhed efter at have overvejet nye beviser [2] .

Sandsynligheden for bevis kan beregnes ved hjælp af den samlede sandsynlighedsformel . Hvis er en opdeling af rummet af elementære begivenheder , som er sættet af alle udfald af eksperimentet, så [2] [4]

Hvis der er et uendeligt antal udfald, er det nødvendigt at integrere over alle udfald for at beregne ved hjælp af den samlede sandsynlighedsformel. Det er ofte svært at beregne, fordi man skal involvere summering eller integration, hvilket er tidskrævende, så ofte kun produktet af det foregående og sandsynligheden tages i betragtning. Den bageste sandsynlighed er proportional med dette produkt [2] :

Det maksimale posteriore estimat , som er metoden for det posteriore estimat og ofte beregnes i Bayesiansk statistik ved hjælp af matematiske optimeringsmetoder , forbliver det samme. Den posteriore sandsynlighed kan tilnærmes selv uden nøjagtig beregning af værdien ved metoder som Monte Carlo for Markov-kæder eller variationelle Bayesianske metoder [2] .

Bayesianske metoder

Det generelle sæt af statistiske teknikker kan opdeles i en række grene, hvoraf mange har specielle Bayesianske versioner.

Bayesiansk inferens

Bayesiansk inferens refererer til statistisk inferens , hvor usikkerheden i inferensen kvantificeres ved hjælp af sandsynlighed. I klassisk frekvensinferens antages model- og hypoteseparametre at være faste, og sandsynligheder tildeles ikke parametre eller hypoteser i frekvensinferens. For eksempel giver det ikke mening i frekvensslutning eksplicit at angive sandsynligheden for en begivenhed, der kun kan ske én gang, såsom resultatet af det næste kast med en symmetrisk mønt. Det ville dog give mening at sige, at andelen af ​​hoveder, der kommer op, konvergerer til det halve , efterhånden som antallet af møntkast stiger [5] .

Statistiske modeller definerer et sæt statistiske antagelser og processer, der repræsenterer, hvordan stikprøvedata genereres. Statistiske modeller har et sæt parametre, der kan ændres. For eksempel kan en mønt repræsenteres som forsøg med en Bernoulli-fordeling , der simulerer to mulige udfald. Bernoulli-fordelingen har én parameter lig med sandsynligheden for ét udfald, hvilket i de fleste tilfælde er lig med sandsynligheden for at få hoveder [6] . Opbygning af en god model for dataene er central for Bayesiansk inferens. I de fleste tilfælde tilnærmer modellerne kun virkelige processer og tager muligvis ikke højde for nogle faktorer, der påvirker dataene [2] . I Bayesiansk inferens kan sandsynligheder tildeles modelparametre. Parametrene kan repræsenteres som tilfældige variable . Bayesiansk inferens bruger Bayes' teorem til at opdatere sandsynligheder efter at have modtaget flere data [2] [7] .

Statistisk modellering

Formuleringen af ​​statistisk modellering ved hjælp af Bayesiansk statistik har det karakteristiske træk ved at kræve forudgående sandsynligheder for ukendte parametre. Desuden kan de tidligere sandsynlighedsparametre i sig selv have forudgående sandsynligheder, hvilket resulterer i Bayesiansk hierarkisk modellering [8] eller kan være indbyrdes afhængige, hvilket resulterer i Bayesianske netværk .

Design af eksperimenter

Bayesiansk design af eksperimenter inkluderer et koncept kaldet "forudgående tillidspåvirkning". Denne tilgang bruger statistiske analyseteknikker til at inkorporere resultaterne af tidligere eksperimenter i udformningen af ​​det næste eksperiment. Dette opnås ved at opdatere "tilliden" ved brug af forudgående og posteriore fordelinger . Dette giver dig mulighed for at bruge ressourcer af enhver art, når du planlægger eksperimenter. Et eksempel er det flerarmede banditproblem .

Statistiske diagrammer

Statistiske plots inkluderer metoder til dataudforskning, validering af modeltilstrækkelighed osv. Brugen af ​​nogle moderne computerteknikker til Bayesiansk inferens, især forskellige slags Monte Carlo-teknikker til Markov-kæder , har ført til behovet for, ofte grafisk, at verificere tilstrækkeligheden af ​​sådanne beregninger, hvilket afspejler den krævede posteriore sandsynlighed.

Noter

  1. Hvad er Bayesiansk statistik? . deepai.org . Hentet 11. januar 2019. Arkiveret fra originalen 12. februar 2019.
  2. 1 2 3 4 5 6 7 8 9 Gelman, Carlin, Stern et al., 2013 .
  3. Fienberg, 2006 , s. 1-40.
  4. 1 2 Grinstead, Snell, 2006 .
  5. Wakefield, 2013 .
  6. Dette refererer til siden af ​​mønten, den anden side er haler
  7. Congdon, 2014 .
  8. Hajiramezanali, Dadaneh et al., 2018 .

Litteratur

Læsning for yderligere læsning

Links