Bayes koefficient

Den Bayesianske koefficient  er et Bayesiansk alternativ til statistisk hypotesetestning [1] [2] . Bayesian Model Comparison  er en metode til at vælge modeller baseret på Bayes-koefficienter. De diskuterede modeller er statistiske modeller [3] . Formålet med Bayes-koefficienten er at kvantificere støtten af ​​en model over en anden model, uanset om modellerne er korrekte eller ej [4] . Den tekniske definition af "støtte" i sammenhæng med Bayesiansk slutning er givet nedenfor.

Definition

Bayes-koefficienten er sandsynlighedsforholdet for den marginale sandsynlighed for to hypoteser, normalt nulhypotesen og alternativet [5] .

Den bageste sandsynlighed for en model M givet af data D er givet ved Bayes' sætning :

Det nøgledataafhængige udtryk er sandsynligheden for model M givet data D , og ​​det repræsenterer sandsynligheden for, at nogle af dataene opnås, forudsat at model M er accepteret . Den korrekte beregning af dette udtryk er nøglen til Bayesiansk sammenligning af modeller.

Givet et modelvalgsproblem , hvor vi skal vælge mellem to modeller baseret på observerede data D , er den relative sandsynlighed for to forskellige modeller M 1 og M 2 , parametriseret af parametervektorerne og , givet af Bayes-koefficienten K , defineret som

Hvis to modeller a priori er lige sandsynlige, så er Bayes-koefficienten lig med forholdet mellem de posteriore sandsynligheder for modellerne M 1 og M 2 . Hvis sandsynligheden svarende til det maksimale sandsynlighedsestimat af parameteren for hver statistisk model anvendes i stedet for Bayes-koefficientintegralet , så bliver testen en klassisk sandsynlighedsratiotest . I modsætning til sandsynlighedsforholdstesten afhænger Bayesiansk modelsammenligning ikke af et bestemt sæt parametre, da det beregnes ved at integrere over alle parametre i hver model (under hensyntagen til tidligere sandsynligheder ). Fordelen ved at bruge Bayes-koefficienter er dog, at de automatisk og helt naturligt indeholder en straf for overinkorporering af modelstruktur [6] . Dette beskytter mod overtræning . I tilfælde af modeller, for hvilke den eksplicitte form af sandsynlighedsfunktionen er ukendt, eller dens beregning er for dyr, kan omtrentlige Bayesianske beregninger [7] bruges til Bayesiansk modelvalg [en] [7] , selvom det bør være taget i betragtning, at det omtrentlige Bayesianske estimat af Bayes-koefficienter ofte er skævt [8] .

Andre tilgange:

Fortolkning

En værdi på K > 1 betyder, at hypotese M 1 er stærkere understøttet af dataene end hypotese M 2 . Bemærk, at klassisk statistisk hypotesetestning som standard er en enkelt hypotese (eller model) (" nulhypotesen ") og kun betragter beviserne imod den. Harold Jeffries giver en tabel til fortolkning af den opnåede værdi af K [9] :

K dhart stykker Bevisvægt
< 10 0 0 Negativ (understøtter M 2 )
10 0 ...10 1/2 0...5 0...1,6 Knap bemærkelsesværdigt
10 1/2 ...10 1 5...10 1.6...3.3 Væsentlig
10 1 ...10 3/2 10...15 3.3...5.0 stærk
10 3/2 ...10 2 15...20 5.0...6.6 Meget stærk
> 10 2 > 20 > 6,6 overbevisende

Den anden kolonne angiver de tilsvarende støttevægte i enheder af decihartli (også kendt som decibans ), bit tilføjet i den tredje kolonne for klarhedens skyld. Ifølge I. J. Good kan mennesker i hverdagen næppe med rimelighed vurdere forskellen i graden af ​​tillid til hypotesen svarende til en vægtændring på 1 deciban eller 1/3 bit (f.eks. et udfaldsforhold på 4:5 i 9 forsøg med to mulige udfald) [10] .

En alternativ, bredt citeret tabel er blevet foreslået af Kass og Raftery (1995) [6] :

log 10 K K Bevisvægt
0 til 1⁄2 _ _ 1 til 3.2 Værd blot at nævne
fra 1⁄2 til 1 _ fra 3,2 til 10 Positiv
1 til 2 fra 10 til 100 stærk
> 2 > 100 Meget stærk

Brugen af ​​Bayes-koefficienter eller klassisk statistisk hypotesetestning sker i sammenhæng med inferens , ikke beslutningstagning under usikkerhed . Det vil sige, at vi kun ønsker at finde ud af, hvilken hypotese der er korrekt, frem for at tage en reel beslutning baseret på den information. Frekvensstatistik skelner nøje mellem de to tilgange, da klassiske hypotesetestmetoder ikke er sammenhængende i Bayesiansk forstand. Bayesianske procedurer, herunder Bayes-koefficienter, er sammenhængende, så der er ingen grund til at skelne mellem dem. Inferens ses så simpelthen som et særligt tilfælde af beslutningstagning under usikkerhed, hvor den endelige handling er at returnere en værdi. Til beslutningstagning kan statistikere, der bruger den Bayesianske tilgang, bruge Bayes-koefficienten sammen med en forudgående fordeling og en tabsfunktion . I sammenhæng med output vil tabsfunktionen have form af reglen for beregning af resultatet . Brug af den logaritmiske scoringsregel resulterer for eksempel i forventet nytte , som tager form af Kullback-Leibler divergensen .

Eksempel

Lad os sige, at vi har en tilfældig variabel , der kræver enten succes eller fiasko. Vi ønsker at sammenligne en model M 1 , hvor sandsynligheden for succes er q = ½ , og en anden model M 2 , hvor værdien af ​​q er ukendt, og vi tager som den forudgående fordeling for q den ensartede fordeling på [0,1 ]. Vi laver 200 forsøg og får 115 succeser og 85 fiaskoer. Sandsynligheden kan beregnes i henhold til binomialfordelingen :

Så har vi til hypotesen M 1

mens for M 2

Forholdet mellem disse værdier er 1,197..., derfor er forskellen "næppe bemærkelsesværdig", selvom valget hælder lidt mod M 1 .

Test af disse statistiske hypoteser på basis af frekvensinferensen M 1 (her betragtet som nulhypotesen ) vil give et helt andet resultat. En sådan test angiver, at M1-hypotesen skal forkastes på 5 % signifikansniveau, da sandsynligheden for at opnå 115 eller flere succeser fra en stikprøve på 200 emner ved q = ½ er 0,0200, og den tosidede test for opnåelse af et ekstremum på 115 eller mere giver 0,0400. Bemærk, at 115 adskiller sig fra 100 med mere end to standardafvigelser . Således, mens test af en statistisk hypotese baseret på frekvensinferens giver statistisk signifikans på 5%-niveauet, er det usandsynligt, at Bayes' koefficient vil acceptere dette som et ekstremt resultat. Bemærk dog, at en ikke-homogen forudgående fordeling (f.eks. en, der afspejler forventningen om, at antallet af succeser og fiaskoer vil være af samme størrelsesorden) kan resultere i en Bayesiansk koefficient, der er mere i overensstemmelse med frekvensinferenstestning .

I en klassisk sandsynlighedsratiotest ville det maksimale sandsynlighedsestimat for q blive fundet at være 115 200 = 0,575 , hvorfra

(i stedet for at tage et gennemsnit over alle mulige q ). Dette giver et sandsynlighedsforhold på 0,1045 og peger på M 2 - hypotesen .

M 2 er en mere kompleks model end M 1 , fordi den har en fri parameter, der giver dig mulighed for at beskrive dataene mere konsekvent. Bayes-koefficienternes evne til at tage højde for dette er årsagen til , at Bayesiansk slutning fremsættes som en teoretisk begrundelse og generalisering af Occams barbermaskine , hvor type I-fejl reduceres [11] .

På den anden side tager den moderne relative sandsynlighedsmetode højde for antallet af frie modelparametre, i modsætning til det klassiske sandsynlighedsforhold. Metoden med relativ sandsynlighed kan anvendes som følger. Model M 1 har 0 parametre, og derfor er dens Akaike Information Criterion (AIC) værdi 2 · 0 − 2 ln 0,005956 ≈ 10,2467 . Model M 2 har 1 parameter, og derfor er dens AIC-værdi 2 · 1 − 2 ln 0,056991 ≈ 7,7297 . Derfor er det mindre sandsynligt, at M 1 minimerer informationstab end M 2 , tilnærmelsesvis med en faktor på exp((7,7297 − 10,2467)/2) ≈ 0,284 gange. M 2 er således en smule at foretrække, men M 1 kan ikke kasseres.

Ansøgning

Se også

Statistiske indikatorer

Noter

  1. Goodman (1), 1999 , s. 995-1004.
  2. Goodman (2), 1999 , s. 1005-13.
  3. Morey, Romeijn, Rouder, 2016 , s. 6-18.
  4. Ly, Verhagen, Wagenmakers, 2016 , s. 19-32.
  5. Godt, Hardin, 2012 , s. 129-131.
  6. 1 2 Kass, Raftery, 1995 , s. 791.
  7. Toni, Stumpf, 2009 , s. 104-10.
  8. Robert, Cornuet, Marin, Pillai, 2011 , s. 15112–15117.
  9. Jeffreys, 1961 , s. 432.
  10. Godt, 1979 , s. 393-396.
  11. Skærpning af Ockhams barberkniv på en Bayesiansk strop . Hentet 5. januar 2019. Arkiveret fra originalen 12. september 2015.
  12. Hajiramezanali, Dadaneh, Figueiredo, Sze, Zhou, Qian, 2018 .

Litteratur

Link