Bayesiansk evaluering af en løsning

I matematisk statistik og beslutningsteori er et Bayesiansk beslutningsestimat et statistisk estimat , der minimerer den posteriore forventning om en tabsfunktion (det vil sige den posteriore forventning om tab ). Det maksimerer med andre ord den bageste forventning til nyttefunktionen . Inden for rammerne af Bayesiansk teori kan dette estimat defineres som estimatet af det a posteriori maksimum .

Definition

Antag, at den ukendte parameter har en tidligere fordeling . Lad være et estimat af en parameter baseret på nogle målinger af , og lad være en kvadratisk tabsfunktion af , og den Bayesianske risiko for parameteren er , hvor middelværdien overtages fordelingen af : dette definerer risikofunktionen som en funktion af . Så vil et Bayesiansk estimat blive kaldt et sådant estimat , der minimerer den Bayesianske risiko blandt alle andre estimater. Ligeledes minimerer estimatoren, der minimerer det posteriore forventede tab for hvert x , også Bayesiansk risiko og er således en Bayesiansk estimator. [en] $\theta$ $\pi$ ${\hat {\theta }}={\hat {\theta }}(x)$ $\theta$ $x$ $L(\theta ,{\hat {\theta )))$ ${\hat {\theta ))$ $E_{\pi }(L(\theta ,{\hat {\theta ))))$ $\theta$ ${\hat {\theta ))$ ${\hat {\theta ))$ $E(L(\theta ,{\hat {\theta )))\midt x)$

I tilfælde af en forkert forudgående fordeling kaldes et estimat, der minimerer den posteriore tabsforventning for hvert x , et generaliseret Bayesiansk estimat . [2]

Eksempler

Estimering af den mindste rodmiddelværdifejl

Den mest almindeligt anvendte risikofunktion til Bayesiansk estimering er root mean square error-funktionen (omtalt i den engelske litteratur som MSE). Minimum gennemsnitlig kvadratfejl MSE er defineret som $\mathrm {MSE} =E\venstre[({\widehat {\theta }}(x)-\theta )^{2}\right],$

hvor den matematiske forventning er taget fra fællesfordelingen og . $\theta$ $x$

Posterior middelværdi

Hvis vi bruger MSE som en risikofunktion, så er det Bayesianske estimat af den ukendte parameter simpelthen middelværdien af den posteriore fordeling : [3]

${\widehat {\theta }}(x)=E[\theta |x]=\int \theta p(\theta |x)\,d\theta .$

Dette er kendt som det mindste gennemsnitlige kvadratiske fejlestimat. Bayesisk risiko er i dette tilfælde den posteriore varians.

Bayesiansk risiko for konjugatet tidligere

I tilfælde, hvor der ikke er nogen god grund til at foretrække en prior frem for en anden, bruges den konjugerede prior for nemheds skyld . Det er defineret som en tidligere fordeling, der tilhører en parametrisk familie, hvis resulterende posteriore fordeling også tilhører denne familie. Dette er en vigtig egenskab, fordi det Bayesianske estimat såvel som dets statistiske karakteristika ( varians , konfidensinterval osv.) kan udledes af den posteriore fordeling.

Den er især anvendelig ved sekventiel estimering, hvor den bageste fordeling af de aktuelle målinger bruges som prior i næste måling. Med hver ny iteration af sådanne målinger bliver den posteriore fordeling normalt mere kompleks, og ofte kan det Bayesianske estimat ikke beregnes uden brug af numeriske metoder .

Nogle eksempler på konjugerede priors:

Hvis x|θ er normalfordelt , x|θ ~ N(θ,σ 2 ) og den forudgående fordeling også er normal, θ ~ N(μ,τ 2 ), så er den posteriore fordeling også normalfordelt og den Bayesianske estimator under MSE er givet af:

${\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\ tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.$

Hvis x 1 ,…,x n er lige meget uafhængige Poisson stokastiske variable x i |θ ~ P(θ), og hvis a priori er fordelt over gammafordelingen θ ~ G(a, b), så har den bageste også en gammafordeling, og det Bayesianske estimat under MSE er givet af:

${\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+{\frac {1}{b}}}}.$

Hvis x 1 ,…,x n er uafhængige lige kontinuerligt ensartet fordelte stokastiske variable x i |θ~U(0,θ), og prioren har en Pareto-fordeling θ~Pa(θ 0 ,a), så har den posterior også en Pareto-fordeling og Bayesiansk estimering under MSE er givet som:

${\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})} }{a+n-1}}.$

Alternative risikofunktioner

Risikofunktionerne vælges afhængigt af, hvordan intervallet mellem estimatet og den ukendte parameter måles. MSE er den mest brugte risikofunktion, primært på grund af dens enkelhed. Der bruges dog nogle gange alternative risikofunktioner. Det følgende er nogle eksempler på sådanne alternativer. Yderligere er den bageste generaliserede distributionsfunktion betegnet som . $F$

Posterior median og andre kvantiler

En "lineær" tabsfunktion med , der vælger medianen af den posteriore fordeling som Bayesiansk estimat: $a>0$

L(\theta ,{\widehat {\theta )))=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta ))(x)|X)={\tfrac {1}{2)).

En anden "lineær" tabsfunktion, der tildeler forskellige "vægte" til toppen eller bunden af estimatet. Den vælger en kvantil fra den posteriore fordeling og er en generalisering af den tidligere tabsfunktion. $a,b>0$

L(\theta ,{\widehat {\theta )))={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta - {\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\ slut{cases}}

F({\widehat {\theta ))(x)|X)={\frac {a}{a+b)).

Estimering af a posteriori maksimum

Den næste tabsfunktion er mere kompleks: den etablerer et estimat af det posteriore maksimum , eller et punkt tæt på det, afhængigt af krumningen og karakteristikaene for den posteriore fordeling. Små parameterværdier anbefales for at bruge metoden som en tilnærmelse $K>0$

( ): $L>0$

L(\theta ,{\widehat {\theta )))={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\ \L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Selvom middelkvadrat-fejlfunktionen er den mest almindelige og gyldige, kan andre tabsfunktioner bruges.

Generaliserede Bayesianske estimatorer

Hidtil er det blevet antaget, at den tidligere fordeling er den sande sandsynlighedsfordeling, da $s$

\int p(\theta )d\theta =1.

Men nogle gange kan dette være et for strengt krav. For eksempel er der ingen sådan fordeling (der dækker hele mængden R af reelle tal), hvor hvert reelt tal ville være lige muligt. Men i en vis forstand synes en sådan fordeling at være et naturligt valg for en ikke-informativ prior , det vil sige en prior, der ikke favoriserer en eller anden fast værdi af den ukendte parameter. Det er stadig muligt at definere funktionen , men dette vil ikke længere være en korrekt sandsynlighedsfordeling, da den har en uendelig masse. $p(\theta )=1$

\int {p(\theta )d\theta }=\infty .

Sådanne sæt mål er forkerte forudgående fordelinger . $p(\theta)$

Brugen af forkerte priors betyder, at den Bayesianske risiko ikke er defineret (fordi den givne prior faktisk ikke er en sandsynlighedsfordeling, og vi kan ikke tage den forventede værdi fra den). Derfor er det forkert at tale om en Bayesiansk estimator, der minimerer Bayesiansk risiko. Hvorom alting er, kan man beregne den posteriore fordeling som

p(\theta |x)={\frac {p(x|\theta )p(\theta )}{\int p(x|\theta )p(\theta )d\theta )).

Husk at Bayes' sætning kun gælder for velformede distributioner, så det er ikke muligt at bruge det her. Der er dog ofte tilfælde, hvor den resulterende posteriore fordeling vil tillade sådanne sandsynlighedsfordelinger. I dette tilfælde forventede det bageste tab

$\int {L(\theta ,a)p(\theta |x)d\theta }$

veldefineret og begrænset. Husk, at for en korrekt fordeling minimerer Bayesianske estimater det posteriore tab. Når den tidligere fordeling er forkert, kaldes estimatoren, der minimerer den bageste forventning om tabet, den generaliserede Bayesianske estimator .

Empiriske Bayesianske skøn

Bayesianske estimatorer fremstillet ved den empiriske Bayes-metode kaldes empiriske Bayesianske estimatorer . Denne metode tillader brugen af understøttende data i udviklingen af en Bayesiansk estimator. De kan opnås empirisk ved at observere tilstødende parametre. Dette gøres ud fra den antagelse, at de estimerede parametre er taget fra de samme tidligere data. For eksempel, hvis der laves uafhængige observationer for forskellige parametre, er det nogle gange muligt at forbedre effektiviteten ved at estimere en bestemt parameter ved at bruge data fra andre observationer.

Der er parametriske og ikke-parametriske teknikker til empiriske Bayesianske estimater. Parametriske er at foretrække, fordi de er mere anvendelige og mere nøjagtige på små mængder data. [fire]

Egenskaber

Tilladelse

Bayesianske regler, der har en begrænset Bayesiansk risiko, er normalt gyldige. Følgende er nogle eksempler på antagelighedsteoremer.

Hvis den Bayesianske beslutningsregel er unik, er den acceptabel. [5] For eksempel, som nævnt ovenfor, er den bayesianske regel under middelkvadratfejlen (MSE) unik og derfor gyldig.
Hvis parameteren θ tilhører et diskret sæt , er alle Bayesianske regler gyldige.
Hvis parameteren θ tilhører et kontinuerligt (ikke-diskret sæt), og risikofunktionen R(θ,δ) er kontinuert i θ for hver δ, så er alle Bayesianske regler gyldige.

Samtidig definerer den generaliserede Bayesianske regel ofte ikke Bayesiansk risiko i tilfælde af en forkert forudgående fordeling. Disse regler er ofte ugyldige, og det kan være svært at validere dem. For eksempel er et generaliseret Bayesiansk estimat af forskydningen af parameteren θ, baseret på en prøve med en normalfordeling, ugyldigt for . Dette paradoks er kendt som Steins paradoks. eksempel $p>2$

Praktiske eksempler på brugen af Bayesianske estimater

Internet Movie Database bruger en speciel formel til at beregne og sammenligne filmvurderinger af brugere. Følgende Bayesianske formel blev oprindeligt brugt til at beregne det vægtede gennemsnit for Top 250-filmene, selvom formlen siden er ændret:

W={Rv+Cm \over v+m}\

hvor:

W\

= vægtet vurdering

R\

= gennemsnitlig filmbedømmelse, udtrykt som et tal fra 1 til 10 = (bedømmelse)

v\

= antal stemmer til filmen = (stemmer)

m\

= vægt givet af a priori rating (estimering er baseret på fordelingen af den gennemsnitlige rating blandt alle film)

C\

= gennemsnitlig bedømmelse på tværs af alle film (aktuelt 7,0)

IMDB's tilgang sikrer, at en film, der er bedømt flere hundrede gange udelukkende med en 10-rating, ikke kan klatre højere end for eksempel The Godfather, som har en gennemsnitlig vurdering på 9,2 fra over 500.000 brugere.

Se også

Bayesiansk programmering

Noter

↑ Lehmann og Casella, sætning 4.1.1
↑ Lehmann og Casella, definition 4.2.9
↑ Jaynes , E.T. Sandsynlighedsteori: videnskabens logik . - 5. print.. - Cambridge [ua]: Cambridge University Press , 2007. - S. 172. - ISBN 978-0-521-59271-0 .
↑ Berger (1980), afsnit 4.5.
↑ Lehmann og Casella (1998), sætning 5.2.4.