Bayesiansk hierarkisk modellering

Bayesiansk hierarkisk modellering  er en statistisk model , skrevet i form af flere niveauer (i en hierarkisk form), der estimerer parametrene for den posteriore fordeling ved hjælp af den Bayesianske metode [1] . Undermodellerne kombineres til en hierarkisk model, og Bayes' sætning bruges til at kombinere dem med de observerede data og tage højde for eventuelle tilstedeværende usikkerheder. Resultatet af denne forening er den posteriore fordeling, også kendt som det raffinerede sandsynlighedsestimat, efter at der er opnået mere information om den forudgående sandsynlighed .

Introduktion

Frekvensstatistik , det mest populære grundlag for statistik , kan give en konklusion i udseende, der ikke stemmer overens med den konklusion som Bayesiansk statistik giver, eftersom den Bayesianske tilgang behandler parametre som tilfældige variable og bruger subjektiv information til at etablere antagelser om disse parametre [2] . Da tilgangene besvarer forskellige spørgsmål, er de formelle resultater ikke teknisk inkonsistente, men de to tilgange er uenige om, hvilket svar der gælder for bestemte applikationer. Bayesianere hævder, at beslutningsrelevant information og tillidsopdateringer ikke kan ignoreres, og at hierarkisk modellering har potentialet til at have forrang frem for klassiske metoder i applikationer, hvor respondenten giver flere valg af observationsdata. Desuden har modellen vist sig at være robust med mindre følsomhed af den posteriore fordeling over for variable hierarkiske priors.

Hierarkisk modellering bruges, når information er tilgængelig på flere forskellige niveauer af observerede mængder. Den hierarkiske type analyse og repræsentation hjælper med at forstå multi-parameter problemer og spiller en vigtig rolle i udviklingen af ​​beregningsstrategier [3] .

Filosofi

Talrige statistiske applikationer bruger flere parametre, der kan opfattes som afhængige eller relaterede på en sådan måde, at problemet antager, at den fælles sandsynlighedsmodel for disse parametre er afhængig [4] .

Individuelle grader af tillid, udtrykt i form af sandsynligheder, har deres egen usikkerhed [5] . Derudover kan graden af ​​sikkerhed ændre sig over tid. Som professor José M. Bernardo og professor Adrian F. Smith har udtalt: "Relevansen af ​​læringsprocessen ligger i udviklingen af ​​individuel og subjektiv tillid til virkeligheden." Disse subjektive sandsynligheder er mere direkte involveret i sindet end fysiske sandsynligheder [6] . Derfor kræver dette en opdatering af tillid, og Bayesianister har formuleret en alternativ statistisk model, der tager højde for a priori forekomster af en bestemt begivenhed [7] .

Bayes' sætning

Den formodede modtagelse af en virkelig begivenhed ændrer normalt præferencer mellem visse muligheder. Dette gøres ved at ændre graden af ​​tillid til de begivenheder, der bestemmer mulighederne [8] .

Antag, at ved undersøgelse af effektiviteten af ​​hjerteterapi for patienter på hospital j , som har overlevelsessandsynlighed , opdateres overlevelsessandsynligheden ved hændelsen y , der genererer et hypotetisk tvivlsomt serum, som nogle mener øger overlevelsen for patienter med hjerteproblemer.

For at kunne lave opdaterede udsagn om sandsynligheden for, at hændelsen y indtræffer , skal vi starte med en model, der giver en fælles sandsynlighedsfordeling for og y . Dette kan skrives som produktet af to fordelinger, ofte omtalt som henholdsvis den foregående og prøveudtagningsfordelingen :

Hvis man bruger den grundlæggende egenskab af betinget sandsynlighed , vil den posteriore fordeling give:

Ligheden, der viser forholdet mellem betinget sandsynlighed og individuelle begivenheder, er kendt som Bayes' sætning. Dette enkle udtryk legemliggør den tekniske kerne af Bayesiansk inferens, som sigter mod at inkludere opdateret tillid på en relevant og løselig måde [8] .

Permutabilitet

Et almindeligt udgangspunkt for statistisk analyse er at antage, at n værdier permuterer. Hvis ingen anden information end data y er tilgængelig for at skelne nogen fra nogen anden, og der ikke kan foretages en rækkefølge eller gruppering af parametrene, bør parametrenes symmetri med hensyn til deres tidligere sandsynlighed [9] antages . Denne symmetri er repræsenteret ved sandsynlighed permutabilitet. Det er normalt nyttigt og acceptabelt at modellere data fra en permutationsfordeling som uafhængige og ligeligt fordelte givet en ukendt vektor af parametre med fordeling .

Endelig permutabilitet

For et fast tal n er et sæt permuterbart , hvis fællesfordelingen er invariant under indekspermutationer . Det vil sige for enhver permutation eller af indekser (1, 2, …, n ), [10]

Nedenfor er et eksempel på en permuterbar, men ikke uafhængig og identisk fordelt sekvens: Overvej en urne med røde og blå kugler med sandsynlighed for at trække kugler. Kuglerne trækkes ud uden at gå tilbage til urnen, det vil sige, efter at en af ​​de n kugler er trukket ud, er der n − 1 kugler tilbage i urnen  til næste tegning.

Lade hvis den -. kugle er rød
Ellers.

Da sandsynligheden for at trække en rød kugle ved det første udtræk og en blå kugle ved den anden udtrækning er lig med sandsynligheden for at trække en blå kugle ved det første udtræk og en rød kugle ved det andet, som begge er lig med 1/2 (dvs. ), så pendler de .

Sandsynligheden for at vælge en rød bold ved den anden lodtrækning vil dog ikke længere være 1/2. Således, og er ikke uafhængige.

Hvis de er uafhængige og ligeligt fordelte, så er de permutable, men det modsatte er ikke nødvendigvis sandt [11] .

Uendelig permutabilitet

Uendelig permutabilitet er en sådan egenskab, at enhver endelig delmængde af en uendelig sekvens er permuterbar. Det vil sige, for enhver n permuterer sekvensen [11] .

Hierarkiske modeller

Komponenter

Bayesiansk hierarkisk modellering bruger to vigtige begreber til at udlede den posteriore fordeling [1] , nemlig:

  1. Hyperparameter : tidligere distributionsparametre
  2. Hyperprior distributions : hyperparameter distributioner

Lad os antage, at den stokastiske variabel Y har en normalfordeling med parameteren θ som middelværdi og parameteren 1 som varians , dvs. Antag at parameteren har en fordeling givet ved en normalfordeling med middelværdi og varians 1 , dvs. Derudover er en anden fordeling givet, for eksempel af standard normalfordelingen . Parameteren kaldes en hyperparameter, mens dens fordeling, angivet som , er et eksempel på en hyperforudgående fordeling. Notationen for Y ændres ved tilføjelse af en anden parameter, dvs. Hvis der er et andet niveau, f.eks. er en anden normalfordeling med middelværdi og varians , hvilket betyder , så og kan også kaldes hyperparametre, og deres fordelinger er hyperprior-fordelinger [4] .

System

Lad være observationer og være en parameter, der styrer generationsprocessen . Antag yderligere, at parametrene er genereret af permutationer fra hovedpopulationen med en fordeling styret af hyperparameteren .

Den Bayesianske hierarkiske model indeholder følgende niveauer:

Niveau I: Niveau II: Niveau III:

Sandsynligheden, set fra niveau I, er , c som dens tidligere fordeling. Bemærk, at sandsynligheden kun afhænger af gennem .

Den tidligere distribution fra Tier I kan opdeles i:

[fra definitionen af ​​betinget sandsynlighed]

hvor er en hyperparameter med hyperprioritetsfordeling .

Så er den posteriore fordeling proportional med denne mængde:

[ved hjælp af Bayes' sætning] [12]

Eksempel

For at illustrere, overvej et eksempel: En lærer ønsker at evaluere, hvor godt en elev klarede sig på deres SAT -test ( Scholastic Assessment Test [13] ) .  Den bruger oplysninger om eleven i gymnasiet og deres nuværende karaktergennemsnit (GPA) til at få en karakter . Den nuværende GPA, betegnet med , har en sandsynlighed givet af en eller anden sandsynlighedsfunktion med en parameter , det vil sige . Denne parameter er den studerendes SAT-score. SAT-scoren betragtes som en stikprøveenhed udtaget fra den samlede stikprøve afledt af fordelingen af ​​den generelle befolkning, indekseret med en anden parameter , som er elevens high school-score [14] . Det vil sige . Desuden har hyperparameteren sin egen fordeling med funktionen , som kaldes hyperprior-fordelingen.  

For at få SAT-score fra GPA-oplysninger,

Alle oplysninger i opgaven vil blive brugt til at opnå den posteriore fordeling. I stedet for at løse kun ved hjælp af prior- og likelihood-funktionen, giver brugen af ​​hyperprior-fordelinger mere information, hvilket fører til mere tillid til parameterens adfærd [15] .

To-niveau hierarkisk model

I det generelle tilfælde er den fælles posteriore fordeling af 2-niveaus hierarkiske modeller af interesse for os:

[femten]

Tre-niveau hierarkisk model

For 3-niveau hierarkiske modeller er den bageste fordeling givet som følger:

[femten]

Noter

  1. 1 2 Allenby, Rossi, McCulloch, 2005 , s. 3.
  2. Gelman, Carlin, Stern, Rubin, 2004 , s. 4-5.
  3. Gelman, Carlin, Stern, Rubin, 2004 , s. 6.
  4. 1 2 Gelman, Carlin, Stern, Rubin, 2004 , s. 117.
  5. Godt, 1980 , s. 480.
  6. Godt, 1980 , s. 489-490.
  7. Bernardo og Smith, 1994 , s. 23.
  8. 1 2 Gelman, Carlin, Stern, Rubin, 2004 , s. 6-8.
  9. Dickey og Chen 1983 , s. 167-168.
  10. Gelman, Carlin, Stern, Rubin, 2004 , s. 121-125.
  11. 1 2 Diaconis, Freedman, 1980 , s. 745-747.
  12. Kadane og Wasilkowski 1983 , s. 371-372.
  13. "Academic Assessment Test" - en standardiseret test for optagelse på amerikanske højere uddannelsesinstitutioner
  14. Gelman, Carlin, Stern, Rubin, 2004 , s. 120-121.
  15. 1 2 3 Box, Tiao, 1965 .

Litteratur