Valg af statistisk model

Modelvalg  er opgaven med at vælge en statistisk model fra et sæt kandidatmodeller givet de tilgængelige data. I det enkleste tilfælde overvejes et eksisterende datasæt. Opgaven kan dog involvere design af eksperimenter , således at dataindsamling hænger sammen med opgaven med modelvalg. Givet modelkandidater med samme forudsigelige eller forklarende kraft, er den enkleste model sandsynligvis det bedste valg ( Occams barbermaskine ).

Konishi og Kitagawa [1] udtaler: "De fleste problemer i statistisk inferens kan betragtes som problemer relateret til statistisk modellering." Samtidig sagde Cox [2] : "Hvordan oversættelsen fra emneproblemet til den statistiske model udføres, er den mest kritiske del af analysen."

Modelvalg kan også referere til opgaven med at vælge flere repræsentative modeller fra et stort sæt af beregningsmodeller med henblik på beslutningstagning eller optimering under usikkerhed.

Introduktion

I sine enkleste former er modelvalg en af ​​de grundlæggende opgaver for videnskabelig undersøgelse . Definitionen af ​​et princip, der forklarer et sæt observationer, er ofte knyttet direkte til en matematisk model til at forudsige disse observationer. For eksempel, da Galileo udførte sine eksperimenter med et skråplan , viste han, at boldens bevægelse følger parablen forudsagt i hans model.

Med det uendelige antal mulige mekanismer og processer, som data kan give, hvordan kan man overhovedet begynde at vælge den bedste model? Den matematiske tilgang træffer normalt en beslutning blandt et sæt modelkandidater. Dette sæt skal vælges af forskeren. Simple modeller såsom polynomier bruges ofte , i det mindste i begyndelsen. Burnham og Andersen [3] understreger i deres bog vigtigheden af ​​at vælge modeller baseret på videnskabelige principper, såsom forståelse af fænomenologiske processer eller mekanismer (f.eks. kemiske reaktioner) for dataene.

Når et sæt modelkandidater er blevet udvalgt, tillader statistisk analyse udvælgelsen af ​​de bedste af disse modeller. Hvad ordet bedst betyder, er et diskutabelt spørgsmål. En god modeludvælgelsesteknik vil balancere mellem modeltilstrækkelighed og enkelhed. Mere komplekse modeller kan være bedre i stand til at passe til dataene (for eksempel kan et femtegrads polynomium repræsentere præcis seks punkter), men de ekstra parametre er måske ikke nyttige (måske er de seks punkter faktisk tilfældigt fordelt langs en lige linje). Tilpasningen af ​​en model bestemmes normalt ved hjælp af eller en tilnærmelse til sandsynlighedsforholdet , hvilket resulterer i en chi-kvadrat-test . Kompleksitet måles generelt ved at tælle antallet af modelparametre .

Modeludvælgelsesteknikker kan opfattes som estimater af en fysisk størrelse, såsom sandsynligheden for, at en model vil producere de tilgængelige data. Bias og varians er vigtige indikatorer for kvaliteten af ​​en prædiktor. Ofte overvejes også en præstationsindikator .

Et standardeksempel på modelvalg er kurvetilpasning , hvor vi, givet et sæt punkter og anden generel information (f.eks. når punkterne er resultatet af en stikprøve af uafhængige stokastiske variable ), skal vælge en kurve, der beskriver den funktion, der genererer pointene.

Metoder til udvælgelse af et sæt kandidater i en model

Kriterier

Hvis vi på forhånd begrænser os til kun at overveje autoregressive (AR) modeller, det vil sige, vi antager, at processen Xt følger AR(k) modellen med en ukendt sand orden k, så blev k i lang tid brugt til at bestemme k i sådanne situationer [4]

Mere foretrukket er den almindeligt anvendte pt . [4]

Noget senere blev det foreslået [4]

Bruges ofte

Følgende kriterier anvendes også

Se også

Noter

  1. Konishi, Kitagawa, 2008 , s. 75.
  2. Cox, 2006 , s. 197.
  3. Burnham, Anderson, 2002 .
  4. 1 2 3 4 Informationskriterier . Hentet 30. december 2018. Arkiveret fra originalen 14. april 2018.
  5. Mallows, 1973 , s. 661-675.

Litteratur