Valg af statistisk model
Modelvalg er opgaven med at vælge en statistisk model fra et sæt kandidatmodeller givet de tilgængelige data. I det enkleste tilfælde overvejes et eksisterende datasæt. Opgaven kan dog involvere design af eksperimenter , således at dataindsamling hænger sammen med opgaven med modelvalg. Givet modelkandidater med samme forudsigelige eller forklarende kraft, er den enkleste model sandsynligvis det bedste valg ( Occams barbermaskine ).
Konishi og Kitagawa [1] udtaler: "De fleste problemer i statistisk inferens kan betragtes som problemer relateret til statistisk modellering." Samtidig sagde Cox [2] : "Hvordan oversættelsen fra emneproblemet til den statistiske model udføres, er den mest kritiske del af analysen."
Modelvalg kan også referere til opgaven med at vælge flere repræsentative modeller fra et stort sæt af beregningsmodeller med henblik på beslutningstagning eller optimering under usikkerhed.
Introduktion
I sine enkleste former er modelvalg en af de grundlæggende opgaver for videnskabelig undersøgelse . Definitionen af et princip, der forklarer et sæt observationer, er ofte knyttet direkte til en matematisk model til at forudsige disse observationer. For eksempel, da Galileo udførte sine eksperimenter med et skråplan , viste han, at boldens bevægelse følger parablen forudsagt i hans model.
Med det uendelige antal mulige mekanismer og processer, som data kan give, hvordan kan man overhovedet begynde at vælge den bedste model? Den matematiske tilgang træffer normalt en beslutning blandt et sæt modelkandidater. Dette sæt skal vælges af forskeren. Simple modeller såsom polynomier bruges ofte , i det mindste i begyndelsen. Burnham og Andersen [3] understreger i deres bog vigtigheden af at vælge modeller baseret på videnskabelige principper, såsom forståelse af fænomenologiske processer eller mekanismer (f.eks. kemiske reaktioner) for dataene.
Når et sæt modelkandidater er blevet udvalgt, tillader statistisk analyse udvælgelsen af de bedste af disse modeller. Hvad ordet bedst betyder, er et diskutabelt spørgsmål. En god modeludvælgelsesteknik vil balancere mellem modeltilstrækkelighed og enkelhed. Mere komplekse modeller kan være bedre i stand til at passe til dataene (for eksempel kan et femtegrads polynomium repræsentere præcis seks punkter), men de ekstra parametre er måske ikke nyttige (måske er de seks punkter faktisk tilfældigt fordelt langs en lige linje). Tilpasningen af en model bestemmes normalt ved hjælp af eller en tilnærmelse til sandsynlighedsforholdet , hvilket resulterer i en chi-kvadrat-test . Kompleksitet måles generelt ved at tælle antallet af
modelparametre .
Modeludvælgelsesteknikker kan opfattes som estimater af en fysisk størrelse, såsom sandsynligheden for, at en model vil producere de tilgængelige data. Bias og varians er vigtige indikatorer for kvaliteten af en prædiktor. Ofte overvejes også en præstationsindikator .
Et standardeksempel på modelvalg er kurvetilpasning , hvor vi, givet et sæt punkter og anden generel information (f.eks. når punkterne er resultatet af en stikprøve af uafhængige stokastiske variable ), skal vælge en kurve, der beskriver den funktion, der genererer pointene.
Metoder til udvælgelse af et sæt kandidater i en model
Kriterier
Hvis vi på forhånd begrænser os til kun at overveje autoregressive (AR) modeller, det vil sige, vi antager, at processen Xt følger AR(k) modellen med en ukendt sand orden k, så blev k i lang tid brugt til at bestemme k i sådanne situationer [4]
- Akaike Information Criterion (AIC), et mål for tilstrækkeligheden af en statistisk model. Efterfølgende blev det fundet, at Akaikes estimat er uholdbart og asymptotisk overvurderer (overvurderer) den sande værdi af k0 med en sandsynlighed, der ikke er nul [4] .
Mere foretrukket er den almindeligt anvendte pt . [4]
Noget senere blev det foreslået [4]
- Hennan-Quinn informationskriterium , som har hurtigere konvergens til den sande værdi af k0 ved. For små værdier af T undervurderer dette kriterium imidlertid autoregressionsrækkefølgen.
Bruges ofte
Følgende kriterier anvendes også
- Krydsvalidering
- Information Deviation Criteria (DIC), et andet Bayesiansk modelvalgskriterium
- Kriterium for effektiv bestemmelse ( EDC )
- Falsk positiv rate
- Fokuseret informationskriterium (FIC), et kriterium for udvælgelse af statistiske modeller efter deres ydeevne for en given parameter
- Likelihood ratio test, en statistisk test, der bruges til at teste begrænsningerne på parametrene for statistiske modeller estimeret ud fra stikprøvedata.
- Mallows C p statistik . Det menes, at for en god model bør denne statistik tage værdier tæt på antallet af modelparametre (inklusive skæringen) [5] .
- Princippet om minimum beskrivelseslængde ( Algorithmic information theory ) er en formalisering af Occams barbermaskine, hvor den bedste hypotese (model og dens parametre) for et givent datasæt er den, der fører til bedre datakomprimering.
- Minimum længde besked ( Algorithmic information theory )
- Strukturel risikominimering
- Trinvis regression . Målet med trinvis regression er at vælge fra et stort antal prædikater en lille delmængde af variabler, der bidrager mest til variationen af den afhængige variabel.
- Watanabe-Akaike Information Criteria (WAIC), et informationskriterium med bred anvendelse
Se også
Noter
- ↑ Konishi, Kitagawa, 2008 , s. 75.
- ↑ Cox, 2006 , s. 197.
- ↑ Burnham, Anderson, 2002 .
- ↑ 1 2 3 4 Informationskriterier . Hentet 30. december 2018. Arkiveret fra originalen 14. april 2018. (ubestemt)
- ↑ Mallows, 1973 , s. 661-675.
Litteratur
- Mallows CL Nogle kommentarer til CP // Technometrics. - 1973. - T. 15 , no. 4 . - doi : 10.2307/1267380 .
- Aho K., Derryberry D., Peterson T. Modelvalg for økologer: AIC og BICs verdenssyn // Økologi . - 2014. - T. 95 . — S. 631–636 . - doi : 10.1890/13-1452.1 .
- Anderson DR Model Based Inference in the Life Sciences . — Springer, 2008.
- Ando T. Bayesiansk modeludvælgelse og statistisk modellering. — CRC Press , 2010.
- Leo Breiman . Statistisk modellering: de to kulturer // Statistical Science . - 2001. - T. 16 . — S. 199–231 . - doi : 10.1214/ss/1009213726 .
- Burnham KP, Anderson DR Modelvalg og multimodelinferens: En praktisk informationsteoretisk tilgang. — 2. - Springer-Verlag, 2002. - ISBN 0-387-95364-7 . [bog citeret over 38.000 gange på Google Scholar ]
- Chamberlin TC Metoden til flere arbejdshypoteser // Videnskab . - 1890. - T. 15 . - S. 93 . - doi : 10.1126/science.ns-15.366.92 . — . (Genoptrykt 1965, Science 148: 754-759 [1] doi : 10.1126/science.148.3671.754 )
- Gerda Claeskens. Statistisk modelvalg // Årlig gennemgang af statistikker og dens anvendelse . - 2016. - T. 3 . — S. 233–256 . - doi : 10.1146/annurev-statistics-041715-033413 . — . (utilgængeligt link)
- Claeskens G., Hjort NL Modelvalg og modelgennemsnit. - Cambridge University Press, 2008. - (CAMBRIDGE-SERIEN I STATISTISK OG PROBABILISTISK MATEMATIK). — ISBN 978-0-521-85225-8 .
- Principper for statistisk slutning. - Cambridge University Press, 2006. - ISBN 0-511-34858-4 .
- Konishi S., Kitagawa G. Informationskriterier og statistisk modellering . - Springer, 2008. - ISBN 978-0-387-71886-6 .
- Modelvalg / Lahiri P.. - Beachwood, Ohio: Institute of Mathematical Statistics , 2001. - Vol. 38. - (FORÆRELSESNOTER-MONOGRAFSERIEN). — ISBN 0-940600-52-8 .
- Leeb H., Pötscher BM Modelvalg // Handbook of Financial Time Series / Torben G. Andersen, Richard A. Davis, Jens-Peter Kreiß, Thomas Mikosch. - Springer, 2009. - S. 889-925. — ISBN 978-3-540-71296-1 . - doi : 10.1007/978-3-540-71297-8_39 .
- Lukacs PM, Thompson WL, Kendall WL, Gould WR, Doherty PF Jr., Burnham KP, Anderson DR Bekymringer vedrørende en opfordring til pluralisme af informationsteori og hypotesetestning // Journal of Applied Ecology . - 2007. - T. 44 , no. 2 . — S. 456–460 . - doi : 10.1111/j.1365-2664.2006.01267.x .
- Allan D.R. McQuarrie, Chih-Ling Tsai. Regression og valg af tidsseriemodel. - Singapore: World Scientific, 1998. - ISBN 981-02-3242-X .
- Massart P. Koncentrationsuligheder og modelvalg / Redaktør: Jean Picard. - Springer, 2007. - T. 1896. - (Lecture Notes in Mathematics). — ISBN 3-540-48497-3 .
- Massart P. En ikke-asymptotisk tur i sandsynlighed og statistik // Statistisk videnskabs fortid, nutid og fremtid. - Chapman & Hall , 2014. - s. 309-321.
- Paulo Angelo Alves Resende, Chang Chung Yu Dorea. Modelidentifikation ved hjælp af Efficient Determination Criterion // Journal of Multivariate Analysis . - 2016. - T. 150 . — S. 229–244 . - doi : 10.1016/j.jmva.2016.06.002 .
- Shmueli G. At forklare eller at forudsige? // Statistisk Videnskab . - 2010. - T. 25 . — S. 289–310 . - doi : 10.1214/10-STS330 . - arXiv : 1101.0891 .
- Wit E., van den Heuvel E., Romeijn J.-W. 'Alle modeller er forkerte...': en introduktion til modelusikkerhed // Statistica Neerlandica. - 2012. - T. 66 . — S. 217–236 . - doi : 10.1111/j.1467-9574.2012.00530.x .
- Wit E., McCullagh P. Udvidbarheden af statistiske modeller // Algebraic Methods in Statistics and Probability / MAG Viana, D. St. P. Richards. - 2001. - S. 327-340.
- Anna Wójtowicz, Tomasz Bigaj. Begrundelse, bekræftelse og problemet med gensidigt udelukkende hypoteser // Afdækning af fakta og værdier / Adrian Kuźniar, Joanna Odrowąż-Sypniewska. - Brill Publishers , 2016. - S. 122-143. - doi : 10.1163/9789004312654_009 .