Prøveudtagning (matematisk statistik)

Sampling er et generaliseret navn i matematisk statistik for metoder til at kontrollere den indledende prøve med et kendt modelleringsmål, som gør det muligt at udføre den strukturelle-parametriske identifikation af den bedste statistiske model af en stationær ergodisk tilfældig proces.

Beskrivelse

Den videnskabelige nyhed ved prøvetagningsmetoden ligger i, at den er en effektiv teknik til den logiske semantiske kobling af prøvens statistiske egenskaber og formålet med modellering. Sampling øger samtidig dimensionen af ​​kriterierummet og fungerer samtidig som et middel til at løse problemet med Pareto-optimalitet ved at adskille bestemte kriterier og rangordne dem (et strukturelt kriterium har en højere rang end et parametrisk , så disse kriterier er ikke i konflikt). N. N. Chubukov giver følgende eksempel [1] . Lad den tilfældige proces være repræsenteret ved en stikprøve af størrelse : . Tre opgaver skal løses:

  1. Kør en betinget langsigtet prognose for ;
  2. Kør en betinget kortsigtet prognose for ;
  3. Definer en funktion for at gendanne værdien på et hvilket som helst punkt i valget.

Hvis vi tager den traditionelle tilgang til modellering, fokuseret på det unikke ved beskrivelsen af ​​processens statistiske egenskaber, så vil resultatet være tre fuldstændig identiske funktioner. Faktum er, at reglen for beregning af kvalitetskriteriet for modellen ikke tog højde for væsentlige detaljer: prognosehorisonten, arten af ​​de statistiske tendenser i den tilfældige proces repræsenteret ved stikprøvedata og opgavernes målspecificitet var fuldstændig ignoreret .

Diversitetsprincippet

Vejen ud af denne vanskelighed kan være brugen af ​​diversitetsprincippet inden for sampling , som er kendt og brugt til at løse tekniske problemer ved at anvende metoden til krydsvalidering af data, for eksempel bootstrap-analyse [2] , metoden til grupperegnskab af argumenter [3] osv. Manifestation af princippet om mangfoldighed ved løsning af statistiske problemer er, at algoritmen reagerer på uvidenhed om de sandsynlige egenskaber af de oprindelige data med en række genererede modelstrukturer, som hver især er udsat for kryds -kontrol for optimalitet i henhold til en bestemt ordning, der er fælles for alle modeller.

Opgaver

Sampling er en moderne metode, der kan være praktisk nyttig til at løse problemer med matematisk statistik, herunder omvendte og dårligt stillede problemer [4] . Sampling implementerer princippet om mangfoldighed og kan generalisere hele rækken af ​​statistiske analyseværktøjer baseret på styring af kildedata. Prøveudtagning forstås som et sæt af teknikker til at opdele den indledende prøve i arbejds- og kontrolsektioner i henhold til de regler, der svarer til målene for modellering. På arbejdssektionerne beregnes parametrene for "konkurrerende" modeller, på kontrolmodellerne evalueres deres evne til at gendanne værdier, der ikke blev brugt til at beregne parametrene.

Sampling metodisk korrekt "omgår" den vigtigste hindring, der objektivt er til stede i omvendte problemer. Dens årsag ligger i umuligheden af ​​at etablere et strengt matematisk forhold mellem den variable parameter og den numeriske værdi af modeloptimitetskriteriet. Samtidig overfører sampling algoritmen for strukturel-parametrisk identifikation af modellen fra kategorien strengt matematisk til klassen af ​​heuristik og gør den lovende til at skabe kunstige intelligenssystemer .

I forhold til ovenstående eksempel svarer det første tilfælde  - "lang" ekstrapolation uden for prøven til prøveudtagningsvarianten med udelukkelse af de sidste ti prøveværdier i en række fra beregningen af ​​modelparametrene. Den tiende optælling vil være kontrollen. Den arbejdende delprøve vil omfatte alle værdier undtagen denne ti. Derefter bestemmes ved alternativ opregning den bedste model, som mest præcist forudsagde kontrolpunktet. Ved at ændre placeringen af ​​de udelukkede prøver uden at krænke deres antal og kontinuitet, dannes der reststatistikker, der er anvendelige til at beregne kriteriet og "røret" for statistisk stabilitet til evaluering af resultatets pålidelighed. Algoritmen "undersøger" som det var modellerne ved at ekstrapolere til en given dybde og udvælger blandt dem den, der mest nøjagtigt fanger "lange" trends, der indeholder information om værdier på en ti-sample lag. I dette tilfælde vil "kortskydende" modeller blive diskrimineret.

Den anden opgave svarer til prøveudtagning med udelukkelse fra beregningerne af et kontrolpunkt, med en kombination af antallet og rækkefølgen af ​​de tidligere værdier taget i betragtning for prognosen. I dette tilfælde vil "langtrends"-modeller blive "undertrykt", og modeller, der giver nøjagtige prognoser på kort sigt, vil tværtimod blive foretrukket.

I den tredje opgave vil opdelingen af ​​prøven i interpenetrerende blokke være berettiget, når kontrolværdierne er "indblandet" mellem arbejderne. Længden af ​​sådanne blokke og dybden af ​​deres indtrængning skal tage hensyn til intervallerne mellem nabopunkter i området, den nødvendige stabilitet og nøjagtighed af estimaterne. Den tredje opgave kan således svare til udelukkelsen fra beregningerne af hver tredje stikprøve og brugen af ​​de udelukkede data til kontrol med en cyklisk omfordeling af kontrol- og arbejdsdelprøver.

Typer af prøveudtagning

Se også

Noter

  1. Chubukov N. N. Algoritmisering af kalibreringer af mekatroniske systemer ved hjælp af sampling // Mechatronika, avtomatizatsiya, upravlenie. 2013. Nr. 7.
  2. Efron B. Ikke-traditionelle metoder til multivariat statistisk analyse: Lør. artikler: Pr. fra engelsk / Forord af Yu. P. Adler, Yu. A. Koshevnik. - M .: Finans og statistik, 1988. - 263 s. syg.
  3. Ivakhnenko, 1971 .
  4. Tikhonov A.N., Arsenin V.Ya. Metoder til at løse dårligt stillede problemer. - M .: Nauka, 1979. - S. 283 s.

Litteratur