Ikke-parametrisk statistik

Ikke-parametrisk statistik er en gren af statistik , der ikke udelukkende er baseret på parametriserede familier af sandsynlighedsfordelinger (alment kendte eksempler på parametre er middelværdi og varians). Ikke-parametrisk statistik omfatter beskrivende statistik og statistisk inferens .

Definitioner

Statistiker Larry Wasserman sagde: "Det er svært at give en klar definition af ikke-parametrisk statistik." [1] Udtrykket "ikke-parametrisk statistik" kan defineres løst, blandt andet på følgende to måder.

Den første betydning af ikke- parametrisk dækker over metoder, der ikke er afhængige af data relateret til nogen bestemt fordeling. De omfatter blandt andet:
- Fordelingsfrie metoder, der ikke er afhængige af antagelsen om, at stikprøven er trukket fra visse sandsynlighedsfordelinger . Sådanne ikke-parametriske statistikker er det modsatte af parametriske statistikker . Metoder omfatter deskriptiv statistik , statistiske modeller og inferens , statistisk hypotesetestning .
- En ikke-parametrisk statistik (i betydningen en statistik over data, der er defineret som en funktion af stikprøven og ikke afhænger af parameteren ), hvis fortolkning ikke afhænger af den population, der svarer til nogen parameteriserede fordelinger. Ordinal statistik , baseret på rækken af observationer, er et eksempel på sådan statistik og spiller en central rolle i mange ikke-parametriske tilgange.
Følgende ræsonnement er taget fra Kendalls Advanced Theory of Statistics . [2]

Statistiske hypoteser er opmærksomme på adfærden af observerede stokastiske variable ... For eksempel hypotesen (a) at normalfordelingen har en vis matematisk forventning og dens varians er statistisk; hypotese (b) - at den matematiske forventning er givet, variansen ikke er givet; hypotese (c) - at fordelingen har en normal form, den matematiske forventning og varians er ikke specificeret; endelig, hypotese (d), falder de to ukendte kontinuerte fordelinger sammen.
Bemærk, at i eksempel (a) og (b) blev fordelingen, der lå til grund for observationerne, defineret til at være normalfordelingen, og hypotesen var fuldt ud forbundet med værdien af en eller begge dens parametre. En sådan hypotese kaldes af indlysende grunde parametrisk.
Hypotese (c) har en anden karakter, da værdierne af parametrene ikke er angivet i formuleringen af hypotesen; en sådan hypotese kan med rimelighed kaldes ikke-parametrisk. Hypotese (d) er også ikke-parametrisk, men derudover bestemmer den ikke engang distributionstypen og kan kaldes distributionsfri. På trods af disse forskelle betegner den statistiske litteratur almindeligvis "ikke-parametrisk" de metoder, vi netop har kaldt "distributionsfrie", og nedbryder derved en nyttig klassifikation.
Den anden betydning af ikke -parametrisitet dækker over metoder, der ikke antager, at modellens struktur er fast. Typisk stiger modellens størrelse med kompleksiteten af dataene. Disse metoder antager, at individuelle variabler tilhører parametriske fordelinger og gør antagelser om typerne af sammenhænge mellem variable. Disse metoder omfatter blandt andet:
- ikke- parametrisk regression - modellering, hvorigennem strukturen af forholdet mellem variable betragtes ikke-parametrisk. Der kan dog være parametriske antagelser om fordelingen af modelresidualer.
- ikke-parametriske hierarkiske Bayesianske modeller , såsom dem, der er baseret på Dirichlet-processen , som tillader antallet af latente variabler at vokse efter behov for at passe til dataene. Individuelle variabler kan dog være underlagt parametriske fordelinger, og selv den proces, der styrer vækstraten af latente variabler, er underlagt en parametrisk fordeling.

Formål og anvendelser

Ikke-parametriske metoder bruges i vid udstrækning til at studere populationer, der accepterer rangordnet rækkefølge (for eksempel filmanmeldelser, som kan få mellem en og fire stjerner). Brugen af ikke-parametriske metoder kan være nødvendig, når dataene har en rangordning , men ikke har en klar numerisk fortolkning, såsom i præferenceestimation . Med hensyn til skalaer er resultaterne af ikke-parametriske metoder ordinære data .

Fordi ikke-parametriske metoder gør færre antagelser, er deres omfang meget bredere end parametriske metoders. De kan især anvendes i situationer, hvor der er mindre information om selve ansøgningen. Også, fordi de afhænger af færre antagelser, er ikke-parametriske metoder mere pålidelige .

En anden begrundelse for at bruge ikke-parametriske metoder er deres enkelhed. I nogle tilfælde, selv hvor brugen af parametriske metoder er berettiget, kan det være lettere at bruge ikke-parametriske metoder. På grund af de ovennævnte årsager anses ikke-parametriske metoder af nogle statistikere for at være mindre tilbøjelige til at blive misforstået og misbrugt.

Den bredere anvendelighed og øgede robusthed (pålidelighed) af ikke-parametriske metoder har en pris: i tilfælde, hvor en parametrisk metode er egnet, har de ikke-parametriske mindre statistisk magt . Med andre ord kan det være nødvendigt med en større stikprøvestørrelse for at drage konklusioner med samme sikkerhed .

Ikke-parametriske modeller

Ikke-parametriske modeller adskiller sig fra parametriske modeller ved, at modellens struktur ikke er givet a priori , men bestemt af dataene. Udtrykket ikke -parametrisk betyder ikke fuldstændigt fravær af parametre. Det er bare, at deres antal og karakter er fleksible og ikke faste på forhånd.

Et histogram er et simpelt ikke-parametrisk estimat af en sandsynlighedsfordeling.
Kernedensitetsestimatet giver bedre tæthedsestimater end histogrammer.
Metoder til ikke -parametrisk regression og semi -parametrisk regression udvikles på basis af kerner , splines og wavelets .
Analysen af driftsmiljøet giver effektivitetsforhold tæt på dem opnået ved multivariat analyse uden nogen antagelser om fordelingerne.
Metoden -nearest neighbours klassificerer en usynlig instans i træningssættet ud fra de punkter, der er tættest på den. $k$ $k$
Støttevektormaskinen (med Gaussisk kerne) er en ikke-parametrisk storfeltklassifikator.

Metoder

Ikke- parametriske (eller distributionsfrie ) statistiske inferensmetoder er matematiske procedurer til at teste statistiske hypoteser, der i modsætning til parametrisk statistik ikke gør nogen antagelser om sandsynlighedsfordelingerne af de variabler, der estimeres. Sådanne metoder kaldes ikke-parametriske statistiske test . De mest almindeligt anvendte kriterier omfatter:

Lighedsanalyse : tester den statistiske signifikans af forskellen mellem grupper af prøver
Anderson-Darling test: kontrollerer, om den analyserede prøve tilhører en given distributionslov
Bootstrap : giver dig mulighed for nemt og hurtigt at evaluere forskellige statistikker for komplekse modeller
Friedman-kriterium : bruges til at studere indflydelsen af forskellige faktorværdier (faktorkarakterer) på den samme prøve
Kaplan-Meier-estimator : estimerer overlevelsesfunktionen ud fra livstidsdata
Kendalls tau : måler det statistiske forhold mellem to variable
Kendall's W : En ikke-parametrisk statistik, der måler graden af lighed mellem to rangeringer og kan bruges til at evaluere betydningen af et forhold mellem dem
To-stikprøve Kolmogorov-Smirnov- test: bruges til at teste hypotesen om, at to uafhængige prøver tilhører den samme distributionslov
Kruskal-Wallis variansanalyse : tester hypotesen om, hvorvidt de sammenlignede prøver har samme fordeling eller fordelinger med samme median
Kuiper goodness -of-fit test: bruges til at teste, om en given distribution eller familie af distributioner er inkonsistent med dataeksempelfunktioner
Log-rank (log-rank) test : sammenligning af overlevelsesfordelinger af to prøver
Mann-Whitney U-test : bruges til at vurdere forskellen mellem to uafhængige prøver med hensyn til niveauet af en egenskab, målt kvantitativt
McNemars chi-square test : tester, om flere sammenlignede variabler adskiller sig væsentligt, idet de tager værdier på 0/1
Mediantest : tester hypotesen om, at fordelingen af to prøver har samme form og kun adskiller sig ved et skift med en konstant
Pitman-permutationstest (resampling) : en statistisk signifikanstest, der giver nøjagtige P-værdier ved at undersøge alle mulige etiket-permutationer
Siegel-Tookey test: test for forskelle i skala mellem to grupper
Tegntest : bruges i situationer, hvor to målinger (for eksempel under forskellige forhold) af de samme forsøgspersoner skal testes for tilstedeværelse eller fravær af en forskel i resultater
Spearmans rangkorrelationskoefficient : bruges til at måle et ikke-lineært monotont forhold mellem variabler
Rank squared test: test for lighed af varians i to eller flere stikprøver
Tukey-Duckworth test: tester, om en af to prøver var signifikant større end den anden
Wald-Wolfowitz serie test: tester om elementerne i en sekvens er gensidigt uafhængige/tilfældige
Wilcoxon -test: bruges til at teste for forskelle mellem to prøver af parrede målinger

Historie

Blandt de tidlige ikke-parametriske statistikker er medianen (1200-tallet eller tidligere, brugt i Edward Wrights skøn , 1599) og John Arbuthnots tegntest ( 1710) til at analysere en persons kønsforhold ved fødslen. [3]

Noter

↑ Wasserman (2007), s.1
↑ Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjette udgave, §20.2-20.3 ( Arnold ).
↑ Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (Tredje udgave), Wiley, s. 157-176, ISBN 0-471-16068-7

Litteratur

Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Ikke-parametriske tests for komplette data", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
Corder, GW; Foreman, DI Ikke-parametrisk statistik: En trin-for-trin tilgang . - Wiley, 2014. - ISBN 978-1118840313 .
Jean Gibbons; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference , 4. udg. C.R.C. Tryk. ISBN 0-8247-4052-1 .
Hettmansperger, T. P.; McKean, J. W. Robuste ikke-parametriske statistiske metoder (ubestemt) . — Først. — London: Edward Arnold, 1998. - V. 5. - (Kendall's Library of Statistics). — ISBN 0-340-54937-8 . også ISBN 0-471-19479-4 .
Hollander M., Wolfe D. A., Chicken E. (2014). Ikke-parametriske statistiske metoder , John Wiley & Sons.
Sheskin, David J. (2003) Håndbog i parametriske og ikke-parametriske statistiske procedurer . C.R.C. Tryk. ISBN 1-58488-440-1
Wasserman, Larry (2007). Alle ikke-parametriske statistikker , Springer. ISBN 0-387-25145-6 .
Orlov AI Anvendt statistisk analyse: lærebog. - M .: AI Pi Ar Media, 2022. - 812 s. — ISBN 978-5-4497-1480-0 [1]

Ordbøger og encyklopædier	Stor russer Britannica (online) Britannica (online)
I bibliografiske kataloger	BNF : 11933314q J9U : 987007533975505171 LCCN : sh85092349