Ikke-parametrisk statistik
Ikke-parametrisk statistik er en gren af statistik , der ikke udelukkende er baseret på parametriserede familier af sandsynlighedsfordelinger (alment kendte eksempler på parametre er middelværdi og varians). Ikke-parametrisk statistik omfatter beskrivende statistik og statistisk inferens .
Definitioner
Statistiker Larry Wasserman sagde: "Det er svært at give en klar definition af ikke-parametrisk statistik." [1] Udtrykket "ikke-parametrisk statistik" kan defineres løst, blandt andet på følgende to måder.
- Den første betydning af ikke- parametrisk dækker over metoder, der ikke er afhængige af data relateret til nogen bestemt fordeling. De omfatter blandt andet:
Følgende ræsonnement er taget fra Kendalls Advanced Theory of Statistics . [2]
Statistiske hypoteser er opmærksomme på adfærden af observerede stokastiske variable ... For eksempel hypotesen (a) at normalfordelingen har en vis matematisk forventning og dens varians er statistisk; hypotese (b) - at den matematiske forventning er givet, variansen ikke er givet; hypotese (c) - at fordelingen har en normal form, den matematiske forventning og varians er ikke specificeret; endelig, hypotese (d), falder de to ukendte kontinuerte fordelinger sammen.
Bemærk, at i eksempel (a) og (b) blev fordelingen, der lå til grund for observationerne, defineret til at være normalfordelingen, og hypotesen var fuldt ud forbundet med værdien af en eller begge dens parametre. En sådan hypotese kaldes af indlysende grunde parametrisk.
Hypotese (c) har en anden karakter, da værdierne af parametrene ikke er angivet i formuleringen af hypotesen; en sådan hypotese kan med rimelighed kaldes ikke-parametrisk. Hypotese (d) er også ikke-parametrisk, men derudover bestemmer den ikke engang distributionstypen og kan kaldes distributionsfri. På trods af disse forskelle betegner den statistiske litteratur almindeligvis "ikke-parametrisk" de metoder, vi netop har kaldt "distributionsfrie", og nedbryder derved en nyttig klassifikation.
- Den anden betydning af ikke -parametrisitet dækker over metoder, der ikke antager, at modellens struktur er fast. Typisk stiger modellens størrelse med kompleksiteten af dataene. Disse metoder antager, at individuelle variabler tilhører parametriske fordelinger og gør antagelser om typerne af sammenhænge mellem variable. Disse metoder omfatter blandt andet:
- ikke- parametrisk regression - modellering, hvorigennem strukturen af forholdet mellem variable betragtes ikke-parametrisk. Der kan dog være parametriske antagelser om fordelingen af modelresidualer.
- ikke-parametriske hierarkiske Bayesianske modeller , såsom dem, der er baseret på Dirichlet-processen , som tillader antallet af latente variabler at vokse efter behov for at passe til dataene. Individuelle variabler kan dog være underlagt parametriske fordelinger, og selv den proces, der styrer vækstraten af latente variabler, er underlagt en parametrisk fordeling.
Formål og anvendelser
Ikke-parametriske metoder bruges i vid udstrækning til at studere populationer, der accepterer rangordnet rækkefølge (for eksempel filmanmeldelser, som kan få mellem en og fire stjerner). Brugen af ikke-parametriske metoder kan være nødvendig, når dataene har en rangordning , men ikke har en klar numerisk fortolkning, såsom i præferenceestimation . Med hensyn til skalaer er resultaterne af ikke-parametriske metoder ordinære data .
Fordi ikke-parametriske metoder gør færre antagelser, er deres omfang meget bredere end parametriske metoders. De kan især anvendes i situationer, hvor der er mindre information om selve ansøgningen. Også, fordi de afhænger af færre antagelser, er ikke-parametriske metoder mere pålidelige .
En anden begrundelse for at bruge ikke-parametriske metoder er deres enkelhed. I nogle tilfælde, selv hvor brugen af parametriske metoder er berettiget, kan det være lettere at bruge ikke-parametriske metoder. På grund af de ovennævnte årsager anses ikke-parametriske metoder af nogle statistikere for at være mindre tilbøjelige til at blive misforstået og misbrugt.
Den bredere anvendelighed og øgede robusthed (pålidelighed) af ikke-parametriske metoder har en pris: i tilfælde, hvor en parametrisk metode er egnet, har de ikke-parametriske mindre statistisk magt . Med andre ord kan det være nødvendigt med en større stikprøvestørrelse for at drage konklusioner med samme sikkerhed .
Ikke-parametriske modeller
Ikke-parametriske modeller adskiller sig fra parametriske modeller ved, at modellens struktur ikke er givet a priori , men bestemt af dataene. Udtrykket ikke -parametrisk betyder ikke fuldstændigt fravær af parametre. Det er bare, at deres antal og karakter er fleksible og ikke faste på forhånd.
Metoder
Ikke- parametriske (eller distributionsfrie ) statistiske inferensmetoder er matematiske procedurer til at teste statistiske hypoteser, der i modsætning til parametrisk statistik ikke gør nogen antagelser om sandsynlighedsfordelingerne af de variabler, der estimeres. Sådanne metoder kaldes ikke-parametriske statistiske test . De mest almindeligt anvendte kriterier omfatter:
- Lighedsanalyse : tester den statistiske signifikans af forskellen mellem grupper af prøver
- Anderson-Darling test: kontrollerer, om den analyserede prøve tilhører en given distributionslov
- Bootstrap : giver dig mulighed for nemt og hurtigt at evaluere forskellige statistikker for komplekse modeller
- Friedman-kriterium : bruges til at studere indflydelsen af forskellige faktorværdier (faktorkarakterer) på den samme prøve
- Kaplan-Meier-estimator : estimerer overlevelsesfunktionen ud fra livstidsdata
- Kendalls tau : måler det statistiske forhold mellem to variable
- Kendall's W : En ikke-parametrisk statistik, der måler graden af lighed mellem to rangeringer og kan bruges til at evaluere betydningen af et forhold mellem dem
- To-stikprøve Kolmogorov-Smirnov- test: bruges til at teste hypotesen om, at to uafhængige prøver tilhører den samme distributionslov
- Kruskal-Wallis variansanalyse : tester hypotesen om, hvorvidt de sammenlignede prøver har samme fordeling eller fordelinger med samme median
- Kuiper goodness -of-fit test: bruges til at teste, om en given distribution eller familie af distributioner er inkonsistent med dataeksempelfunktioner
- Log-rank (log-rank) test : sammenligning af overlevelsesfordelinger af to prøver
- Mann-Whitney U-test : bruges til at vurdere forskellen mellem to uafhængige prøver med hensyn til niveauet af en egenskab, målt kvantitativt
- McNemars chi-square test : tester, om flere sammenlignede variabler adskiller sig væsentligt, idet de tager værdier på 0/1
- Mediantest : tester hypotesen om, at fordelingen af to prøver har samme form og kun adskiller sig ved et skift med en konstant
- Pitman-permutationstest (resampling) : en statistisk signifikanstest, der giver nøjagtige P-værdier ved at undersøge alle mulige etiket-permutationer
- Siegel-Tookey test: test for forskelle i skala mellem to grupper
- Tegntest : bruges i situationer, hvor to målinger (for eksempel under forskellige forhold) af de samme forsøgspersoner skal testes for tilstedeværelse eller fravær af en forskel i resultater
- Spearmans rangkorrelationskoefficient : bruges til at måle et ikke-lineært monotont forhold mellem variabler
- Rank squared test: test for lighed af varians i to eller flere stikprøver
- Tukey-Duckworth test: tester, om en af to prøver var signifikant større end den anden
- Wald-Wolfowitz serie test: tester om elementerne i en sekvens er gensidigt uafhængige/tilfældige
- Wilcoxon -test: bruges til at teste for forskelle mellem to prøver af parrede målinger
Historie
Blandt de tidlige ikke-parametriske statistikker er medianen (1200-tallet eller tidligere, brugt i Edward Wrights skøn , 1599) og John Arbuthnots tegntest ( 1710) til at analysere en persons kønsforhold ved fødslen. [3]
Noter
- ↑ Wasserman (2007), s.1
- ↑ Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjette udgave, §20.2-20.3 ( Arnold ).
- ↑ Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (Tredje udgave), Wiley, s. 157-176, ISBN 0-471-16068-7
Litteratur
- Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Ikke-parametriske tests for komplette data", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
- Corder, GW; Foreman, DI Ikke-parametrisk statistik: En trin-for-trin tilgang . - Wiley, 2014. - ISBN 978-1118840313 .
- Jean Gibbons; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference , 4. udg. C.R.C. Tryk. ISBN 0-8247-4052-1 .
- Hettmansperger, T. P.; McKean, J. W. Robuste ikke-parametriske statistiske metoder (ubestemt) . — Først. — London: Edward Arnold, 1998. - V. 5. - (Kendall's Library of Statistics). — ISBN 0-340-54937-8 . også ISBN 0-471-19479-4 .
- Hollander M., Wolfe D. A., Chicken E. (2014). Ikke-parametriske statistiske metoder , John Wiley & Sons.
- Sheskin, David J. (2003) Håndbog i parametriske og ikke-parametriske statistiske procedurer . C.R.C. Tryk. ISBN 1-58488-440-1
- Wasserman, Larry (2007). Alle ikke-parametriske statistikker , Springer. ISBN 0-387-25145-6 .
- Orlov AI Anvendt statistisk analyse: lærebog. - M .: AI Pi Ar Media, 2022. - 812 s. — ISBN 978-5-4497-1480-0 [1]
Ordbøger og encyklopædier |
|
---|
I bibliografiske kataloger |
|
---|