Ikke-parametrisk statistik

Ikke-parametrisk statistik  er en gren af ​​statistik , der ikke udelukkende er baseret på parametriserede familier af sandsynlighedsfordelinger (alment kendte eksempler på parametre er middelværdi og varians). Ikke-parametrisk statistik omfatter beskrivende statistik og statistisk inferens .

Definitioner

Statistiker Larry Wasserman sagde: "Det er svært at give en klar definition af ikke-parametrisk statistik." [1] Udtrykket "ikke-parametrisk statistik" kan defineres løst, blandt andet på følgende to måder.

  1. Den første betydning af ikke- parametrisk dækker over metoder, der ikke er afhængige af data relateret til nogen bestemt fordeling. De omfatter blandt andet:

    Følgende ræsonnement er taget fra Kendalls Advanced Theory of Statistics . [2]

    Statistiske hypoteser er opmærksomme på adfærden af ​​observerede stokastiske variable ... For eksempel hypotesen (a) at normalfordelingen har en vis matematisk forventning og dens varians er statistisk; hypotese (b) - at den matematiske forventning er givet, variansen ikke er givet; hypotese (c) - at fordelingen har en normal form, den matematiske forventning og varians er ikke specificeret; endelig, hypotese (d), falder de to ukendte kontinuerte fordelinger sammen.

    Bemærk, at i eksempel (a) og (b) blev fordelingen, der lå til grund for observationerne, defineret til at være normalfordelingen, og hypotesen var fuldt ud forbundet med værdien af ​​en eller begge dens parametre. En sådan hypotese kaldes af indlysende grunde parametrisk.

    Hypotese (c) har en anden karakter, da værdierne af parametrene ikke er angivet i formuleringen af ​​hypotesen; en sådan hypotese kan med rimelighed kaldes ikke-parametrisk. Hypotese (d) er også ikke-parametrisk, men derudover bestemmer den ikke engang distributionstypen og kan kaldes distributionsfri. På trods af disse forskelle betegner den statistiske litteratur almindeligvis "ikke-parametrisk" de metoder, vi netop har kaldt "distributionsfrie", og nedbryder derved en nyttig klassifikation.

  2. Den anden betydning af ikke -parametrisitet dækker over metoder, der ikke antager, at modellens struktur er fast. Typisk stiger modellens størrelse med kompleksiteten af ​​dataene. Disse metoder antager, at individuelle variabler tilhører parametriske fordelinger og gør antagelser om typerne af sammenhænge mellem variable. Disse metoder omfatter blandt andet:
    • ikke- parametrisk regression - modellering, hvorigennem strukturen af ​​forholdet mellem variable betragtes ikke-parametrisk. Der kan dog være parametriske antagelser om fordelingen af ​​modelresidualer.
    • ikke-parametriske hierarkiske Bayesianske modeller , såsom dem, der er baseret på Dirichlet-processen , som tillader antallet af latente variabler at vokse efter behov for at passe til dataene. Individuelle variabler kan dog være underlagt parametriske fordelinger, og selv den proces, der styrer vækstraten af ​​latente variabler, er underlagt en parametrisk fordeling.

Formål og anvendelser

Ikke-parametriske metoder bruges i vid udstrækning til at studere populationer, der accepterer rangordnet rækkefølge (for eksempel filmanmeldelser, som kan få mellem en og fire stjerner). Brugen af ​​ikke-parametriske metoder kan være nødvendig, når dataene har en rangordning , men ikke har en klar numerisk fortolkning, såsom i præferenceestimation . Med hensyn til skalaer er resultaterne af ikke-parametriske metoder ordinære data .

Fordi ikke-parametriske metoder gør færre antagelser, er deres omfang meget bredere end parametriske metoders. De kan især anvendes i situationer, hvor der er mindre information om selve ansøgningen. Også, fordi de afhænger af færre antagelser, er ikke-parametriske metoder mere pålidelige .

En anden begrundelse for at bruge ikke-parametriske metoder er deres enkelhed. I nogle tilfælde, selv hvor brugen af ​​parametriske metoder er berettiget, kan det være lettere at bruge ikke-parametriske metoder. På grund af de ovennævnte årsager anses ikke-parametriske metoder af nogle statistikere for at være mindre tilbøjelige til at blive misforstået og misbrugt.

Den bredere anvendelighed og øgede robusthed (pålidelighed) af ikke-parametriske metoder har en pris: i tilfælde, hvor en parametrisk metode er egnet, har de ikke-parametriske mindre statistisk magt . Med andre ord kan det være nødvendigt med en større stikprøvestørrelse for at drage konklusioner med samme sikkerhed .

Ikke-parametriske modeller

Ikke-parametriske modeller adskiller sig fra parametriske modeller ved, at modellens struktur ikke er givet a priori , men bestemt af dataene. Udtrykket ikke -parametrisk betyder ikke fuldstændigt fravær af parametre. Det er bare, at deres antal og karakter er fleksible og ikke faste på forhånd.

Metoder

Ikke- parametriske (eller distributionsfrie ) statistiske inferensmetoder er matematiske procedurer til at teste statistiske hypoteser, der i modsætning til parametrisk statistik ikke gør nogen antagelser om sandsynlighedsfordelingerne af de variabler, der estimeres. Sådanne metoder kaldes ikke-parametriske statistiske test . De mest almindeligt anvendte kriterier omfatter:

Historie

Blandt de tidlige ikke-parametriske statistikker er medianen (1200-tallet eller tidligere, brugt i Edward Wrights skøn , 1599) og John Arbuthnots tegntest ( 1710) til at analysere en persons kønsforhold ved fødslen. [3]

Noter

  1. Wasserman (2007), s.1
  2. Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjette udgave, §20.2-20.3 ( Arnold ).
  3. Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (Tredje udgave), Wiley, s. 157-176, ISBN 0-471-16068-7 

Litteratur