Ikke-lineær regression

Ikke- lineær regression  er en type regressionsanalyse, hvor eksperimentelle data modelleres af en funktion, der er en ikke-lineær kombination af modelparametre og afhænger af en eller flere uafhængige variable. Dataene er tilnærmet ved metoden med successive tilnærmelser .

Generelle bestemmelser

Dataene består af fejlfrie forklarende variable x og tilhørende observerede afhængige variable ( svar ) y . Hver variabel y er modelleret som en stokastisk variabel med et gennemsnit givet af en ikke-lineær funktion f ( x ,β). Metodisk fejl kan være til stede, men dens behandling er uden for grænserne for regressionsanalyse. Hvis de forklarende variabler ikke er fejlfri, bliver modellen en model med fejl i variablerne og er også uden for scope.

For eksempel Michaelis-Menten- modellen for enzymatisk kinetik

kan skrives som

hvor  er parameteren ,  er parameteren , og [ S ] er den uafhængige variabel ( x ). Denne funktion er ikke-lineær, fordi den ikke kan udtrykkes som en lineær kombination af og .

Andre eksempler på ikke-lineære funktioner er eksponentielle funktioner , logaritmiske funktioner , trigonometriske funktioner , potensfunktioner , Gauss-funktioner og Lorentz-kurver . Regressionsanalyse med funktioner som eksponentiel eller log kan nogle gange reduceres til det lineære tilfælde, og standard lineær regression kan anvendes, men bør bruges med forsigtighed. Se afsnittet Linearisering nedenfor for detaljer.

I det generelle tilfælde eksisterer en repræsentation i lukket form (som i tilfældet med lineær regression ) muligvis ikke. Typisk bruges optimeringsalgoritmer til at bestemme de bedste parameterestimater . I modsætning til lineær regression kan der være flere lokale minima for den funktion, der optimeres, og det globale minimum kan endda give et skævt estimat. I praksis bruges de estimerede værdier af parametrene sammen med en optimeringsalgoritme i et forsøg på at finde det globale minimum af summen af ​​kvadrater.

Se " Mindste kvadrater " og " Ulineære mindste kvadrater for detaljer om ikke-lineær modellering .

Regressionsstatistik

Antagelsen bag denne procedure er, at modellen kan tilnærmes ved en lineær funktion.

hvor . Dette følger af, at mindste kvadraters skøn er givet af formlen

Den ikke-lineære regressionsstatistik beregnes og bruges som den lineære regressionsstatistik, men i stedet for X i formlerne bruges J . En lineær tilpasning introducerer en bias i statistikken, så man bør være mere forsigtig med at fortolke statistikker afledt af en ikke-lineær model.

Almindelige og vægtede mindste kvadrater

Den bedst passende kurve antages ofte at være den, der minimerer summen af ​​kvadratiske residualer . Dette er den (konventionelle) mindste kvadraters (OLS) tilgang. Men i det tilfælde, hvor den afhængige variabel ikke har konstant varians, kan summen af ​​de vægtede kvadrater minimeres . Hver vægt bør ideelt set være den reciproke af variansen af ​​observationerne, dog kan vægtene genberegnes i en iterativ vægtet mindste kvadraters algoritme ved hver iteration.

Linearisering

Transformation

Nogle ikke-lineære regressionsproblemer kan reduceres til lineære ved passende at transformere modelformuleringen.

Overvej for eksempel det ikke-lineære regressionsproblem

med parametrene a og b og med multiplikativ fejlfaktor U . Hvis vi tager logaritmen fra begge sider, får vi

hvor u = ln( U ). Herfra kan man få et estimat af de ukendte parametre ved lineær regression af ln( y ) på x og beregningerne kræver ikke iterativ optimering. Brugen af ​​en ikke-lineær transformation kræver dog forsigtighed. Indvirkningen af ​​dataværdier vil ændre sig, mønsteret af modelfejl og fortolkningen af ​​eventuelle opnåede resultater vil ændre sig, hvilket kan føre til uønskede resultater. På den anden side, afhængigt af den største fejlkilde, kan den ikke-lineære transformation fordele fejlene som en Gauss-fordeling, så modellen skal tages i betragtning, når den ikke-lineære transformation anvendes.

For eksempel, til Michaelis-Menten-ligningen er Lineweaver-Burk lineære repræsentation meget brugt

.

Men på grund af dens høje følsomhed over for datafejl, samt på grund af stærk bias, anbefales dette ikke.

For fejlfordelinger, der tilhører familien af ​​eksponentielle fordelinger , kan en koblingsfunktion bruges til at transformere parametrene til en generaliseret lineær model .

Segmentering

Den uafhængige variabel (f.eks. X) kan opdeles i klasser eller segmenter, og segment-for-segment lineær regression kan udføres. Segmenteret regression med konfidensanalyse kan give et resultat, hvor den afhængige variabel eller respons (f.eks. Y) opfører sig forskelligt i forskellige segmenter [1] .

Grafen til højre viser, at jordens saltholdighed (X) i starten ikke har nogen effekt på udbyttet (Y) af sennep, før en kritisk eller tærskelværdi er nået, hvorefter en negativ effekt på udbyttet [2]

Eksempler

Titius-Bode-reglen i form af en matematisk formel er en endimensionel ikke-lineær regressionsligning, der relaterer ordentallene for solsystemets planeter , tællet fra Solen , med de omtrentlige værdier af den store semi -akser for deres kredsløb . Nøjagtigheden er ganske tilfredsstillende ikke til astronomiske formål.

Se også

Noter

  1. Oosterbaan, 1994 , s. 175-224.
  2. ( Oosterbaan 2002 ) Illustration lavet af SegReg

Litteratur

Læsning for yderligere læsning