Lineær regression

Lineær regression er en regressionsmodel , der bruges i statistik for afhængigheden af en (forklaret, afhængig) variabel af en anden eller flere andre variable (faktorer, regressorer, uafhængige variable) med en lineær afhængighedsfunktion. $y$ $x$

Den lineære regressionsmodel er den mest anvendte og mest undersøgte inden for økonometri . Nemlig, egenskaberne af parameterestimater opnået ved forskellige metoder under antagelser om de sandsynlige karakteristika af faktorerne og tilfældige fejl i modellen studeres. De begrænsende (asymptotiske) egenskaber ved estimater af ikke-lineære modeller udledes også baseret på tilnærmelsen af sidstnævnte ved lineære modeller. Fra et økonometrisk synspunkt er linearitet i parametre vigtigere end linearitet i modelfaktorer.

Definition

Regressionsmodel

y=f(x,b)+\varepsilon ,~E(\varepsilon )

hvor er modelparametrene, er modellens tilfældige fejl; kaldes lineær regression, hvis regressionsfunktionen har formen $b$ $\varepsilon$ $f(x,b)$

f(x,b)=b_0+b_1 x_1+b_2 x_2+...+b_k x_k

hvor er regressionsparametrene (koefficienter), er regressorerne (modelfaktorer), k er antallet af modelfaktorer [1] . $b_{j}$ $x_{j}$

Lineære regressionskoefficienter viser ændringshastigheden af den afhængige variabel for en given faktor, med andre faktorer faste (i en lineær model er denne hastighed konstant):

\forall j\quad ~b_{j}={\frac {\partial f}{\partial x_{j))}=const

Parameteren , som der ikke er nogen faktorer for, kaldes ofte en konstant . Formelt er dette værdien af funktionen ved nulværdi af alle faktorer. Til analytiske formål er det praktisk at overveje, at en konstant er en parameter med en "faktor" lig med 1 (eller en anden vilkårlig konstant, så denne "faktor" kaldes også en konstant). I dette tilfælde, hvis vi omnummererer faktorerne og parametrene for den oprindelige model med dette i tankerne (efterlader betegnelsen af det samlede antal faktorer - k), så kan den lineære regressionsfunktion skrives i følgende form, hvilket formelt ikke gør det indeholde en konstant: $b_{0}$

f(x,b)=b_1 x_1 + b_2 x_2 + \ldots + b_k x_k=\sum^k_{j=1}b_j x_j=x^Tb

hvor er vektoren af regressorer, er kolonnevektoren for parametre (koefficienter). $x^T=(x_1,x_2,...,x_k)$ $b=(b_1,b_2,\ldots,b_k)^T$

Den lineære model kan enten være med en konstant eller uden en konstant. Så i denne repræsentation er den første faktor enten lig med en eller er en almindelig faktor.

Par- og multipel regression

I et bestemt tilfælde, når faktoren er unik (uden at tage konstanten i betragtning), taler man om en parret eller simpel lineær regression:

y_t=a+b x_t+\varepsilon_t

Når antallet af faktorer (uden at tage konstanten i betragtning) er mere end én, så taler de om multipel regression:

{\displaystyle Y=b_{0}+b_{1}x_{i1}+...+b_{j}x_{ij}+...+b_{k}x_{ik}+e_{i))

Eksempler

Organisatorisk omkostningsmodel (uden at angive tilfældig fejl)

TC=FC+VC=FC+v \cdot Q

$TC$ - samlede omkostninger
$FC$ - faste omkostninger (ikke afhængig af produktionsvolumen)
$VC$ - variable omkostninger proportionalt med produktionsmængden
$v$ - specifikke eller gennemsnitlige variable omkostninger (pr. produktionsenhed).
$Q$ - produktionsvolumen.

Den enkleste forbrugerforbrugsmodel ( Keynes )

C=a+bY+\varepsilon

$C$ - forbrugsudgifter
$Y$ - disponibel indkomst
$b$ - marginal tilbøjelighed til at forbruge
$-en$ Autonomt (uafhængigt af indkomst) forbrug.

Matrixrepræsentation

Lad et udsnit af n observationer af variablerne y og x gives . Lad t være tallet på observationen i prøven. Derefter — værdien af variablen y i den t -te observation, — værdien af den j -te faktor i den t -te observation. Følgelig er vektoren af regressorer i den t -te observation. Derefter sker en lineær regressionsafhængighed i hver observation: $y_{t}$ $x_{tj}$ $x^T_t=(x_{t1},x_{t2},...,x_{tk})$

y_t=b_1 x_{t1}+b_2 x_{t2}+...+b_k x_{tk}=\sum^k_{j=1}b_j x_{tj}=x^T_t b+\varepsilon_t~,~E( \varepsilon_t)=0~,~t=1..n

Lad os introducere notationen:

y={\begin{pmatrix}y_{1}\\y_{2}\\...\\y_{n}\\\end{pmatrix))

er vektoren for observationer af den afhængige variabel y

X={\begin{pmatrix}x_{11}&x_{12}&...&x_{1k}\\x_{21}&x_{22}&...&x_{2k}\\... \\x_{n1}&x_{n2}&...&x_{nk}\\\end{pmatrix}}

er en matrix af faktorer.

\varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\...\\\varepsilon _{n}\\\end{pmatrix}}

er vektoren af tilfældige fejl.

Så kan den lineære regressionsmodel repræsenteres i matrixform:

y=Xb+\varepsilon

Klassisk lineær regression

Ved klassisk lineær regression antages det, at sammen med standardbetingelsen er følgende antagelser også opfyldt ( Gauss-Markov-betingelser ): $E(\varepsilon _{t})=0$

Homoscedasticitet (konstant eller lige stor varians) eller mangel på heteroskedasticitet af de tilfældige fejl i modellen: $V(\varepsilon _{t})=\sigma ^{2}=konst$
Manglende autokorrelation af tilfældige fejl: $\forall i,j,~ i \not = j ~~cov(\varepsilon_i,\varepsilon_j)=0$

Disse antagelser i matrixrepræsentationen af modellen er formuleret som én antagelse om strukturen af kovariansmatrixen for den tilfældige fejlvektor: $V(\varepsilon)=\sigma^2 I_n$

Ud over ovenstående antagelser antages faktorerne i den klassiske model at være deterministiske ( ikke -stokastiske ). Derudover kræves det formelt, at matricen har fuld rang ( ), det vil sige, at det antages, at der ikke er fuldstændig kolinearitet af faktorer. $x$ $k$

Når de klassiske antagelser er opfyldt, giver den ordinære mindste kvadraters metode mulighed for at opnå estimater af tilstrækkelig høj kvalitet af modelparametrene, nemlig: de er upartiske , konsistente og mest effektive estimater .

Vurderingsmetoder

Se også

Regressions analyse

Noter

↑ Demidenko, 1981 , s. 6.

Litteratur

E.Z. Demidenko. Lineær og ikke-lineær regression. - M. : Finans og statistik, 1981. - 302 s.
J. Seber. Lineær regressionsanalyse. — M .: Mir, 1980. — 456 s. — 13.700 eksemplarer.

Mindste kvadrater og regressionsanalyse

Beregningsstatistik _

Mindste kvadratisk metode
Lineær MNC
Ikke-lineære mindste kvadrater
LSM med iterativ genberegning af vægte

Korrelation
og afhængighed

Pearson korrelationskoefficient
Rangkorrelation ( Spearman
Kendall )
Delvis korrelation
Forvrængende faktor

Regressions analyse

Almindelig MNC
Delvis mindste kvadraters metode
Mindst fulde kvadrater
Ridge regression

Regression som
statistisk
model

Lineær regression	Simpel lineær regression Almindelig MNC Generaliserede mindste kvadrater Vægtede mindste kvadrater Grundlæggende lineær model
forudsigende struktur	Polynomisk regression vækstkurve Segmenteret regression Lokal regression
Brugerdefineret regression	ikke-lineær Ikke-parametrisk semi-parametrisk bæredygtige kvantil isotonisk
Ikke- standardfejl	Generaliseret lineær model Binomial regression Poisson regression Logistisk regression

Variansnedbrydning

Analyse af varians
Kovariansanalyse
Multivariat variansanalyse

Modelstudie

C p Mallows
Trinvis regression
Valg af statistisk model
Validering af regressionsmodel

Forudsætninger

Gennemsnitlig og forventet respons
Gauss-Markovs sætning
Fejl og afvigelser
Statistisk test
Studentiseret balance
Minimum gennemsnitlig kvadratfejl

Eksperiment planlægning

Responsoverflademetodologi
Optimalt eksperimentdesign
Bayesiansk eksperimentdesign

Numerisk
tilnærmelse

Ansøgninger

Approksimation ved hjælp af kurver
Kalibreringskurve
Savitsky-Golay filter
System identifikation
Flytning af mindste kvadraters metode

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG