Regressions analyse

Regressionsanalyse er et sæt statistiske metoder til at studere en eller flere uafhængige variables indflydelse på en afhængig variabel . Uafhængige variable kaldes ellers regressorer eller prædiktorer, og afhængige variable kaldes kriterier eller regressorer. Terminologien af afhængige og uafhængige variable afspejler kun den matematiske afhængighed af variable ( se korrelation ), og ikke kausale sammenhænge. Den mest almindelige type regressionsanalyse er lineær regression, når der findes en lineær funktion, der ifølge visse matematiske kriterier matcher dataene bedst. For eksempel, i metoden med mindste kvadrater, beregnes en ret linje (eller hyperplan), hvor summen af kvadrater mellem hvilke og dataene er minimal. $X_{1},X_{2},...,X_{p}$ $Y$

Mål for regressionsanalyse

Bestemmelse af graden af determinisme af variationen af kriteriet (afhængig) variabel ved prædiktorer (uafhængige variable)
Forudsigelse af værdien af den afhængige variabel ved hjælp af den eller de uafhængige variabler
Bestemmelse af individuelle uafhængige variables bidrag til variationen af den afhængige

Matematisk definition af regression

Strengt regressiv afhængighed kan defineres som følger. Lade være stokastiske variable med en given fælles sandsynlighedsfordeling. Hvis der for hvert sæt værdier er defineret en betinget forventning $Y,X_{1},X_{2},\ldots ,X_{p}$ $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$

y(x_{1},x_{2},\ldots,x_{p})={\mathbb {E))(Y\midt X_{1}=x_{1},X_{2}=x_{2 },\ldots ,X_{p}=x_{p})

(generel regressionsligning),

så kaldes funktionen regressionen af størrelse for størrelser , og dens graf kaldes regressionslinjen for eller regressionsligningen . $y(x_{1},x_{2},\ldots,x_{p})$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$

Afhængighed af er manifesteret i ændringen i gennemsnitsværdierne ved ændring . Selvom værdien for hvert fast sæt værdier forbliver en tilfældig variabel med en bestemt fordeling . $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $Y$ $X_{1},X_{2},\ldots ,X_{p}$ $X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}$ $Y$

For at afklare spørgsmålet om, hvor nøjagtigt regressionsanalysen estimerer ændringen med en ændring , bruges den gennemsnitlige værdi af variansen til forskellige værdisæt (faktisk taler vi om spredningsmålet for den afhængige variabel omkring regressionslinje). $Y$ $X_{1},X_{2},...,X_{p}$ $Y$ $X_{1},X_{2},...,X_{p}$

På matrixform skrives regressionsligningen (ER) som: , hvor er fejlmatricen. Med en inverterbar matrix X◤X opnås en kolonnevektor med koefficienterne B, idet der tages hensyn til U◤U=min(B). I et særligt tilfælde for X=(±1) er X◤X-matricen roterbar, og SD kan bruges i tidsserieanalyse og teknisk databehandling. $Y=BX+U$ $U$

Mindste kvadraters metode (beregning af koefficienter)

I praksis søges regressionslinjen oftest som en lineær funktion ( lineær regression ), der bedst tilnærmer den ønskede kurve. Dette gøres ved hjælp af mindste kvadraters metode , når summen af de kvadrerede afvigelser af de faktisk observerede fra deres estimater er minimeret (hvilket betyder estimater ved hjælp af en lige linje, der hævder at repræsentere den ønskede regressionsafhængighed): ${\displaystyle Y=b_{0}+b_{1}X_{1}+b_{2}X_{2}+\ldots +b_{N}X_{N))$ ${Y}$ ${\hat {Y}}$

\sum _{{k=1}}^{{M}}(Y_{k}-{\hat {Y_{k}}})^{2}\to \min

( er prøvestørrelsen). Denne tilgang er baseret på det velkendte faktum, at summen, der vises i ovenstående udtryk, tager minimumsværdien netop for det tilfælde, hvor . $M$ $Y=y(x_{1},x_{2},...x_{N})$

For at løse problemet med regressionsanalyse ved hjælp af mindste kvadraters metode introduceres begrebet residualfunktion :

\sigma ({\bar {b)))={\frac {1}{2}}\sum _{{k=1}}^{{M}}{(Y_{k}-{\hat {Y }}_{k})^{2}}

Betingelsen for minimum af restfunktionen:

\left\{{\begin{matrix}{\frac {\partial \sigma ({\bar {b)))}{\partial b_{i))}=0\\i=0... N\end{matrix}}\right.\Leftrightarrow {\begin{cases}\sum \limits _{i=1}^{M}{y_{i}}=\sum \limits _{i=1}^ {M}{\sum \limits _{j=1}^{N}{b_{j}x_{i,j}}}+b_{0}M\\\sum \limits _{i=1}^ {M}{y_{i}x_{i,k}}=\sum \limits _{i=1}^{M}{\sum \limits _{j=1}^{N}{b_{j} x_{i,j}x_{i,k}}}+b_{0}\sum \limits _{i=1}^{M}{x_{i,k}}\\k=1,\ldots , N\end{cases}}

Det resulterende system er et system af lineære ligninger med ukendte . $N+1$ $N+1$ $b_{0},\ldots ,b_{N}$

Hvis vi repræsenterer de frie led i venstre side af ligningerne ved matricen

B=\left({\begin{matrix}\sum \limits _{i=1}^{M}{y_{i}}\\\sum \limits _{i=1}^{M} {y_{i}x_{i,1}}\\\vdots \\\sum \limits _{i=1}^{M}{y_{i}x_{i,N}}\end{matrix}} \ret),

og koefficienterne for de ukendte på højre side er matrixen

A=\left({\begin{matrix}M&\sum \limits _{i=1}^{M}{x_{i,1}}&\sum \limits _{i=1}^{ M}{x_{i,2}}&...&\sum \limits _{i=1}^{M}{x_{i,N}}\\\sum \limits _{i=1}^ {M}{x_{i,1}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,1}}&\sum \limits _{i=1 }^{M}{x_{i,2}x_{i,1}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,1 }}\\\sum \limits _{i=1}^{M}{x_{i,2}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{ i,2}}&\sum \limits _{i=1}^{M}{x_{i,2}x_{i,2}}&...&\sum \limits _{i=1}^ {M}{x_{i,N}x_{i,2}}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum \limits _{i=1}^{M}{ x_{i,N}}&\sum \limits _{i=1}^{M}{x_{i,1}x_{i,N}}&\sum \limits _{i=1}^{M }{x_{i,2}x_{i,N}}&...&\sum \limits _{i=1}^{M}{x_{i,N}x_{i,N}}\end {matrix}}\right),

så får vi matrixligningen: , som let løses ved Gauss-metoden . Den resulterende matrix vil være en matrix indeholdende koefficienterne for regressionslinjeligningen: $A\ gange X=B$

X=\venstre({\begin{matrix}b_{0}\\b_{1}\\\vdots \\b_{N}\end{matrix}}\right)

For at opnå de bedste estimater er det nødvendigt at opfylde LSM-forudsætningerne (Gauss-Markov-betingelser) . I den engelsksprogede litteratur kaldes sådanne estimater BLUE ( Best Linear Unbiased Estimators - "the best linear unbiased estimates"). De fleste af de undersøgte afhængigheder kan repræsenteres ved hjælp af LSM ved ikke- lineære matematiske funktioner.

Fortolkning af regressionsparametre

Parametrene er partielle korrelationskoefficienter; tolkes som andelen af variansen af Y forklaret ved at fiksere indflydelsen af de resterende prædiktorer, dvs. den måler det individuelle bidrag til forklaringen af Y. I tilfælde af korrelerede prædiktorer er der et problem med usikkerhed i estimaterne , som bliver afhængige af den rækkefølge, som prædiktorerne indgår i modellen. I sådanne tilfælde er det nødvendigt at anvende analysemetoderne for korrelation og trinvis regressionsanalyse. $b_{i}$ $(b_{i})^{2}$ $X_{i}$ $X_{i}$

Når vi taler om ikke-lineære modeller for regressionsanalyse, er det vigtigt at være opmærksom på, om vi taler om ikke-linearitet i uafhængige variable (fra et formelt synspunkt, let reduceret til lineær regression) eller ikke-linearitet i estimerede parametre (forårsager alvorlige beregningsmæssige vanskeligheder). Med ikke-lineariteten af den første type, fra et meningsfuldt synspunkt, er det vigtigt at fremhæve udseendet i modellen af medlemmer af formen , , hvilket indikerer tilstedeværelsen af interaktioner mellem funktioner osv . (se Multicollinearity ). $X_{1}X_{2}$ $X_{1}X_{2}X_{3}$ $X_{1}$ $X_{2}$

Se også

Litteratur

Draper N., Smith G. Anvendt regressionsanalyse. Multipel regression = Anvendt regressionsanalyse. - 3. udg. - M . : " Dialektik ", 2007. - 912 s. — ISBN 0-471-17082-8 .
Förster E., Renz B. Metoder til korrelation og regressionsanalyse = Methoden der Korrelation - und Regressiolynsanalyse. - M. : Finans og statistik, 1981. - 302 s.
Zakharov S. I. , Kholmskaya A. G. Forbedring af effektiviteten af behandling af vibrations- og støjsignaler under test af mekanismer // Vestnik mashinostroeniya : zhurnal. - M . : Mashinostroenie, 2001. - Nr. 10 . - S. 31-32 . — ISSN 0042-4633 .
Radchenko S. G. Stabile metoder til estimering af statistiske modeller. - K . : PP "Sansparel", 2005. - 504 s. - ISBN 966-96574-0-7 , UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152.
Radchenko S. G. Metodik til regressionsanalyse. - K . : "Korniychuk", 2011. - 376 s. - ISBN 978-966-7599-72-0 .

Ordbøger og encyklopædier

I bibliografiske kataloger
BNF : 119445648 GND : 4129903-6 J9U : 987007529518905171 LCCN : sh85112392 NDL : 00564579 NKC : ph125086

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG