Logistisk regression

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 8. februar 2022; verifikation kræver 1 redigering .

Logistisk regression eller logit model ( engelsk logit model ) er en statistisk model, der bruges til at forudsige sandsynligheden for, at en hændelse indtræffer ved at sammenligne den med en logistisk kurve . Denne regression giver svaret som sandsynligheden for en binær hændelse (1 eller 0).

Beskrivelse

Logistisk regression bruges til at forudsige sandsynligheden for, at en hændelse opstår baseret på værdierne af et sæt funktioner. Til dette introduceres den såkaldte afhængige variabel , som kun tager en af to værdier - som regel er disse tallene 0 (hændelsen fandt ikke sted) og 1 (hændelsen fandt sted), og et sæt af uafhængige variabler (også kaldet tegn, forudsigelser eller regressorer) - reelle , baseret på værdierne, som det er påkrævet for at beregne sandsynligheden for at acceptere en eller anden værdi af den afhængige variabel. Som i tilfældet med lineær regression introduceres en dummy-funktion for at lette notationen $y$ $x_{1},x_{2},...,x_{n}$ $x_{0}=1.$

Det antages, at sandsynligheden for, at en begivenhed indtræffer, er: $y=1$

{\mathbb {P}}\{y=1\mid x\}=f(z),

hvor , og er kolonnevektorer af værdier af uafhængige variabler og parametre (regressionskoefficienter) - henholdsvis reelle tal, og er den såkaldte logistiske funktion (nogle gange også kaldet sigmoid- eller logit-funktionen): ${\displaystyle z=\theta ^{T}x=\theta _{0}+\theta _{1}x_{1}+\ldots +\theta _{n}x_{n))$ $x$ $\theta$ ${\displaystyle 1,x_{1},\dots ,x_{n))$ ${\displaystyle \theta _{0},...,\theta _{n))$ $f(z)$

f(z)={\frac {1}{1+e^{{-z))))

Da det kun tager værdierne 0 og 1, er sandsynligheden for at tage værdien 0: $y$

{\mathbb {P}}\{y=0\mid x\}=1-f(z)=1-f(\theta ^{T}x).

For kortheds skyld kan fordelingsfunktionen for givet skrives i følgende form: $y$ $x$

{\mathbb {P}}\{y\midt x\}=f(\theta ^{T}x)^{y}(1-f(\theta ^{T}x))^{{1-y }},\quad y\in \{0,1\}.

Faktisk er dette en Bernoulli-fordeling med en parameter lig med . $f(\theta ^{T}x)$

Valg af parametre

For at vælge parametrene er det nødvendigt at lave en træningsprøve bestående af værdisæt af uafhængige variable og tilsvarende værdier af den afhængige variabel . Formelt er dette et sæt af par , hvor er vektoren af værdier af uafhængige variabler, og er den værdi, der svarer til dem . Hvert sådant par kaldes et træningseksempel. ${\displaystyle \theta _{0},...,\theta _{n))$ $y$ $(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})$ $x^{{(i)}}\in {\mathbb {R}}^{n}$ $y^{{(i)}}\i \{0,1\}$ $y$

Normalt bruges maksimumsandsynlighedsmetoden , i henhold til hvilke parametre der vælges , der maksimerer værdien af sandsynlighedsfunktionen på træningsprøven: $\theta$

{\hat {\theta }}=\operatørnavn {argmax}_{{\theta }}L(\theta )=\operatørnavn {argmax}_({\theta }}\prod _{{i=1}}^ {{m}}{\mathbb {P}}\{y=y^{{(i)}}\mid x=x^{{(i)}}\}.

Maksimering af sandsynlighedsfunktionen svarer til at maksimere dens logaritme :

\ln L(\theta )=\sum _{i=1}^{m}\log \mathbb {P} \{y=y^{(i)}\mid x=x^{(i )}\}=\sum _{i=1}^{m}{\Big [}y^{(i)}\ln f(\theta ^{T}x^{(i)})+(1 -y^{(i)})\ln(1-f(\theta ^{T}x^{(i)})){\Big ]}

, hvor

\theta ^{T}x^{(i)}=\theta _{0}+\theta _{1}x_{1}^{(i)}+\dots +\theta _{n} x_{n}^{(i)}.

For at maksimere denne funktion kan f.eks. gradientnedstigningsmetoden anvendes . Det består i at udføre følgende iterationer, startende fra en indledende parameterværdi : $\theta$

\theta :=\theta +\alpha \nabla \ln L(\theta )=\theta +\alpha \sum _{{i=1}}^{{m}}(y^{{(i)}} -f(\theta ^{T}x^{{(i)}}))x^{{(i)}},\alpha >0.

I praksis bruges Newtons metode og stokastiske gradientnedstigning også .

Regulering

For at forbedre den resulterende models generaliseringsevne, det vil sige at reducere effekten af overfitting , overvejes i praksis ofte logistisk regression med regularisering .

Regularisering ligger i det faktum, at parametervektoren behandles som en tilfældig vektor med en given a priori - fordelingstæthed . For at træne modellen bruges metoden til at maksimere a posteriori-estimatet i stedet for den maksimale sandsynlighedsmetode, det vil sige, at der søges efter de parametre, der maksimerer værdien: $\theta$ $p(\theta)$ $\theta$

\prod _{{i=1}}^{m}{\mathbb {P}}\{y^{{(i)}}\mid x^{{(i)}},\theta \}\cdot p(\theta).

Den forudgående fordeling er ofte en nulmiddel-multivariat normalfordeling med en kovariansmatrix svarende til den a priori tro på, at alle regressionskoefficienter skal være små tal, ideelt set skal mange koefficienter med ringe betydning være nul. Ved at erstatte tætheden af denne tidligere fordeling i formlen ovenfor og tage logaritmen får vi følgende optimeringsproblem: ${\mathcal {N}}(0,\sigma ^{2}I)$ $\sigma ^{2}I$

\sum \limits _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \}-\lambda \|\theta \|^{2}\,\til {\mbox{max)),

hvor er regulariseringsparameteren. Denne metode er kendt som L2-regulariseret logistisk regression, fordi objektivfunktionen inkluderer L2-normen for parametervektoren til regularisering. $\lambda ={\mbox{const}}/{\sigma ^{2}}$

Hvis vi i stedet for L2-normen bruger L1-normen , som svarer til at bruge Laplace-fordelingen som a priori i stedet for den normale, så får vi en anden almindelig version af metoden - L1-regulariseret logistisk regression:

\sum _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \} -\lambda \|\theta \|_{1}\,\til {\mbox{max}}.

Ansøgning

Denne model bruges ofte til at løse klassifikationsproblemer - et objekt kan tildeles klassen, hvis sandsynligheden er forudsagt af modellen , og til klassen ellers. De resulterende klassifikationsregler er lineære klassifikatorer . $x$ $y=1$ ${\mathbb {P}}\{y=1\mid x\}>0{,}5$ $y=0$

Relaterede metoder

Probit-regression minder meget om logistisk regression , idet den kun adskiller sig fra den i et andet valg af funktion . Softmax-regression generaliserer logistisk regression til tilfældet med multiklasseklassifikation, det vil sige, når den afhængige variabel antager mere end to værdier. Alle disse modeller er til gengæld repræsentanter for en bred klasse af statistiske modeller - generaliserede lineære modeller . $f(z)$ $y$

Se også

Litteratur

Andrew Ng. Stanford CS229 Lecture Notes

Mindste kvadrater og regressionsanalyse

Beregningsstatistik _

Mindste kvadratisk metode
Lineær MNC
Ikke-lineære mindste kvadrater
LSM med iterativ genberegning af vægte

Korrelation
og afhængighed

Pearson korrelationskoefficient
Rangkorrelation ( Spearman
Kendall )
Delvis korrelation
Forvrængende faktor

Regressions analyse

Almindelig MNC
Delvis mindste kvadraters metode
Mindst fulde kvadrater
Ridge regression

Regression som
statistisk
model

Lineær regression	Simpel lineær regression Almindelig MNC Generaliserede mindste kvadrater Vægtede mindste kvadrater Grundlæggende lineær model
forudsigende struktur	Polynomisk regression vækstkurve Segmenteret regression Lokal regression
Brugerdefineret regression	ikke-lineær Ikke-parametrisk semi-parametrisk bæredygtige kvantil isotonisk
Ikke- standardfejl	Generaliseret lineær model Binomial regression Poisson regression Logistisk regression

Variansnedbrydning

Analyse af varians
Kovariansanalyse
Multivariat variansanalyse

Modelstudie

C p Mallows
Trinvis regression
Valg af statistisk model
Validering af regressionsmodel

Forudsætninger

Gennemsnitlig og forventet respons
Gauss-Markovs sætning
Fejl og afvigelser
Statistisk test
Studentiseret balance
Minimum gennemsnitlig kvadratfejl

Eksperiment planlægning

Responsoverflademetodologi
Optimalt eksperimentdesign
Bayesiansk eksperimentdesign

Numerisk
tilnærmelse

Ansøgninger

Approksimation ved hjælp af kurver
Kalibreringskurve
Savitsky-Golay filter
System identifikation
Flytning af mindste kvadraters metode

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG