Logistisk regression

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 8. februar 2022; verifikation kræver 1 redigering .

Logistisk regression eller logit model ( engelsk  logit model ) er en statistisk model, der bruges til at forudsige sandsynligheden for, at en hændelse indtræffer ved at sammenligne den med en logistisk kurve . Denne regression giver svaret som sandsynligheden for en binær hændelse (1 eller 0).

Beskrivelse

Logistisk regression bruges til at forudsige sandsynligheden for, at en hændelse opstår baseret på værdierne af et sæt funktioner. Til dette introduceres den såkaldte afhængige variabel , som kun tager en af ​​to værdier - som regel er disse tallene 0 (hændelsen fandt ikke sted) og 1 (hændelsen fandt sted), og et sæt af uafhængige variabler (også kaldet tegn, forudsigelser eller regressorer) - reelle , baseret på værdierne, som det er påkrævet for at beregne sandsynligheden for at acceptere en eller anden værdi af den afhængige variabel. Som i tilfældet med lineær regression introduceres en dummy-funktion for at lette notationen

Det antages, at sandsynligheden for, at en begivenhed indtræffer, er:

hvor , og  er kolonnevektorer af værdier af uafhængige variabler og parametre (regressionskoefficienter) - henholdsvis reelle tal, og  er den såkaldte logistiske funktion (nogle gange også kaldet sigmoid- eller logit-funktionen):

Da det kun tager værdierne 0 og 1, er sandsynligheden for at tage værdien 0:

For kortheds skyld kan fordelingsfunktionen for givet skrives i følgende form:

Faktisk er dette en Bernoulli-fordeling med en parameter lig med .

Valg af parametre

For at vælge parametrene er det nødvendigt at lave en træningsprøve bestående af værdisæt af uafhængige variable og tilsvarende værdier af den afhængige variabel . Formelt er dette et sæt af par , hvor  er vektoren af ​​værdier af uafhængige variabler, og  er den værdi, der svarer til dem . Hvert sådant par kaldes et træningseksempel.

Normalt bruges maksimumsandsynlighedsmetoden , i henhold til hvilke parametre der vælges , der maksimerer værdien af ​​sandsynlighedsfunktionen på træningsprøven:

Maksimering af sandsynlighedsfunktionen svarer til at maksimere dens logaritme :

, hvor

For at maksimere denne funktion kan f.eks. gradientnedstigningsmetoden anvendes . Det består i at udføre følgende iterationer, startende fra en indledende parameterværdi :

I praksis bruges Newtons metode og stokastiske gradientnedstigning også .

Regulering

For at forbedre den resulterende models generaliseringsevne, det vil sige at reducere effekten af ​​overfitting , overvejes i praksis ofte logistisk regression med regularisering .

Regularisering ligger i det faktum, at parametervektoren behandles som en tilfældig vektor med en given a priori - fordelingstæthed . For at træne modellen bruges metoden til at maksimere a posteriori-estimatet i stedet for den maksimale sandsynlighedsmetode, det vil sige, at der søges efter de parametre, der maksimerer værdien:

Den forudgående fordeling er ofte en nulmiddel-multivariat normalfordeling med en kovariansmatrix svarende til den a priori tro på, at alle regressionskoefficienter skal være små tal, ideelt set skal mange koefficienter med ringe betydning være nul. Ved at erstatte tætheden af ​​denne tidligere fordeling i formlen ovenfor og tage logaritmen får vi følgende optimeringsproblem:

hvor  er regulariseringsparameteren. Denne metode er kendt som L2-regulariseret logistisk regression, fordi objektivfunktionen inkluderer L2-normen for parametervektoren til regularisering.

Hvis vi i stedet for L2-normen bruger L1-normen , som svarer til at bruge Laplace-fordelingen som a priori i stedet for den normale, så får vi en anden almindelig version af metoden - L1-regulariseret logistisk regression:

Ansøgning

Denne model bruges ofte til at løse klassifikationsproblemer  - et objekt kan tildeles klassen, hvis sandsynligheden er forudsagt af modellen , og til klassen ellers. De resulterende klassifikationsregler er lineære klassifikatorer .

Relaterede metoder

Probit-regression minder meget om logistisk regression , idet den kun adskiller sig fra den i et andet valg af funktion . Softmax-regression generaliserer logistisk regression til tilfældet med multiklasseklassifikation, det vil sige, når den afhængige variabel antager mere end to værdier. Alle disse modeller er til gengæld repræsentanter for en bred klasse af statistiske modeller - generaliserede lineære modeller .

Se også

Litteratur