Probit regression

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 7. oktober 2019; checks kræver 3 redigeringer .

Probit- regression ( probit model , eng. probit ) er en statistisk (ikke-lineær) model og metode til at analysere kvalitative (primært binære) variables afhængighed af en række forskellige faktorer, baseret på normalfordelingen (i modsætning til f.eks. lignende logit-regression , som er baseret på den logistiske fordeling ). Inden for økonomi ( økonometri ) bruges probit-modeller (sammen med logit, gompit osv.) i binære valgmodeller eller i modeller med multiple choice mellem forskellige alternativer, til modellering af virksomheds misligholdelser , i livsforsikring - til at estimere sandsynligheden for død afhængigt af på alder og køn osv. I toksikologi bruges probit regression til at vurdere effekten af en dosis eller koncentration af bestemte stoffer på biologiske objekter.

Probitmodellen giver dig mulighed for at estimere sandsynligheden for, at den analyserede (afhængige) variabel får værdien 1 for givne faktorværdier (det vil sige, at det er et estimat af andelen af "enheder" for en given faktorværdi). I probitmodellen er sandsynlighedsfunktionen af sandsynlighed modelleret som en lineær kombination af faktorer (inklusive en konstant). Probitfunktionen kaldes funktionen invers til den kumulative funktion (CDF) af standardnormalfordelingen, det vil sige den funktion, der bestemmer kvantilen af standardnormalfordelingen for en given sandsynlighed . $x_{q}=\Phi ^{-1}(q)$

Udtrykket " probit " som et afledt af det engelske. Sandsynlighedsenheden blev foreslået (først brugt) af Chester Ittner Bliss [1899-1979]) [1] i hans artikel om den kvantitative analyse af giftstoffers dødelige virkning på eksemplet med virkningen af nikotin på oxalbladlus ( Aphis rumicis) L. ) [1] . Siden da har metoden til probitanalyse været særlig populær inden for toksikologi . Selve brugen af normalfordelingsfunktionen til at beskrive "dosis-effekt"-forholdet går tilbage til den engelske matematiker J. W. Trevan, som viste, at intensiteten af den cellulære respons på en given dosis af et lægemiddelstof adlyder Gauss-fordelingen [2] .

Essensen af modellen

Probitmodellen er et specialtilfælde af den binære valgmodel, der bruger normalfordelingen. Lad nemlig den afhængige variabel være binær, det vil sige, at den kun kan tage to værdier, som for nemheds skyld antages at være og . Det kan for eksempel betyde tilstedeværelsen/fraværet af betingelser, succes eller fiasko for noget, svaret er ja/nej i en undersøgelse osv. Lad der også være en vektor af regressorer (faktorer) , der påvirker . Probitmodellen antager, at sandsynligheden for, hvad der er bestemt af normalfordelingen, så probitmodellen er: $Y$ $en$ $0$ $Y$ $x$ $Y$ $Y=1$

p(x)=P(Y=1\midt X=x)=\Phi (x^{T}b)

hvor er den kumulative fordelingsfunktion ( CDF ) af standard normalfordelingen, er de ukendte parametre, der skal estimeres. $\Phi$ $b$

Anvendelsen af standardnormalfordelingen begrænser ikke modellens generalitet, da der tages højde for en eventuel ikke-nul middelværdi i en konstant, der nødvendigvis er til stede blandt faktorerne, og en eventuel ikke-enhedsvarians tages i betragtning pga. til passende normalisering af alle koefficienter b.

Som i det generelle tilfælde af den binære valgmodel, er modellen baseret på antagelsen om, at der er en skjult (uobserveret) variabel , afhængigt af de værdier, som den observerede variabel tager værdien af eller : $Y^{*}$ $Y$ $0$ $en$

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases))

Den latente variabel antages at afhænge af faktorer i betydningen almindelig lineær regression , hvor den tilfældige fejl i dette tilfælde har en standard normalfordeling . Derefter $x$ $y^{*}=x^{T}b+\varepsilon$ $N(0,1)$

$p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b) =1-\Phi (-x^{T}b)=\Phi (x^{T}b)$

Den sidste lighed følger af normalfordelingens symmetri.

Modellen kan også underbygges gennem brugen af alternativer - en ikke-observerbar funktion , det vil sige i virkeligheden to funktioner og henholdsvis for to alternativer. Alternativernes nytteforskelfunktion spiller her rollen som den meget skjulte variabel. $U(y,x)$ $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$

Parameter Estimation

Estimering udføres normalt ved den maksimale sandsynlighedsmetode . Lad der være en stikprøve af mængden af faktorer og en afhængig variabel . Brug indekset for et givet observationsnummer . Log-sandsynlighedsfunktionen har formen: $n$ $x$ $Y$ $t$

l(b)=\sum _{t=1}^{n}(y_{t}\ln \Phi (x_{t}^{T}b)+(1-y_{t})\ ln(1-\Phi (x_{t}^{T}b))

Maksimering af denne funktion med hensyn til ukendte parametre gør det muligt at opnå konsistente , asymptotisk effektive og asymptotisk normale parameterestimater. Det sidste betyder, at:

{\sqrt {n}}({\hat {b}}-b)\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}) ,

hvor er den asymptotiske kovariansmatrix af parameterestimater, som bestemmes af standardmetoden for maksimumsandsynlighedsmetoden (gennem hessian eller gradienten af logsandsynlighedsfunktionen på det optimale punkt): $\Omega ^{-1}$

\Omega =\operatørnavn {E} {\bigg [}{\frac {\varphi ^{2}(X'b)}{\Phi (X'b)(1-\Phi (X'b) )))XX'{\bigg ]}

hvor er sandsynlighedstæthedsfunktionen ( PDF ) af standardnormalfordelingen . $\varphi$

Matrixen er ukendt, og dens konsistente estimat bruges : $\Omega$

{\hat {\Omega }}={\frac {1}{n}}\sum _{t=1}^{n}{\bigg [}{\frac {\varphi ^{2}( x_{t}^{T}b)}{\Phi (x_{t}^{T}b)(1-\Phi (x_{t}^{T}b))))x_{t}x_{ t}^{T}{\bigg ]}

Typisk udføres modelevaluering i specialiserede (statistiske, økonometriske ) softwareprodukter, for eksempel Statistica , EViews, Matrixer, R [3] , SPSS osv. [4] , selvom "manuel" evaluering er mulig, f.eks. MS Office Excel, ved hjælp af den indbyggede "Søger efter en løsning" for at maksimere log-sandsynlighedsfunktionen.

Kvalitetsmålinger og modeltest

For at vurdere kvaliteten af den konstruerede probit-regression bruges standardstatistikken for binære valgmodeller :

Sandsynlighedsratiostatistik ( ). $LR$

Pseudo-bestemmelseskoefficient ( $R_{pseudo}^{2})$

McFadden bestemmelseskoefficient ( likelihood ratio index )( ) $R_{McFadden}^{2},LRI$

Informationskriterier for Akaike, Schwartz, Hannan-Quinn ( ). $AIC,BIC(SC),HQ$

Statistik Hosmer-Lemeshow (Hosmer-Lemeshow, ) $HL$ .

Andrews statistik (Andrews)

Det er vigtigt at analysere andelen af korrekte forudsigelser. Især bliver andelen af korrekte og (eller) forkerte prognoser for værdien af hver af værdierne af den afhængige variabel (0 og 1) analyseret.

Eksempler

Toksikologi

Overvej probit-modellen ved at bruge eksemplet med insekticidvirkning på insekter [5] [6] . Den afhængige binære variabel er en variabel, der tager værdien 1, hvis insektet døde, og 0 ellers. I en prøve af insekter afhænger nogle insekters reaktion på et insekticid ikke af andres reaktion. "Måleren" af dosis fungerer som en faktor af modellen , hvor er dosis af insekticidet. Sandsynligheden for, at et tilfældigt udvalgt insekt fra populationen dør i en given tid er lig med $n$ $x=\lg(d)$ $d$

p(x)=\Phi (\alpha +\beta x)

Hvis modelparametrene og er kendte (vi betegner henholdsvis estimaterne og ), så findes dosisniveauet , ved hvilket en vis procentdel af insekter dør, ud fra ligningen $\alfa$ $\beta$ $-en$ $b$ ${\displaystyle x_{p))$

a+bx_{p}=\Phi ^{-1}(p)=q_{p}\Rightarrow x_{p}=(q_{p}-a)/b

hvor er niveaukvantilen af standardnormalfordelingen. ${\displaystyle q_{p))$ $s$

Især for det dosisniveau, hvor 50 % af insekterne dør, . Denne værdi i toksikologi omtales almindeligvis som LD 50 . $x_{50}$ ${\displaystyle \lg d_{50}=x_{50}=-a/b\Rightarrow d_{50}=10^{-a/b))$

Du kan også konstruere et omtrentligt konfidensinterval for følgende: . Spredningen kan estimeres omtrent som følger: ${\displaystyle x_{p))$ $x_{p}\pm 2\sigma _{x_{p))$ $\sigma _{x_{p}}^{2}$

\sigma _{x_{p}}^{2}=(\sigma _{a}^{2}+2x_{p}\sigma _{ab}+x_{p}^{2}\sigma _{b}^{2})/b^{2}

hvor er et estimat af variansen af modelparameterestimater, er et estimat af kovariansen mellem parameterestimater. $\sigma _{a}^{2},\sigma _{b}^{2}$ $\sigma _{{ab}}$

Et mere præcist konfidensinterval kan estimeres ud fra Fellers sætning , ifølge hvilken 95 % konfidensgrænserne for er rødderne af andengradsligningen ${\displaystyle x_{p))$ $\lambda _{1}$ $\lambda _{2}$

\lambda ^{2}(b^{2}-t^{2}\sigma _{b}^{2})-2\lambda (b^{2}x_{p}+t^{ 2}\sigma _{ab})+(b^{2}x_{p}^{2}-t^{2}\sigma _{a}^{2})=0

hvor er 95% Elevens t-fordelingspunkt. $t=t_{95}$

Variationer og generaliseringer

I praksis er der situationer, hvor det er nødvendigt at undersøge ikke to alternativer, men flere alternativer. Hvis disse alternativer er uordnede, så taler man om en multinominel probitmodel . Ved bestilte alternativer (f.eks. en 5-punkts vurdering af kvaliteten af en service eller et produkt) taler man om en ordinal eller bestilt ( bestilt ) probit model .

Se også

Noter

↑ 12 Bliss CI. Probitmetoden (engelsk) // Videnskab. - 1934. - Bd. 79 , nr. 2037 . - S. 38-39 . - doi : 10.1126/science.79.2037.38 . — PMID 17813446 . — .
↑ Trevan, JW 1927. Fejlen ved bestemmelse af toksicitet. Proc. Royal Soc. 101B: 483-514. citeret i Albert A. Selektiv toksicitet. Fysiske og kemiske baser for terapi. Om. fra engelsk. I 2 bind. T. 1. - M: Medicin, 1989, S. 247. ISBN 5-225-01519-0
↑ R Eksempler på dataanalyse - Probit-regression . Hentet 3. august 2012. Arkiveret fra originalen 29. november 2012. (ubestemt)
↑ da:Comparison_of_statistical_packages#Regression
↑ Finney, DJ Probit Analysis (3. udgave ) . - Cambridge University Press, Cambridge, Storbritannien, 1971. - ISBN 052108041X .
↑ Håndbog i anvendt statistik. I 2 bind T. 1: Pr. fra engelsk. / Ed. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Finans og statistik, 1989. — 510 s. — ISBN 5-279-00245-3

Litteratur

Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrics. Indledende kursus. - M . : Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0 . .

Nosko V.P. Økonometri for begyndere (Yderligere kapitler). – M.: IET, 2005. S. 379.