Probit- regression ( probit model , eng. probit ) er en statistisk (ikke-lineær) model og metode til at analysere kvalitative (primært binære) variables afhængighed af en række forskellige faktorer, baseret på normalfordelingen (i modsætning til f.eks. lignende logit-regression , som er baseret på den logistiske fordeling ). Inden for økonomi ( økonometri ) bruges probit-modeller (sammen med logit, gompit osv.) i binære valgmodeller eller i modeller med multiple choice mellem forskellige alternativer, til modellering af virksomheds misligholdelser , i livsforsikring - til at estimere sandsynligheden for død afhængigt af på alder og køn osv. I toksikologi bruges probit regression til at vurdere effekten af en dosis eller koncentration af bestemte stoffer på biologiske objekter.
Probitmodellen giver dig mulighed for at estimere sandsynligheden for, at den analyserede (afhængige) variabel får værdien 1 for givne faktorværdier (det vil sige, at det er et estimat af andelen af "enheder" for en given faktorværdi). I probitmodellen er sandsynlighedsfunktionen af sandsynlighed modelleret som en lineær kombination af faktorer (inklusive en konstant). Probitfunktionen kaldes funktionen invers til den kumulative funktion (CDF) af standardnormalfordelingen, det vil sige den funktion, der bestemmer kvantilen af standardnormalfordelingen for en given sandsynlighed .
Udtrykket " probit " som et afledt af det engelske. Sandsynlighedsenheden blev foreslået (først brugt) af Chester Ittner Bliss [1899-1979]) [1] i hans artikel om den kvantitative analyse af giftstoffers dødelige virkning på eksemplet med virkningen af nikotin på oxalbladlus ( Aphis rumicis) L. ) [1] . Siden da har metoden til probitanalyse været særlig populær inden for toksikologi . Selve brugen af normalfordelingsfunktionen til at beskrive "dosis-effekt"-forholdet går tilbage til den engelske matematiker J. W. Trevan, som viste, at intensiteten af den cellulære respons på en given dosis af et lægemiddelstof adlyder Gauss-fordelingen [2] .
Probitmodellen er et specialtilfælde af den binære valgmodel, der bruger normalfordelingen. Lad nemlig den afhængige variabel være binær, det vil sige, at den kun kan tage to værdier, som for nemheds skyld antages at være og . Det kan for eksempel betyde tilstedeværelsen/fraværet af betingelser, succes eller fiasko for noget, svaret er ja/nej i en undersøgelse osv. Lad der også være en vektor af regressorer (faktorer) , der påvirker . Probitmodellen antager, at sandsynligheden for, hvad der er bestemt af normalfordelingen, så probitmodellen er:
hvor er den kumulative fordelingsfunktion ( CDF ) af standard normalfordelingen, er de ukendte parametre, der skal estimeres.
Anvendelsen af standardnormalfordelingen begrænser ikke modellens generalitet, da der tages højde for en eventuel ikke-nul middelværdi i en konstant, der nødvendigvis er til stede blandt faktorerne, og en eventuel ikke-enhedsvarians tages i betragtning pga. til passende normalisering af alle koefficienter b.
Som i det generelle tilfælde af den binære valgmodel, er modellen baseret på antagelsen om, at der er en skjult (uobserveret) variabel , afhængigt af de værdier, som den observerede variabel tager værdien af eller :
Den latente variabel antages at afhænge af faktorer i betydningen almindelig lineær regression , hvor den tilfældige fejl i dette tilfælde har en standard normalfordeling . Derefter
Den sidste lighed følger af normalfordelingens symmetri.
Modellen kan også underbygges gennem brugen af alternativer - en ikke-observerbar funktion , det vil sige i virkeligheden to funktioner og henholdsvis for to alternativer. Alternativernes nytteforskelfunktion spiller her rollen som den meget skjulte variabel.
Estimering udføres normalt ved den maksimale sandsynlighedsmetode . Lad der være en stikprøve af mængden af faktorer og en afhængig variabel . Brug indekset for et givet observationsnummer . Log-sandsynlighedsfunktionen har formen:
Maksimering af denne funktion med hensyn til ukendte parametre gør det muligt at opnå konsistente , asymptotisk effektive og asymptotisk normale parameterestimater. Det sidste betyder, at:
hvor er den asymptotiske kovariansmatrix af parameterestimater, som bestemmes af standardmetoden for maksimumsandsynlighedsmetoden (gennem hessian eller gradienten af logsandsynlighedsfunktionen på det optimale punkt):
,hvor er sandsynlighedstæthedsfunktionen ( PDF ) af standardnormalfordelingen .
Matrixen er ukendt, og dens konsistente estimat bruges :
Typisk udføres modelevaluering i specialiserede (statistiske, økonometriske ) softwareprodukter, for eksempel Statistica , EViews, Matrixer, R [3] , SPSS osv. [4] , selvom "manuel" evaluering er mulig, f.eks. MS Office Excel, ved hjælp af den indbyggede "Søger efter en løsning" for at maksimere log-sandsynlighedsfunktionen.
For at vurdere kvaliteten af den konstruerede probit-regression bruges standardstatistikken for binære valgmodeller :
Det er vigtigt at analysere andelen af korrekte forudsigelser. Især bliver andelen af korrekte og (eller) forkerte prognoser for værdien af hver af værdierne af den afhængige variabel (0 og 1) analyseret.
Overvej probit-modellen ved at bruge eksemplet med insekticidvirkning på insekter [5] [6] . Den afhængige binære variabel er en variabel, der tager værdien 1, hvis insektet døde, og 0 ellers. I en prøve af insekter afhænger nogle insekters reaktion på et insekticid ikke af andres reaktion. "Måleren" af dosis fungerer som en faktor af modellen , hvor er dosis af insekticidet. Sandsynligheden for, at et tilfældigt udvalgt insekt fra populationen dør i en given tid er lig med
.Hvis modelparametrene og er kendte (vi betegner henholdsvis estimaterne og ), så findes dosisniveauet , ved hvilket en vis procentdel af insekter dør, ud fra ligningen
,hvor er niveaukvantilen af standardnormalfordelingen.
Især for det dosisniveau, hvor 50 % af insekterne dør, . Denne værdi i toksikologi omtales almindeligvis som LD 50 .
Du kan også konstruere et omtrentligt konfidensinterval for følgende: . Spredningen kan estimeres omtrent som følger:
,hvor er et estimat af variansen af modelparameterestimater, er et estimat af kovariansen mellem parameterestimater.
Et mere præcist konfidensinterval kan estimeres ud fra Fellers sætning , ifølge hvilken 95 % konfidensgrænserne for er rødderne af andengradsligningen
,hvor er 95% Elevens t-fordelingspunkt.
I praksis er der situationer, hvor det er nødvendigt at undersøge ikke to alternativer, men flere alternativer. Hvis disse alternativer er uordnede, så taler man om en multinominel probitmodel . Ved bestilte alternativer (f.eks. en 5-punkts vurdering af kvaliteten af en service eller et produkt) taler man om en ordinal eller bestilt ( bestilt ) probit model .