Regression ( lat. regressio - baglæns bevægelse, tilbagetog) i sandsynlighedsteori og matematisk statistik er et ensidigt stokastisk forhold, der etablerer en overensstemmelse mellem stokastiske variable [1] , det vil sige et matematisk udtryk , der afspejler forholdet mellem den afhængige variabel y og de uafhængige variable x , forudsat at dette udtryk vil have statistisk signifikans . I modsætning til den rent funktionelle afhængighed y = f ( x ), når hver værdi af den uafhængige variabel x svarer til én specifik værdi af y , med et regressionsforhold, kan den samme værdi af x , afhængigt af tilfældet, svare til forskellige værdier af y . Hvis der for hver værdi er værdier y i 1 ... y i i af værdien y , så betyder afhængigheden af aritmetikken på og er en regression i statistisk betydning af dette udtryk [2] .
Dette udtryk blev første gang brugt i statistik af Francis Galton (1886) i forbindelse med undersøgelsen af nedarvningen af menneskelige fysiske egenskaber. Menneskelig højde blev taget som et af kendetegnene; mens man fandt ud af, at i almindelighed var høje fædres sønner, ikke overraskende, højere end sønner af fædre med lav statur. Mere interessant var det, at variationen i sønnernes højde var mindre end variationen i fædrenes højde. Sådan manifesteredes tendensen til at bringe sønnernes vækst tilbage til gennemsnittet ( regression til middelmådighed ), det vil sige "regression". Dette faktum blev demonstreret ved at beregne den gennemsnitlige højde for sønner af fædre, der er 56 tommer høje, ved at beregne gennemsnitshøjden for sønner af fædre, der er 58 tommer høje, og så videre . , og langs abscisse -aksen - værdierne af fædres gennemsnitlige højde. Punkterne (ca.) ligger på en lige linje med en positiv hældning mindre end 45°; det er vigtigt, at regressionen var lineær .
Antag, at der er en stikprøve fra en bivariat fordeling af et par stokastiske variable ( X, Y ). Den rette linje i planet ( x, y ) var den selektive analog af funktionen
I sandsynlighedsteorien forstås begrebet "regression" som denne funktion, der ikke er andet end en betinget matematisk forventning til en stokastisk variabel Y , forudsat at en anden stokastisk variabel X har taget værdien x . Hvis for eksempel et par ( X, Y ) har en bivariat normalfordeling med E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, så kan det påvises, at den betingede fordeling af Y for X = x også vil være normal med forventning lig med
og spredning
I dette eksempel er regressionen af Y på X en lineær funktion . Hvis regressionen af Y på X ikke er lineær, så er de givne ligninger en lineær tilnærmelse af den sande regressionsligning.
Generelt vil regression af en stokastisk variabel til en anden ikke nødvendigvis være lineær. Det er heller ikke nødvendigt at begrænse sig til et par tilfældige variable. Statistiske regressionsproblemer er forbundet med at bestemme den generelle form af regressionsligningen, konstruere estimater af ukendte parametre inkluderet i regressionsligningen og teste statistiske hypoteser om regression [3] . Disse problemer betragtes inden for rammerne af regressionsanalyse .
Et simpelt eksempel på regression Y på X er forholdet mellem Y og X , som udtrykkes ved forholdet: Y = u ( X ) + ε, hvor u ( x )= E ( Y | X = x ), og den tilfældige variable X og ε er uafhængige. Denne repræsentation er nyttig, når et eksperiment er planlagt til at studere den funktionelle sammenhæng y = u ( x ) mellem ikke-tilfældige variable y og x . I praksis er regressionskoefficienterne i ligningen y = u ( x ) normalt ukendte og estimeres ud fra eksperimentelle data.
Vi repræsenterer afhængigheden af y af x i form af en førsteordens lineær model:
Vi vil antage, at x -værdier er bestemt uden fejl, β 0 og β 1 er modelparametre, og ε er en fejl, hvis fordeling overholder normalloven med nul middelværdi og konstant afvigelse σ 2 . Værdierne af parametrene β kendes ikke på forhånd, og de skal bestemmes ud fra et sæt eksperimentelle værdier ( x i , y i ), i =1, …, n . Så kan vi skrive:
hvor betyder værdien af y forudsagt af modellen for en given x , b 0 og b 1 er prøveestimater af modelparametrene. Lad os også bestemme — værdien af tilnærmelsesfejlen for den th observation.
For at beregne modelparametrene ud fra eksperimentelle data, bruges der ofte forskellige programmer til statistisk databehandling. Men for dette simple tilfælde er det ikke svært at udskrive detaljerede formler [4] [5] .
Mindste kvadraters metode giver følgende formler til beregning af parametrene for denne model og deres afvigelser:
her er middelværdierne defineret som sædvanligt: , og s e 2 betegner restafvigelsen af regressionen, som er estimatet af variansen σ 2 , hvis modellen er korrekt.
Standardfejlene for regressionskoefficienterne bruges på samme måde som standardfejlen for middelværdien - til at finde konfidensintervaller og teste hypoteser. Vi bruger fx Students kriterium til at teste hypotesen om, at regressionskoefficienten er lig med nul, det vil sige, at den er insignifikant for modellen. Elevens statistik :. Hvis sandsynligheden for den opnåede værdi og n − 2 frihedsgrader er tilstrækkelig lille, for eksempel <0,05, forkastes hypotesen. Tværtimod, hvis der ikke er nogen grund til at forkaste nulhypotesen, f.eks., er der grund til at tænke på eksistensen af den ønskede regression, i det mindste i denne form, eller på at indsamle yderligere observationer. Hvis det frie led er lig nul , så går den rette linje gennem origo, og skønnet af hældningen er lig med
,og dens standardfejl
Normalt kendes de sande værdier af regressionskoefficienterne β 0 og β 1 ikke. Kun deres estimater b 0 og b 1 er kendte . Med andre ord kan den sande lige regressionslinje gå anderledes end den, der er bygget på prøvedataene. Du kan beregne konfidensområdet for regressionslinjen. For enhver værdi af x er de tilsvarende værdier af y normalfordelt. Middelværdien er værdien af regressionsligningen . Usikkerheden ved dets estimat er karakteriseret ved standard regressionsfejlen:
Nu kan du beregne -procent konfidensintervallet for værdien af regressionsligningen ved punkt x :
,hvor t (1−α/2, n − 2) er t - værdien af Elevens fordeling. Figuren viser en 10-punkts regressionslinje (udtrukne prikker), samt 95 % konfidensområdet for regressionslinjen, som er afgrænset af stiplede linjer. Med 95 % sandsynlighed kan det argumenteres for, at den sande linje er et sted inden for dette område. Eller på anden måde, hvis vi indsamler lignende datasæt (angivet med cirkler) og bygger regressionslinjer på dem (angivet med blåt), så vil disse linjer i 95 tilfælde ud af 100 ikke forlade konfidensområdet. (Klik på billedet for at visualisere) Bemærk, at nogle punkter er uden for konfidensområdet. Dette er helt naturligt, da vi taler om tillidsområdet for regressionslinjen, og ikke værdierne selv. Spredningen af værdier er summen af spredningen af værdier omkring regressionslinjen og usikkerheden på positionen af denne linje selv, nemlig:
Her er m multipliciteten af målingen y for et givet x . Og det procentvise konfidensintervall (forudsigelsesinterval) for gennemsnittet af de m y værdier ville være:
.På figuren er denne 95 % konfidensregion ved m = 1 begrænset af fuldt optrukne linjer. 95% af alle mulige værdier af y i det undersøgte interval af x -værdier falder i denne region .
Det kan strengt bevises, at hvis den betingede forventning af en eller anden todimensionel stokastisk variabel ( X, Y ) er en lineær funktion af , så skal denne betingede forventning repræsenteres på formen , hvor E ( X )=μ 1 , E ( Y ) = μ2 , var( X )=σ12 , var( Y )=σ22 , cor ( X,Y ) = ρ.
Desuden, for den tidligere nævnte lineære model , hvor og er uafhængige stokastiske variable, og har nul forventning (og en vilkårlig fordeling), kan vi bevise, at . Derefter kan man ved hjælp af ligheden angivet ovenfor opnå formler for og : ,
.
Hvis det fra et sted er kendt a priori, at sættet af tilfældige punkter på planet er genereret af en lineær model, men med ukendte koefficienter og , kan man opnå punktestimater af disse koefficienter ved hjælp af de angivne formler. For at gøre dette skal du i stedet for matematiske forventninger, varianser og korrelationer af tilfældige variable X og Y erstatte deres upartiske estimater i disse formler. De opnåede estimeringsformler falder nøjagtigt sammen med formlerne udledt på basis af mindste kvadraters metode.
Ordbøger og encyklopædier |
---|