Regressionsanalyse er et sæt statistiske metoder til at studere en eller flere uafhængige variables indflydelse på en afhængig variabel . Uafhængige variable kaldes ellers regressorer eller prædiktorer, og afhængige variable kaldes kriterier eller regressorer. Terminologien af afhængige og uafhængige variable afspejler kun den matematiske afhængighed af variable ( se korrelation ), og ikke kausale sammenhænge. Den mest almindelige type regressionsanalyse er lineær regression, når der findes en lineær funktion, der ifølge visse matematiske kriterier matcher dataene bedst. For eksempel, i metoden med mindste kvadrater, beregnes en ret linje (eller hyperplan), hvor summen af kvadrater mellem hvilke og dataene er minimal.
Strengt regressiv afhængighed kan defineres som følger. Lade være stokastiske variable med en given fælles sandsynlighedsfordeling. Hvis der for hvert sæt værdier er defineret en betinget forventning
(generel regressionsligning),så kaldes funktionen regressionen af størrelse for størrelser , og dens graf kaldes regressionslinjen for eller regressionsligningen .
Afhængighed af er manifesteret i ændringen i gennemsnitsværdierne ved ændring . Selvom værdien for hvert fast sæt værdier forbliver en tilfældig variabel med en bestemt fordeling .
For at afklare spørgsmålet om, hvor nøjagtigt regressionsanalysen estimerer ændringen med en ændring , bruges den gennemsnitlige værdi af variansen til forskellige værdisæt (faktisk taler vi om spredningsmålet for den afhængige variabel omkring regressionslinje).
På matrixform skrives regressionsligningen (ER) som: , hvor er fejlmatricen. Med en inverterbar matrix X◤X opnås en kolonnevektor med koefficienterne B, idet der tages hensyn til U◤U=min(B). I et særligt tilfælde for X=(±1) er X◤X-matricen roterbar, og SD kan bruges i tidsserieanalyse og teknisk databehandling.
I praksis søges regressionslinjen oftest som en lineær funktion ( lineær regression ), der bedst tilnærmer den ønskede kurve. Dette gøres ved hjælp af mindste kvadraters metode , når summen af de kvadrerede afvigelser af de faktisk observerede fra deres estimater er minimeret (hvilket betyder estimater ved hjælp af en lige linje, der hævder at repræsentere den ønskede regressionsafhængighed):
( er prøvestørrelsen). Denne tilgang er baseret på det velkendte faktum, at summen, der vises i ovenstående udtryk, tager minimumsværdien netop for det tilfælde, hvor .
For at løse problemet med regressionsanalyse ved hjælp af mindste kvadraters metode introduceres begrebet residualfunktion :
Betingelsen for minimum af restfunktionen:
Det resulterende system er et system af lineære ligninger med ukendte .
Hvis vi repræsenterer de frie led i venstre side af ligningerne ved matricen
og koefficienterne for de ukendte på højre side er matrixen
så får vi matrixligningen: , som let løses ved Gauss-metoden . Den resulterende matrix vil være en matrix indeholdende koefficienterne for regressionslinjeligningen:
For at opnå de bedste estimater er det nødvendigt at opfylde LSM-forudsætningerne (Gauss-Markov-betingelser) . I den engelsksprogede litteratur kaldes sådanne estimater BLUE ( Best Linear Unbiased Estimators - "the best linear unbiased estimates"). De fleste af de undersøgte afhængigheder kan repræsenteres ved hjælp af LSM ved ikke- lineære matematiske funktioner.
Parametrene er partielle korrelationskoefficienter; tolkes som andelen af variansen af Y forklaret ved at fiksere indflydelsen af de resterende prædiktorer, dvs. den måler det individuelle bidrag til forklaringen af Y. I tilfælde af korrelerede prædiktorer er der et problem med usikkerhed i estimaterne , som bliver afhængige af den rækkefølge, som prædiktorerne indgår i modellen. I sådanne tilfælde er det nødvendigt at anvende analysemetoderne for korrelation og trinvis regressionsanalyse.
Når vi taler om ikke-lineære modeller for regressionsanalyse, er det vigtigt at være opmærksom på, om vi taler om ikke-linearitet i uafhængige variable (fra et formelt synspunkt, let reduceret til lineær regression) eller ikke-linearitet i estimerede parametre (forårsager alvorlige beregningsmæssige vanskeligheder). Med ikke-lineariteten af den første type, fra et meningsfuldt synspunkt, er det vigtigt at fremhæve udseendet i modellen af medlemmer af formen , , hvilket indikerer tilstedeværelsen af interaktioner mellem funktioner osv . (se Multicollinearity ).
Ordbøger og encyklopædier | ||||
---|---|---|---|---|
|
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|