Mindste kvadraters metode (LSM) er en matematisk metode, der bruges til at løse forskellige problemer, baseret på at minimere summen af kvadrater af afvigelser af nogle funktioner fra eksperimentelle inputdata. Det kan bruges til at "løse" overbestemte ligningssystemer (når antallet af ligninger overstiger antallet af ukendte), til at finde en løsning i tilfælde af almindelige (ikke overbestemte) ikke-lineære ligningssystemer for at tilnærme punktværdierne af en bestemt funktion. OLS er en af de grundlæggende metoder til regressionsanalyse til at estimere ukendte parametre for regressionsmodeller fra prøvedata.
Indtil begyndelsen af det XIX århundrede. videnskabsmænd havde ikke bestemte regler for at løse et ligningssystem , hvor antallet af ubekendte er mindre end antallet af ligninger; Indtil da blev der brugt særlige metoder, afhængigt af typen af ligninger og af regnemaskinernes opfindsomhed, og derfor kom forskellige regnemaskiner, der tog udgangspunkt i de samme observationsdata, til forskellige konklusioner. Gauss (1795) tilskrives den første anvendelse af metoden, og Legendre (1805) opdagede og udgav den uafhængigt under sit moderne navn ( fransk: Méthode des moindres quarrés ) [1] . Laplace forbandt metoden med sandsynlighedsteorien , og den amerikanske matematiker Adrain (1808) overvejede dens probabilistiske anvendelser [2] . Metoden er udbredt og forbedret ved yderligere forskning af Encke , Bessel , Hansen m.fl.
A. A. Markovs værker i begyndelsen af det 20. århundrede gjorde det muligt at inkludere mindste kvadraters metode i teorien om estimering af matematisk statistik, hvor den er en vigtig og naturlig del. Gennem indsatsen fra Y. Neiman, F. David, A. Aitken, S. Rao blev der opnået mange vigtige resultater på dette område [3] .
Lad , et sæt af skalar eksperimentelle data, , et sæt af vektor eksperimentelle data, og antages at afhænge af .
Nogle (i det simpleste tilfælde, lineær) skalarfunktion introduceres , som bestemmes af vektoren af ukendte parametre .
Opgaven er at finde en vektor , således at totaliteten af fejl på en eller anden måde er minimal.
Ifølge mindste kvadraters metode er løsningen på dette problem vektoren , som minimerer funktionen
I det enkleste tilfælde vil resultatet af de mindste kvadrater være det aritmetiske middelværdi af inputdataene.
Fordelen ved LSM frem for at minimere andre typer fejl er, at hvis den er differentierbar med hensyn til , så er den også differentierbar. At ligne partielle afledte til nul reducerer problemet med at løse et ligningssystem, og hvis det afhænger af lineært, så vil ligningssystemet være lineært.
Især mindste kvadraters metode kan bruges til at "løse" systemet af lineære ligninger
,hvor er en rektangulær matrix af størrelse (det vil sige antallet af rækker af matrix A er større end antallet af variabler, der søges).
Et sådant ligningssystem har generelt ingen løsning. Derfor kan dette system kun "løses" i den forstand, at man vælger en sådan vektor for at minimere "afstanden" mellem vektorerne og . For at gøre dette kan du anvende kriteriet for at minimere summen af kvadrerede forskelle mellem venstre og højre del af systemets ligninger, dvs. Det er let at vise, at løsningen af dette minimeringsproblem fører til løsningen af følgende ligningssystem
.Ved at bruge pseudo-inversion- operatoren kan løsningen omskrives sådan:
,hvor er den pseudoinverse matrix for .
Dette problem kan også "løses" ved hjælp af de såkaldte vægtede mindste kvadrater (se nedenfor), når forskellige ligninger i systemet får forskellig vægt ud fra teoretiske overvejelser.
Streng begrundelse og bestemmelse af grænserne for meningsfuld anvendelighed af metoden blev givet af A. A. Markov og A. N. Kolmogorov .
Lad der være værdier af en variabel (det kan være resultaterne af observationer, eksperimenter osv.) og tilsvarende variabler . Opgaven er at tilnærme forholdet mellem og af en eller anden kendt funktion op til nogle ukendte parametre , det vil sige, faktisk at finde de bedste værdier af de parametre , der bringer værdierne så tæt som muligt på de faktiske værdier . Faktisk reduceres dette til tilfældet med "løsning" af et overbestemt ligningssystem med hensyn til :
.
I regressionsanalyse, og i særdeleshed i økonometri, anvendes probabilistiske modeller af sammenhængen mellem variable.
,
hvor er de såkaldte tilfældige modelfejl.
Derfor er afvigelserne af de observerede værdier fra modelværdierne allerede antaget i selve modellen. Essensen af LSM (sædvanlig, klassisk) er at finde sådanne parametre, under hvilke summen af kvadrerede afvigelser (fejl, for regressionsmodeller kaldes de ofte regressionsresidualer ) vil være minimal:
,hvor er engelsk. Restsum af kvadrater [4] er defineret som:
.I det generelle tilfælde kan dette problem løses ved hjælp af numeriske metoder til optimering (minimering). I dette tilfælde taler de om ikke-lineære mindste kvadrater (NLS eller NLLS - engelske ikke-lineære mindste kvadrater ). I mange tilfælde kan en analytisk løsning opnås. For at løse minimeringsproblemet er det nødvendigt at finde de stationære punkter af funktionen ved at differentiere den med hensyn til ukendte parametre , sidestille de afledte til nul og løse det resulterende ligningssystem:
.Lad regressionsafhængigheden være lineær :
.Lad y være en kolonnevektor af observationer af den variable, der forklares, og være en matrix af observationer af faktorer (matricens rækker er vektorerne af faktorværdier i en given observation, langs kolonnerne er vektoren af værdier af en given faktor i alle observationer). Matrixrepræsentationen af den lineære model har formen:
.Så vil vektoren af estimater af den forklarede variabel og vektoren af regressionsresidualer være lig med
.følgelig vil summen af kvadraterne af regressionsresterne være lig med
.Ved at differentiere denne funktion med hensyn til parametervektoren og ligne de afledte med nul, får vi et ligningssystem (i matrixform):
.I den dechiffrerede matrixform ser dette ligningssystem sådan ud:
hvor alle beløb overtages alle tilladte værdier på .
Hvis en konstant er inkluderet i modellen (som sædvanligt), er antallet af observationer derfor for alle i det øverste venstre hjørne af matricen af ligningssystemet , og i de resterende elementer i den første række og første kolonne - kun summen af værdierne af variablerne: og det første element i højre side af systemet er .
Løsningen af dette ligningssystem giver den generelle formel for mindste kvadraters estimater for den lineære model:
.Til analytiske formål viser den sidste repræsentation af denne formel sig at være nyttig (i ligningssystemet, når det divideres med n, vises aritmetiske middel i stedet for summer). Hvis dataene er centreret i regressionsmodellen , så har den første matrix i denne repræsentation betydningen af stikprøvens kovariansmatrix af faktorer, og den anden er faktorkovariansvektoren med den afhængige variabel. Hvis dataene derudover også normaliseres til RMS (det vil sige til sidst standardiserede ), så har den første matrix betydningen af en stikprøvekorrelationsmatrix af faktorer, den anden vektor - vektorer af stikprøvekorrelationer af faktorer med en afhængig variabel.
En vigtig egenskab ved LLS-estimater for modeller med en konstant er, at linjen for den konstruerede regression passerer gennem prøvedataens tyngdepunkt, det vil sige, at ligheden er opfyldt:
.Især i det ekstreme tilfælde, når den eneste regressor er en konstant, finder vi, at OLS-estimatet for en enkelt parameter (konstanten selv) er lig med middelværdien af den variable, der forklares. Det vil sige, at det aritmetiske middel, kendt for sine gode egenskaber fra lovene for store tal, også er et mindste kvadraters estimat - det opfylder kriteriet for minimumsummen af kvadrerede afvigelser fra det.
De enkleste specialtilfældeI tilfælde af parret lineær regression , når den lineære afhængighed af en variabel af en anden estimeres, forenkles beregningsformlerne (du kan undvære matrixalgebra). Ligningssystemet har formen:
.Herfra er det nemt at finde estimater for koefficienterne:
Selvom konstantmodeller generelt er at foretrække, ved man i nogle tilfælde ud fra teoretiske overvejelser, at konstanten skal være nul. For eksempel i fysik har forholdet mellem spænding og strøm formen ; måling af spænding og strøm, er det nødvendigt at estimere modstanden. I dette tilfælde taler vi om modellen . I dette tilfælde har vi i stedet for et ligningssystem en enkelt ligning
.
Derfor har formlen til at estimere en enkelt koefficient formen
.
Hvis dataene tilnærmes ved en polynomiel regressionsfunktion af én variabel , så er det, ved at opfatte graderne som uafhængige faktorer for hver , muligt at estimere modelparametrene baseret på den generelle formel til estimering af de lineære modelparametre. For at gøre dette er det i den generelle formel tilstrækkeligt at tage højde for, at med en sådan fortolkning af og . Derfor vil matrixligningerne i dette tilfælde have formen:
Først og fremmest bemærker vi, at for lineære modeller er mindste kvadraters estimater lineære estimater, som følger af ovenstående formel. For upartiske OLS-estimater er det nødvendigt og tilstrækkeligt at opfylde den vigtigste betingelse for regressionsanalyse : betinget af faktorerne skal den matematiske forventning om en tilfældig fejl være lig nul. Denne betingelse er opfyldt, især hvis
Den første betingelse for modeller med en konstant kan anses for altid at være opfyldt, da konstanten påtager sig en matematisk forventning om fejl, der ikke er nul (derfor er modeller med en konstant generelt at foretrække).
Den anden betingelse - tilstanden af eksogene faktorer - er fundamental. Hvis denne egenskab ikke er opfyldt, kan vi antage, at næsten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil sige, at selv en meget stor mængde data ikke tillader opnåelse af kvalitative estimater i dette tilfælde). I det klassiske tilfælde antages der en stærkere antagelse om faktorers determinisme i modsætning til en tilfældig fejl, som automatisk betyder, at den eksogene betingelse er opfyldt. I det generelle tilfælde er det for konsistensen af estimater tilstrækkeligt at opfylde eksogenitetsbetingelsen sammen med konvergensen af matricen til en eller anden ikke-singular matrix med en stigning i stikprøvestørrelsen til uendelig.
For at estimaterne af de (sædvanlige) mindste kvadrater ud over konsistens og upartiskhed også skal være effektive (de bedste i klassen af lineære upartiske estimater), skal yderligere egenskaber for den tilfældige fejl være opfyldt:
Disse antagelser kan formuleres for kovariansmatrixen for vektoren af tilfældige fejl .
En lineær model, der opfylder sådanne betingelser, kaldes klassisk . LLS estimater for klassisk lineær regression er upartiske , konsistente og mest effektive estimater i klassen af alle lineære upartiske estimater ). Som det er let at vise, vil kovariansmatrixen for koefficientestimationsvektoren være lig med:
.
Effektivitet betyder, at denne kovariansmatrix er "minimal" (enhver lineær kombination af koefficientestimater, og især koefficientestimater i sig selv har en minimumsvarians), det vil sige, i klassen af lineære upartiske estimater er OLS estimaterne de bedste . De diagonale elementer i denne matrix, varianserne af koefficientestimater, er vigtige parametre for kvaliteten af de opnåede estimater. Det er dog ikke muligt at beregne kovariansmatricen, fordi den tilfældige fejlvarians er ukendt. Det kan bevises, at det upartiske og konsistente (for den klassiske lineære model) estimat af variansen af tilfældige fejl er værdien:
.
Ved at indsætte denne værdi i formlen for kovariansmatrixen opnår vi et estimat af kovariansmatricen. De resulterende estimater er også upartiske og konsistente . Det er også vigtigt, at estimatet af fejlvariansen (og dermed koefficienternes varians) og estimaterne af modelparametrene er uafhængige stokastiske variable, hvilket gør det muligt at få teststatistik til test af hypoteser om modelkoefficienterne.
Det skal bemærkes, at hvis de klassiske antagelser ikke er opfyldt, er de mindste kvadraters parameterestimater ikke de mest effektive estimater (forbliver upartiske og konsistente ). Estimatet af kovariansmatricen forværres dog endnu mere: det bliver partisk og inkonsekvent . Det betyder, at statistiske konklusioner om kvaliteten af den konstruerede model i dette tilfælde kan være ekstremt upålidelige. En måde at løse dette problem på er at bruge specielle estimater af kovariansmatricen, der er konsistente under overtrædelser af de klassiske antagelser ( standardfejl i White-formen og standardfejl i Newey-West-formen ). En anden tilgang er at anvende de såkaldte generaliserede mindste kvadrater .
Metoden med mindste kvadrater giver mulighed for en bred generalisering. I stedet for at minimere summen af kvadraterne af residualerne, kan man minimere en eller anden positiv-bestemt kvadratisk form af restvektoren , hvor er en eller anden symmetrisk positiv-bestemt vægtmatrix. Almindelige mindste kvadrater er et særligt tilfælde af denne tilgang, når vægtmatricen er proportional med identitetsmatrixen. Som bekendt er der en dekomponering for symmetriske matricer (eller operatorer) . Derfor kan den specificerede funktional repræsenteres som følger: , det vil sige, at denne funktional kan repræsenteres som summen af kvadraterne af nogle transformerede "rester". Således kan vi skelne mellem en klasse af mindste kvadraters metoder - LS-metoder (mindste kvadrater).
Det er blevet bevist (Aitkens sætning), at for en generaliseret lineær regressionsmodel (hvor der ikke er pålagt begrænsninger på kovariansmatrixen af tilfældige fejl), er de mest effektive (i klassen af lineære upartiske estimater) estimater af de såkaldte . generaliserede mindste kvadrater (GLS, GLS - Generaliserede mindste kvadrater) - LS-metode med en vægtmatrix svarende til den inverse kovariansmatrix af tilfældige fejl :.
Det kan påvises, at formlen for GLS-estimater af parametrene for den lineære model har formen
.
Kovariansmatricen for disse estimater vil henholdsvis være lig med
.
Faktisk ligger essensen af OLS i en vis (lineær) transformation (P) af de originale data og anvendelsen af de sædvanlige mindste kvadrater på de transformerede data. Formålet med denne transformation er, at for de transformerede data opfylder de tilfældige fejl allerede de klassiske antagelser.
I tilfælde af en diagonal vægtmatrix (og dermed en kovariansmatrix af tilfældige fejl), har vi de såkaldte vægtede mindste kvadrater. I dette tilfælde minimeres den vægtede sum af kvadrater af modellens residualer, det vil sige, at hver observation modtager en "vægt", der er omvendt proportional med variansen af den tilfældige fejl i denne observation :. Faktisk transformeres dataene ved at vægte observationerne (dividere med et beløb, der er proportionalt med den formodede standardafvigelse af de tilfældige fejl), og normale mindste kvadrater anvendes på de vægtede data.
Ordbøger og encyklopædier |
|
---|---|
I bibliografiske kataloger |
Mindste kvadrater og regressionsanalyse | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beregningsstatistik _ |
| ||||||||
Korrelation og afhængighed |
| ||||||||
Regressions analyse |
| ||||||||
Regression som statistisk model |
| ||||||||
Variansnedbrydning |
| ||||||||
Modelstudie |
| ||||||||
Forudsætninger |
| ||||||||
Eksperiment planlægning |
| ||||||||
Numerisk tilnærmelse | |||||||||
Ansøgninger |
|