Multikolinearitet

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 11. september 2016; checks kræver 4 redigeringer .

Multikollinearitet ( multikollinearitet ) - i økonometri ( regressionsanalyse ) - tilstedeværelsen af ​​en lineær sammenhæng mellem regressionsmodellens forklaringsvariable (faktorer) . Samtidig skelnes fuld kollinearitet , hvilket betyder tilstedeværelsen af ​​en funktionel (identisk) lineær afhængighed og delvis eller blot multikollinearitet  - tilstedeværelsen af ​​en stærk korrelation mellem faktorer.

Fuld kollinearitet fører til parameterusikkerhed i en lineær regressionsmodel, uanset estimeringsmetoder. Lad os overveje dette ved at bruge eksemplet med den følgende lineære model

Lad faktorerne i denne model være identisk relateret som følger: . Overvej derefter den oprindelige lineære model, hvor vi tilføjer et vilkårligt tal a til den første koefficient , og trækker det samme tal fra de to andre koefficienter. Så har vi (uden en tilfældig fejl):

På trods af den relativt vilkårlige ændring i modellens koefficienter fik vi således den samme model. En sådan model er grundlæggende uidentificerbar. Usikkerhed eksisterer allerede i selve modellen. Hvis vi betragter det 3-dimensionelle rum af koefficienter, så i dette rum er vektoren af ​​sande koefficienter i dette tilfælde ikke den eneste, men er en hel lige linje! Ethvert punkt på denne linje er en sand vektor af koefficienter.

I denne henseende er problemet med fuld kolinearitet af faktorer løst allerede på stadiet med valg af variabler i modellering og har derfor intet at gøre med problemet med kvaliteten af ​​økonometriske estimater af parametre. I praksis opstår der ofte en anden situation - en stærk sammenhæng mellem faktorer.

Konsekvenser af multikolinearitet

Hvis fuldstændig kollinearitet fører til usikkerhed i parametrenes værdier, fører delvis multikollinearitet til ustabilitet i deres estimater . Ustabilitet kommer til udtryk i en stigning i statistisk usikkerhed - variansen af ​​estimater. Det betyder, at specifikke evalueringsresultater kan variere meget fra prøve til prøve, selvom prøverne er homogene.

Som det er kendt, er kovariansmatrixen af ​​estimater af parametrene for multipel regression ved mindste kvadraters metode lig med . Jo "mindre" kovariansmatricen (dens determinant ), jo "større" kovariansmatrix af parameterestimater, og især desto større diagonale elementer i denne matrix, det vil sige variansen af ​​parameterestimater. For større klarhed kan du overveje dette ved at bruge eksemplet med en tofaktormodel:

Så er variansen af ​​parameterestimatet, for eksempel med den første faktor:

hvor  er stikprøvens korrelationskoefficient mellem faktorerne.

Det ses tydeligt her, at jo større den absolutte værdi af korrelationen mellem faktorerne er, jo større er spredningen af ​​parameterestimater. Ved (total kollinearitet) tenderer spredningen mod det uendelige, hvilket svarer til det, der blev sagt tidligere.

Estimaterne af parametrene er således unøjagtige, hvilket betyder, at det vil være vanskeligt at fortolke visse faktorers indflydelse på den variable, der forklares. Samtidig påvirker multikollinearitet ikke kvaliteten af ​​modellen som helhed - den kan genkendes som statistisk signifikant , selv når alle koefficienter er insignifikante (dette er et af tegnene på multikollinearitet).

Multikolinearitetsdetektion

Indirekte tegn på multikollinearitet er højstandardfejl af estimater af modelparametre, små t-statistikker (dvs. insignifikans af koefficienter), ukorrekte tegn på estimater, på trods af at modellen som helhed er anerkendt som statistisk signifikant (stor værdi af F -Statistikker). Multikollinearitet kan også angives ved en kraftig ændring i parameterestimater fra tilføjelse (eller fjernelse) af prøvedata (hvis kravene til tilstrækkelig prøvehomogenitet er opfyldt).

For at påvise multikollinearitet af faktorer kan man analysere korrelationsmatrixen af ​​faktorer direkte. Allerede tilstedeværelsen af ​​store modulo (over 0,7-0,8) værdier af parkorrelationskoefficienterne indikerer mulige problemer med kvaliteten af ​​de opnåede estimater.

Analysen af ​​parvise korrelationskoefficienter er imidlertid utilstrækkelig. Det er nødvendigt at analysere koefficienterne for bestemmelse af regression af faktorer på andre faktorer ( ). Det anbefales at beregne indikatoren . For høje værdier af sidstnævnte betyder tilstedeværelsen af ​​multikolinearitet.

Måder at løse problemet med multikollinearitet

Hovedkomponentmetode

Anvendelsen af ​​principalkomponentmetoden på modellens faktorer gør det muligt at transformere de initiale faktorer og opnå et sæt ortogonale (ukorrelerede) faktorer. Samtidig vil tilstedeværelsen af ​​multikolinearitet tillade os at begrænse os til et lille antal hovedkomponenter. Der kan dog være et problem med meningsfuld fortolkning af hovedkomponenterne.

Rekursiv OLS

Ridge regression

Ridge-regression eller ridge-regression involverer estimering af parametre ved hjælp af følgende formel:

Tilføjelse af en parameter løser matrixproblemet med dårlig konditionering . Disse estimater er partiske , i modsætning til OLS estimaterne. Det er imidlertid blevet bevist, at der eksisterer en sådan estimator, for hvilken disse estimatorer er mere effektive end LSM-estimatorerne (LSM-estimatorerne er effektive (har den mindste varians) blandt lineære upartiske estimatorer). Der er dog ingen klare regler for valg af denne parameter.

Se også