Korrelation

Korrelation (fra latin  correlatio "ratio"), eller korrelationsafhængighed  - et statistisk forhold mellem to eller flere tilfældige variabler (eller variabler, der kan betragtes som sådanne med en acceptabel grad af nøjagtighed), mens ændringer i værdierne af en eller flere af disse mængder er ledsaget af en systematisk ændring af værdier af en anden eller andre mængder [1] .

Et matematisk mål for korrelationen af ​​to stokastiske variable er korrelationsforholdet [2] eller korrelationskoefficienten (eller ) [1] . Hvis en ændring i en stokastisk variabel ikke fører til en regulær ændring i en anden stokastisk variabel, men fører til en ændring i en anden statistisk karakteristik af denne stokastiske variabel, så betragtes en sådan sammenhæng ikke som en korrelation, selvom den er statistisk [3] .

For første gang blev begrebet korrelation introduceret i videnskabelig cirkulation af den franske palæontolog Georges Cuvier i det 18. århundrede. Han udviklede "loven om korrelation" af dele og organer af levende væsener, ved hjælp af hvilken det er muligt at genoprette udseendet af et fossilt dyr, der kun har til sin rådighed en del af dets rester. I statistikken blev ordet "korrelation" første gang brugt af den engelske biolog og statistiker Francis Galton i slutningen af ​​det 19. århundrede [4] .

Korrelation og sammenkobling af mængder

En signifikant sammenhæng mellem to tilfældige variable er altid bevis på eksistensen af ​​en eller anden statistisk sammenhæng i en given prøve, men denne sammenhæng behøver ikke nødvendigvis at blive observeret for en anden prøve og være af kausal karakter. Den ofte fristende enkelhed af en korrelationsundersøgelse tilskynder forskeren til at drage falske intuitive konklusioner om tilstedeværelsen af ​​en årsagssammenhæng mellem par af egenskaber, mens korrelationskoefficienterne kun etablerer statistiske sammenhænge. Hvis man for eksempel ser på brande i en bestemt by, kan man finde en meget høj sammenhæng mellem skaderne forårsaget af branden og antallet af brandmænd, der er involveret i at slukke branden, og denne sammenhæng vil være positiv. Dette fører dog ikke til den konklusion, at "en stigning i antallet af brandmænd fører til en stigning i de forårsagede skader", og endnu mindre vil der være et vellykket forsøg på at minimere skaderne fra brande ved at eliminere brandvæsenet [ 5] . Korrelationen af ​​to størrelser kan indikere eksistensen af ​​en fælles årsag, selvom fænomenerne i sig selv ikke interagerer direkte. For eksempel forårsager isdannelse både en stigning i antallet af skader på grund af fald og en stigning i antallet af ulykker blandt køretøjer. I dette tilfælde vil to mængder (skader på grund af fodgængerfald og køretøjsulykker) være korreleret, selvom de ikke er kausalt relateret til hinanden, men kun har en tredjeparts fælles årsag - sort is .

Samtidig betyder fraværet af en sammenhæng mellem to størrelser ikke, at der ikke er nogen sammenhæng mellem dem. For eksempel kan afhængigheden have en kompleks ikke-lineær karakter, som korrelationen ikke afslører.

Nogle typer korrelationskoefficienter kan være positive eller negative. I det første tilfælde antages det, at vi kun kan bestemme tilstedeværelsen eller fraværet af en forbindelse, og i det andet også dens retning. Hvis det antages, at værdierne af variablerne er givet en streng ordensrelation , så er en negativ korrelation  en korrelation, hvor en stigning i en variabel er forbundet med et fald i en anden. I dette tilfælde vil korrelationskoefficienten være negativ. En positiv korrelation under sådanne forhold er en, hvor en stigning i en variabel er forbundet med en stigning i en anden variabel. Det er også muligt, at der ikke er nogen statistisk sammenhæng - for eksempel for uafhængige stokastiske variable .

Korrelationsmål

Metoden til beregning af korrelationskoefficienten afhænger af den type skala , som variablerne refererer til. Så for at måle variable med interval og kvantitative skalaer er det nødvendigt at bruge Pearson-korrelationskoefficienten (korrelation af produktmomenter ). Hvis mindst en af ​​de to variable har en ordinalskala eller ikke er normalfordelt , skal Spearmans eller (tau) Kendalls rangkorrelation bruges. I det tilfælde, hvor en af ​​de to variable er dikotom , bruges en punkt to-serie korrelation, og hvis begge variabler er dikotom  , bruges en fire-felt korrelation. Beregningen af ​​korrelationskoefficienten mellem to ikke-dikotome variable giver kun mening, når forholdet mellem dem er lineært (envejs).

Parametriske indikatorer for korrelation

Kovarians

Et vigtigt kendetegn ved den fælles fordeling af to stokastiske variable er kovariansen (eller korrelationsmomentet ). Kovariansen er et andenordens fælles centralt moment [6] . Kovarians er defineret som den matematiske forventning til produktet af afvigelser af stokastiske variable [7] :

,

hvor  er den matematiske forventning (i den engelsksprogede litteratur accepteres betegnelsen fra forventet værdi ).

Kovariansegenskaber :

  • Kovariansen af ​​to uafhængige stokastiske variable og er lig nul [8] .
Bevis

Da og er uafhængige tilfældige variable, er deres afvigelser og også uafhængige. Ved at bruge det faktum, at den matematiske forventning til produktet af uafhængige stokastiske variable er lig med produktet af faktorernes matematiske forventninger, og den matematiske forventning til afvigelsen er nul, har vi

  • Den absolutte værdi af kovariansen af ​​to stokastiske variable og overstiger ikke det geometriske middelværdi af deres dispersioner : [9] .
Bevis

Lad os introducere en tilfældig variabel (hvor er standardafvigelsen ) og finde dens varians . Efter at have lavet beregningerne får vi:

Enhver afvigelse er ikke-negativ, så

Herfra

Ved at indføre en tilfældig variabel , tilsvarende

Ved at kombinere de opnåede uligheder har vi

Eller

Så,

  • Kovarians har en dimension, der er lig med produktet af dimensionen af ​​tilfældige variable, det vil sige, at størrelsen af ​​kovarians afhænger af måleenhederne for uafhængige variable. Denne egenskab af kovarians gør det vanskeligt at bruge det til korrelationsanalyseformål [8] .
Lineær korrelationskoefficient

For at eliminere manglen på kovarians blev en lineær korrelationskoefficient (eller Pearsons korrelationskoefficient ) introduceret, som blev udviklet af Karl Pearson , Francis Edgeworth og Raphael Weldon i 90'erne af det XIX århundrede. Korrelationskoefficienten beregnes med formlen [10] [8] :

hvor ,  er middelværdien af ​​prøverne.

Korrelationskoefficienten varierer fra minus én til plus én [11] .

Bevis

At dividere begge dele af den dobbelte ulighed med får vi

Den lineære korrelationskoefficient er relateret til regressionskoefficienten i form af følgende afhængighed: hvor  er regressionskoefficienten,  er standardafvigelsen af ​​den tilsvarende faktorattribut [12] . Forholdet mellem regressionskoefficienten og standardafvigelsen Y afhænger ikke af Y-enhederne. Med en lineær transformation af datasættet og den lineære korrelationskoefficient vil være lig med .

Ikke-parametriske mål for korrelation

Kendalls rangkorrelationskoefficient

Det bruges til at identificere forholdet mellem kvantitative eller kvalitative indikatorer, hvis de kan rangeres. Værdierne for X-indikatoren er indstillet i stigende rækkefølge og tildelt rækker. Værdierne af Y-indikatoren er rangeret, og Kendall- korrelationskoefficienten beregnes :

,

hvor .

 er det samlede antal observationer efter de aktuelle observationer med en stor værdi af Y-rækker.

 er det samlede antal observationer, der følger efter de aktuelle observationer med lavere Y-rækker (lige rækker tages ikke i betragtning!)

Hvis de undersøgte data gentages (har de samme rækker), så bruges den justerede Kendall-korrelationskoefficient i beregningerne:

 er antallet af relaterede rækker i henholdsvis serierne X og Y.

Spearmans rangkorrelationskoefficient

Graden af ​​afhængighed af to tilfældige variabler (træk) og kan karakteriseres baseret på analysen af ​​de opnåede resultater . Hver indikator tildeles en rang. Værdiernes rækker er i naturlig rækkefølge . Rangen skrives som og svarer til rangen af ​​det par , som rangen er for . Baseret på de opnåede rækker og deres forskelle beregnes, og Spearman- korrelationskoefficienten beregnes :

Værdien af ​​koefficienten varierer fra -1 (rækkefølgerne af rækker er fuldstændig modsatte) til +1 (rækkefølgerne er fuldstændig ens). En værdi på nul indikerer, at funktionerne er uafhængige.

Fechner tegn korrelationskoefficient

Antallet af sammenfald og uoverensstemmelser mellem tegn på afvigelser af indikatorernes værdier fra deres gennemsnitlige værdi beregnes.

C er antallet af par, for hvilke tegnene på værdiernes afvigelser fra deres middel er sammenfaldende.

H er antallet af par, for hvilke tegnene på afvigelserne af værdierne fra deres midler ikke stemmer overens.

Multipel korrelationskoefficient Multiple rank korrelationskoefficient (konkordans)

 er antallet af grupper, der er rangeret.

 er antallet af variable.

 er rangen af ​​-faktoren af ​​y -en.

Betydning:

, så forkastes hypotesen om ingen sammenhæng.

I tilfælde af relaterede rækker:

Egenskaber for korrelationskoefficienten

hvis vi tager kovariansen som det skalære produkt af to tilfældige variable , så vil normen for den stokastiske variabel være lig med , og konsekvensen af ​​Cauchy-Bunyakovsky uligheden vil være: .
  • Korrelationskoefficienten er lig, hvis og kun hvis og er lineært afhængige (eksklusive hændelser med nul sandsynlighed, når flere punkter "slår ud" fra den rette linje, hvilket afspejler den lineære afhængighed af stokastiske variable):
, hvor . Desuden er tegnene i dette tilfælde sammenfaldende : . Bevis

Overvej stokastiske variable X og Y med nul middelværdier og varianser lig med henholdsvis og . Lad os beregne variansen af ​​den tilfældige variabel :

Forudsat at korrelationskoefficienten

så vil det forrige udtryk blive omskrevet i formen

Da du altid kan vælge tallene a og b, så (for eksempel hvis , så tager vi en vilkårlig a og ), så er variansen for disse a og b , og derfor næsten helt sikkert. Men dette betyder en lineær sammenhæng mellem X og Y. Beviset er naturligvis generaliseret til tilfældet med X og Y med ikke-nul-midler, kun i ovenstående beregninger vil det være nødvendigt at erstatte X med og Y med .

  • Lad stokastiske variable være sådan , at . Så: , hvor er den betingede matematiske forventning.
  • Hvis uafhængige tilfældige variabler, så . Det modsatte er ikke sandt generelt.

Korrelationsanalyse

Korrelationsanalyse er en statistisk  databehandlingsmetode, der måler styrken af ​​sammenhængen mellem to eller flere variable. Korrelationsanalyse er tæt beslægtet med regressionsanalyse (begrebet " korrelations-regressionsanalyse ", som er et mere generelt statistisk begreb, findes også ofte ), den bestemmer behovet for at inkludere visse faktorer i den multiple regressionsligning, og evaluerer også resulterende regressionsligning for compliance identificerede relationer (ved hjælp af bestemmelseskoefficienten ) [1] [2] .

Begrænsninger af korrelationsanalyse

  1. Ansøgning er mulig, hvis der er nok observationer til at studere. I praksis mener man, at antallet af observationer skal være mindst 5-6 gange antallet af faktorer (der er også en anbefaling om at bruge en andel, der er mindst 10 gange antallet af faktorer). Hvis antallet af observationer overstiger antallet af faktorer ti gange, kommer loven om store tal i spil , hvilket sikrer gensidig udligning af tilfældige udsving [13] .
  2. Det er nødvendigt, at helheden af ​​værdierne af alle faktorielle og effektive funktioner adlyder den multivariate normalfordeling . Hvis volumen af ​​populationen er utilstrækkelig til formel test for fordelingens normalitet, bestemmes fordelingsloven visuelt ud fra korrelationsfeltet . Hvis der observeres en lineær tendens i placeringen af ​​punkter i dette felt, så kan det antages, at sættet af indledende data overholder normalfordelingsloven [14] .
  3. Det indledende sæt af værdier skal være kvalitativt homogent [13] .
  4. Korrelationen i sig selv giver ikke grundlag for at hævde, at en af ​​variablerne går forud for eller er årsag til ændringer, eller at variablerne generelt er kausalt relateret til hinanden, og at effekten af ​​den tredje faktor ikke observeres [5 ] .

Omfang

Denne metode til behandling af statistiske data er meget populær inden for økonomi , astrofysik og samfundsvidenskab (især inden for psykologi og sociologi ), selvom omfanget af korrelationskoefficienter er omfattende: kvalitetskontrol af industriprodukter, metallurgi , landbrugskemi , hydrobiologi , biometri og andre . I forskellige anvendte industrier accepteres forskellige grænser for intervaller til vurdering af tætheden og betydningen af ​​forbindelsen.

Metodens popularitet skyldes to punkter: Korrelationskoefficienterne er relativt lette at beregne, deres anvendelse kræver ikke særlig matematisk træning. Kombineret med den nemme fortolkning har koefficientens lette anvendelse ført til dens udbredte brug inden for statistisk dataanalyse.

Se også

Noter

  1. 1 2 3 Shmoylova, 2002 , s. 272.
  2. 1 2 Eliseeva, Yuzbashev, 2002 , s. 232.
  3. Eliseeva, Yuzbashev, 2002 , s. 228.
  4. Eliseeva, Yuzbashev, 2002 , s. 228-229.
  5. 1 2 Eliseeva, Yuzbashev, 2002 , s. 229.
  6. Suslov, Ibragimov, Talysheva, Tsyplakov, 2005 , s. 141.
  7. Gmurman, 2004 , s. 176-177.
  8. 1 2 3 Gmurman, 2004 , s. 177.
  9. Gmurman, 2004 , s. 178-179.
  10. Shmoylova, 2002 , s. 300.
  11. Gmurman, 2004 , s. 179.
  12. Shmoylova, 2002 , s. 301.
  13. 1 2 Eliseeva, Yuzbashev, 2002 , s. 230.
  14. Shmoylova, 2002 , s. 275.

Litteratur

  • Gmurman V. E. Sandsynlighedsteori og matematisk statistik: Lærebog for gymnasier. — 10. udgave, stereotypisk. - Moskva: Higher School, 2004. - 479 s. —ISBN 5-06-004214-6.
  • Eliseeva I. I. , Yuzbashev M. M. Generel teori om statistik: Lærebog / Ed. I. I. Eliseeva. - 4. udgave, revideret og forstørret. - Moskva: Finans og statistik, 2002. - 480 s. — ISBN 5-279-01956-9 .
  • Korrelationsanalyse  / A. V. Prokhorov // Great Russian Encyclopedia  : [i 35 bind]  / kap. udg. Yu. S. Osipov . - M .  : Great Russian Encyclopedia, 2004-2017.
  • Generel teori om statistik: Lærebog / Udg. R.A. Shmoylova . — 3. Oplag, revideret. - Moskva: Finans og statistik, 2002. - 560 s. — ISBN 5-279-01951-8 .
  • Suslov V. I., Ibragimov N. M., Talysheva L. P., Tsyplakov A. A. Econometrics. - Novosibirsk: SO RAN, 2005. - 744 s. — ISBN 5-7692-0755-8 .

Links