Korrelation (fra latin correlatio "ratio"), eller korrelationsafhængighed - et statistisk forhold mellem to eller flere tilfældige variabler (eller variabler, der kan betragtes som sådanne med en acceptabel grad af nøjagtighed), mens ændringer i værdierne af en eller flere af disse mængder er ledsaget af en systematisk ændring af værdier af en anden eller andre mængder [1] .
Et matematisk mål for korrelationen af to stokastiske variable er korrelationsforholdet [2] eller korrelationskoefficienten (eller ) [1] . Hvis en ændring i en stokastisk variabel ikke fører til en regulær ændring i en anden stokastisk variabel, men fører til en ændring i en anden statistisk karakteristik af denne stokastiske variabel, så betragtes en sådan sammenhæng ikke som en korrelation, selvom den er statistisk [3] .
For første gang blev begrebet korrelation introduceret i videnskabelig cirkulation af den franske palæontolog Georges Cuvier i det 18. århundrede. Han udviklede "loven om korrelation" af dele og organer af levende væsener, ved hjælp af hvilken det er muligt at genoprette udseendet af et fossilt dyr, der kun har til sin rådighed en del af dets rester. I statistikken blev ordet "korrelation" første gang brugt af den engelske biolog og statistiker Francis Galton i slutningen af det 19. århundrede [4] .
En signifikant sammenhæng mellem to tilfældige variable er altid bevis på eksistensen af en eller anden statistisk sammenhæng i en given prøve, men denne sammenhæng behøver ikke nødvendigvis at blive observeret for en anden prøve og være af kausal karakter. Den ofte fristende enkelhed af en korrelationsundersøgelse tilskynder forskeren til at drage falske intuitive konklusioner om tilstedeværelsen af en årsagssammenhæng mellem par af egenskaber, mens korrelationskoefficienterne kun etablerer statistiske sammenhænge. Hvis man for eksempel ser på brande i en bestemt by, kan man finde en meget høj sammenhæng mellem skaderne forårsaget af branden og antallet af brandmænd, der er involveret i at slukke branden, og denne sammenhæng vil være positiv. Dette fører dog ikke til den konklusion, at "en stigning i antallet af brandmænd fører til en stigning i de forårsagede skader", og endnu mindre vil der være et vellykket forsøg på at minimere skaderne fra brande ved at eliminere brandvæsenet [ 5] . Korrelationen af to størrelser kan indikere eksistensen af en fælles årsag, selvom fænomenerne i sig selv ikke interagerer direkte. For eksempel forårsager isdannelse både en stigning i antallet af skader på grund af fald og en stigning i antallet af ulykker blandt køretøjer. I dette tilfælde vil to mængder (skader på grund af fodgængerfald og køretøjsulykker) være korreleret, selvom de ikke er kausalt relateret til hinanden, men kun har en tredjeparts fælles årsag - sort is .
Samtidig betyder fraværet af en sammenhæng mellem to størrelser ikke, at der ikke er nogen sammenhæng mellem dem. For eksempel kan afhængigheden have en kompleks ikke-lineær karakter, som korrelationen ikke afslører.
Nogle typer korrelationskoefficienter kan være positive eller negative. I det første tilfælde antages det, at vi kun kan bestemme tilstedeværelsen eller fraværet af en forbindelse, og i det andet også dens retning. Hvis det antages, at værdierne af variablerne er givet en streng ordensrelation , så er en negativ korrelation en korrelation, hvor en stigning i en variabel er forbundet med et fald i en anden. I dette tilfælde vil korrelationskoefficienten være negativ. En positiv korrelation under sådanne forhold er en, hvor en stigning i en variabel er forbundet med en stigning i en anden variabel. Det er også muligt, at der ikke er nogen statistisk sammenhæng - for eksempel for uafhængige stokastiske variable .
Metoden til beregning af korrelationskoefficienten afhænger af den type skala , som variablerne refererer til. Så for at måle variable med interval og kvantitative skalaer er det nødvendigt at bruge Pearson-korrelationskoefficienten (korrelation af produktmomenter ). Hvis mindst en af de to variable har en ordinalskala eller ikke er normalfordelt , skal Spearmans eller (tau) Kendalls rangkorrelation bruges. I det tilfælde, hvor en af de to variable er dikotom , bruges en punkt to-serie korrelation, og hvis begge variabler er dikotom , bruges en fire-felt korrelation. Beregningen af korrelationskoefficienten mellem to ikke-dikotome variable giver kun mening, når forholdet mellem dem er lineært (envejs).
Et vigtigt kendetegn ved den fælles fordeling af to stokastiske variable er kovariansen (eller korrelationsmomentet ). Kovariansen er et andenordens fælles centralt moment [6] . Kovarians er defineret som den matematiske forventning til produktet af afvigelser af stokastiske variable [7] :
,hvor er den matematiske forventning (i den engelsksprogede litteratur accepteres betegnelsen fra forventet værdi ).
Kovariansegenskaber :
Da og er uafhængige tilfældige variable, er deres afvigelser og også uafhængige. Ved at bruge det faktum, at den matematiske forventning til produktet af uafhængige stokastiske variable er lig med produktet af faktorernes matematiske forventninger, og den matematiske forventning til afvigelsen er nul, har vi
Lad os introducere en tilfældig variabel (hvor er standardafvigelsen ) og finde dens varians . Efter at have lavet beregningerne får vi:
Enhver afvigelse er ikke-negativ, så
Herfra
Ved at indføre en tilfældig variabel , tilsvarende
Ved at kombinere de opnåede uligheder har vi
Eller
Så,
For at eliminere manglen på kovarians blev en lineær korrelationskoefficient (eller Pearsons korrelationskoefficient ) introduceret, som blev udviklet af Karl Pearson , Francis Edgeworth og Raphael Weldon i 90'erne af det XIX århundrede. Korrelationskoefficienten beregnes med formlen [10] [8] :
hvor , er middelværdien af prøverne.
Korrelationskoefficienten varierer fra minus én til plus én [11] .
BevisAt dividere begge dele af den dobbelte ulighed med får vi
Den lineære korrelationskoefficient er relateret til regressionskoefficienten i form af følgende afhængighed: hvor er regressionskoefficienten, er standardafvigelsen af den tilsvarende faktorattribut [12] . Forholdet mellem regressionskoefficienten og standardafvigelsen Y afhænger ikke af Y-enhederne. Med en lineær transformation af datasættet og den lineære korrelationskoefficient vil være lig med .
Det bruges til at identificere forholdet mellem kvantitative eller kvalitative indikatorer, hvis de kan rangeres. Værdierne for X-indikatoren er indstillet i stigende rækkefølge og tildelt rækker. Værdierne af Y-indikatoren er rangeret, og Kendall- korrelationskoefficienten beregnes :
,
hvor .
er det samlede antal observationer efter de aktuelle observationer med en stor værdi af Y-rækker.
er det samlede antal observationer, der følger efter de aktuelle observationer med lavere Y-rækker (lige rækker tages ikke i betragtning!)
Hvis de undersøgte data gentages (har de samme rækker), så bruges den justerede Kendall-korrelationskoefficient i beregningerne:
er antallet af relaterede rækker i henholdsvis serierne X og Y.
Spearmans rangkorrelationskoefficientGraden af afhængighed af to tilfældige variabler (træk) og kan karakteriseres baseret på analysen af de opnåede resultater . Hver indikator tildeles en rang. Værdiernes rækker er i naturlig rækkefølge . Rangen skrives som og svarer til rangen af det par , som rangen er for . Baseret på de opnåede rækker og deres forskelle beregnes, og Spearman- korrelationskoefficienten beregnes :
Værdien af koefficienten varierer fra -1 (rækkefølgerne af rækker er fuldstændig modsatte) til +1 (rækkefølgerne er fuldstændig ens). En værdi på nul indikerer, at funktionerne er uafhængige.
Fechner tegn korrelationskoefficientAntallet af sammenfald og uoverensstemmelser mellem tegn på afvigelser af indikatorernes værdier fra deres gennemsnitlige værdi beregnes.
C er antallet af par, for hvilke tegnene på værdiernes afvigelser fra deres middel er sammenfaldende.
H er antallet af par, for hvilke tegnene på afvigelserne af værdierne fra deres midler ikke stemmer overens.
Multipel korrelationskoefficient Multiple rank korrelationskoefficient (konkordans)
er antallet af grupper, der er rangeret.
er antallet af variable.
er rangen af -faktoren af y -en.
Betydning:
, så forkastes hypotesen om ingen sammenhæng.
I tilfælde af relaterede rækker:
Overvej stokastiske variable X og Y med nul middelværdier og varianser lig med henholdsvis og . Lad os beregne variansen af den tilfældige variabel :
Forudsat at korrelationskoefficienten
så vil det forrige udtryk blive omskrevet i formen
Da du altid kan vælge tallene a og b, så (for eksempel hvis , så tager vi en vilkårlig a og ), så er variansen for disse a og b , og derfor næsten helt sikkert. Men dette betyder en lineær sammenhæng mellem X og Y. Beviset er naturligvis generaliseret til tilfældet med X og Y med ikke-nul-midler, kun i ovenstående beregninger vil det være nødvendigt at erstatte X med og Y med .
Korrelationsanalyse er en statistisk databehandlingsmetode, der måler styrken af sammenhængen mellem to eller flere variable. Korrelationsanalyse er tæt beslægtet med regressionsanalyse (begrebet " korrelations-regressionsanalyse ", som er et mere generelt statistisk begreb, findes også ofte ), den bestemmer behovet for at inkludere visse faktorer i den multiple regressionsligning, og evaluerer også resulterende regressionsligning for compliance identificerede relationer (ved hjælp af bestemmelseskoefficienten ) [1] [2] .
Denne metode til behandling af statistiske data er meget populær inden for økonomi , astrofysik og samfundsvidenskab (især inden for psykologi og sociologi ), selvom omfanget af korrelationskoefficienter er omfattende: kvalitetskontrol af industriprodukter, metallurgi , landbrugskemi , hydrobiologi , biometri og andre . I forskellige anvendte industrier accepteres forskellige grænser for intervaller til vurdering af tætheden og betydningen af forbindelsen.
Metodens popularitet skyldes to punkter: Korrelationskoefficienterne er relativt lette at beregne, deres anvendelse kræver ikke særlig matematisk træning. Kombineret med den nemme fortolkning har koefficientens lette anvendelse ført til dens udbredte brug inden for statistisk dataanalyse.
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |
|