Lighedskoefficienten (også et lighedsmål, lighedsindeks) er en dimensionsløs indikator for ligheden af sammenlignede objekter. Også kendt som associationsmåling, lighedsmål osv.
Det bruges i biologi til at kvantificere graden af lighed mellem biologiske objekter (lokaliteter, regioner, individuelle phytocenoser , zoocenoser osv.). Bruges også i geografi, sociologi, mønstergenkendelse , søgemaskiner , sammenlignende lingvistik, bioinformatik , kemoinformatik , strengsammenligning osv.
I en bredere forstand taler de om mål for nærhed, som omfatter: mål for mangfoldighed, mål for koncentration (homogenitet), mål for inklusion , mål for lighed, mål for forskel (herunder afstande), mål for kompatibilitet af begivenheder, mål for uforenelighed af begivenheder, mål for indbyrdes afhængighed , mål for gensidig uafhængighed. Teorien om nærhedsforanstaltninger er i sin vorden, og derfor er der mange forskellige ideer om formalisering af nærhedsrelationer.
De fleste af koefficienterne er normaliserede og går fra 0 (ingen lighed) til 1 (fuldstændig lighed). Lighed og forskel supplerer hinanden (matematisk kan dette udtrykkes som følger: Lighed = 1 − Forskel).
Lighedskoefficienter kan betinget opdeles i tre grupper, afhængigt af hvor mange objekter der betragtes:
I undersøgelsen af biologiske objekter bruges målinger af variabiliteten af både individuelle træk og fordelingsfrekvenserne af tilfældige variabler i vid udstrækning. I det enkleste tilfælde kan inventarets (inden for det undersøgte biosystem) diversitet estimeres ved artsrigdom eller antallet af arter.
De mest almindeligt anvendte mål for diversitet [1] ( variationskoefficient , indekser for den parametriske Renyi-familie , inklusive Shannon-indekset ; indekser for Hill-familien; indekser for Margalef, Gleason , etc.). Mindre ofte bruges koncentrationsmål, der supplerer dem (for eksempel Kolmogorov- familien af foranstaltninger, Rosenberg -dissonansmålet ).
Det er de koefficienter, der er mest brugt i biologi og geografi [2] . Den allerførste lighedskoefficient blev foreslået af P. Jaccard i 1901 [ 3 ] : og 2. steder . Efterfølgende blev der foreslået forskellige koefficienter (mål, indekser) af lighed inden for forskellige videnskabsområder. De mest udbredte (betegnelserne er de samme):
En alternativ notation for kontingenstabellen kendes fra R. R. Sokal ( Sokal ) og P. Sneath ( Sneath ) [10] [11] :
Tilstedeværelsen af arten på 1. lokalitet | Manglende udsyn på 1. plads | |
Tilstedeværelsen af arten på 2. sted | -en | b |
Manglende udsyn på 2. plads | c | d |
hvor a er antallet af arter fundet på begge lokaliteter; b er antallet af arter fundet på det første prøveudtagningssted, men uden hensyntagen til forekomsten af almindelige arter; c er antallet af arter fundet på det andet prøveudtagningssted, men uden hensyntagen til forekomsten af almindelige arter.
Denne tabel skaber en masse forvirring. Det forveksles ofte med en lignende statistisk krydstabel ; notationen af Sokal-Sneath-tabellen forveksles med den klassiske notation (se ovenfor); næsten altid ignorere det faktum, at tabellen kun tager højde for sandsynligheder.
I processen med matematisk formalisering af objekter og relationer mellem dem opstod en universel mængdeteoretisk notation for lighedskoefficienter. For første gang optræder en sådan optegnelse i værker af A. S. Konstantinov [12] , M. Levandovsky og D. Winter [13] . Så Jaccard-lighedskoefficienten kan skrives som følger:
Den enkleste lighedskoefficient er et mål for absolut lighed, som i det væsentlige er antallet af fællestræk for to sammenlignede objekter: [14] . Ved normalisering af dette mål er værdierne af lighedsmålet mellem 0 og 1, og koefficienten er kendt som et "mål for procentvis lighed", når der bruges relative måleenheder (i procent) og som et mål for skæringspunktet i mellemliggende beregninger af relative lighedsmål (for eksempel er det kendt i udlandet som Renkonen-målet [15] ).
I 1973 foreslog B. I. Semkin en generel formel baseret på Kolmogorovs middelformel , som kombinerer de fleste af de kendte lighedskoefficienter til et kontinuerligt kontinuum af mål [16] [17] :
hvor ; ; ; ; ; . For eksempel er værdierne for ovenstående koefficienter som følger: [1,-1] (Jaccard-koefficient); [0,-1] (Sorensen-koefficient); [0,1] (Kulchinsky-koefficient); [0,0] (Ochiai-koefficient); [0, ] (Shimkevich-Simpson koefficient); [0, ] (Brun-Blanque koefficient). Den generaliserende formel gør det muligt at definere klasser af ækvivalente og ikke-ækvivalente koefficienter [18] såvel som at forhindre oprettelsen af nye duplikatkoefficienter.
En specifik type lighedskoefficienter er inklusionsmål . Disse er asymmetriske mål ( og ), som viser graden af lighed (inklusion) af et objekt i forhold til et andet. Mere velkendte (symmetriske) nærhedskoefficienter kan opnås ved at tage et gennemsnit af to komplementære asymmetriske inklusionsmål, det vil sige, at hvert symmetrisk lighedsmål svarer til to specifikke asymmetriske lighedsmål. For eksempel for Sørensen-målet er dette og ), og for Jaccard-målet er dette og . Generelt er to ikke-symmetriske inklusionsmål bedre til at estimere ligheden mellem objekter end et gennemsnitligt symmetrisk lighedsmål.
Spørgsmålet om at sammenligne objekter efter vægtindikatorer er kontroversielt og tvetydigt. I økologi er disse indikatorer, der tager højde for overflod . De mest konsistente formaliseringsskemaer af sådanne typer er B. I. Semkins skema baseret på beskrivende sæt og A. Chaos skema med overflodsbaserede indekser (overflodsbaserede indekser) [19] . Også i udenlandsk litteratur er præsentationen af indeks baseret på incidens (incidensbaseret indeks), det vil sige indekser for booleske data for tilstedeværelse / fravær (tilstedeværelse / fravær) type af en funktion, blevet etableret. Faktisk kan begge af dem beskrives som særlige tilfælde af beskrivende sæt.
Sammenligningen af tilfældige hændelser (f.eks. forekomst ) og informationsindikatorer er fortsat diskutable. I skemaet for formalisering af nærhedsrelationer af B. I. Semkin foreslås det at udskille en række analytiske fortolkninger for forskellige nærhedsforhold: multiple , deskriptive , probabilistiske , informative . Formelt er tilhørsforhold til lighedsmål bestemt af et system af aksiomer (her er E et vilkårligt sæt):
Aksiomsystemer for lighedsmål blev foreslået af: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] og andre.
Som regel præsenteres et sæt af nærhedsmål i form af matricer af typen "objekt-til-objekt". Disse er for eksempel lighedsmatricer , matricer af afstande (i bred forstand - forskelle), matricer af fælles sandsynligheder, matricer af informationsfunktioner. De fleste af dem kan bygges ud fra: absolutte eller relative mål, og de kan til gengæld være symmetriske eller asymmetriske (sidstnævnte kaldes ofte inklusionsmål).
Sådanne koefficienter bruges til at sammenligne en række objekter. Disse omfatter: Alekhines gennemsnitlige lighed, Kochs biotiske spredningsindeks, Shennikovs spredningskoefficient, Whittakers beta-diversitetsmål , Mirkin- Rosenbergs mål for homotonicitet og dets dobbelte mål for heterotonicitet og Semkins . lighedskoefficient for en række beskrivelser. I udenlandsk litteratur findes mål af denne type under navnene: multidimensionelle koefficienter, n -dimensionelle koefficienter, multiple-site lighedsmål, multidimensionelle koefficienter, multiple samfund mål [28] [29] [30] . Den mest berømte koefficient blev foreslået af L. Koch [31] :
,hvor , det vil sige summen af antallet af træk ved hvert af objekterne; , det vil sige det samlede antal funktioner; — et sæt af n sæt (objekter).
Som regel beregnes nærhedsmålinger i programmets klyngeanalysemodul . Den mest brugte er Statistica , men i det tilsvarende modul præsenteres lighedsmål overhovedet ikke, kun afstande. SPSS (PASW Statistics) foreslår beregning af en række lighedsmål (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriske terninger). Der findes et stort antal små programmer til beregning af nærhedsmålinger og efterfølgende grafisk repræsentation af afhængigheder [32] [33] . Lighedsmålinger præsenteres ekstremt sjældent og hovedsageligt i specialiserede programmer for biologer [34] : Grafer, NTSYS, BIODIV, PAST, og selv der er de ekstremt få (normalt kun Jaccard-målet og nogle gange Sørensen-målet). Vi kan også bemærke TurboVEG og IBIS [35] , som er baseret på en database med behandlingsmoduler, og IBIS-programmet implementerer det største antal nærhedsforanstaltninger, der i øjeblikket anvendes inden for biologi, geografi og andre områder.