Lighedskoefficient

Lighedskoefficienten (også et lighedsmål, lighedsindeks) er en dimensionsløs indikator for ligheden af ​​sammenlignede objekter. Også kendt som associationsmåling, lighedsmål osv.

Det bruges i biologi til at kvantificere graden af ​​lighed mellem biologiske objekter (lokaliteter, regioner, individuelle phytocenoser , zoocenoser osv.). Bruges også i geografi, sociologi, mønstergenkendelse , søgemaskiner , sammenlignende lingvistik, bioinformatik , kemoinformatik , strengsammenligning osv.

I en bredere forstand taler de om mål for nærhed, som omfatter: mål for mangfoldighed, mål for koncentration (homogenitet), mål for inklusion , mål for lighed, mål for forskel (herunder afstande), mål for kompatibilitet af begivenheder, mål for uforenelighed af begivenheder, mål for indbyrdes afhængighed , mål for gensidig uafhængighed. Teorien om nærhedsforanstaltninger er i sin vorden, og derfor er der mange forskellige ideer om formalisering af nærhedsrelationer.

De fleste af koefficienterne er normaliserede og går fra 0 (ingen lighed) til 1 (fuldstændig lighed). Lighed og forskel supplerer hinanden (matematisk kan dette udtrykkes som følger: Lighed = 1 − Forskel).

Lighedskoefficienter kan betinget opdeles i tre grupper, afhængigt af hvor mange objekter der betragtes:

Unære koefficienter

I undersøgelsen af ​​biologiske objekter bruges målinger af variabiliteten af ​​både individuelle træk og fordelingsfrekvenserne af tilfældige variabler i vid udstrækning. I det enkleste tilfælde kan inventarets (inden for det undersøgte biosystem) diversitet estimeres ved artsrigdom eller antallet af arter.

De mest almindeligt anvendte mål for diversitet [1] ( variationskoefficient , indekser for den parametriske Renyi-familie , inklusive Shannon-indekset ; indekser for Hill-familien; indekser for Margalef, Gleason , etc.). Mindre ofte bruges koncentrationsmål, der supplerer dem (for eksempel Kolmogorov- familien af ​​foranstaltninger, Rosenberg -dissonansmålet ).

Binære odds

Det er de koefficienter, der er mest brugt i biologi og geografi [2] . Den allerførste  lighedskoefficient blev foreslået  af P. Jaccard i 1901 [ 3 ]  : og 2. steder . Efterfølgende blev der foreslået forskellige koefficienter (mål, indekser) af lighed inden for forskellige videnskabsområder. De mest udbredte (betegnelserne er de samme):

En alternativ notation for kontingenstabellen kendes fra R. R. Sokal ( Sokal ) og P. Sneath ( Sneath ) [10] [11] :

Tilstedeværelsen af ​​arten på 1. lokalitet Manglende udsyn på 1. plads
Tilstedeværelsen af ​​arten på 2. sted -en b
Manglende udsyn på 2. plads c d

hvor a  er antallet af arter fundet på begge lokaliteter; b  er antallet af arter fundet på det første prøveudtagningssted, men uden hensyntagen til forekomsten af ​​almindelige arter; c  er antallet af arter fundet på det andet prøveudtagningssted, men uden hensyntagen til forekomsten af ​​almindelige arter.

Denne tabel skaber en masse forvirring. Det forveksles ofte med en lignende statistisk krydstabel ; notationen af ​​Sokal-Sneath-tabellen forveksles med den klassiske notation (se ovenfor); næsten altid ignorere det faktum, at tabellen kun tager højde for sandsynligheder. I processen med matematisk formalisering af objekter og relationer mellem dem opstod en universel mængdeteoretisk notation for lighedskoefficienter. For første gang optræder en sådan optegnelse i værker af A. S. Konstantinov [12] , M. Levandovsky og D. Winter [13] . Så Jaccard-lighedskoefficienten kan skrives som følger:

eller .

Den enkleste lighedskoefficient er et mål for absolut lighed, som i det væsentlige er antallet af fællestræk for to sammenlignede objekter: [14] . Ved normalisering af dette mål er værdierne af lighedsmålet mellem 0 og 1, og koefficienten er kendt som et "mål for procentvis lighed", når der bruges relative måleenheder (i procent) og som et mål for skæringspunktet i mellemliggende beregninger af relative lighedsmål (for eksempel er det kendt i udlandet som Renkonen-målet [15] ).

I 1973 foreslog B. I. Semkin en generel formel baseret på Kolmogorovs middelformel , som kombinerer de fleste af de kendte lighedskoefficienter til et kontinuerligt kontinuum af mål [16] [17] :

,

hvor ; ; ; ; ; . For eksempel er værdierne for ovenstående koefficienter som følger: [1,-1] (Jaccard-koefficient); [0,-1] (Sorensen-koefficient); [0,1] (Kulchinsky-koefficient); [0,0] (Ochiai-koefficient); [0, ] (Shimkevich-Simpson koefficient); [0, ] (Brun-Blanque koefficient). Den generaliserende formel gør det muligt at definere klasser af ækvivalente og ikke-ækvivalente koefficienter [18] såvel som at forhindre oprettelsen af ​​nye duplikatkoefficienter.

En specifik type lighedskoefficienter er inklusionsmål . Disse er asymmetriske mål ( og ), som viser graden af ​​lighed (inklusion) af et objekt i forhold til et andet. Mere velkendte (symmetriske) nærhedskoefficienter kan opnås ved at tage et gennemsnit af to komplementære asymmetriske inklusionsmål, det vil sige, at hvert symmetrisk lighedsmål svarer til to specifikke asymmetriske lighedsmål. For eksempel for Sørensen-målet er dette og ), og for Jaccard-målet er dette og . Generelt er to ikke-symmetriske inklusionsmål bedre til at estimere ligheden mellem objekter end et gennemsnitligt symmetrisk lighedsmål.

Spørgsmålet om at sammenligne objekter efter vægtindikatorer er kontroversielt og tvetydigt. I økologi er disse indikatorer, der tager højde for overflod . De mest konsistente formaliseringsskemaer af sådanne typer er B. I. Semkins skema baseret på beskrivende sæt og A. Chaos skema med overflodsbaserede indekser (overflodsbaserede indekser) [19] . Også i udenlandsk litteratur er præsentationen af ​​indeks baseret på incidens (incidensbaseret indeks), det vil sige indekser for booleske data for tilstedeværelse / fravær (tilstedeværelse / fravær) type af en funktion, blevet etableret. Faktisk kan begge af dem beskrives som særlige tilfælde af beskrivende sæt.

Sammenligningen af ​​tilfældige hændelser (f.eks. forekomst ) og informationsindikatorer er fortsat diskutable. I skemaet for formalisering af nærhedsrelationer af B. I. Semkin foreslås det at udskille en række analytiske fortolkninger for forskellige nærhedsforhold: multiple , deskriptive , probabilistiske , informative . Formelt er tilhørsforhold til lighedsmål bestemt af et system af aksiomer (her er E et vilkårligt sæt):

  1. (ikke-negativitet);
  2. (symmetri);
  3. ("helheden er større end delen");
  4. (subadditivitet).

Aksiomsystemer for lighedsmål blev foreslået af: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] og andre.

Som regel præsenteres et sæt af nærhedsmål i form af matricer af typen "objekt-til-objekt". Disse er for eksempel lighedsmatricer , matricer af afstande (i bred forstand - forskelle), matricer af fælles sandsynligheder, matricer af informationsfunktioner. De fleste af dem kan bygges ud fra: absolutte eller relative mål, og de kan til gengæld være symmetriske eller asymmetriske (sidstnævnte kaldes ofte inklusionsmål).

Multi-place koefficienter

Sådanne koefficienter bruges til at sammenligne en række objekter. Disse omfatter: Alekhines gennemsnitlige lighed, Kochs biotiske spredningsindeks, Shennikovs spredningskoefficient, Whittakers beta-diversitetsmål , Mirkin- Rosenbergs mål for homotonicitet og dets dobbelte mål for heterotonicitet og Semkins . lighedskoefficient for en række beskrivelser. I udenlandsk litteratur findes mål af denne type under navnene: multidimensionelle koefficienter, n -dimensionelle koefficienter, multiple-site lighedsmål, multidimensionelle koefficienter, multiple samfund mål [28] [29] [30] . Den mest berømte koefficient blev foreslået af L. Koch [31] :

,

hvor , det vil sige summen af ​​antallet af træk ved hvert af objekterne; , det vil sige det samlede antal funktioner;  — et sæt af n sæt (objekter).

Målesoftware

Som regel beregnes nærhedsmålinger i programmets klyngeanalysemodul . Den mest brugte er Statistica , men i det tilsvarende modul præsenteres lighedsmål overhovedet ikke, kun afstande. SPSS (PASW Statistics) foreslår beregning af en række lighedsmål (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriske terninger). Der findes et stort antal små programmer til beregning af nærhedsmålinger og efterfølgende grafisk repræsentation af afhængigheder [32] [33] . Lighedsmålinger præsenteres ekstremt sjældent og hovedsageligt i specialiserede programmer for biologer [34] : Grafer, NTSYS, BIODIV, PAST, og selv der er de ekstremt få (normalt kun Jaccard-målet og nogle gange Sørensen-målet). Vi kan også bemærke TurboVEG og IBIS [35] , som er baseret på en database med behandlingsmoduler, og IBIS-programmet implementerer det største antal nærhedsforanstaltninger, der i øjeblikket anvendes inden for biologi, geografi og andre områder.

Se også

Noter

  1. Magurran A.E. Måling af biologisk mangfoldighed. - Oxford, UK.: Blackwell Publishing, 2004. - 256 s.
  2. Pesenko Yu. A. Principper og metoder til kvantitativ analyse i faunistisk forskning Arkivkopi dateret 20. december 2014 på Wayback Machine . — M.: Nauka, 1982. — 287 s.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  4. Sörensen T. En metode til at etablere grupper af lige stor amplitude i plantesociologi baseret på lighed mellem artsindhold // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. nr. 4. 1948. S. 1-34.
  5. Kulczinsky S. Zespoly roslin w Pienach // Bull. praktikant. acad. polon. sci. Lett. Cl. sci. matematik. natur. Ser. F. 1927. S. 2. S. 57-203.
  6. Ochiai A. Zoogeografiske undersøgelser af soleoidfiskene fandt Japan og dets naboregioner.  (ikke tilgængeligt link) II // Bull. Jap. soc. sci. fisk. 1957. V. 22. nr. 9. P. 526-530. (Opsummering på engelsk. Artiklens hovedtekst på japansk.)
  7. Szymkiewicz D. Une bidrag statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. Nr. 3. S. 249-265.
  8. Simpson GG Holarktiske pattedyrsfaunaer og kontinentale forhold under cenozoikum // Bull. geol. sci. Amerika. 1947. V. 58. S. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berlin: Verlaq von Julius springer, 1928. - 330 s.
  10. Sokal RR , Sneath PHA Principles of numerical taxonomy Arkiveret 5. marts 2016 på Wayback Machine . - San Francisco: London: Freeman, 1963. - 359 s.
  11. Sneath PHA, Sokal RR Numerisk taksonomi: Principperne og praksisserne for numerisk klassificering Arkiveret 5. marts 2016 på Wayback Machine . - San-Francisco: Freeman, 1973. - 573 s.
  12. Konstantinov A.S. Brugen af ​​mængdeteori i biogeografisk og økologisk analyse // Usp. moderne biol. 1969. T. 67. no. 1. C 99-108.
  13. Levandowsky M., Winter D. Afstand mellem sæt Arkiveret 5. marts 2016 på Wayback Machine // Nature. 1971. V.234. nr. 5323. S. 34-35.
  14. Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Kvantitative metoder til vurdering af graden af ​​nærhed af monumenter ved procentdelen af ​​massemateriale // Sovjetisk arkæologi. 1970. nr. 3. S. 26-39.
  15. Renkonen O. Statistisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn. Vanamo. 1938. V. 6. fasc. 1. s. 1-231.
  16. Semkin B. I. Beskrivende sæt og deres anvendelser // Studie af systemer. T. 1. Analyse af komplekse systemer. Vladivostok: DVNTs AN SSSR, 1973, s. 83-94.
  17. Semkin B. I. Graph-theoretic methods in comparative floristry Arkiveksemplar af 5. marts 2016 på Wayback Machine // I bogen: Theoretical and methodological problems of comparative floristry: Materials of the 2nd workshop on comparative floristry. - Neringa: 1983. - S. 149-163.
  18. Semkin B. I., Dvoychenkov V. I. Om ækvivalensen af ​​mål for lighed og forskel Arkivkopi dateret 5. marts 2016 på Wayback Machine // Systems Research. T. 1. Analyse af komplekse systemer. Vladivostok: DVNTs AN SSSR, 1973, s. 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Overflodsbaserede lighedsindekser og deres estimering, når der er usete arter i prøver Arkiveret 4. september 2012 på Wayback Machine // Biometrics. 2006. nr. 62. P.361-371.
  20. Rényi A. Om mål for afhængighed  (link utilgængeligt) // Acta Math. Acad. Videnskab. hængt. 1959.V.10. nr. 3-4. s. 441-451.
  21. Voronin Yu. A. Introduktion af ligheds- og forbindelsesforanstaltninger til løsning af geologiske og geofysiske problemer // Dokl. USSR's Videnskabsakademi. 1971. V. 139. nr. 5. S. 64-70.
  22. Voronin Yu. A. Begyndelsen af ​​lighedsteorien. - Novosibirsk: Videnskab. Sib. Afdeling, 1991. - 128 s.
  23. Tversky A. Egenskaber af lighed // Psychological Review. 1977. V.84. nr. 4. P. 327-352.
  24. Vikentiev A. A., Lbov G. S. Om metriseringer af den boolske algebra af sætninger og informativiteten af ​​ekspertudtalelser // Dokl. AN. Informatik. 1998. V. 361. Nr. 2. S. 174-176.
  25. Raushenbakh G.V. Mål for nærhed og lighed // Analyse af ikke-numerisk information om sociologisk forskning. M.: Nauka, 1985. S. 169-203.
  26. Semkin B. I., Gorshkov M. V. Systemet af aksiomer for symmetriske funktioner af to variable og mål, der måler forholdet mellem lighed, forskel, kompatibilitet og afhængighed for biodiversitetskomponenter Arkivkopi af 16. december 2018 på Wayback Machine // Vestnik TSEU. 2008. nr. 4. S. 31-46.
  27. Semkin B. I., Gorshkov M. V. Aksiomatisk introduktion af mål for lighed, forskel, kompatibilitet og afhængighed for biodiversitetskomponenter i et multidimensionelt tilfælde // Bulletin of KrasGAU . 2009. nr. 12. S. 18-24.
  28. ↑ Chao A., Hwang WH , Chen YC , Kuo CY Estimering af antallet af fælles arter i to samfund Sinica. 2000. nr. 10. S. 227-246.  
  29. Baselga A., Jiménez-Valverde A., Niccolini G. Et lighedsmål med flere steder uafhængigt af rigdom Arkiveret 5. marts 2016 på Wayback Machine // Biol. Lett. 2007. nr. 3. S. 642-645.
  30. Diserud OH, Ødegaard F. A multiple-site similarity measure  (link unavailable) // Biol. Lett. 2007. nr. 3. S. 20-22.
  31. Koch LF Indeks for biotal spredning // Økologi. 1957. V. 38. Nr. 1. S. 145-148.
  32. http://www.biometrica.tomsk.ru/list/other.htm Arkiveret 16. januar 2012 på Wayback Machine Internet Statistical Resources
  33. http://evolution.genetics.washington.edu Arkiveret 18. april 2022 på Wayback Machine Programs for Phylogenetic Calculation på University of Washingtons internetportal
  34. Novakovsky A. B. Gennemgang af softwareværktøjer brugt til analyse af geobotaniske data // Vegetation of Russia. 2006. nr. 9. S. 86-95.
  35. Zverev A. A. Informationsteknologier i vegetationsdækningsforskning. - Tomsk: TML-Press, 2007. -304 s.