Link analyse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 16. juli 2019; checks kræver 2 redigeringer .

Linkanalyse eller linkanalyse (fra engelsk "link analysis") er en dataanalysemetode , der bruges inden for rammerne af netværksanalyse til at evaluere relationer (links) mellem noder (objekter/aktører) . Relationer kan defineres for forskellige typer knudepunkter: mennesker, organisationer, operationer osv. Udtrykket "linkanalyse" (en af ​​oversættelsesmulighederne: "relationsanalyse") refererer til processen med at analysere helheden af ​​relationer mellem forskellige netværksobjekter for at identificere dens egenskaber .

Oprindeligt blev denne metode brugt til at bekæmpe kriminalitet, primært bedrageri og terrorisme, med henblik på kontraspionage og optimering af informationssikkerhedsværktøjer . Senere fandt denne metode sin anvendelse i marketing og medicinsk forskning samt i optimering af søgemaskinealgoritmer .

Denne metode tilhører gruppen af ​​Data Mining- metoder . Dette er en gruppe af iterative og interaktive algoritmer til at detektere, analysere og visualisere forskellige mønstre i data. Linkanalyse tilhører denne gruppe af algoritmer, og som de fleste af metoderne i denne gruppe implementeres de i de følgende trin[ stil ] [1] : Dataindsamling, Databehandling , Dataanalyse og Datavisualisering .

Historien om udvikling af værktøjssæt

Klerks skelnede tre [2] perioder i udviklingen af ​​værktøjer til implementering af Link Analysis. Den første generation blev introduceret i 1975 som Anacpapa Chart af Harper og Harris [3] . Denne metode implementeres på følgende måde: Forskeren bearbejder de tilgængelige data, der angiver relationerne mellem aktørerne i form af en interaktionsmatrix. Derefter bygger forskeren en passende graf for at visualisere dataene og analyserer i sidste ende det resulterende netværk og bestemmer indikatorerne for centralitet (mønstre af interesse). Denne metode er ekstremt tidskrævende, når man overvejer store mængder data.

Anden generation af værktøjer gav mulighed for at automatisere konstruktionen af ​​grafer for de tilsvarende interaktionsmatricer, men dataindtastning skulle stadig ske manuelt. Dataanalyseprocedurer krævede også aktiv deltagelse af en forsker med den nødvendige videnbase.

Tredje generation af værktøjer giver også mulighed for automatisk at visualisere relationer mellem aktører. Desuden dukker der værktøjer op , der gør det muligt visuelt at komprimere store mængder data til kompakte bundter, hvilket forenkler visuel dataanalyse for komplekse modeller. Beregningen af ​​hovedindikatorerne for centralitet blev også udført automatisk.

Dataindsamling

Anmeldelser og afstemninger

Ved indsamling af netværksdata, nemlig ved fastsættelse af tilstedeværelsen eller fraværet af sociale bånd, bruges i de fleste tilfælde respondenternes rapporter. Normalt opnås sådanne data ved at bede respondenten om at angive de agenter, som han eller den organisation, han tilhører, har direkte kontakter med. Typen (eller typen) af disse forbindelser er specificeret på forhånd og afhænger af undersøgelsens mål. Når befolkningen er begrænset (antallet af aktører - elementer i det fremtidige netværk er lille), kan respondenterne blive bedt om blot at liste deres kontakter, men andre metoder praktiseres oftere. Holland og Lenhardt [4] brugte:

  1. dikotome indikatorer for tilstedeværelsen eller fraværet af disse typer interaktion, hvor antallet af forbindelser mellem respondenter kunne registreres;
  2. skalaer eller serier, der adskiller relationer efter intensitet;
  3. metoder til parrede sammenligninger af forskellige interaktioner for styrke.

Mere systematisk er teknikken til indsamling af netværksdata vist i Burts procedure [5] , hvor man først identificerede medlemskab i respondentnetværket ved en eller flere parametre, og derefter, afhængigt af dataene, blev der opnået yderligere resultater, der forklarede en sådan. arrangement. Følgende egenskaber ved netværk blev undersøgt:

  1. attributter for individer (netværkselementer);
  2. mulige egenskaber ved forbindelser mellem respondenter - hyppighed af kontakter, intensitet;
  3. intensiteten af ​​forbindelser mellem par af respondenter, som bruges til at måle de strukturelle egenskaber af egocentriske netværk (for eksempel tæthedsbestemmelse).

Når man studerer interorganisatoriske interaktioner, anbefales det ikke at begrænse sig til kun én af informanternes vidnesbyrd; problemet med at udvælge respondenter vokser i direkte forhold til bredden af ​​specialiseringen i en given organisation. For en lille undersøgelse vil en netværksrapport af høj kvalitet fra én agent i organisationen være ganske tilstrækkelig, men sådanne rapporter bør bruges til at studere de typer interaktioner, der kun afspejler den ene side af informantens aktivitet. Men når man analyserer organisationer, er det bedre at analysere oplysninger opnået fra rapporter fra flere agenter såvel som understøttet af dokumenter fra organisationen (breve, notater, rapporter, mødereferater).

Arkiver

Der er brug for betydelige ressourcer til at indsamle netværksdata af høj kvalitet. Arkivkilder er meget billigere, og en af ​​deres fordele er, at de tillader retrospektiv forskning og følger udviklingen af ​​de undersøgte netværk. Her er Link-analyse som et Data Mining- værktøj tæt relateret til et andet område af dataanalyse Text Mining .

Procedure for relationsanalyse

Resultatet af indsamling og bearbejdning af empiri er formaliserede matricer af interaktion mellem aktørerne i det undersøgte netværk.

På baggrund af de modtagne data i form af en interaktionsmatrix konstrueres en tilsvarende graf, der illustrerer relationerne mellem aktører i netværket.

Beregning af nøgleindikatorer

Begrænsninger af tilgangen

Nogle forskere [6] bemærker, at der udover den høje risiko for at få subjektive vurderinger af netværket fra informanter er en risiko for subjektiv opfattelse af de data, forskeren modtager, og dermed kan selv analysen af ​​samme information føre til forskellige konklusioner.

Ikke desto mindre er der en række alment accepterede teknikker til at vurdere et netværks egenskaber og forbindelserne mellem dets aktører.

Netværksstørrelse

Hovedindikatoren, der repræsenterer netværksstørrelsen, er antallet af direkte links inkluderet i individuelle joinforbindelser. Netværksstørrelsen kan variere fra minimumsværdien 1 (2 toppunkter i grafen) til den maksimalt mulige værdi (g-1) , hvor g er antallet af grafens toppunkter.

Netværkstæthed

Normalt forstås det som en væsentlig styrke af forbindelse mellem associationer i et netværk eller (for dikotome målinger) forholdet mellem eksisterende og mulige forbindelser.

Forbindelsestætheden af ​​en urettet graf kan beregnes ved hjælp af formlen:

, hvor L er antallet af observerede links i en given graf eller undergraf.

Tætheden af ​​forbindelser i en rettet graf beregnes med formlen:

.

Ved hjælp af tæthed er det dog ret problematisk at afsløre strukturelle forbindelser, hvis netværket har undergrupper, og tæthedstransformation kan forekomme, når netværkets størrelse ændres.

Centralitet og centralisering [7] Måling af graden af ​​centralitet

Med denne tilgang er antallet af aktører, som denne aktør er tilknyttet, vigtigt. I det enkleste tilfælde er dette blot at tælle antallet af skuespillerforbindelser ved hjælp af følgende formel:

.

For at kunne sammenligne graden af ​​centralitet af en aktør ikke kun inden for det samme netværk, men også mellem netværk af forskellige strukturer, er det nødvendigt at beregne et standardiseret estimat af centralitet ved hjælp af følgende formel:

.

Du kan også beregne graden af ​​centralitet for hele netværket:

.

Det er ofte nødvendigt at sammenligne forskellige strukturer og afgøre, hvilken der giver den bedste centralisering af aktører. Til dette er der en formel til beregning af den normaliserede grad af centralitet for hele netværket:

.

Densitet af centralitet

Denne tilgang måler centralitetstæthed - hvor tæt en aktør er på andre aktører. Det vil sige, med denne tilgang er det centrale den position, hvorfra det er nødvendigt at tage det mindste antal skridt til alle andre positioner i gruppen.

Aktørcentralitetstæthed måles som følger:

.

Her er antallet af forbindelser mellem skuespillerne og . Den maksimale indeksværdi er . Således beregnes den normaliserede aktørcentralitetstæthedskoefficient ved hjælp af følgende formel:

Den normaliserede netværkscentralitetstæthed beregnes med formlen:

Centralitet som formidling

Inden for rammerne af denne tilgang ses centralitet som kontrol af relationer mellem bestemte positioner. Hvis den korteste afstand mellem aktørerne n2 og n3 er n2 , n1 , n4 og n3 , så er positionerne n1 og n4 kontrollerende med hensyn til parret af aktører n2 og n3 .

Aktørformidlingscentralitet kan beregnes ved hjælp af formlen:

Her er antallet af korteste veje, der går gennem skuespilleren . Da det maksimale antal links mellem alle hjørner af grafen er lig med

.

En standardiseret netværkscentralitetsscore kan beregnes ved hjælp af følgende formel:

.

Ækvivalens

Når man beskriver et netværks strukturelle egenskaber, tyr man ofte til begreberne om strukturel lighed mellem individuelle aktører. Identifikation af strukturelt lignende positioner giver os mulighed for at forenkle grafen ved at kombinere aktører, der ligner deres strukturelle egenskaber, til nye, corporate aktører. Følgelig, for at identificere ækvivalens mellem to positioner, bruges følgende formel foreslået af Burt [8] normalt :

Se også

Noter

  1. Ahonen, H., Features of Knowledge Discovery Systems Arkiveret 8. december 2012 på Wayback Machine .
  2. Klerks, P. Netværksparadigmet anvendt på kriminelle organisationer: Teoretisk nitpicking eller en relevant doktrin for efterforskere? Seneste udvikling i Holland  (engelsk)  // Forbindelser: tidsskrift. - 2001. - Bd. 24 . - S. 53-65 .
  3. Harper og Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, s. 232-238.
  4. Holland PW, LeinhardtS. De strukturelle implikationer af målefejl i sociometri // J. Match. Sociol, 1973. Vol. 3. S. 85-111.
  5. Burt RS Modeller af netværksstruktur//Annu. Rev. Sociol, 1980. Vol. 6. S. 79-141.
  6. McGrath, C., Blythe, J., Krackhardt, D., Seeing Groups in Graph Layouts Arkiveret 3. oktober 2013 på Wayback Machine
  7. Freeman L. Med centralitet i sociale netværk, konceptuelle afklaringer / / Soc. Netværk, 1979. Bd. 1. s. 215-236.
  8. Burt RS Social smitte og innovation: samhørighed versus strukturel ækvivalens.//American Journal of Sociology, 1987.92: 1287-1335.

Kilder

  • Gradoselskaya GV Netværksmålinger i sociologi: Lærebog / Ed. G. S. Batygina. M .: Forlaget "Ny lærebog", 2004.
  • Chubukova I.A. data mining. M.: Binom, 2008
  • Thelwall M. Link Analysis: An Information Science Approach. New York: Academic Press , 2004.