Citationsanalyse er studiet af hyppigheden, mønstrene og tidsplanerne for citater i dokumenter. Den bruger tilbudsmønsteret, linker fra et dokument til et andet dokument, til at opdage dokumenternes egenskaber. Et typisk mål er at identificere de vigtigste dokumenter i en samling. Et klassisk eksempel er citering mellem akademiske artikler og bøger. [1] [2] Retslige afgørelser i det angelsaksiske retssystem henviser for at bekræfte deres afgørelser til afgørelser truffet i tidligere sager, så analysen af citat i en juridisk sammenhæng er vigtig. Et andet eksempel er patenter, der indeholder tidligere opfindelser, tidligere citerede patenter, der vedrører det aktuelle krav.
Dokumenter kan forbindes med mange andre funktioner udover citater, såsom forfattere, forlag, tidsskrifter samt deres faktiske tekster. Den generelle analyse af samlinger af dokumenter kaldes bibliometri , og citationsanalyse er en central del af denne retning. For eksempel er bibliografisk kobling og deling associerede metrics baseret på citationsanalyse (delte citater eller delte citater). Citater i en samling af artikler kan også præsenteres i form af følgende citationsgrafer, som bemærket af Derek de Solla Price i papiret "Networks of Scientific Papers" fra 1965. [3] Det betyder, at citationsanalyse trækker på aspekter af social netværksanalyse og netværksvidenskab.
Et tidligt eksempel på automatisk citationsindeksering var CiteSeer , som blev brugt til citater i videnskabelige rapporter, og Google Scholar er et eksempel på et moderne system, der omfatter mere end blot akademiske bøger og artikler og afspejler en bredere vifte af informationskilder. I dag har automatiseret citationsindeksering [4] ændret karakteren af citationsanalyseforskning, hvilket gør det muligt at analysere millioner af citater med henblik på storskalamodeller og videnopdagelse. Citationsanalyseværktøjer kan bruges af forskere til at beregne forskellige grader af påvirkning baseret på citationsindeksdata . [5] [6] [7] De har ansøgninger, der spænder fra at identificere ekspertdommere til at gennemgå dokumenter og bevillingsforslag, til at levere gennemsigtige data til støtte for beslutninger om akademisk merit, embedsperiode og beslutningstagning. Denne konkurrence om begrænsede ressourcer kan føre til etisk tvivlsom adfærd for flere citater. [8] [9]
Praksisen med naivt at bruge citationsanalyse til at sammenligne virkningen af forskellige videnskabelige artikler uden at tage højde for andre faktorer, der kan påvirke citationsmønstre, er blevet stærkt kritiseret. [10] Blandt kritikpunkterne fokuserer man konsekvent på "industriens uafhængighed", nemlig det faktum, at citeringspraksis inden for et videnskabsfelt adskiller sig fra praksis i et andet og endda mellem forskningsgrene inden for en disciplin. [elleve]
Mens citationsindekser oprindeligt blev udviklet til informationssøgning , bliver de i stigende grad brugt til bibliometriske og andre undersøgelser, der involverer forskningsevaluering. Citationsdata er også grundlaget for et populært tidsskrifts indflydelseskvotient .
Der er en stor mængde litteratur om citationsanalyse, nogle gange omtalt som scientometrics , et udtryk opfundet af Vasily Nalimov , eller mere specifikt bibliometri . Industrien begyndte at blomstre med fremkomsten af Science Citation Index, som dækker litteratur udgivet siden 1900. Branchens førende tidsskrifter er Scientometrics , Informatics og Journal of the Association for Information Science and Technology. Sidstnævnte organiserer også en elektronisk postliste kaldet Sigmetrica hos ATIT. [12] Denne metode genoplives gennem udbredt databaseadoption, Web Science og Scopus-abonnementer på mange universiteter og offentlige gratis citationsværktøjer såsom CiteBase, CiteSeerX , Google Scholar og det tidligere Windows Live Academic-program (nu tilgængeligt med yderligere funktioner som f.eks. ligesom Microsoft Academic Search). Citationsanalyseforskningsmetoder omfatter kvalitative, kvantitative og beregningsmæssige tilgange. Hovedfokus for sådanne scientometriske undersøgelser har været benchmarking af ydeevne, institutionelle forskningsrangeringer, klassificering af tidsskrifter [13] vedrørende fastsættelse af præstationsfaktorer og ejerskabsstandarder, [14] evaluering af virkningen af top videnskabelige artikler, [15] sporing af en videnskabs bane eller teknologiindustrien [16] , og udvikling af profiler for førende forfattere og institutioner med hensyn til forskningsresultater. [17]
Juridisk citationsanalyse er en citationsanalyseteknik til at analysere juridiske dokumenter, der gør det lettere at forstå relaterede normative dokumenter ved at undersøge citater, der knytter en bestemmelse til andre bestemmelser i samme dokument eller mellem forskellige dokumenter. Juridisk citationsanalyse bruger en citationsgraf taget fra et regulatorisk dokument, der kan supplere elektronisk opdagelse, en proces, der påvirker teknologisk innovation inden for big data- analyse . [18] [19] [20] [21]
I et papir fra 1965 beskrev Derek de Solla Price SCI's iboende bindende egenskab som "et netværk af videnskabelige artikler". Forbindelserne mellem citater og citerede artikler blev dynamiske, da SCI begyndte at udgive online. Social Science Citation Index var en af de første databaser installeret i Dialog-systemet [22] i 1972. Med fremkomsten af cd'er er referencer blevet endnu enklere, hvilket gør det muligt at bruge bibliografiske links til at finde relaterede optegnelser. I 1973 udgav Henry Small sit klassiske værk om co-citationsanalyse, som blev et selvorganiseret klassifikationssystem, der førte til eksperimenter med dokumentklynger og til sidst til Atlas of Science, som senere blev til Research Reviews.
Den iboende topologiske og grafiske karakter af det verdensomspændende citationsweb, der er iboende i videnskabelig litteratur, blev beskrevet af Ralph Garner (Drexel University) i 1965. [23]
Brugen af citationsscore i rangerede tidsskrifter var en almindelig praksis i første halvdel af det 19. århundrede, men den systematiske løbende måling af disse scores for videnskabelige tidsskrifter blev initieret af Eugene Garfield ved Institute for Scientific Information, som også blev den primære kilde for at bruge disse scores til at bedømme forfattere og artikler. I et skelsættende papir fra 1965 viste han og Irving Sher forholdet mellem hyppighed og citeringsvækst, hvilket demonstrerede, at nobelprisvindere offentliggjorde deres artikler fem gange i gennemsnit, mens deres artikler blev citeret 30-50 gange i gennemsnit. Garfield rapporterede om dette fænomen i en lang række essays om Nobelprisen og andre priser. Den sædvanlige endelige score er kendt som indflydelsesratio , antallet af citater i tidsskriftet i de foregående to år divideret med antallet af artikler publiceret i disse år. Det er meget udbredt til både almindelige og specielle formål, især dets brug til evaluering af forfattere og dokumenter er ret kontroversielt .
I en tidlig undersøgelse fra 1964, der brugte citationsanalyse til at skrive DNA- historie, demonstrerede Garfield og Sher potentialet til at producere historiografi , topologiske kort over store trin i videnskabelige emners historie. Dette arbejde blev senere automatiseret af E. Garfield, A. I. Pudovkin fra Institute of Marine Biology ved National Academy of Sciences og V. S. Istomin fra Center for Teaching, Learning and Technology, Washington State University og førte til oprettelsen af Histcite-softwaren [ 24] i 2002.
Automatisk citationsindeksering blev introduceret i 1998 af Lee Giles, Steve Lawrence og Kurt Bollacker og tillod automatisk algoritmisk sletning og gruppering af citater for ethvert digitalt akademisk og videnskabeligt dokument. Hvor forudgående tilbagetrækning af citat var en manuel proces, kan citationsrater nu øges og beregnes for enhver akademisk gren eller mødested, ikke kun dem, der er tildelt af organisationer som ISI. Dette førte til skabelsen af nye systemer til indeksering af offentlige og automatiske citater, hvoraf det første var CiteSeer (nu CiteSeerX , som snart blev arvet af Cora-systemet, som primært fokuserede på datalogi og datalogi . Senere blev store akademiske domænenavnesystemer som f.eks. som Google Scholar og Microsoft Academic. Denne offline citationsindeksering er endnu ikke blevet perfektioneret i citationsekstraktion eller citationsclustering med en fejlrate, der anslås til at være et sted omkring 10 %, selvom omhyggelig statistisk stikprøve endnu ikke er blevet foretaget.Forfattere som Ann Arbor , Milton Keynes og Walton Hall har produceret en enorm mængde akademiske resultater.25 SCI hævder at skabe automatisk citationsindeksering gennem rent programmatiske metoder.Selv ældre poster har samme fejlmargin.
Citationsanalyse for juridiske dokumenter er en tilgang, der hjælper med at forstå og analysere relaterede normative dokumenter ved at undersøge citater, der knytter en bestemmelse til andre bestemmelser i samme dokument og mellem forskellige dokumenter. Citationsanalyse bruger en citationsgraf, der er afledt af et normativt dokument, der kunne supplere elektronisk opdagelse, en proces, der driver teknologisk innovation inden for big data-analyse. [26]
Elektroniske publikationer . På grund af den hidtil usete stigning i tilgængeligheden af elektroniske ressourcer, er et af de brændende spørgsmål, der nu undersøges, blevet spørgsmålet "hvor ofte citeres elektroniske ressourcer på internettet i min branche?". [27] For eksempel er det blevet hævdet, at onlineadgang til datalogisk litteratur fører til højere citeringsrater, [28] dog kan humanistiske artikler lide, hvis de ikke findes på tryk.
Selvciterende . Forfatteres praksis til at "lege" med systemet ved at akkumulere citater, ved at overcitere sig selv [29] er blevet kritiseret meget . Samtidig fandt man for eksempel ud af, at mænd citerer sig selv oftere end kvinder.