Link extinction ( engelsk link rot , bogstaveligt - link rot ) er en proces, hvor de brugte URL'er ikke længere leder til den originale kilde. Sådanne links kaldes ødelagte eller døde links . To hovedprocesser forstås som ekstinktion eller henfald: referenceråd ( udryddelse af fodnoter) og ledråd (udryddelse af led) . I det første tilfælde forbliver URL'en med at fungere, men fører til en forkert eller ændret side. Dette fænomen kaldes også indholdsdrift . Drift er sværere at opdage, men det har mere væsentlige konsekvenser, da det bidrager til spredning af misinformation eller substitution af begreber. I tilfælde af linkrot er linket ikke tilgængeligt, hvilket får brugere til at miste adgangen til websiden .
Links kan holde op med at virke af forskellige årsager. Nogle gange kræver dette kun at ændre ét tegn i URL'en. For eksempel holdt mange websteder op med at bruge "www"-præfikset, og selvom deres indhold forblev det samme, holdt de originale links op med at fungere. Det samme kan ske med implementeringen af kryptering og overgangen fra " http: " til " https: ". Desuden omdøber webstedsejere mapper, ændrer domænenavne og portalstruktur og glemmer at opdatere domæneregistrering - alt dette fører til ødelagte links.
Linkudryddelse skrider frem over tid. Så fra 1996 til 2021 holdt en fjerdedel af links til tredjepartsressourcer i The New York Times (NYT) artikler op med at virke . Dataene blev opnået fra analysen af over 550.000 publikationer af medlemmer af Harvard Law School i samarbejde med NYT-journalister [1] [2] [3] .
Hyperlinks er meget udbredt, ikke kun i daglig kommunikation, men også i tidsskriftsartikler, videnskabelige rapporter og andre typer publikationer. Deres popularitet skyldes deres bekvemmelighed og overkommelighed. For eksempel, ifølge Harvard juraprofessor Lawrence Lessig , når citerede onlineartikler potentielt flere læsere, fordi de kan tilgås "bare ved at klikke på et link." Samtidig rykker flere og flere aviser og magasiner på nettet. En analyse af mere end 100.000 artikler viste, at det gennemsnitlige antal citater af trykte værker var 2,74, og onlineversioner - 7,03 [4] . Procentdelen af artikler, der citerer mindst én URL, steg fra 24 % i 2006 til 48,5 % i 2013 [5] [6] [7] .
Under udryddelsen af links ( eng. link rot , bogstaveligt talt - rådnende links ) forstå to hovedprocesser: udryddelsen af fodnoter ( eng. reference rot ) og udryddelsen af links ( eng. link rot ). I det første tilfælde forbliver URL'en med at fungere, men fører til en forkert eller ændret side. Dette fænomen kaldes også indholdsdrift . I modsætning til trykte kilder kan indholdet af websiden ændres uden nogen særlig markering. Drift er sværere at opdage, men det medfører større konsekvenser, da det bidrager til spredning af misinformation eller substitution af begreber [8] . Det tilfælde, hvor URL'en ikke er tilgængelig og giver en fejl, kaldes link rot [9] [10] [11] [8] [12] [13] [14] .
Hovedårsagen til udryddelsen af links er decentraliseringen af World Wide Web - designet af nettet indebærer ikke en centraliseret lagring af indhold. Links oppetid bestemmes af domænenavnsejere [15] , som ofte glemmer at forny deres domæneregistrering, overvåge indhold og spore ødelagte links. Derudover ændres websteder regelmæssigt - på websider ændrer de selve webstedernes information og struktur, omdøber filer og mapper, flytter indhold [16] [2] . Hyppigheden og omfanget af ændringer på en webside afhænger også af dokumentets størrelse. Større dokumenter ændres hyppigere end mindre [17] . Alt dette fører til udryddelse af links [4] [8] [18] [16] . I 2009 Yahoo! lukke GeoCities gratis webhostingservere , hvilket resulterer i tab af data på 7 millioner websteder [19] . Derudover kan ekstinktion være forårsaget af en ændring i adgangsindstillinger, for eksempel ved indtastning af registrering eller indførelse af et abonnement på tidligere åbent indhold [4] . Links kan også forsvinde som følge af bevidste handlinger. Så efter at have ændret den redaktionelle politik for BuzzFeed i 2015, blev mere end 1000 indlæg slettet, inklusive dem, som annoncører af portalen eller ansatte i partnervirksomheder tidligere havde klaget over [20] [21] [22] [23] .
En enkelt tegnændring i URL'en er nok til at få et link til at bryde. For eksempel er mange websteder holdt op med at bruge "www"-præfikset, og selvom deres indhold ikke er ændret, virker de originale links ikke længere. Det samme kan ske ved indførelse af trafikkryptering: en forkert indstilling ved flytning fra " http: " til " https: " medfører et "brud" af linket [24] . Hvis linket er brudt, kan brugerne støde på flere typer fejl [16] [25] [16] [26] [4] :
Linkvedvarenhed sikres af tre hovedfaktorer: udgivelsesår, URL -hierarki og topdomæne [27] [11] . Jo ældre linket er, jo mere sandsynligt er det, at det ikke er tilgængeligt. Fodnoter til adgangsdato vil sandsynligvis være mere stabile – selvom en webside ikke er tilgængelig, vil det at kende adgangsdatoen tillade brugere at bruge arkiveringstjenester som Wayback Machine . Topdomæner anses også for at være mere stabile [28] . Privatdrevne websteder har en tendens til at forsvinde oftere end offentlige og uddannelsesmæssige websteder [29] . En undersøgelse fra 2003 viste, at links, der ender på " .com ", døde oftest (46 % mistede efter 27 måneder), efterfulgt af " .edu " (30 %), andre (20 %), " .gov " (10 %) og " .org " (5%) [30] .
Fra en artikel af Jonathan Zittrain for The Atlantic [15][...] Det viser sig, at linkudryddelse og indholdsdrift er en integreret del af internettet, hvilket er overraskende og chokerende risikabelt for et bibliotek, der har "milliarder af bøger og intet centralt filsystem." Forestil dig en verden, hvor biblioteker ikke eksisterer, og i stedet er der en "deleøkonomi" af fysiske kopier af bøger - folk kan registrere de bøger, de har derhjemme, og andre kan komme og se dem. Det er selvfølgelig ikke overraskende, at sådan et system kan blive forældet, når bøgerne ikke længere er, hvor de oprindeligt var mærket – især hvis nogen bemærkede, at bogen var i en andens hus i 2015, og så ville en anden interesseret læser se en rapport for 2015 og ville forsøge at besøge det oprindelige hjem i 2021. Dette er den situation, der i øjeblikket udvikler sig på internettet.
De første store undersøgelser af udbredelsen af linkudryddelse begyndte i slutningen af 1990'erne. En af de første forskere var Jakob Nielsen , en ekspert i webstedsydelse. I 1998 rapporterede han resultaterne af en undersøgelse udført af All Things Web, ifølge hvilken omkring 6% af links på internettet var brudt [31] [9] . Efterfølgende analyserede University of Tennessee professor Sally McMillan en prøve af websteder fra 1997-2000 og fandt ud af, at 27% af URL'erne forsvandt tre år efter oprettelsen [29] . Efterfølgende analyse viste, at antallet af døde links stiger lineært over tid. Så i 2008 var døde links til stede i 8,3 % af ressource-URL'erne fra en statistisk signifikant stikprøve på 579 overskrifter. I 2009 blev brudte links fundet i 13,7 % af URL'erne fra en stikprøve på 680 websteder, og i 2010 udgjorde døde links 22,4 % af alle URL'er fra en prøve på 736 links [11] [9] . I 2021 samarbejdede et team på Harvard Law School med journalister fra The New York Times (NYT) for at gennemføre en citationslevedygtighedsundersøgelse baseret på onlineversioner af artikler udgivet af NYT. I alt blev mere end 550.000 publikationer siden 1996 undersøgt, som indeholdt omkring 2,2 millioner links til tredjepartswebsteder. Undersøgelsen viste, at næsten en fjerdedel af alle links brugt til at citere holdt op med at virke [1] [2] [3] [1] [2] [3] .
En række undersøgelser er blevet afsat til spørgsmålet om linkudryddelse. De analyserede videnskabelige artikler, hvor forfatterne stolede på internetkilder. En undersøgelse fra 2003 viste, at omkring 13 % af de webadresser, der blev offentliggjort i de tre bedste videnskabelige tidsskrifter, gik i stykker inden for 27 måneder efter, at en artikel blev publiceret. I 2008 fandt en undersøgelse af historiske tidsskrifter, at 38% af de citerede URL'er blev utilgængelige inden for syv år efter en artikel blev publiceret, og 10% blev ubrugelige inden for få måneder. I et udsnit af newzealandske videnskabelige tidsskrifter fra 2002-2005 holdt 30 % af webcitationerne op med at virke i 2006 [11] . I 2013 gennemførte BMC Bioinformatics en analyse af levetiden for links i den videnskabelige litteratur. Forskerne Jason Hennessy og Steven Xijin Ge fra University of South Dakota analyserede omkring 15.000 citater i uddrag fra Web of Science Citation Index . De fandt ud af, at den gennemsnitlige levetid for websider var 9,3 år, og kun 62% af links blev arkiveret [24] . Dette har fået forskere til at konkludere, at henfaldsraten for nylige URL'er er højere end ældre [32] [16] [33] [7] . Forskerne fandt også ud af, at i en række juridiske tidsskrifter udgivet mellem 1999 og 2011, fungerede mere end 70 % af linkene ikke længere [24] [9] .
I 2008 viste en kvartalsanalyse af fire års førende publikationer, at kun 61 % af 416 online-citater blev bibeholdt. 19% af online fodnoter indeholdt en fejl i URL'en, og 63% indeholdt ikke en adgangsdato i det offentliggjorte citat. Af de links, der stadig var aktive, matchede kun 58% det citerede indhold [34] [35] [2] . I 2015 analyserede Herbert Van de Sompel, en informationsspecialist ved Los Alamos National Research Library i New Mexico , mere end 1 million weblinks til websteder fra omkring 3,5 millioner artikler udgivet mellem 1997 og 2012. I 2012-artiklerne var 13 % af hyperlinks i arXiv.org- artikler og 22 % af hyperlinks i artikler fra Elsevier -magasiner døde. Omkring 75 % af links blev ikke arkiveret på nogen portal inden for to uger efter datoen for offentliggørelsen af artiklen. Det betyder, at deres indhold muligvis ikke længere afspejler originalen [36] [37] .
Et godt eksempel på omfanget af linkudryddelse er Alex Tews The Million Dollar Homepage -projekt . Portalen blev lanceret i 2005 for at hjælpe Tew med at rejse penge til universitetsuddannelse. For at gøre dette kom han med et websted med et 1000 gange 1000 pixel gitter , hvor du kunne købe plads til at linke til dit websted for en dollar pr. Købere kunne placere små billeder af deres websteder, som var linket til en URL og et slogan vist på hover. Alle pixels blev solgt 138 dage efter lanceringen af portalen. I 2014 indlæste 22 % af hjemmesidepixel ikke en webside [38] [39] .
Den amerikanske højesteret har udviklet en praksis med at citere permanente kilder – som regel var det bøger. Sådanne citater gjorde det muligt for advokater og lærde at finde, forstå og vurdere rettens beviser og argumenter. Siden 1996 har dommere dog i stigende grad brugt links og hyperlinks, når de skal beskrive domme [40] [12] [41] . Ifølge en undersøgelse fra 2013 af Harvard Law School professor Jonathan Zittrain, virkede omkring 49% af hyperlinks i højesterets afgørelser ikke [42] [43] [44] . Domstolen er øverst i hierarkiet af føderale domstole, definerer landets love og påvirker endda love i internationale jurisdiktioner, så døde referencer i afgørelser kan være særligt skadelige [45] . For eksempel, da dommer Samuel Alito henviste til en URL i en voldssag i videospil i 2011, forlod domæneejerne hjemmesiden og efterlod denne besked på den for at understrege den flygtige karakter af de oplysninger, der blev lagt på internettet [46] :
Er du ikke glad for, at du ikke citerede denne webside i højesteretsrapporten i Brown v. Interactive Entertainment Merchants Association , 131 S.Ct. 2729, 2749 n.14 (2011). Hvis du gjorde det, som dommer Alito gjorde, ville det originale indhold for længst have været væk, og en anden kunne være kommet ind og købe domænet for at kommentere hastigheden af relateret information i internetalderen.
For at løse dette problem begyndte alt webmateriale, der blev citeret i retsafgørelser, at blive arkiveret i papirform. Derudover blev der oprettet en specialiseret portal, hvor arkiverede kopier af websteder opbevares [47] .
Lignende problemer kan opstå ved udarbejdelse af protokoller - politiet kan stole på en optagelse fra videooptagere offentliggjort på internettet , som senere kan slettes af ejeren. Et andet spørgsmål er, hvor længe data skal opbevares i systemet - de fleste politiafdelinger har ikke tilstrækkelige tekniske kapaciteter til at klare mængden af indgående data [46] .
Linkudryddelse krænker og underminerer integriteten og evidensgrundlaget for videnskabelig forskning på alle områder [48] [33] [49] [50] . Allerede i 1996 var en tredjedel af citationerne i peer-reviewede elektroniske tidsskrifter ikke tilgængelige, og mange arbejdsreferencer indeholdt ikke fuldstændig information - udtræksdatoen manglede, og metadataene var forkert formateret [51] . Ifølge en undersøgelse foretaget i 2016 peger 75 % af links til videnskabeligt indhold ikke længere mod de oplysninger, der er citeret i teksten [52] . Samtidig vokser antallet af videnskabelige artikler, der henviser til internetressourcer, støt [32] . Nogle tidsskrifter, såsom Cancer Research , er begyndt at forbyde brugen af URL'er i fodnoter. Denne praksis er dog snarere en undtagelse [30] .
Den udbredte udryddelse af links har også ført til en ændring i bibliotekernes praksis i arkiveringsmateriale [9] . Hvis tidligere papirkopier blev betragtet som den vigtigste måde at opbevare information på, og deres onlineversioner var en ekstra mulighed, skifter biblioteker og forlag nu til digitalt format, idet de betragter trykte kopier som forældede [15] . Mange biblioteker er begyndt at oprette deres egne online arkiver med permanent adgang til lagret materiale [53] [54] .
Linkudryddelse er en integreret del af det forudsagte digitale mørketidsscenarie - en situation, hvor der vil være et tab af elektroniske data i mangel af deres papirækvivalenter. Tilhængere af denne teori mener, at der på grund af utilstrækkelig elektronisk arkiveringspraksis og den stigende decentralisering af internettet er en risiko for at miste information om vores æra i fremtiden [55] [56] . Begrebet digital mørk tidsalder blev først foreslået i 1997 på en international konference i International Federation of Library Associations and Institutions . Definitionen refererer til middelalderens æra , karakteriseret ved det næsten fuldstændige fravær af skriftlige beviser [57] [58] [59] . Et af de mest almindelige eksempler på den digitale mørke tidsalder er tab af adgang til gamle drev og lagermedier, inklusive disketter , Zip-drev og cd'er [60] [61] [62] [63] [64] [65] .
Elektronisk arkivering er en af hovedstrategierne til at håndtere linkudryddelse [10] . Der er flere store projekter på dette område. I 1996 grundlagde den amerikanske programmør Brewster Cale " Internet Archive " - en non-profit organisation , der satte sig som mål at bevare al den information, der blev lagt ud på internettet, hvilket ikke var så meget i de tidlige år af netværket. Arkivsamlingen består af undersamlinger af arkiverede websteder, digitaliserede bøger, lyd- og videofiler, spil og software. I 2001 blev Wayback Machine -tjenesten lanceret , som gennem webcrawlers arbejde arkiverer og giver adgang til det meste af det åbne internet. Derudover giver tjenesten brugerne mulighed for at sammenligne forskellige versioner af redigeringer. Fra oktober 2021 gav WB adgang til over 580 milliarder gemte websider [66] [67] [68] [66] [69] . Datalagring udføres gennem et system af spejlsteder placeret på geografisk fjerne steder [70] - i San Francisco , Richmond , Alexandria , Amsterdam . For effektiv fillagring bruger "Arkiv" arkivfilformatet ( ARC ), som giver dig mulighed for at gemme filer modtaget over enhver type netværksprotokol . Arkiverede billeder vises i HTML , JavaScript og CSS -format [70] [24] [9] [32] .
På initiativ af Arkivet blev tjenesten Archive It skabt - en webarkiveringstjeneste, der giver enkeltpersoner og individuelle arrangører mulighed for selvstændigt at indsamle, oprette og gemme samlinger af elektroniske materialer. Fra oktober 2021 kan brugere få adgang til mere end 200 samlinger om historie, kultur, videnskab, menneskerettigheder og andre socialt vigtige emner [70] [24] [9] [32] .
Svarende til Wayback Machine-projektet er Perma.cc , en arkiveringstjeneste skabt af Harvard Law School Library i Cambridge, Massachusetts . I Perma.cc kan du indtaste en URL, og systemet vil automatisk arkivere den og oprette et nyt hyperlink til permanent at gemme materialet [36] [9] . Perma bruges oftest på det juridiske område til at bevare citerede kilder [71] . Bluebook stilistiske guide , som er almindelig i USA, tilskynder til arkivering af links [72] [73] . Nogle forskere peger dog på portalens potentielle sårbarhed, da den nuværende lovgivning om ophavsret ikke er tilstrækkelig opmærksom på eksistensen og driften af webarkiver [74] .
Open source-projektet Amber, skabt af Berkman Klein Center for Internet & Society , giver dig mulighed for at tage snapshots af hver side, der er forbundet med et arkiveret websted, og gemme dem lokalt eller på en centraliseret platform såsom Internet Archive eller Perma. cc. Hvis projektet konstaterer, at linket er brudt eller ikke fungerer korrekt, når man introducerer materiale i Amber, foreslår Amber at arkivere [9] [75] .
For at bekæmpe udryddelse af link på det videnskabelige område bruges Digital Object Identifier (DOI), udviklet af International Organization for Standardization i 2000. DOI er en vedvarende identifikator, der fungerer som et link til et specifikt objekt, hvad enten det er en artikel, lyd eller video [30] [32] . Når det først er tildelt en DOI, modtager et objekt et "permanent" sticky link, som i modsætning til URL'er ikke kan flyttes eller slettes. Mange forlag har tilpasset systemet [76] . DOI gemmes i specialiserede registre sammen med metadata om hvert enkelt element. Citering af værker udføres gennem en numerisk identifikator og ikke gennem et hyperlink. Et sådant system giver dig mulighed for at skabe stabilitet inden for videnskabelig citering – selvom materialet overføres til en ny URL, vil det stadig være tilgængeligt [77] . Ifølge forskellige skøn er det ved hjælp af den udbredte introduktion af DOI muligt at forhindre udslettelse af 30-60% af links i videnskabelige artikler [32] [78] [24] [77] . DOI har dog en betydelig ulempe - på grund af behovet for at betale et gebyr for registrering af værker, har mange små forlag ikke råd til at implementere systemet [30] .