Hjemmesidearkivering ( webarkivering , engelsk webarkivering ) er processen med at indsamle og "duplikere" websider og hele websteder for at gemme information og få adgang til dem i fremtiden, hvis kilden ikke er tilgængelig. Forudsætningerne for udviklingen af webarkivering var problemerne med linkudryddelse og den potentielle begyndelse af den digitale mørke tidsalder . I 1996 blev " Internet Archive " oprettet - den første non-profit organisation , der satte sig som mål at skabe "snapshots" af alle sider på internettet. I 2001 lancerede arkivet Wayback Machine -webstedets arkiveringstjeneste , hvorigennem der i 2021 er blevet gemt mere end 600 milliarder websider.
Siden begyndelsen af 2000'erne er praksis for bevaring af websteder blevet aktivt implementeret i mange lande, herunder på statsniveau. Samtidig er der fora for udvikling af standarder og almindelig praksis inden for webarkivering, herunder International Internet Archiving Workshop (IWAW) (siden 2001) og International Internet Preservation Consortium (siden 2003).
Oftest indsamles oplysninger fra statiske websteder ved hjælp af søgerobotter (for eksempel Heritrix , Webrecorder, HTTrack ) , som sender HTTP -anmodninger til webservere og "fanger" det transmitterede indhold og alle hyperlinks fra crawlede websider. I modsætning hertil gemmes scripts , skabeloner og indhold på dynamiske websteder som separate ressourcer på webservere, så det er meget vanskeligere at arkivere sådanne portaler. Processen foregår i to hovedtrin - at gemme fildataene fra hjemmesidens mappestruktur og derefter arkivere informationen fra databasen.
Begreberne webarkivering og webbevaring ( eng. webbevaring ) bruges ofte i flæng, men der er en vigtig forskel mellem dem: den første definerer hele processen med at gemme en internetressource, og den anden definerer kun et af stadierne [1 ] . International Internet Preservation Consortium (IIPC) definerer webarkivering som:
[...] processen med at indsamle dele af World Wide Web, gemme samlingerne i et arkivformat og derefter vedligeholde arkiverne for at gøre dem tilgængelige og brugbare.
Siden begyndelsen af 1990'erne har skabelse, lagring og formidling af information hovedsageligt fundet sted i det digitale miljø. Allerede i midten af 1990'erne begyndte tidligere populære lagringsmedier såsom magnetbånd , disketter , zip-drev og cd'er at blive forældede , og adgang til gamle filformater var vanskelig [2] [3] . Mange store databaser, der ikke blev kopieret til andre medier eller duplikeret på papir, begyndte at forsvinde [4] . Således blev alle data fra det storstilede BBC Domesday Project , udført i 1980'erne med deltagelse af mere end en million mennesker, optaget på adskillige diske, som i begyndelsen af 2000'erne enten var ødelagte eller tabt [5] [ 6] .
Det udbredte tab af data har fået nogle forskere til at diskutere potentialet for en "digital mørk tidsalder " - en periode præget af et næsten fuldstændigt fravær af skriftlige beviser [7] [8] . Nogle forskere kalder det 21. århundrede for et "informationssort hul" af frygt for, at fremtidens software og computere ikke vil være i stand til at reproducere de data, der blev skabt tidligere [9] . I 2003 udsendte UNESCO et "Charter om bevarelse af den digitale arv" [10] , der definerer vigtigheden af reservation af digitale data, hvis tab kan føre til "forarmelse" af menneskelig arv [11] [12] . I 2015 kom Vinton Cerf , en amerikansk videnskabsmand og vicepræsident for Google , med en erklæring om, at menneskeheden bevæger sig mod en "digital mørk tidsalder" [13] [14] [15] [16] .
En anden forudsætning for udviklingen af webarkivering er link extinction , en situation hvor sider bliver utilgængelige på samme URL eller deres indhold ændres [17] [18] [19] . En analyse udført af portugisiske forskere i 2017 viste, at omkring 80 % af internetsiderne ikke er tilgængelige i deres oprindelige form et år efter offentliggørelsen, mens 13 % af links i videnskabelige artikler forsvandt efter gennemsnitligt 27 måneder [11] . I 2021 analyserede Harvard Law School -videnskabsmænd sammen med journalister fra The New York Times (NYT) levedygtigheden af links i mere end 550.000 onlinepublikationer produceret af NYT mellem 2000 og 2017 - omkring en fjerdedel af de anvendte URL'er "døde ud " [20] [21] [22] [23] [24] . Den gennemsnitlige levetid for en webside er 44-100 dage, og information kan forsvinde endnu hurtigere på nyhedssider og sociale netværk [25] [26] .
Oplysninger på internettet kan forsvinde af andre årsager. I 2015 indledte det amerikanske udenrigsministerium og det amerikanske agentur for international udvikling således fjernelse af materialer om krigen i Afghanistan for at beskytte mennesker, der samarbejdede med de amerikanske myndigheder, mod forfølgelse fra Taliban [27] . Et andet eksempel er Roskomnadzors krav fremsat i december 2021 om at fjerne materiale fra en række russiske medier om undersøgelserne af Proekt- publikationen , som tidligere blev anerkendt som en uønsket organisation [28] [29] .
Siden 1980'erne er de enkelte arkiver og biblioteker begyndt at bevare elektroniske ressourcer for at dokumentere kronikken af aktuelle begivenheder. Udgangspunktet for webarkivering anses dog for at være oprettelsen i 1996 af " Internet Archive " - en non-profit organisation , der satte det ambitiøse mål at bevare alle websider på hele internettet, som på det tidspunkt var relativt få [30] [1] . I slutningen af 1990'erne og begyndelsen af 2000'erne begyndte regeringerne i mange udviklede lande at implementere webarkiveringspraksis og placerede ansvaret for at vedligeholde dem på nationale biblioteker, der har den nødvendige erfaring og værktøjer til arkivering [31] [11] [12] . I 2000 var nationale webarkiver dukket op i mange lande, herunder Storbritannien , New Zealand , USA og Tjekkiet [32] [33] [19] .
Siden da er antallet af webarkiveringsprojekter vokset hvert år [11] . I 2011 var der 42 programmer i verden, hvoraf de fleste var engageret i indsamling af regionale webkilder [12] . En undersøgelse fra 2020 viste en eksponentiel stigning i antallet af institutioner med deres egne depoter , understøttet af lejede fagfolk og specialiseret udstyr. De fleste af disse depoter genopfyldes efter princippet om selvarkivering - forfatterne placerer uafhængigt deres materialer der [34] . I 2019 blev webarkiver på nationalt plan implementeret i næsten alle lande i Den Europæiske Union , oftest som en del af de nationale bibliotekers arbejde [32] [35] .
Det første store webarkiveringsinitiativ var Internet Archive, en non-profit organisation etableret i 1996 for at bevare alt materiale, der er lagt ud på internettet [19] . Skaberen var den amerikanske programmør Brewster Keil , som samtidig lancerede "Arkiv" og det kommercielle webarkiveringssystem Alexa Internet . I 1997 udviklede han et browser -plug-in, hvorigennem Alexa Internet automatisk identificerede og lagrede "værdifulde" websider i "Arkivet" og rangerede dem efter antallet af besøg, krydslinks og "klik" [36] . Siden 1998 er antallet af sider, der skal arkiveres, fordoblet hver 3.-6. måned [37] .
Den 24. oktober 2001 lancerede Internet Archive Wayback Machine , hvorigennem brugere kunne få adgang til mere end 10 milliarder arkiverede websider. På det tidspunkt blev data gemt på Hewlett Packard- og uslab.com-servere og administreret gennem FreeBSD- og Linux - operativsystemerne [37] .
For 2021 bestod Arkivsamlingen af mange undersamlinger af arkiverede hjemmesider, digitaliserede bøger, lyd- og videofiler, spil, software [38] ; mens antallet af arkiverede websider udgjorde mere end 622 milliarder [39] .
WebCiteWebCite blev lanceret i 2003 og var det første webarkiveringsværktøj, der gjorde det muligt for brugere at gemme websteder efter behov. WebCite vandt hurtigt popularitet, og i 2005 bad omkring 200 tidsskrifter forfattere om at arkivere deres websider gennem WebCite, før de indsendte manuskripter [40] . Tjenesten bruger ikke søgerobotter til at "fange" sider, arkivering sker direkte på anmodning fra brugeren [40] .
I 2013 blev WebCite truet med lukning på grund af manglende finansiering, men takket være en offentlig indsamlingskampagne af skaberen Günter Eisenbach fortsatte portalen med at fungere i yderligere seks år. Siden 2019 er den blevet skrivebeskyttet og er holdt op med at acceptere arkivanmodninger [41] [42] .
Archive.todayTjenesten archive.today (når den blev oprettet - archive.is) blev lanceret i 2012 af en non-profit organisation af samme navn [43] . Projektet er finansieret af private sponsorer. Ligesom WebCite gemmer archive.today websider efter anmodning fra brugere [44] [45] ved at gøre en funktionel kopi af websiden offentligt tilgængelig og et skærmbillede , der repræsenterer en statisk PNG -gengivelse af siden [46] . Størrelsen på den arkiverede side med alle billeder bør ikke overstige 50 MB [43] .
Skaberne af archive.today har også lanceret en Mozilla Firefox browserudvidelse , der automatisk gemmer og deler en kopi af hver bogmærket webside, som en bruger tilføjer [46] [47] .
web-archive.ruDen Russiske Føderation oprettede også sit eget webarkiv på russisk - https://web-arhive.ru/
De fleste udviklede lande har lov om lovpligtig deponering , som gør nationale biblioteker juridisk ansvarlige for at opbevare et eksemplar af hver trykt publikation, der udgives i det pågældende land. Med den udbredte udvikling af elektronisk kommunikation er loven udvidet til også at omfatte websteder [1] [48] . I henhold til Public Records Act 1967 er National Archives of Great Britain og Irland således forpligtet til at bevare alle vigtige regler fra den britiske regering . Efterhånden som embedsmænd i stigende grad offentliggør deres rapporter på internettet, besøger mere end 100 millioner brugere webarkivet hver måned (fra 2013) [25] .
I 1996 påbegyndte Sveriges Nationalbibliotek Kulturar-projektet, som udførte storstilet bevaring af hele det svenske domæne -netværk [49] . I begyndelsen af 2005 var mere end 350.000 websteder, eller omkring 10 terabyte data, blevet indsamlet, hvilket gjorde webarkivet til det største på det tidspunkt i verden [19] . I 1997 blev et fælles initiativ skabt af de nationale biblioteker i Danmark , Finland , Island , Norge , Sverige kaldet Nordic Web Archive (NWA). NWA har udviklet værktøjer og diskuteret webarkiveringsmetoder for de nordiske lande. I 2004 udgav NWA en softwarepakke til adgang til arkiverede webdokumenter, som efterfølgende dannede grundlaget for IIPC Toolkit [19] [50] . Samme år lancerede National Library of Australia Pandora - et projekt til bevarelse af digitale ressourcer i Australien [51] [52] [19] . I 2019 blev Pandora-samlingen inkluderet i Australian Web Archive , et af de største nationale webarkiver i verden [53] .
I 2001 blev International Internet Archiving Workshop (IWAW) [54] skabt - en platform for udveksling af forskning og erfaring inden for webarkivering [55] , og i 2003, på initiativ af Internet Archive, the International Internet Preservation Consortium blev grundlagt , som udvikler standarder og værktøjer til webarkivering [37] [56] . Ud over "arkivet" omfattede IIPC de nationale biblioteker i Frankrig , Australien , Canada , Danmark , Finland , Island , Italien , Norge , Sverige , Storbritannien , USA . I 2008 udviklede IIPC Web ARChive eller WARC , et format til arkivering af webressourcer [12] . Fra 2021 har IIPC over 50 medlemmer [57] .
Organisationer samarbejder ofte om at skabe forenede webarkiver. Fra 2004 til 2018 drev det europæiske digitale arkiv (senere omdøbt til Internet Memory Foundation ) og indsamlede elektroniske dokumenter i landene i Den Europæiske Union [58] [19] [12] . Det omfattede blandt andet Storbritanniens nationale arkiver, Max Planck Society , Technical University of Berlin , University of Southampton , Institut Mines-Télécom . I begyndelsen af 2000'erne lancerede afdelingerne for sinologi ved Heidelberg- og Leiden-universiteterne i fællesskab DACHS-webarkivet indeholdende elektroniske materialer om sinologi [59] [19] . Konsortier som NWA og UKWAC har kørt samarbejdsprogrammer for dataindsamling i partnerskab med andre organisationer [60] [19] [61] . I slutningen af 1990'erne finansierede Europa-Kommissionen oprettelsen af Networked European Deposit Library (NEDLIB), et projekt til at indsamle, beskrive, opbevare og stille gemte europæiske websteder til rådighed [62] . NEDLIB Harvester blev udgivet i 2000 og var en af de første søgerobotter , der var specielt designet til dataarkivering. Efterfølgende blev det brugt i en række projekter, herunder indsamling af data fra hollandske , estiske og islandske webdomæner [19] [63] .
I juli 2011 lancerede National Archives of Great Britain sammen med Internet Memory Foundation et pilotprojekt for webbaseret digital arkivering for lokale myndigheder. Projektet opererede i syv kommuners arkiver, der dækkede mere end 20 lokale myndigheder. Personalet modtog gratis træning i at oprette et kurateret webarkiv for deres felt [64] .
Universiteter i udviklede lande er også involveret i udviklingen af webarkivering. For eksempel tilbyder Michigan , Indiana , Californien , Illinois og andre universiteter kurser om digital arkivering [54] , og flere institutioner har oprettet deres egne webarkiver til forskningsformål - Stanford WebBase Archive ( Stanford University ), Socio-Sense ( University of Tokyo ), Web Information Center ( Peking University ) [12] .
Inden arkivering begynder, fastlægger hver organisation kriterierne for "udvælgelse" af kilder. Der kan være et eller flere sådanne kriterier afhængigt af organisationens størrelse og mål [19] [65] . Nogle webarkiver, såsom Internet Archive, har til formål at indsamle alle mulige websider, en tilgang, der kaldes ikke-selektiv eller bredscanning . Det er baseret på princippet om indbyrdes forbundethed af World Wide Web , ifølge hvilket et emne kun virkelig kan "bevares" ved at samle alle eksisterende websider, da de alle er indbyrdes forbundne. Derudover er valg af hjemmeside en omkostningsfuld og tidskrævende proces, der også kan føre til subjektiv stikprøvetagning [19] . "Arkiv"-tilgangen anses dog for at være umulig i praksis - at gemme alle sider er umuligt på grund af copyright-begrænsninger, og selv "Internetarkivet" gemmer kun materialer, der er tilgængelige for offentligheden [66] .
Et alternativ til en ikke-selektiv udvælgelsestilgang er en selektiv tilgang eller udvælgelse af ressourcer baseret på deres tilhørsforhold til foruddefinerede kriterier - domæne (for eksempel .gov eller .edu ), emne, begivenhed, medietype eller genre [19] . En selektiv tilgang kombineres ofte med bred scanningspraksis - for eksempel hvis en organisation arkiverer alle portaler med et bestemt domænenavn. Siden 1996 har Sveriges Nationalbibliotek således indsamlet alle websteder med " .se " -domænet [19] [67] , og National Library of Great Britain arkiverer websteder med domænerne ".gov.uk", ".org". .uk” og ".co.uk". NASA - biblioteket i Goddard Space Flight Center vedligeholder alle websider med centrets domænenavn [19] . Den største fordel ved selektiv arkivering er, at denne tilgang giver dig mulighed for at skabe mere overskuelige samlinger med tilhørende ressourcer [19] .
En selektiv tilgang bruges også til at skabe tematiske samlinger. For eksempel indsamler DACHS sociale og kulturelle ressourcer om Sinology, og Library of Congress har sammen med Internet Archive udarbejdet webarkiver om det amerikanske præsidentvalg og begivenhederne den 11. september . British Library har specialiseret sig i websteder af "national kulturel værdi" [67] . Pandora-projektet fra National Library of Australia [19] [54] bruger også denne tilgang . I 2006 lancerede Internet Archive Archive It , en webbaseret indsamlingstjeneste [68] der ofte bruges af individuelle organisationer som National Museum of Women's Art [69] .
Nogle organisationer arkiverer ressourcer baseret på den præsenterede kildetype. For eksempel undgår Goddard Space Flight Center-biblioteket at scanne store videofiler og softwareprodukter. Tværtimod arkiverer andre webprojekter videoer på Youtube eller samler blogs, virtuelle aviser – for eksempel har National Library of France lavet en separat websamling til LiveJournals [54] .
Jo enklere og mere statisk webstedet er, jo lettere er det at arkivere det [70] - kopier af dataene downloades fra webserveren som filer, der senere kan konverteres til andre formater [71] [72] [73] .
Processen med automatisk at indsamle websider gennem søgerobotter kaldes web-harvesting eller "scanning". Robotten får en liste over URL'er, hvorefter den sender HTTP -anmodninger til webservere og "fanger" det transmitterede indhold og alle hyperlinks fra de scannede websider [73] . Den automatiserede software konverterer derefter informationen til WARC-format, hvilket resulterer i en fil , der kan afspilles ved hjælp af værktøjer som Wayback Machine [74] . Eksempler på crawlere er Heritrix [75] udviklet af Internet Archive i 2004 , samt HTTrack [76] og Wget [77] . Et netværk af "scannere" giver organisationer mulighed for at gemme kopier af udvalgte websteder med jævne mellemrum, såsom dagligt eller årligt [74] . Til mere målrettet arkivering bruges mindre værktøjer, såsom HTTrack , som giver dig mulighed for at downloade kopier af hjemmesider til din lokale computer [74] .
Arkivering af dynamiske websteder er meget vanskeligere end statiske websteder, fordi indhold, scripts og skabeloner gemmes som separate ressourcer på webserveren. og sidens udseende og indhold dannes afhængigt af klientens browser- og serverindstillinger. I modsætning til statiske websteder er automatisk behandling af en HTTP -anmodning ikke nok, da webstedet genererer indhold fra serversiden ved hjælp af en database [71] . Derfor sker bevarelsen af sådanne ressourcer i to trin - lagring af fildataene i webstedets biblioteksstruktur og arkivering af databaseinformationen [71] . For dynamiske websteder har brugen af søgerobotter sine begrænsninger [19] . Webarkiveringsværktøjer til dynamisk indhold omfatter Software Independent Archiving of Relational Databases (SIARD), udviklet af Swiss Federal Archives , og DeepArc fra National Library of France . SIARD analyserer og viser automatisk strukturen af kildedatabasen. Den eksporterer derefter strukturen som en tekstfil, der indeholder en datadefinition beskrevet ved hjælp af SQL , den internationale standard til beskrivelse af en relationsdatabase . Efterfølgende eksporteres indholdet som en almindelig tekstfil, og metadataene gemmes som et XML - dokument [19] .
De første sociale mediers arkiveringsprojekter begyndte at dukke op fra 2008 som en systematisk bred platformsscanning. Således påbegyndte National Library of New Zealand arbejdet med at skabe et arkiv af beskeder lagt på Twitter , og National Library of France scannede Facebook . Men på grund af den store mængde produceret indhold, manglen på tekniske standarder for indsamling og lagring af information og de stadigt skiftende tekniske detaljer om, hvordan portaler fungerer, begyndte organisationer efterfølgende at tage en selektiv tilgang til webarkivering af sociale netværk og gemme kun beskeder om specifikke begivenheder eller nødsituationer. Enkeltpersoner, såsom Bibliothèque Nationale de France eller National Library of Canada, har lanceret en kontinuerlig automatiseret samling af nyheder og indhold på sociale medier for at fange folks reaktioner på uforudsete begivenheder. Udvælgelsen udføres i henhold til givne hashtags eller nøgleord , for en bestemt periode eller en bestemt platform [78] [79] .
Forskellige webarkiveringsværktøjer bruges til at indsamle websteder. Den mest almindelige crawler er Heritrix , en generel webcrawler tilgængelig under en gratis softwarelicens designet med webarkivering i tankerne. Heritrix gemmer filer i WARC-formatet og er velegnet til storskala scanningsoperationer, men mindre tilbøjelige til at "fange" dynamiske websteder eller sider på sociale netværk. Baseret på Heritrix NetarchiveSuite giver yderligere funktioner inden for langtidslagring og adgang til materialer [1] .
Webrecorder bruger browseren til at indsamle indholdet på websteder og løser derved de almindelige problemer for andre søgerobotter - indfangning af dynamisk indhold, Adobe Flash , multimedier . Programmet "optager" websider, efterhånden som brugeren gennemser dem, så det er velegnet til selektiv scanning. Indholdet gemmes også i formatet WARC [1] . En anden crawler, Brozzler [80] , bruger Google Chrome -browsermotoren til at indsamle sider og tilbyder de samme fordele som Webrecorder, men kræver ikke brugerinteraktion under crawl [1] .
HTTrack giver dig mulighed for at downloade kopier af websteder til din lokale computer, og derefter kan brugeren se dem gennem en browser [81] . Wget og det lignende værktøj Wpull er alsidige kommandolinjeværktøjer, der har indbyggede webcrawl-funktioner, der kan sammenlignes med HTTrack. Wpull er bedre egnet til arkivering i stor skala [1] .
På grund af sociale netværkssiders dynamiske struktur kræves der specialiserede værktøjer til at arkivere dem. Webarkivering udføres typisk ved hjælp af applikationsprogrammeringsgrænseflader eller API'er leveret af udviklere. F(b)arc er et kommandolinjeværktøj, der kan bruges til at arkivere data ved hjælp af Facebook Graph-grænsefladen. Twarc er et kommandolinjeværktøj og et bibliotek, der gør det nemt at bruge Twitter API'erne. Social Feed Manager giver dig mulighed for at indsamle data fra Twitter, Tumblr , Flickr og Sina Weibo [1] .
De mest almindeligt anvendte arkiveringsformater er ARC og WARC . De fleste initiativer bruger Lucene -baserede løsninger til at understøtte fuldtekstsøgning , inklusive NutchWAX eller Solr , Wayback Machine til at understøtte URL-søgning og vise arkiveret indhold [11] . JWAT , node-warc , WARCAT , warcio og warctools værktøjerne kan bruges til at læse og udtrække metadata fra WARC filer [1] .
Hvorvidt en organisation vil overholde robotundtagelsesstandarden eller søge tilladelse til at arkivere fra webstedsejere afhænger af mange faktorer - typen af indhold, omfanget af webarkivering, det juridiske miljø [54] [1] . Men selv når de ansøger om tilladelse, svarer kun omkring 30-50 % af webstedsejerne på anmodningen [82] .
Generelt behøver statslige organer med den juridiske ret til at opbevare offentlige registre (såsom National Archives and Records Administration (USA) og UK National Archives) ikke tilladelse til at scanne. Ifølge den franske lov om ophavsret fra 2006 kan det franske nationalbibliotek ignorere robotter , når de crawler websteder med nationale domæner [54] [1] . Andre organisationer, såsom Internet Archive, anvender fravalgsprincippet i deres arbejde - data fjernes fra samlingen efter anmodning fra copyright-indehavere, som kan bevise ophavsretten ved at give en beskrivelse af materialet, ansøgerens kontaktoplysninger og en underskrevet erklæring [83] [54] [25] .
Webarkiver har normalt en hierarkisk struktur - en crawl-session fanger mange websteder, som hver fører til en separat webside, der indeholder video-, tekst- og billedfiler. For hvert af "niveauerne" genereres metadata [54] [84] .
Tilgangen til at skabe metadata afhænger af organisationens størrelse og ressourcer. For eksempel er store webarkiver ofte afhængige af automatisk metadatagenerering. Nogle metadata, herunder indsamlingstid, statuskode (såsom 404 for ikke fundet eller 303 for omdirigering), størrelse i bytes , URI eller MIME -type (såsom tekst/ HTML ), "fanges" automatisk af crawlere. Information kan også udtrækkes fra HTML-sidernes metatags [54] [84] .
Små webarkiver kan generere metadata manuelt. University of California, Los Angeles Litteraturarkiv bruger detaljerede noter oprettet af personalet under indsamling og analyse af websider til at generere metadata [54] [85] . National Taiwan University Web Archive har en hierarkisk klassifikation på tre niveauer. Metadata kan også oprettes ved hjælp af brugerdefinerede tags, kommentarer eller vurderinger [54] [85] [86] .
Brugere henvender sig til webarkiver af forskellige årsager - for at udføre research, kompilere deres egen database eller se ældre versioner af individuelle webressourcer. Adgangen til sådanne samlinger er dog ofte kompliceret af manglen på en generel søgning i tilgængelige databaser og en ubekvem grænseflade. Adgang til og behandling af lagret information kræver ofte tekniske færdigheder i specialiserede filformater [87] [61] [88] . Nogle forskere mener, at det er af disse grunde, at links til webarkiver stadig sjældent findes i videnskabelige artikler, og samlinger bliver ikke studeret [89] [90] .
Webarkivsamlingen kan være ufuldstændig eller partisk på grund af manglende evne til at arkivere "lukkede" sider og/eller den uprofessionelle udvikling af arkiveringsstrategier - for eksempel når kun engelsksprogede portaler i store vestlige lande arkiveres. Selvom nogle arkiver har den juridiske ret til at ignorere robotundtagelsesstandarden , er andre organisationers samlinger betydeligt begrænsede, når de opfylder standarden [70] [91] [70] .
Automatiseret webarkivering ved brug af webcrawlere fanger en stor mængde information [34] , dog kan nogle interaktive JavaScript -elementer ikke gemmes og den arkiverede version mister sin funktionalitet [70] [92] .