Hjemmesidearkivering

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 17. maj 2022; checks kræver 3 redigeringer .

Hjemmesidearkivering ( webarkivering , engelsk  webarkivering ) er processen med at indsamle og "duplikere" websider og hele websteder for at gemme information og få adgang til dem i fremtiden, hvis kilden ikke er tilgængelig. Forudsætningerne for udviklingen af ​​webarkivering var problemerne med linkudryddelse og den potentielle begyndelse af den digitale mørke tidsalder . I 1996 blev " Internet Archive " oprettet - den første non-profit organisation , der satte sig som mål at skabe "snapshots" af alle sider på internettet. I 2001 lancerede arkivet Wayback Machine -webstedets arkiveringstjeneste , hvorigennem der i 2021 er blevet gemt mere end 600 milliarder websider.

Siden begyndelsen af ​​2000'erne er praksis for bevaring af websteder blevet aktivt implementeret i mange lande, herunder på statsniveau. Samtidig er der fora for udvikling af standarder og almindelig praksis inden for webarkivering, herunder International Internet Archiving Workshop (IWAW) (siden 2001) og International Internet Preservation Consortium (siden 2003).

Oftest indsamles oplysninger fra statiske websteder ved hjælp af søgerobotter (for eksempel Heritrix , Webrecorder, HTTrack ) , som sender HTTP -anmodninger til webservere og "fanger" det transmitterede indhold og alle hyperlinks fra crawlede websider. I modsætning hertil gemmes scripts , skabeloner og indhold på dynamiske websteder som separate ressourcer på webservere, så det er meget vanskeligere at arkivere sådanne portaler. Processen foregår i to hovedtrin - at gemme fildataene fra hjemmesidens mappestruktur og derefter arkivere informationen fra databasen.

Definition

Begreberne webarkivering og webbevaring ( eng.  webbevaring ) bruges ofte i flæng, men der er en vigtig forskel mellem dem: den første definerer hele processen med at gemme en internetressource, og den anden definerer kun et af stadierne [1 ] . International Internet Preservation Consortium (IIPC) definerer webarkivering som:

[...] processen med at indsamle dele af World Wide Web, gemme samlingerne i et arkivformat og derefter vedligeholde arkiverne for at gøre dem tilgængelige og brugbare.

Baggrund

Siden begyndelsen af ​​1990'erne har skabelse, lagring og formidling af information hovedsageligt fundet sted i det digitale miljø. Allerede i midten af ​​1990'erne begyndte tidligere populære lagringsmedier såsom magnetbånd , disketter , zip-drev og cd'er at blive forældede , og adgang til gamle filformater var vanskelig [2] [3] . Mange store databaser, der ikke blev kopieret til andre medier eller duplikeret på papir, begyndte at forsvinde [4] . Således blev alle data fra det storstilede BBC Domesday Project , udført i 1980'erne med deltagelse af mere end en million mennesker, optaget på adskillige diske, som i begyndelsen af ​​2000'erne enten var ødelagte eller tabt [5] [ 6] .

Det udbredte tab af data har fået nogle forskere til at diskutere potentialet for en "digital mørk tidsalder " - en  periode præget af et næsten fuldstændigt fravær af skriftlige beviser [7] [8] . Nogle forskere kalder det 21. århundrede for et "informationssort hul" af frygt for, at fremtidens software og computere ikke vil være i stand til at reproducere de data, der blev skabt tidligere [9] . I 2003 udsendte UNESCO et "Charter om bevarelse af den digitale arv" [10] , der definerer vigtigheden af ​​reservation af digitale data, hvis tab kan føre til "forarmelse" af menneskelig arv [11] [12] . I 2015 kom Vinton Cerf , en amerikansk videnskabsmand og vicepræsident for Google , med en erklæring om, at menneskeheden bevæger sig mod en "digital mørk tidsalder" [13] [14] [15] [16] .

En anden forudsætning for udviklingen af ​​webarkivering er link extinction , en situation hvor sider bliver utilgængelige på samme URL eller deres indhold ændres [17] [18] [19] . En analyse udført af portugisiske forskere i 2017 viste, at omkring 80 % af internetsiderne ikke er tilgængelige i deres oprindelige form et år efter offentliggørelsen, mens 13 % af links i videnskabelige artikler forsvandt efter gennemsnitligt 27 måneder [11] . I 2021 analyserede Harvard Law School -videnskabsmænd sammen med journalister fra The New York Times (NYT) levedygtigheden af ​​links i mere end 550.000 onlinepublikationer produceret af NYT mellem 2000 og 2017 - omkring en fjerdedel af de anvendte URL'er "døde ud " [20] [21] [22] [23] [24] . Den gennemsnitlige levetid for en webside er 44-100 dage, og information kan forsvinde endnu hurtigere på nyhedssider og sociale netværk [25] [26] .

Oplysninger på internettet kan forsvinde af andre årsager. I 2015 indledte det amerikanske udenrigsministerium og det amerikanske agentur for international udvikling således fjernelse af materialer om krigen i Afghanistan for at beskytte mennesker, der samarbejdede med de amerikanske myndigheder, mod forfølgelse fra Taliban [27] . Et andet eksempel er Roskomnadzors krav fremsat i december 2021 om at fjerne materiale fra en række russiske medier om undersøgelserne af Proekt- publikationen , som tidligere blev anerkendt som en uønsket organisation [28] [29] .

Udvikling

Siden 1980'erne er de enkelte arkiver og biblioteker begyndt at bevare elektroniske ressourcer for at dokumentere kronikken af ​​aktuelle begivenheder. Udgangspunktet for webarkivering anses dog for at være oprettelsen i 1996 af " Internet Archive " - ​​en non-profit organisation , der satte det ambitiøse mål at bevare alle websider på hele internettet, som på det tidspunkt var relativt få [30] [1] . I slutningen af ​​1990'erne og begyndelsen af ​​2000'erne begyndte regeringerne i mange udviklede lande at implementere webarkiveringspraksis og placerede ansvaret for at vedligeholde dem på nationale biblioteker, der har den nødvendige erfaring og værktøjer til arkivering [31] [11] [12] . I 2000 var nationale webarkiver dukket op i mange lande, herunder Storbritannien , New Zealand , USA og Tjekkiet [32] [33] [19] .

Siden da er antallet af webarkiveringsprojekter vokset hvert år [11] . I 2011 var der 42 programmer i verden, hvoraf de fleste var engageret i indsamling af regionale webkilder [12] . En undersøgelse fra 2020 viste en eksponentiel stigning i antallet af institutioner med deres egne depoter , understøttet af lejede fagfolk og specialiseret udstyr. De fleste af disse depoter genopfyldes efter princippet om selvarkivering - forfatterne placerer uafhængigt deres materialer der [34] . I 2019 blev webarkiver på nationalt plan implementeret i næsten alle lande i Den Europæiske Union , oftest som en del af de nationale bibliotekers arbejde [32] [35] .

Organisationer

Internet Archive

Det første store webarkiveringsinitiativ var Internet Archive, en non-profit organisation etableret i 1996 for at bevare alt materiale, der er lagt ud på internettet [19] . Skaberen var den amerikanske programmør Brewster Keil , som samtidig lancerede "Arkiv" og det kommercielle webarkiveringssystem Alexa Internet . I 1997 udviklede han et browser -plug-in, hvorigennem Alexa Internet automatisk identificerede og lagrede "værdifulde" websider i "Arkivet" og rangerede dem efter antallet af besøg, krydslinks og "klik" [36] . Siden 1998 er antallet af sider, der skal arkiveres, fordoblet hver 3.-6. måned [37] .

Den 24. oktober 2001 lancerede Internet Archive Wayback Machine , hvorigennem brugere kunne få adgang til mere end 10 milliarder arkiverede websider. På det tidspunkt blev data gemt på Hewlett Packard- og uslab.com-servere og administreret gennem FreeBSD- og Linux - operativsystemerne [37] .

For 2021 bestod Arkivsamlingen af ​​mange undersamlinger af arkiverede hjemmesider, digitaliserede bøger, lyd- og videofiler, spil, software [38] ; mens antallet af arkiverede websider udgjorde mere end 622 milliarder [39] .

WebCite

WebCite blev lanceret i 2003 og var det første webarkiveringsværktøj, der gjorde det muligt for brugere at gemme websteder efter behov. WebCite vandt hurtigt popularitet, og i 2005 bad omkring 200 tidsskrifter forfattere om at arkivere deres websider gennem WebCite, før de indsendte manuskripter [40] . Tjenesten bruger ikke søgerobotter til at "fange" sider, arkivering sker direkte på anmodning fra brugeren [40] .

I 2013 blev WebCite truet med lukning på grund af manglende finansiering, men takket være en offentlig indsamlingskampagne af skaberen Günter Eisenbach fortsatte portalen med at fungere i yderligere seks år. Siden 2019 er den blevet skrivebeskyttet og er holdt op med at acceptere arkivanmodninger [41] [42] .

Archive.today

Tjenesten archive.today (når den blev oprettet - archive.is) blev lanceret i 2012 af en non-profit organisation af samme navn [43] . Projektet er finansieret af private sponsorer. Ligesom WebCite gemmer archive.today websider efter anmodning fra brugere [44] [45] ved at gøre en funktionel kopi af websiden offentligt tilgængelig og et skærmbillede , der repræsenterer en statisk PNG -gengivelse af siden [46] . Størrelsen på den arkiverede side med alle billeder bør ikke overstige 50 MB [43] .

Skaberne af archive.today har også lanceret en Mozilla Firefox browserudvidelse , der automatisk gemmer og deler en kopi af hver bogmærket webside, som en bruger tilføjer [46] [47] .

web-archive.ru

Den Russiske Føderation oprettede også sit eget webarkiv på russisk - https://web-arhive.ru/

Nationalbiblioteker

De fleste udviklede lande har lov om lovpligtig deponering , som gør nationale biblioteker juridisk ansvarlige for at opbevare et eksemplar af hver trykt publikation, der udgives i det pågældende land. Med den udbredte udvikling af elektronisk kommunikation er loven udvidet til også at omfatte websteder [1] [48] . I henhold til Public Records Act 1967 er National Archives of Great Britain og Irland således forpligtet til at bevare alle vigtige regler fra den britiske regering . Efterhånden som embedsmænd i stigende grad offentliggør deres rapporter på internettet, besøger mere end 100 millioner brugere webarkivet hver måned (fra 2013) [25] .

I 1996 påbegyndte Sveriges Nationalbibliotek Kulturar-projektet, som udførte storstilet bevaring af hele det svenske domæne -netværk [49] . I begyndelsen af ​​2005 var mere end 350.000 websteder, eller omkring 10 terabyte data, blevet indsamlet, hvilket gjorde webarkivet til det største på det tidspunkt i verden [19] . I 1997 blev et fælles initiativ skabt af de nationale biblioteker i Danmark , Finland , Island , Norge , Sverige kaldet Nordic Web Archive (NWA). NWA har udviklet værktøjer og diskuteret webarkiveringsmetoder for de nordiske lande. I 2004 udgav NWA en softwarepakke til adgang til arkiverede webdokumenter, som efterfølgende dannede grundlaget for IIPC Toolkit [19] [50] . Samme år lancerede National Library of Australia Pandora - et projekt til bevarelse af digitale ressourcer i Australien [51] [52] [19] . I 2019 blev Pandora-samlingen inkluderet i Australian Web Archive , et af de største nationale webarkiver i verden [53] .

Samarbejde

I 2001 blev International Internet Archiving Workshop (IWAW) [54] skabt - en platform for udveksling af forskning og erfaring inden for webarkivering [55] , og i 2003, på initiativ af Internet Archive, the International Internet Preservation Consortium blev grundlagt , som udvikler standarder og værktøjer til webarkivering [37] [56] . Ud over "arkivet" omfattede IIPC de nationale biblioteker i Frankrig , Australien , Canada , Danmark , Finland , Island , Italien , Norge , Sverige , Storbritannien , USA . I 2008 udviklede IIPC Web ARChive eller WARC , et format til arkivering af webressourcer [12] . Fra 2021 har IIPC over 50 medlemmer [57] .

Organisationer samarbejder ofte om at skabe forenede webarkiver. Fra 2004 til 2018 drev det europæiske digitale arkiv (senere omdøbt til Internet Memory Foundation ) og indsamlede elektroniske dokumenter i landene i Den Europæiske Union [58] [19] [12] . Det omfattede blandt andet Storbritanniens nationale arkiver, Max Planck Society , Technical University of Berlin , University of Southampton , Institut Mines-Télécom . I begyndelsen af ​​2000'erne lancerede afdelingerne for sinologi ved Heidelberg- og Leiden-universiteterne i fællesskab DACHS-webarkivet indeholdende elektroniske materialer om sinologi [59] [19] . Konsortier som NWA og UKWAC har kørt samarbejdsprogrammer for dataindsamling i partnerskab med andre organisationer [60] [19] [61] . I slutningen af ​​1990'erne finansierede Europa-Kommissionen oprettelsen af ​​Networked European Deposit Library (NEDLIB), et projekt til at indsamle, beskrive, opbevare og stille gemte europæiske websteder til rådighed [62] . NEDLIB Harvester blev udgivet i 2000 og var en af ​​de første søgerobotter , der var specielt designet til dataarkivering. Efterfølgende blev det brugt i en række projekter, herunder indsamling af data fra hollandske , estiske og islandske webdomæner [19] [63] .

I juli 2011 lancerede National Archives of Great Britain sammen med Internet Memory Foundation et pilotprojekt for webbaseret digital arkivering for lokale myndigheder. Projektet opererede i syv kommuners arkiver, der dækkede mere end 20 lokale myndigheder. Personalet modtog gratis træning i at oprette et kurateret webarkiv for deres felt [64] .

Universiteter i udviklede lande er også involveret i udviklingen af ​​webarkivering. For eksempel tilbyder Michigan , Indiana , Californien , Illinois og andre universiteter kurser om digital arkivering [54] , og flere institutioner har oprettet deres egne webarkiver til forskningsformål - Stanford WebBase Archive ( Stanford University ), Socio-Sense ( University of Tokyo ), Web Information Center ( Peking University ) [12] .

Sourcing

Inden arkivering begynder, fastlægger hver organisation kriterierne for "udvælgelse" af kilder. Der kan være et eller flere sådanne kriterier afhængigt af organisationens størrelse og mål [19] [65] . Nogle webarkiver, såsom Internet Archive, har til formål at indsamle alle mulige websider, en tilgang, der kaldes ikke-selektiv eller bredscanning . Det er baseret på princippet om indbyrdes forbundethed af World Wide Web , ifølge hvilket et emne kun virkelig kan "bevares" ved at samle alle eksisterende websider, da de alle er indbyrdes forbundne. Derudover er valg af hjemmeside en omkostningsfuld og tidskrævende proces, der også kan føre til subjektiv stikprøvetagning [19] . "Arkiv"-tilgangen anses dog for at være umulig i praksis - at gemme alle sider er umuligt på grund af copyright-begrænsninger, og selv "Internetarkivet" gemmer kun materialer, der er tilgængelige for offentligheden [66] .

Et alternativ til en ikke-selektiv udvælgelsestilgang er en selektiv tilgang eller udvælgelse af ressourcer baseret på deres tilhørsforhold til foruddefinerede kriterier - domæne (for eksempel .gov eller .edu ), emne, begivenhed, medietype eller genre [19] . En selektiv tilgang kombineres ofte med bred scanningspraksis - for eksempel hvis en organisation arkiverer alle portaler med et bestemt domænenavn. Siden 1996 har Sveriges Nationalbibliotek således indsamlet alle websteder med " .se " -domænet [19] [67] , og National Library of Great Britain arkiverer websteder med domænerne ".gov.uk", ".org". .uk” og ".co.uk". NASA - biblioteket i Goddard Space Flight Center vedligeholder alle websider med centrets domænenavn [19] . Den største fordel ved selektiv arkivering er, at denne tilgang giver dig mulighed for at skabe mere overskuelige samlinger med tilhørende ressourcer [19] .

En selektiv tilgang bruges også til at skabe tematiske samlinger. For eksempel indsamler DACHS sociale og kulturelle ressourcer om Sinology, og Library of Congress har sammen med Internet Archive udarbejdet webarkiver om det amerikanske præsidentvalg og begivenhederne den 11. september . British Library har specialiseret sig i websteder af "national kulturel værdi" [67] . Pandora-projektet fra National Library of Australia [19] [54] bruger også denne tilgang . I 2006 lancerede Internet Archive Archive It , en webbaseret indsamlingstjeneste [68] der ofte bruges af individuelle organisationer som National Museum of Women's Art [69] .

Nogle organisationer arkiverer ressourcer baseret på den præsenterede kildetype. For eksempel undgår Goddard Space Flight Center-biblioteket at scanne store videofiler og softwareprodukter. Tværtimod arkiverer andre webprojekter videoer på Youtube eller samler blogs, virtuelle aviser – for eksempel har National Library of France lavet en separat websamling til LiveJournals [54] .

Dataindsamling

Statiske websteder

Jo enklere og mere statisk webstedet er, jo lettere er det at arkivere det [70] - kopier af dataene downloades fra webserveren som filer, der senere kan konverteres til andre formater [71] [72] [73] .

Processen med automatisk at indsamle websider gennem søgerobotter kaldes web-harvesting eller "scanning". Robotten får en liste over URL'er, hvorefter den sender HTTP -anmodninger til webservere og "fanger" det transmitterede indhold og alle hyperlinks fra de scannede websider [73] . Den automatiserede software konverterer derefter informationen til WARC-format, hvilket resulterer i en fil , der kan afspilles ved hjælp af værktøjer som Wayback Machine [74] . Eksempler på crawlere er Heritrix [75] udviklet af Internet Archive i 2004 , samt HTTrack [76] og Wget [77] . Et netværk af "scannere" giver organisationer mulighed for at gemme kopier af udvalgte websteder med jævne mellemrum, såsom dagligt eller årligt [74] . Til mere målrettet arkivering bruges mindre værktøjer, såsom HTTrack , som giver dig mulighed for at downloade kopier af hjemmesider til din lokale computer [74] .

Dynamiske websteder

Arkivering af dynamiske websteder er meget vanskeligere end statiske websteder, fordi indhold, scripts og skabeloner gemmes som separate ressourcer på webserveren. og sidens udseende og indhold dannes afhængigt af klientens browser- og serverindstillinger. I modsætning til statiske websteder er automatisk behandling af en HTTP -anmodning ikke nok, da webstedet genererer indhold fra serversiden ved hjælp af en database [71] . Derfor sker bevarelsen af ​​sådanne ressourcer i to trin - lagring af fildataene i webstedets biblioteksstruktur og arkivering af databaseinformationen [71] . For dynamiske websteder har brugen af ​​søgerobotter sine begrænsninger [19] . Webarkiveringsværktøjer til dynamisk indhold omfatter Software Independent Archiving of Relational Databases (SIARD), udviklet af Swiss Federal Archives , og DeepArc fra National Library of France . SIARD analyserer og viser automatisk strukturen af ​​kildedatabasen. Den eksporterer derefter strukturen som en tekstfil, der indeholder en datadefinition beskrevet ved hjælp af SQL , den internationale standard til beskrivelse af en relationsdatabase . Efterfølgende eksporteres indholdet som en almindelig tekstfil, og metadataene gemmes som et XML - dokument [19] .

Arkivering af sociale medier

De første sociale mediers arkiveringsprojekter begyndte at dukke op fra 2008 som en systematisk bred platformsscanning. Således påbegyndte National Library of New Zealand arbejdet med at skabe et arkiv af beskeder lagt på Twitter , og National Library of France scannede Facebook . Men på grund af den store mængde produceret indhold, manglen på tekniske standarder for indsamling og lagring af information og de stadigt skiftende tekniske detaljer om, hvordan portaler fungerer, begyndte organisationer efterfølgende at tage en selektiv tilgang til webarkivering af sociale netværk og gemme kun beskeder om specifikke begivenheder eller nødsituationer. Enkeltpersoner, såsom Bibliothèque Nationale de France eller National Library of Canada, har lanceret en kontinuerlig automatiseret samling af nyheder og indhold på sociale medier for at fange folks reaktioner på uforudsete begivenheder. Udvælgelsen udføres i henhold til givne hashtags eller nøgleord , for en bestemt periode eller en bestemt platform [78] [79] .

Værktøjer

Forskellige webarkiveringsværktøjer bruges til at indsamle websteder. Den mest almindelige crawler er Heritrix , en generel webcrawler tilgængelig under en gratis softwarelicens designet med webarkivering i tankerne. Heritrix gemmer filer i WARC-formatet og er velegnet til storskala scanningsoperationer, men mindre tilbøjelige til at "fange" dynamiske websteder eller sider på sociale netværk. Baseret på Heritrix NetarchiveSuite giver yderligere funktioner inden for langtidslagring og adgang til materialer [1] .

Webrecorder bruger browseren til at indsamle indholdet på websteder og løser derved de almindelige problemer for andre søgerobotter - indfangning af dynamisk indhold, Adobe Flash , multimedier . Programmet "optager" websider, efterhånden som brugeren gennemser dem, så det er velegnet til selektiv scanning. Indholdet gemmes også i formatet WARC [1] . En anden crawler, Brozzler [80] , bruger Google Chrome -browsermotoren til at indsamle sider og tilbyder de samme fordele som Webrecorder, men kræver ikke brugerinteraktion under crawl [1] .

HTTrack giver dig mulighed for at downloade kopier af websteder til din lokale computer, og derefter kan brugeren se dem gennem en browser [81] . Wget og det lignende værktøj Wpull er alsidige kommandolinjeværktøjer, der har indbyggede webcrawl-funktioner, der kan sammenlignes med HTTrack. Wpull er bedre egnet til arkivering i stor skala [1] .

På grund af sociale netværkssiders dynamiske struktur kræves der specialiserede værktøjer til at arkivere dem. Webarkivering udføres typisk ved hjælp af applikationsprogrammeringsgrænseflader eller API'er leveret af udviklere. F(b)arc er et kommandolinjeværktøj, der kan bruges til at arkivere data ved hjælp af Facebook Graph-grænsefladen. Twarc er et kommandolinjeværktøj og et bibliotek, der gør det nemt at bruge Twitter API'erne. Social Feed Manager giver dig mulighed for at indsamle data fra Twitter, Tumblr , Flickr og Sina Weibo [1] .

De mest almindeligt anvendte arkiveringsformater er ARC og WARC . De fleste initiativer bruger Lucene -baserede løsninger til at understøtte fuldtekstsøgning , inklusive NutchWAX eller Solr , Wayback Machine til at understøtte URL-søgning og vise arkiveret indhold [11] . JWAT , node-warc , WARCAT , warcio og warctools værktøjerne kan bruges til at læse og udtrække metadata fra WARC filer [1] .

Opløsning

Hvorvidt en organisation vil overholde robotundtagelsesstandarden eller søge tilladelse til at arkivere fra webstedsejere afhænger af mange faktorer - typen af ​​indhold, omfanget af webarkivering, det juridiske miljø [54] [1] . Men selv når de ansøger om tilladelse, svarer kun omkring 30-50 % af webstedsejerne på anmodningen [82] .

Generelt behøver statslige organer med den juridiske ret til at opbevare offentlige registre (såsom National Archives and Records Administration (USA) og UK National Archives) ikke tilladelse til at scanne. Ifølge den franske lov om ophavsret fra 2006 kan det franske nationalbibliotek ignorere robotter , når de crawler websteder med nationale domæner [54] [1] . Andre organisationer, såsom Internet Archive, anvender fravalgsprincippet i deres arbejde - data fjernes fra samlingen efter anmodning fra copyright-indehavere, som kan bevise ophavsretten ved at give en beskrivelse af materialet, ansøgerens kontaktoplysninger og en underskrevet erklæring [83] [54] [25] .

Metadata

Webarkiver har normalt en hierarkisk struktur - en crawl-session fanger mange websteder, som hver fører til en separat webside, der indeholder video-, tekst- og billedfiler. For hvert af "niveauerne" genereres metadata [54] [84] .

Tilgangen til at skabe metadata afhænger af organisationens størrelse og ressourcer. For eksempel er store webarkiver ofte afhængige af automatisk metadatagenerering. Nogle metadata, herunder indsamlingstid, statuskode (såsom 404 for ikke fundet eller 303 for omdirigering), størrelse i bytes , URI eller MIME -type (såsom tekst/ HTML ), "fanges" automatisk af crawlere. Information kan også udtrækkes fra HTML-sidernes metatags [54] [84] .

Små webarkiver kan generere metadata manuelt. University of California, Los Angeles Litteraturarkiv bruger detaljerede noter oprettet af personalet under indsamling og analyse af websider til at generere metadata [54] [85] . National Taiwan University Web Archive har en hierarkisk klassifikation på tre niveauer. Metadata kan også oprettes ved hjælp af brugerdefinerede tags, kommentarer eller vurderinger [54] [85] [86] .

Problemer

Brugere henvender sig til webarkiver af forskellige årsager - for at udføre research, kompilere deres egen database eller se ældre versioner af individuelle webressourcer. Adgangen til sådanne samlinger er dog ofte kompliceret af manglen på en generel søgning i tilgængelige databaser og en ubekvem grænseflade. Adgang til og behandling af lagret information kræver ofte tekniske færdigheder i specialiserede filformater [87] [61] [88] . Nogle forskere mener, at det er af disse grunde, at links til webarkiver stadig sjældent findes i videnskabelige artikler, og samlinger bliver ikke studeret [89] [90] .

Webarkivsamlingen kan være ufuldstændig eller partisk på grund af manglende evne til at arkivere "lukkede" sider og/eller den uprofessionelle udvikling af arkiveringsstrategier - for eksempel når kun engelsksprogede portaler i store vestlige lande arkiveres. Selvom nogle arkiver har den juridiske ret til at ignorere robotundtagelsesstandarden , er andre organisationers samlinger betydeligt begrænsede, når de opfylder standarden [70] [91] [70] .

Automatiseret webarkivering ved brug af webcrawlere fanger en stor mængde information [34] , dog kan nogle interaktive JavaScript -elementer ikke gemmes og den arkiverede version mister sin funktionalitet [70] [92] .

Noter

  1. 1 2 3 4 5 6 7 8 9 10 11 Chambers, 2019 , s. 85-111.
  2. Veronica Greenwood. Den digitale mørke middelalder  . Yale Alumni Magazine (juni 2020). Hentet 9. december 2021. Arkiveret fra originalen 15. oktober 2021.
  3. Dan Greene. Udhulingen af ​​det personlige  ejerskab . Vox (21. april 2021). Hentet 9. december 2021. Arkiveret fra originalen 26. september 2021.
  4. Digital Domesday Book varer 15 år ikke  1000 . The Guardian (3. marts 2002). Hentet 11. december 2021. Arkiveret fra originalen 20. januar 2013.
  5. Veronica Greenwood. Den digitale mørke middelalder  . Yale Alumni Magazine (06-2020). Hentet 27. september 2021. Arkiveret fra originalen 15. oktober 2021.
  6. Lamont Wood. Afværge den digitale mørke middelalder: problemet med arkivering  . ComputerWorld (26. august 2010). Hentet 11. december 2021. Arkiveret fra originalen 26. januar 2021.
  7. Giaretta, 2011 .
  8. Panos, 2003 .
  9. Adam Wernick. Forskere advarer om, at vi kan skabe en 'digital mørk tidsalder  ' . Verden (1. januar 2018). Hentet 10. december 2021. Arkiveret fra originalen 16. august 2021.
  10. ↑ Charter for digital bevaring  . FN. Hentet 12. december 2021. Arkiveret fra originalen 23. august 2021.
  11. 1 2 3 4 5 Costa, 2017 , s. 191-205.
  12. 1 2 3 4 5 6 Toyoda, 2012 , s. 1441-1443.
  13. ↑ For at undgå en digital mørk tidsalder skal alle interessenter tage hovedet sammen  . The Times of India (17. september 2020). Hentet 27. september 2021. Arkiveret fra originalen 8. september 2021.
  14. Lauren Maffeo. Googles Vint Cerf om, hvordan man forhindrer en digital mørk tidsalder  . The Guardian (29. maj 2015). Hentet 27. november 2021. Arkiveret fra originalen 19. november 2021.
  15. Dave Smith. Internettets far: 'Hvis vi ikke flytter nu, risikerer vi at miste alle de data, vi har skabt i det 21. århundrede  ' . Business Insider (20. februar 2015). Hentet 28. november 2021. Arkiveret fra originalen 19. november 2021.
  16. Nikolaj Udintsev. Dagens citat: Hvorfor den digitale mørke tidsalder kan  begynde . Se på mig (13. februar 2015). Hentet 28. november 2021. Arkiveret fra originalen 19. november 2021.
  17. Adoghe, 2013 , pp. 598-603.
  18. Perkel, 2015 , s. 111-112.
  19. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Brown, 2006 , s. 1-256.
  20. Rhodos, 2010 , s. 581-597.
  21. White, 2019 , s. 29-43.
  22. Forskere påpeger problemet med "udryddelse" af links på internettet  (eng.) . Nyheder (21. maj 2021). Hentet 28. september 2021. Arkiveret fra originalen 23. november 2021.
  23. Bowers, 2021 .
  24. Mitchell Clark. Ny forskning viser, hvor mange vigtige links på nettet, der går tabt med  tiden . The Verge (21. maj 2021). Hentet 10. oktober 2021. Arkiveret fra originalen 20. juni 2021.
  25. 1 2 3 Pennock, 2013 .
  26. Nick Bilton. Et links levetid  . The New York Times (7. september 2011). Hentet 10. december 2021. Arkiveret fra originalen 28. september 2021.
  27. Matthew Gault. USA fjerner registreringer af sin krig i Afghanistan fra  internettet . Vice (17. juli 2015). Hentet: 11. december 2021.
  28. Roskomnadzor krævede, at medierne fjernede publikationer om undersøgelserne af "Projektet", anerkendt som en uønsket organisation . BBC (18. december 2021). Hentet 20. december 2021. Arkiveret fra originalen 18. december 2021.
  29. Tasya Elfimova. Roskomnadzor krævede, at The Village, Meduza og Dozhd fjernede snesevis af nyheder relateret til undersøgelserne af projektet . Landsbyen (18. december 2021). Hentet 19. december 2021. Arkiveret fra originalen 18. december 2021.
  30. Patel, 2020 , s. 1-10.
  31. Balatskaya, 2021 , s. 12-16.
  32. 12 Pretoro , 2013 , s. 63-67.
  33. Single Sites Web Archive - Minerva - Library of Congress Web  Archive . Primære kilder til europæisk historie. Hentet 13. december 2021. Arkiveret fra originalen 6. maj 2021.
  34. 12 Rockwell , 2020 , s. 1-17.
  35. Mark Pesce. Arkivering af World Wide Web  . Cosmos (29. oktober 2021). Hentet 11. december 2021. Arkiveret fra originalen 25. november 2021.
  36. Kimpton, 2006 .
  37. 1 2 3 Masanes, 1998 , s. 201-212.
  38. Rory Carroll. Brewsters trillioner : Internet Archive stræber efter at holde webhistorikken i live  . The Guardian (26. april 2013). Hentet 11. december 2021. Arkiveret fra originalen 15. december 2021.
  39. Wayback-  maskine . wayback maskine. Dato for adgang: 7. juni 2021.
  40. 12 Trudel , 2005 .
  41. Fund WebCite (http://www.webcitation.org  ) . FundRz. Hentet: 18. december 2021.
  42. Arkiver nu (archivenow  ) . GitHub. Hentet 20. december 2021. Arkiveret fra originalen 20. december 2021.
  43. 1 2 ofte stillede spørgsmål  . _ arkiv.ph. Hentet 10. december 2021. Arkiveret fra originalen 27. oktober 2021.
  44. Salman Ravoof. Sådan arkiverer du et websted : Vores mammutguide til at gemme dit websted  . Kinsta (3. november 2021). Hentet 7. december 2021. Arkiveret fra originalen 5. november 2021.
  45. Jason Koebler. Kære GamerGate : Stop venligst med at stjæle vores lort  . Vice (29. oktober 2014). Hentet 7. december 2021. Arkiveret fra originalen 27. november 2021.
  46. 12 Martin Brinkmann . Opret offentligt tilgængelige websidearkiver med Archive.is . G Hacks (22. april 2015). Hentet 12. december 2021. Arkiveret fra originalen 12. april 2019.  
  47. ↑ Sammenligning af webarkiveringstjenester  . Websidearkivering. Hentet: 10. december 2021.
  48. ↑ UK elektronisk pligtafleveringssystem  . Informations- og analytisk tidsskrift University Book (21. september 2013). Hentet 18. december 2021. Arkiveret fra originalen 24. oktober 2020.
  49. Kulturarw3-  projektet . Jeremy Normans historie om information. Hentet: 10. december 2021.
  50. ↑ NWA Toolset 1.1RC10 frigivet  . N.W.A. Hentet 11. december 2021. Arkiveret fra originalen 26. april 2018.
  51. Historie  . _ Pandora. Hentet 11. december 2021. Arkiveret fra originalen 4. juni 2020.
  52. Webb, 2000 , s. 154-172.
  53. George Nott. National Library lancerer 'enormt' arkiv af Australiens  internet . Computer World (11. marts 2019). Hentet 10. december 2021. Arkiveret fra originalen 24. november 2021.
  54. 1 2 3 4 5 6 7 8 9 10 11 Niu, 2012 .
  55. IWAW 2010: The 10th Intl Web Archiving  Workshop . WikiCfP. Hentet 15. december 2021. Arkiveret fra originalen 27. april 2021.
  56. International Internet Preservation  Consortium . International Internet Preservation Consortium. Hentet 14. december 2021. Arkiveret fra originalen 14. december 2021.
  57. IIPC-  medlemmer . International Internet Preservation Consortium. Hentet 13. december 2021. Arkiveret fra originalen 16. december 2021.
  58. Europæisk  arkiv . Kongresbiblioteket. Hentet: 13. december 2021.
  59. Om DACHS  . Bereichbibliother Ostaasien. Hentet 13. december 2021. Arkiveret fra originalen 17. oktober 2021.
  60. Steve Bailey, Dave Thompson. Opbygning af Storbritanniens første offentlige  webarkiv . Dlib Magasinet (2006). Hentet 18. december 2021. Arkiveret fra originalen 23. november 2021.
  61. 1 2 Dooley, 2017 , s. 1-15.
  62. Johan Steenbakkers. Præsentationer  . _ European Library Automation Group. Hentet 13. december 2021. Arkiveret fra originalen 29. december 2021.
  63. Hakala, 2001 , s. 211-216.
  64. Duncan Jefferies. Brug af webarkiver til at bevare fortiden . The Guardian (9. marts 2012). Hentet 11. december 2021. Arkiveret fra originalen 10. juni 2021.
  65. Alam, 2020 , s. 1-251.
  66. Broussard, 2021 , s. 276.
  67. 12 kamre , 2019 .
  68. Povroznik, 2020 , s. 95-102.
  69. Slania, 2013 , s. 112-126.
  70. 1 2 3 4 João Miranda. Web høst og  arkivering . Web Ist UTL. Hentet 17. december 2021. Arkiveret fra originalen 29. december 2021.
  71. 1 2 3 Rumianek, 2013 .
  72. Brunelle, 2012 .
  73. 12 Pretoro , 2013 .
  74. 1 2 3 Bevarelse af internettet  . Digital bevaring online. Hentet 17. december 2021. Arkiveret fra originalen 14. september 2021.
  75. Mohr, 2004 , s. 1-15.
  76. Justin Kulesza. Sådan arkiveres et  websted . atomart objekt. Hentet 14. december 2021. Arkiveret fra originalen 23. juni 2016.
  77. ↑ Kommandoen jeg bruger til at arkivere et enkelt websted  . GitHub. Hentet 15. december 2021. Arkiveret fra originalen 23. december 2021.
  78. Michel, 2021 , s. 107-128.
  79. Redkina, 2019 , s. 52.
  80. internetarkiv /brozzler  . GitHub. Hentet 16. december 2021. Arkiveret fra originalen 10. december 2021.
  81. Guide til offline browsere. Del 2 . IXBT.com. Hentet 17. december 2021. Arkiveret fra originalen 2. august 2019.
  82. Juridiske  spørgsmål . International Internet Preservation Consortium. Hentet 16. december 2021. Arkiveret fra originalen 16. december 2021.
  83. Berčič, 2005 , s. 17-24.
  84. 12 Brown , 2006 , s. 1-256.
  85. 12 Brown , 2006 .
  86. Olson, 2009 , s. 181-196.
  87. Ayala, 2021 , s. 89-106.
  88. Brügger, 2017 , s. 45-61.
  89. Rogers, 2019 , s. 49.
  90. Niels, 2021 , s. 145-168.
  91. Kalev Leetaru. Hvorfor webarkiver skal engagere sig med forskere  . Forbes (7. maj 2019). Hentet 11. december 2021. Arkiveret fra originalen 29. december 2021.
  92. Kalev Leetaru. Fejler webarkiver det moderne web: video, sociale medier, dynamiske sider og det mobile web . Forbes (24. februar 2017). Hentet 11. december 2021. Arkiveret fra originalen 29. december 2021.

Litteratur

  • Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: teknikker, udfordringer og løsninger  (engelsk) . - 2013. - Bd. 5 , iss. 3 . - S. 598-603 .
  • Alam S. Mementomap: en webarkivprofileringsramme til effektiv memento-  routing . – 2020.
  • Ayala B. Når forventninger møder virkeligheden: almindelige misforståelser om webarkiver og udfordringer for forskere  (engelsk)  // International Journal of Digital Humanities. - 2021. - Iss. 2 . - S. 89-106 .
  • Berčič B. Beskyttelse af personlige data og ophavsretligt beskyttet materiale på nettet: Sagerne fra Google og Internet Archive  //  ​​Communications Technology Law. - 2005. - Bd. 14 , udg. 1 . - S. 17-24 . - doi : 10.1080/1360083042000325283 .
  • Brown A. Arkivering af websteder en praktisk guide til fagfolk i informationshåndtering  . Facetudgivelse. - 2006. - 256 s. - ISBN 978-1-85604-553-7 .
  • Brügger N., Schroeder R. Live versus arkiv: Sammenligning af et webarkiv med en population af websider  (engelsk) . - 2017. - S. 45-61 . - doi : 10.2307/j.ctt1mtz55k.8 .
  • Brügger N. Digital humaniora og webarkiver: Mulige nye veje til at kombinere datasæt  //  International Journal of Digital Humanities. - 2021. - Iss. 2 . - S. 145-168 .
  • Broussard M. Arkiveringsdatajournalistik  //  Yhe Data Journalism Handbook. - 2021. - S. 274-278 . - doi : 10.2307/j.ctv1qr6smr.40 .
  • Brunelle J., Nelson M. Evaluering af SiteStory Transactional Web Archive med ApacheBench Tool   // ArXiv.org . – 2012.
  • Costa M., Gomes D., Silva M. Udviklingen af ​​webarkivering  (engelsk)  // Int J Digit Libr. - 2017. - Iss. 18 . - S. 191-205 . - doi : 10.1007/s00799-016-0171-9 .
  • Dooley JM, Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs  //  Journal of Western Archives. - 2017. - Bd. 8 , iss. 2 .
  • Hakala J. The NEWLIB harvester  (engelsk)  // Zeitschrift für Bibliothekswesen und Bibliographie. - 2001. - Bd. 48 , udg. 3 . - S. 211-216 .
  • Giaretta D. At undgå en digital mørk tidsalder for data: hvorfor udgivere bør bekymre sig om digital bevaring  //  Learned Publishing. - 2011. - S. 1-18 .
  • Kimpton M., Ubois J. År for år: Fra et arkiv af internettet til et arkiv på internettet // Webarkivering. - 2006. - S. 201-212 .
  • Masanes J. Webarkivering  . — Springer. - 1998. - S. 1-234. — ISBN 3-540-23338-5 .
  • Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. En open source arkivkvalitets webcrawler // 4th International Web Archiving Workshop. - 2004. - S. 1-15 .
  • Niu J. En oversigt over webarkivering  //  School of Information Fakultetets publikationer. - 2012. - S. 1-13 . - doi : 10.1045/marts2012-niu1 .
  • Ogden J., Maemura E. 'Go fish': Konceptualisering af udfordringerne ved at engagere nationale webarkiver til digital forskning  //  International Journal of Digital Humanities. — Iss. 2 . - S. 43-63 . - doi : 10.1007/s42803-021-00032-5 .
  • Olson J. Kapitel 14 - Arkivdatalageret  //  Databasearkiv. - 2009. - S. 181-196 . - doi : 10.1016/B978-0-12-374720-4.00014-5 .
  • Panos P. The Internet Archive: An End to the Digital Dark Age  (engelsk)  // Journal of Social Work Education. - 2003. - Bd. 39 , udg. 2 . - S. 343-347 . - doi : 10.1080/10437797.2003.10779139 .
  • Patel K., Phillips M., Caragea C., Fox N. Identifikation af dokumenter inden for rammerne af en samling fra  webarkiver  // arXiv . – 2020.
  • Pennock M. Web-  arkivering . - DPC Technology Watch Report 13.-01. marts 2013. - 2013. - doi : 10.7207/twr13-01 .
  • Perkel, J. Besværet med referenceråd. (engelsk)  // Nature. - 2015. - Iss. 521 . - S. 111-112 . - doi : 10.1038/521111a .
  • Pretoro E., Geeraert F., Soyez S. Bag kulisserne for webarkivering af metadata fra høstede websteder  //  Tillid og forståelse: værdien af ​​metadata i en digitalt sammenføjet verden. - 2013. - S. 63-74 .
  • Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability  //  Law Library Journal. - 2010. - Bd. 102 , udg. 4 . - s. 581-597 .
  • Rockwell G., Tchoh B. Archiving Database Driven Websites for Future Digital Archaeologists: The Archiving of TAPoR  //  CSDH-SCHN 2020. - 2020. - doi : 10.17613/v412-8896 . )
  • Rogers R. Periodiserende webarkivering: biografiske, begivenhedsbaserede, nationale og selvbiografiske traditioner  //  The SAGE Handbook of Web History. - 2019. - S. 42-57 .
  • Rumianek M. Arkivering og gendannelse af databasedrevne websteder  //  D-Lib Magazine. - 2013. - Bd. 19 , iss. 1/2 . - doi : 10.1045/januar2013-rumianek .
  • Slania H. Online Art Ephemera: Webarkivering på National Museum of Women in the Arts  //  Kunstdokumentation: Journal of the Art Libraries Society of North America. - 2013. - Bd. 32 , udg. 1 . - S. 112-126 .
  • Toyoda M., Kitsuregawa M. {{{title}}}  (engelsk)  // Invited Paper. - 2012. - doi : 10.1109/JPROC.2012.2189920 .
  • Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. - 2005. - doi : 10.2196/jmir.7.5.e60 .
  • Zittrain J., Bowers J., Stanton C. The Paper of Record Meets an Ephemeral Web: An Examination of Linkrot and Content Drift in The New York Times  //  Library Innovation Lab. – 2021.
  • Webb C. Fordi det tilhører os alle: Nationale ordninger for digital bevaring i australske biblioteker  (engelsk)  // Australian Academic & Research Libraries. - 2000. - S. 154-172 . - doi : 10.1080/00048623.2000.10755132 .
  • Vlassenroot E., Chambers S., Mechant P. Webarkiver som en dataressource for digitale forskere  //  International Journal of Digital Humanities. - 2019. - Bd. 1 , iss. 85 . - S. 85-111 . - doi : 10.1007/s42803-019-00007-7 .
  • Vlassenroot E., Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-arkivering og sociale medier: en udforskende analyse  //  International Journal of Digital Humanities. - 2021. - Bd. 2 . - S. 107-128 .
  • White J. Link Rot, Reference Rot, and Link Resolves  //  Nye topteknologier, som enhver bibliotekar har brug for at kende. - 2019. - S. 29-43 .
  • Balatskaya N.M., Martirosova M.B. Webarkivering som en opgave for national og lokalhistorisk bibliografi  // Bibliosfære. - 2021. - Udgave. nr. 3 . - S. 12-17 .
  • Povroznik G.G. Webarkiver i rekonstruktionen af ​​virtuelle museers historie: potentiale og begrænsninger  // Bulletin of the Perm University. - 2020. - T. 51 , no. 4 . - S. 95-102 .
  • Redkina N.S. Verdenstendenser i udviklingen af ​​biblioteker. Optimisme vs pessimisme (baseret på udenlandsk litteratur)  // Bibliosfære. - 2019. - Udgave. 1 . - S. 49-58 .