Wayback maskine | |
---|---|
| |
URL | web.archive.org |
Site type | webarkiv |
Sprog) | engelsk |
Programmeringssprog | Java , Python |
Ejer | Internetarkiv |
Begyndelse af arbejdet | 24. oktober 2001 |
Land | |
Mediefiler på Wikimedia Commons |
Wayback Machine (fra engelsk - "Time Machine") er et gratis online arkiv af non-profit biblioteket " Arkiv af internettet ". Ved hjælp af søgerobotter arkiverer og gør Wayback Machine det meste af det "åbne" internet offentligt tilgængeligt [1] . Tjenesten blev lanceret i 1996, men blev først tilgængelig for offentligheden i 2001. I sine første 20 års eksistens katalogiserede og bevarede Wayback Machine en samling på mere end 286 milliarder websider. Arkiverede snapshots vises i HTML , JavaScript og CSS [2] format . Takket være de dokumenter, der er gemt i Wayback Machine, kan brugere spore ændringer, der sker på websteder og sammenligne forskellige versioner af redigeringer [3] . Fra juni 2022 giver Wayback Machine adgang til over 689 milliarder gemte websider [4] .
I 1989 skabte den engelske videnskabsmand Tim Berners-Lee World Wide Web - et system, der giver dig mulighed for at overføre data via computere, der er forbundet til internettet. Men med spredningen af World Wide Web er to hovedproblemer blevet identificeret. Den første var manglen på plads til at gemme alle data, hvilket gjorde, at mange dokumenter og websider blev slettet. Et andet problem var, at efter at have redigeret en webside (f.eks. af juridiske årsager), kunne brugerne ikke se dens originale version. Internet Archive, et amerikansk digitalt bibliotek , en non-profit organisation oprettet af programmører Brewster Cale og Bruce Galliat i 1996, forsøgte at løse disse mangler. I partnerskab med Alexa Internet ( et webindekseringsdatterselskab af Amazon ) påbegyndte "Arkivet" oprettelsen og lagringen af kopier af eksisterende websteder for at udvikle "universel adgang til viden". Organisationen gav gratis offentlig adgang til digitaliseret materiale såsom websider, bøger, lydoptagelser inklusive livekoncerter, videoer, billeder og software. Fra 2021 har Internet Archive hovedkvarter i San Francisco , i en tidligere kristen kirkebygning beliggende i Richmond -området . En journalist fra den lokale radiostation Kawl sammenlignede i 2019 arkivets kontor med et romersk tempel [5] [6] [7] . Organisationen har til formål at redde internettet fra udryddelse [8] .
Wayback Machine blev Arkivets mest berømte projekt. Onlinetjenesten blev opkaldt efter tidsmaskinen fra 1960'ernes animerede serie The Rocky and Bullwinkle Show . Det giver adgang til en digital samling på over 550 milliarder websider [3] [9] [10] . Wayback Machine-projektet blev tænkt som en løsning på problemet med en 404-fejl , hvilket betyder, at serveren ikke kan finde dataene på den anmodede adresse. Dette skyldes den såkaldte udryddelse af links - den voksende utilgængelighed af tidligere offentliggjorte data. For eksempel var den gennemsnitlige levetid for en webside i 1997 44 dage. I 2003 var dette tal 100 dage. En analyse fra 2008 af links til 2.700 digitale ressourcer, hvoraf de fleste ikke havde nogen trykte modstykker, viste, at omkring 8 procent af links holdt op med at fungere efter et år. I 2011, efter tre år, var 30 procent af linkene i samlingen brudt [11] . Takket være integrationen med Alexa kunne brugeren, der stødte på fejlmeddelelsen, få adgang til den arkiverede version af siden via den browserindlejrede værktøjslinje. Hvis en kopi af den utilgængelige side var til stede i Wayback Machine-databasen, ville en speciel knap lyse op. Samtidig kunne brugerne give browseren tilladelse til at se og registrere aktivitet - i dette tilfælde blev alle besøgte sider arkiveret på portalen [12] .
Wayback Machine blev lanceret i maj 1996, men blev først tilgængelig for offentligheden i 2001 - før det var al information optaget på digitale magnetbånd kun åben for et begrænset antal videnskabsmænd og forskere [13] . På tidspunktet for "åbningen" indeholdt arkivet mere end 10 milliarder arkiverede sider [3] . I december 2014 rapporterede Wayback Machine, at den havde sparet 435 milliarder websider på verdensplan [1] . Teknisk set er Wayback Machine-softwaren ikke et arkiv, men snarere en offentlig grænseflade til en begrænset delmængde af alle repositories [14] . Wayback Machine kan således ikke betragtes som en søgemaskine for organisationens samling, da den ikke søger i databasen på et andet stort virtuelt bibliotek - Open Library , som giver brugerne adgang til gratis digitale kopier af bøger, der downloades og arkiveres som en del af projektet [15] [16] .
Med lanceringen af Wayback Machine er Internet Archive blevet en af de mest populære og genkendelige online portaler og den førende webarkiveringstjeneste [3] [8] . I 1999 begyndte The Archive at udvide samlingen ud over arkivwebindhold for at give status til både digitaliserede og indfødte digitale ressourcer, herunder bøger, lyd, film, billeder, dokumenter, software og videospil [6] . Nogle scanninger udføres af arkivets egne søgerobotter, mens andre udføres af partnerorganisationer. Individuelle databaser kan erhverves gennem brugerdonationer og målrettede erhvervelser [16] . Grundlæggerne af organisationen sammenlignede selv deres samling med biblioteket i Alexandria [6] . Fra 2021 indeholdt Wayback Machine mere end 424 milliarder websider [14] - flere end dokumenterne i Library of Congress [17] [6] [16] .
Wayback Machine-platformen fungerer gennem to hovedelementer - søgerobotter (eller webcrawlere) og en grænseflade. Webcrawlere besøger, henter, downloader og arkiverer websider. Til gengæld får brugerne via grænsefladen adgang til onlinesamlinger [2] .
Wayback Machine Collection efter år | Arkiverede sider (i milliarder) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Indledningsvis blev arkivsamlingen genopfyldt af et browser - plug - in fra Alexa Internet , som automatisk fangede og gemte hver webside, efterhånden som den blev besøgt, og derefter overførte alle de indsamlede oplysninger til "internetarkivet". Brugere kunne også installere en gratis værktøjslinje, der gjorde det muligt for dem at kontrollere arkiveringsstatus for et udvalgt websted [16] .
I 2002 lancerede Arkivet sin egen open source søgerobot , Heritrix . Crawler-koder er skrevet ved hjælp af en kombination af C- og Perl -programmeringssprog . Derudover accepterer Internet Archive også scanningsdata fra andre donorer [6] . Scannede kopier af hjemmesider konverteres automatisk til filer på omkring 100 MB, som derefter gemmes på servere. Den samlede genopfyldningshastighed af arkivet er omkring 10 terabyte om måneden [19] .
Webcrawlere fanger versionen af webstedet, som det blev gemt, da det blev tilgået via URL'en. Robotter gennemgår regelmæssigt et stort antal websider, downloader, parser og gengiver HTML , JavaScript og CSS - sider rekursivt [2] . Crawler-mekanismen ligner søgemaskinernes arbejde - robotter søger uafhængigt efter portaler til arkivering gennem en stifinder, scanning af sider og relaterede websteder og danner således et netværk af portaler. På tidspunktet for oprettelsen af Internet Archive var world wide web så lille, at webcrawlere kunne krydse alle websteder i én session. Men over tid har den konstante vækst af online portaler og deres volatilitet gjort en fuldstændig bypass af hele netværket næsten umulig. Det er således ikke alle webstedsændringer, der registreres i Wayback Machine [8] . Internet Archive Guide specificerer ikke, hvordan robotterne finder og udvælger sider, der skal crawles, men angiver, at crawlere oftest dirigeres til de websteder, der er krydslinket fra andre portaler og er i det offentlige domæne. Webcrawleren starter med en webside og følger derefter hvert hyperlink på den pågældende webside for at gå til nye websteder. På hver af de nye websider gentager crawleren processen [14] . Det vil fortsætte, indtil arkiveringen er stoppet eller når den grænse, der er sat af scriptet [20] . Derudover kan hver bruger bruge en speciel formular på portalen og ringe til crawleren, som gemmer siden i den aktuelle tilstand [2] . Wayback Machine crawler kun offentlige websider og kan ikke få adgang til indhold, der er beskyttet med adgangskode eller placeret på en privat server [10] [14] [3] .
Wayback Machine-grænsefladen giver brugerne mulighed for at udføre to hovedhandlinger - at få adgang til historikken for ændringer på webstedet og at se alle de ændringer, der er foretaget på portalerne. Funktionen til at sammenligne forskellige versioner af websteder er også tilgængelig [12] [21] [17] [22] . For at gøre dette indtastes URL'en på den interessante portal i et særligt søgefelt, hvorefter Wayback Machine udsender en liste over arkiveringsdatoer. En stjerne efter nogle datoer bruges til at angive ændringer fundet på siden. URL'en på den arkiverede side starter med web.archive.org [23] [14] .
Alle kan gemme URL'er til arkivering, og med en gratis arkivkonto kan du oprette og arkivere eventuelle udgående eller eksterne links på hjemmesiden og få en oversigtsrapport [24] [24] .
I 2018 var Internet Archive-samlingen på mere end 40 petabyte eller 40 millioner gigabyte data, Wayback Machine gav adgang til cirka 63% af alt tilgængeligt materiale [25] . Fra februar 2020 havde Wayback Machine-arkivet over 900 milliarder URL'er og over 400 milliarder websider [26] . Fra juni 2021 gav Wayback Machine adgang til over 581 milliarder gemte websider [4] .
Wayback Machine-portalen bruges ofte på det juridiske område - advokater bruger tjenesten til at søge information om civile krav, straffesager, administrative sager og patentprocesser. Arkivversioner af websteder opnået gennem Wayback Machine kan bruges til at løse patentretlige spørgsmål eller etablere sanktioner for udgivelse af materiale, der siden er blevet fjernet fra nettet [2] [12] . På trods af den udbredte brug af Internet Archive-samlingen til at fremlægge beviser, har nogle amerikanske domstole nægtet at acceptere skærmbilleder af websider, med henvisning til den juridiske vanskelighed med at identificere det originale dokument og dets arkiverede version [27] . I 2018 afgjorde den amerikanske appeldomstol for det andet kredsløb , at skærmbilleder fra Wayback Machines arkiverede websider er juridisk bevismateriale, der kan bruges i retssager; tidligere blev en lignende afgørelse truffet af den amerikanske appeldomstol for det tredje føderale appelkredsløb [28] ; senere afgjorde den amerikanske appeldomstol for det syvende kredsløb også, at skærmbilleder fra webarkiver var tilladte elektroniske beviser [29] .
Takket være artikler, der er arkiveret i Wayback Machine, kan forfattere etablere retten til at åbne eller publicere [30] . For sociologer og historikere tilbyder Wayback Machine en værdifuld datakilde i stor skala til at analysere virksomhedens adfærd, salgsstrategier og sociale praksisser [1] [31] . Wayback Machine giver også adgang til open access -journaler . Siden begyndelsen af 2000'erne er 84 OA-tidsskrifter inden for naturvidenskab og omkring 100 flere inden for samfunds- og humaniora forsvundet fra internettet [32] [33] [34] .
Aktivister og forskere bruger portalen til at bekæmpe misinformation , som er blevet intensiveret siden valget af præsident Donald Trump i USA . Som svar på en stigning i modstridende udtalelser fra præsidentens administration har Arkivet oprettet en separat samling kaldet Trump Archive, der indeholder præsidentens tv-optrædener og tweets . Arkivet håber, at dets arkiv vil hjælpe andre med at identificere falsk information og kontrollere mistænkeligt indhold [35] [36] . Men i nogle tilfælde har individuelle aktivister hævdet, at ressourcer arkiveret af Wayback Machine tværtimod bidrog til spredningen af misinformation. Så med begyndelsen af coronavirus-pandemien brugte konspirationsteoretikere skærmbillederne gemt af portalen til at sprede falsk information om coronavirus [37] . Som en modforanstaltning implementerede Arkivet i november 2020 værktøjer til at kontrollere oplysninger for ægthed i Wayback Machine. For at gøre dette samarbejdede nonprofitorganisationen med forskellige faktatjekvirksomheder for at give brugerne grunde til at fjerne en bestemt side fra samlingen. Når man åbner en arkiveret version af et websted, giver Wayback-maskinen brugere information om årsagen til dens sletning i form af et gult banner øverst på skærmen. Hvis en webside mistænkes for at være involveret i en desinformationskampagne, giver Wayback Machine detaljer om den organisation, der foretog verifikationen, og et link til dens rapport [38] .
I nogle tilfælde har information indhentet gennem Wayback Machine været med i store skandaler. Så ved hjælp af portalen blev det fundet ud af, at den officielle repræsentant for det amerikanske sundhedsministerium, Michael Caputo , offentliggjorde racistiske og nedsættende kommentarer om det kinesiske folk i en række allerede slettede tweets [ 39] . Derudover opbevarer Wayback Machine en kopi af en slettet besked fra en side med titlen "Rapporter fra Igor Ivanovich Strelkov " på det sociale netværk VKontakte om det nedskudte An-26-fly, som i virkeligheden viste sig at være en passager Boeing 777 [40 ] [41] . I maj 2021 opdagede Bellingcat , at det amerikanske militær i Europa brugte børns mobilhukommelsesapps til at gemme klassificerede data. På grund af forkert indstillede privatlivsindstillinger har andre brugere fået adgang til følsomme oplysninger. Efter at lækagen blev opdaget, fjernede militæret alle kortene, men de forblev på Wayback Machine [42] .
Internetarkivet anmoder ikke om tilladelse til at kopiere websteder før fjerndataindsamling, men fjerner eller begrænser adgangen til arkiveret materiale efter anmodning. Tidligere fik webstedsejere mulighed for at "fravælge" arkivering gennem standard robots.txt -filen , som udelukker websteder eller deres individuelle sider, mapper, fra listen over portaler for webcrawlere [8] [43] . Fra 2022 accepteres anmodninger om at fjerne websteder eller deres sider fra arkivet kun, efter at en direkte anmodning fra administrationen af webstedet er blevet fjernet. Men på grund af opbevaring af andre data er Internet Archive i en juridisk sårbar position [44] . For eksempel var Wayback Machine i 2005 involveret i en varemærketvist mellem Healthcare Advocates og Health Advocate. Sidstnævnte brugte Wayback Machine til at få adgang til Healthcare Advocates-websider, der går tilbage til 1999 i et forsøg på at finde information, der kunne understøtte sagen. Som svar sagsøgte Healthcare Advocates både Health Advocate og The Archive med påstand om, at Arkivet overtrådte Digital Millennium Copyright Act . Efterfølgende blev sagen afgjort uden for retten [45] .
I 2002 fjernede Arkivet fra sit system links til arkiverede kopier af Xenu.net-portalen ejet af kirkekritiker Andreas Heldal-Lund. Fjernelsen skete på anmodning af advokater for Scientology Kirken , som hævdede ejerskab af uddrag fra Kirkens dokumenter offentliggjort på hjemmesiden [46] [47] .
Forskere og aktivister har kritiseret Wayback Machine og Internet Archive for at forsøge at bevare alt online materiale, hvoraf meget er af ringe værdi. Ifølge nogle forskere skyldes det den forældede politik fra Arkivet, som blev grundlagt i slutningen af 1990'erne - dengang, ved begyndelsen af oprettelsen af internetarkiver, mente man, at internetdata skulle opbevares fuldt ud. Men med oprettelsen af mange endagssider har mange forskere og aktivister ændret mening [48] . Andre kritikpunkter vedrører tekniske begrænsninger af tjenesten - Wayback-maskinen tillader ikke, at visse JavaScript-elementer gemmes og behandles, og den kan også skabe arkiverede sider, der indeholder ødelagte links, manglende grafik eller på anden måde ufuldstændige [49] . Crawlere fanger kun et statisk øjebliksbillede af webstedet - Java- eller Flash-baserede portalfunktioner virker ikke. Det betyder, at det meste af funktionaliteten på den originale webside går tabt [8] .
I 2015 besluttede Roskomnadzor at blokere Wayback Machine for at kopiere en side med teksten "Solitary Jihad in Russia" indeholdende information om "teorien og praksisen om guerilla-modstand." Den tilsvarende side i Internet Archive blev føjet til det officielle register over forbudte websteder i Rusland den 23. juni 2015, på grund af hvilket nogle russiske internetudbydere blev tvunget til fuldstændigt at blokere arkivets websted [50] [51] [52] . Adgang til Wayback Machine blev genåbnet i 2016, efter at de forbudte videoer blev fjernet fra portalen [53] .
I 2019 anlagde repræsentanter for Internet Copyright Association (ACAPI) en række retssager mod Wayback Machine-tjenesten for krænkelse af ophavsretten. Repræsentanter for AZAPI bad byretten i Moskva om at beslutte om permanent blokering af portalen på Ruslands territorium, men fra august 2020 fortsatte Internet Archive stadig sit arbejde [54] [55] [56] [57] .
I 2017 blev portalen blokeret i Indien og Kirgisistan for indholdet af "ekstremistiske materialer" [58] [59] [60] . Fra 2021 er siden blokeret i Kina [61] .
I juni 2022 idømte Tagansky District Court i Moskva Internet Archive en bøde på 800.000 rubler for ikke at fjerne en video om, hvordan man laver en molotovcocktail fra WayBack Machine [62] .