Internetarkiv

Internetarkiv
URL archive.org
Kommerciel Ingen
Site type universel elektronisk bibliotek
Sprog) engelsk
Serverplacering  USA Egypten Holland
 
 
Ejer Internetarkiv
Forfatter Brewster Cale [1]
Begyndelse af arbejdet 24. januar 1996
Nuværende status arbejder
omsætning
  • 36,7 millioner USD ( 2019 ) [2]
Antal medarbejdere
  • 200 mennesker
Tagline universel adgang til al viden
Land
 Mediefiler på Wikimedia Commons

Internet Archive (AI) ( Eng.  Internet Archive ) er en non-profit organisation grundlagt i 1996 i San Francisco af den amerikanske programmør Brewster Cale . Det erklærede hovedformål med Arkivet er at give offentlig adgang til oplysninger, der er akkumuleret på internettet. AI-samlingen består af mange undersamlinger af arkiverede websteder, digitaliserede bøger, lyd- og videofiler, spil og software.

Arkivets største projekter omfatter Wayback Machine , lanceret i 2001, som arkiverer og giver adgang til det meste af det "åbne" internet. Brugere af Wayback Machine kan spore de ændringer, der finder sted på udvalgte websteder og sammenligne forskellige versioner af redigeringer [4] . Et andet stort AI-initiativ er Open Library , et åbent onlinebibliotek, hvorigennem brugere kan låne digitaliserede versioner af bøger i 2 uger [5] . Arkivet tog også initiativ til oprettelsen af ​​Archive It, en webbaseret arkiveringstjeneste, der hjælper organisationer og enkeltpersoner med at indsamle, skabe og bevare samlinger af digitalt indhold. I begyndelsen af ​​maj 2022 bestod Internet Archive-samlingen af ​​mere end 35 millioner bøger, 7,9 millioner film, videoer og tv-shows, 842 tusinde programmer, 14 millioner lydfiler, 4 millioner billeder, 2,4 millioner tv-klip , 237 tusinde koncerter og over 682 milliarder websider på Wayback Machine .

Til langtidslagring af data anvender "Arkivet" et system af spejlsteder placeret på geografisk fjerne steder [6] . Kopier af Wayback Machine findes i San Francisco , Richmond , Alexandria , Amsterdam . For effektiv fillagring bruger "Arkiv" filformatet ( ARC ), som giver dig mulighed for at gemme filer uden tab ved arkivering [6] .

Historie

Oprettelse

MIT alumnus Brewster Cale spillede en stor rolle i oprettelsen af ​​"Internet Archive" . Mens han studerede, havde Cale og hans klassekammerater adgang til internettets prototype, ARPANET . En dag besluttede de at se, hvad der ville ske, hvis de lagde separate fællesskaber (på det tidspunkt - små postlister og Usenet-grupper ) i et fælles virtuelt rum - en enkelt postliste. Som programmøren senere huskede: "Det var kaos, anarki og desinformation - det var forfærdeligt!" Men det var på det tidspunkt, at Cale indså potentialet i netværket i at gøre det muligt for folk fra forskellige institutioner at kommunikere med hinanden uden forsinkelser og friktion. Takket være eksperimenter med ARPANET fik programmøren idéen til at skabe det første digitale lager [7] .

Startende i 1980'erne var Cale med til at stifte Thinking Machines Corporation mini-supercomputerfirmaet , og i 1989 grundlagde han det første webbaserede informationssøgningssystem , WAIS , og et firma af samme navn, som han solgte i 1995 til America Online for 15 USD mio.. Efterfølgende blev WAIS prototypen på moderne søgemaskiner og et af de første programmer, der indekserede en stor mængde information. Samtidig flyttede Brewster fra Boston til San Francisco , en by der på det tidspunkt lige var begyndt at blive centrum for Silicon Valley [8] [9] [10] [11] .

I denne periode blev Cale interesseret i at arkivere hele internettet. Til disse formål oprettede han i 1996 to indbyrdes forbundne organisationer - NPO Internet Archive og det kommercielle webarkiveringssystem Alexa Internet , som blev skabt sammen med Bruce Gilliat og opkaldt efter Library of Alexandria . Alexa Internet fik til opgave at finansiere et ikke-kommercielt projekt med indtægter fra webarkivering . Derudover blev alle data arkiveret via Alexa også automatisk gemt i samlingen. Den oprindelige investering i Alexa Internet-projektet beløb sig til omkring 1 million dollars. Allerede et år efter oprettelsen udviklede Internet Archive og Alexa i fællesskab et browser plug -in - programmet identificerede og gemte automatisk "værdifulde" websider og rangerede dem efter antal besøg og krydslinks og klik [ 12] . Cyklussen med at oprette og arkivere sider var otte uger, hvorefter scanningsprocessen blev genstartet. Indbygget i browseren hjalp Alexa- værktøjslinjen brugere med at navigere på nettet, mens de katalogiserede det, og indsamlede metadata om, hvordan sider relaterer til hinanden. Til at begynde med blev magnetbånd brugt til datalagring - på trods af at de nyligt dukkede disklager vandt med hensyn til at spare plads og bekvemmelighed, var bånd omkring 10 gange billigere [13] [14] [15] [8] [12] .

Målet med Internet Archive var at bekæmpe linkudryddelse - de fleste af de websider, der blev oprettet, var ikke holdbare. Alle indsamlede data blev gemt i Internet Archive-samlingen [12] [6] . Således blev 72% af links offentliggjort i 1998 "døde" i 2021 [16] [17] . For at demonstrere vigtigheden af ​​at scanne og vedligeholde kopier af websider, iværksatte The Archive et fælles projekt med Smithsonian Institution i Washington for at indsamle skærmbilleder fra hjemmesiden af ​​alle præsidentkandidater fra 1996 . Efterfølgende blev disse data inkluderet i arkivet for instituttet om partier og kandidater, som indsamler data om amerikanske politiske partier og alle præsidentkandidater [ 12] [6] [6] .

1997-1999

I 1998 donerede Alexa Internet 2 terabyte arkiveret indhold over to år, eller 500.000 websteder , til Library of Congress . På det tidspunkt nævnte Brewster Keil, at han håbede at inspirere Library of Congress og andre forskningsbiblioteker til at bevare viden ikke kun på tryk, men også online [18] [19] . I 1998-1999 indgik Internet Archive og Alexa en kontrakt med Microsoft og Netscape Communications om at inkludere deres software i browserne Internet Explorer og Netscape Navigator . Aftalerne gjorde det muligt at udvide infrastrukturen i Arkivet betydeligt - Alexa blev implementeret på 90% af datidens personlige computere . Ved udgangen af ​​1998 besluttede arkivets ledelse at skifte fra magnetbånd til harddiske [12] [20] . I 1999 modtog Bruce Cale et tilbud fra Amazon om at sælge hende det kommercielt succesrige Alexa Internet for 250 millioner dollars, hvilket skaberen gik med til. Efter købet fortsatte Alexa stadig med at sende data til "internetarkivet". Samme år oprettede Andy Jewel en ny webcrawler , der giver dig mulighed for samtidig at udføre flere scanninger på én gang og gemme resultaterne i ARC-format . Samme år introducerede NPO en ny crawler udviklet af Jewell, som gjorde det muligt for dem at indsamle ikke kun websider, men også andre typer data, såsom animation. Gennem et partnerskab med Rick Prelinger fra Prelinger Archives blev et projekt afsluttet med at digitalisere 1.000 film (samlet værdi af $ 160.000 ) og arkivere tv-nyhedsudsendelser [12] [21] . I 2005 erhvervede Library of Congress Prelinger Archives , materialerne er stadig tilgængelige via "Arkivet" [22] .

2000–2010

Mellem 2000 og 2001 tredobledes størrelsen af ​​arkivet til omkring 40 terabyte [12] . Samtidig stod ledelsen over for spørgsmålet om at give adgang til den indsamlede samling. Nogle data var tilgængelige for offentligheden, men krævede viden om Unix fra brugeren . For at åbne op for adgang til information, oprettede Alexa-programmører Wayback Machine , en onlinetjeneste, hvorigennem brugere kunne søge efter den URL , de indtastede. Tjenesten blev lanceret den 24. oktober 2001 og tilbød adgang til mere end 10 milliarder arkiverede websider og 100 TB data. På det tidspunkt blev data gemt på Hewlett-Packard og uslab.com servere, der kørte FreeBSD og Linux operativsystemer . Hver server havde omkring 512 MB RAM og lidt over 300 GB harddiskplads [12] . I december 2014 rapporterede Wayback Machine, at den havde sparet 435 milliarder websider på verdensplan [23] . Fra et teknisk synspunkt er WM ikke et arkiv, men snarere en offentlig grænseflade til en begrænset delmængde af alle repositories [24] [25] .

I forbindelse med det amerikanske præsidentvalg i 2000 indledte Internet Archive et fælles projekt med Library of Congress for at indsamle information om kandidaters politiske kampagner [12] . Et andet stort projekt i den periode var 9/11-arkivet, dedikeret til begivenhederne af samme navn i 2001. I samarbejde med Library of Congress har Arkivet indsamlet billeder fra over 30.000 udvalgte websteder frem til 1. december 2001, samt hundredvis af timers tv-dækning [12] [26] [27] .

I 2002 gennemførte "Arkivet" flere større projekter på én gang, hvilket udvidede samlingen markant. Den første og største af disse var spejlstedet for biblioteket i byen Alexandria . I alt blev servere med mere end 100 TB data sendt til Egypten med en samlet værdi på omkring $5 millioner [12] . Internet Archive donerede også 10 milliarder websider indsamlet fra 1996 til 2001, 2.000 timers egyptiske og amerikanske tv-udsendelser og 1.000 gamle film til Alexandrina Library [28] [29] .

I sommeren 2002 samarbejdede Internet Archive med Carnegie Mellon Center om Million Books Project (MBP) for at digitalisere over en million bøger og gøre dem tilgængelige til gratis læsning på internettet 12] . Projektet blev gennemført med fuld deltagelse af andre amerikanske universiteter og digitale samlinger i Indien , Kina , Egypten . Penge til MBP blev tildelt af US National Science Foundation (3,63 millioner USD), Indiens regering (25 millioner) og Kinas undervisningsministerium (8,46 millioner). Til gengæld stillede Internetarkivet udstyr, personale og midler til rådighed til at digitalisere de nødvendige dokumenter. Efterfølgende blev den samlede samling gjort tilgængelig gennem spejlsider i Indien, Kina, Carnegie Mellon Universitys portaler og Internet Archive [30] . I december 2004 annoncerede AI et nyt samarbejde med flere internationale biblioteker om at placere digitaliserede bøger i open access-arkiver [31] . Det andet store projekt i denne periode var Bookbombil , et mobilt bibliotek, der trykker værker fra arkivsamlingen efter behag. Bogmobilen bevægede sig rundt i San Francisco og kunne efter anmodning fra brugere udskrive omkring 20 sider i minuttet, hvorefter projektets frivillige samlede dem i hånden, lagde dem i et omslag og bandt dem ved hjælp af en varmelim påført sidernes ryg. En guillotinepapirskærer [32] [12] blev brugt til at klippe bogen .

I 2003 fortsatte "Arkivet" med at samarbejde med nationale biblioteker. I juli deltog AI i oprettelsen af ​​International Internet Preservation Consortium , en gruppe på 12 amerikanske nationale biblioteker, der blev enige om at gå sammen for at udvikle standarder, værktøjer og praksisser til at erhverve, bevare og skabe tilgængelig viden og information fra internettet. For at nå dette mål indsamler konsortiet internetindhold fra hele verden på en sådan måde, at det kan arkiveres og beskyttes, og fremmer udvikling og brug af fælles værktøjer, metoder og måder til at fremme udviklingen af ​​nationale biblioteker. Samme år lancerede Internet Archive Heritrix , en Java -baseret open source webcrawler , som senere blev adopteret af mange institutioner rundt om i verden [12] [33] .

I 2004 begyndte Internet Archive at migrere data til tredje generations hardware, PetaBox . PetaBox er baseret på Linux -operativsystemet og leverer RAID -lagring til en pris på cirka $2.000 pr. terabyte eller $2 millioner pr . petabyte . Det første nye udstyr blev installeret i Amsterdam -afdelingen af ​​"Arkiv" - EU-webarkivet, som indsamler dokumenter i landene i Den Europæiske Union og også fungerer som et spejl af hovedsamlingen [12] [33] [34 ] .

Internetarkivet sigter mod at give universel adgang til al menneskelig viden og blive et massivt internetbibliotek. I juni 2007 udpegede staten Californien Internet Archive til et bibliotek, hvilket gjorde det tilgængeligt for føderal finansiering og inkorporerede det i et netværk af organisationer dedikeret til at bevare åben adgang til information [6] [35] .

I begyndelsen af ​​2000'erne købte Arkivet en gammel kristen kirke i San Francisco og konverterede den til et bibliotek [6] . I 2009 havde organisationen mindre end fem ansatte involveret i drift og vedligeholdelse af websteder [35] .

2010-2020'erne

I 2012 var Arkivets samling vokset til 10 petabyte, med over 1,5 millioner lydfiler og over en million videoer i det offentlige domæne [36] . I 2014 tjente Arkivet fra to til tre millioner besøgende om dagen, og samlingen beløb sig til mere end 7 millioner tekster, 2,1 millioner lydoptagelser og 1,8 millioner videoer [37] . I 2016 fejrede Arkivet 20 års jubilæum. På dette tidspunkt havde arkivsamlingen 370 millioner hjemmesider og 273 milliarder websider [38] .

I 2013 udbrød der brand i Arkivets kontor, der ødelagde noget af udstyret, men samlingen blev ikke beskadiget [39] . Samme år, som svar på Edward Snowdens afsløringer af National Security Agency , introducerede Internet Archive kryptering for læsernes webtrafik [40] .

Efter Donald Trumps sejr i det amerikanske præsidentvalg i 2016 besluttede Arkivet at have en kopi af sin samling i Canada , hvis Trump beslutter sig for at stramme censur- eller injurielovene - Brewster Cale opfordrede i sin blog tilhængere til økonomisk at hjælpe med at købe det nødvendige udstyr, da flytningen vil koste adskillige millioner dollars [41] .

I 2019 annoncerede Google , at det snart ville slette oplysningerne fra det lukkede sociale netværk Google+ , dog underskrev Internet Archive og Archive Team en aftale om at bevare offentlige indlæg på deres platforme [42] - alene i de første fire uger af arkivering , 1,56 petabyte data blev indsamlet [43] .

I 2018-2019 gennemførte Arkivet en række fællesprojekter med Wikipedia . I 2018 erstattede Arkivet en række døde links i encyklopædien med dem, der allerede var blevet arkiveret i Wayback Machine - en speciel bot beregnede døde links, som efterfølgende kopierede og opdaterede dem med henvisning til de arkiverede kopier. I løbet af projektets første år blev 9 millioner forbindelser genoprettet [44] . I 2019 igangsatte Arkivet et projekt for at forbedre arbejdet med Wikipedia - portalen gav et eksempel på bøger, der blev refereret til i artikler. For at gøre dette kunne brugerne klikke på bogens titel og se et to-siders materiale. I det første år af tjenestens eksistens forvandlede Arkivet 130.000 links i encyklopædiartikler til direkte links til 50.000 bøger, som organisationen scannede og gjorde tilgængelige for offentligheden. I sidste ende håber AI at give brugerne mulighed for at se og låne alle de bøger, der er citeret af Wikipedia [45] . For at tjenesten skal afbilde det citerede materiale korrekt, skal brugere af encyklopædien formatere citatet korrekt med angivelse af sidetal [46] [47] .

I 2020 lancerede Internet Archive et partnerskab med Brave - nu kan browseren automatisk registrere manglende tilgængelighed af en webside og til gengæld tilbyde en backup gennem Wayback Machine -tjenesten . Funktionen er tilgængelig for fejl: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 og 526 [48] . Samme år blev der annonceret samarbejde med Cloudflare , som tilbyder Always On-funktionen, som cacher statiske versioner af sites. Partnerskabet gjorde det muligt for Wayback Machine at finde endnu flere websteder at gennemgå [49] .

COVID-19-pandemien og kampen mod desinformation

Internetarkivet går aktivt ind for kampen mod desinformation . I 2019 afholdt organisationen sammen med Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic en konference for at dele erfaringer om praksisser til at bekæmpe bevidst falsk information [50] . Siden begyndelsen af ​​COVID-19-pandemien i marts 2020 har konspirationsteoretikere brugt skærmbilleder gemt af portalen til at sprede falsk information om coronavirus [51] . For eksempel blev der publiceret en artikel i Medium om, at 21 millioner mennesker døde af COVID-19 i Kina. Efter at denne artikel begyndte at blive bredt distribueret på Facebook , blokerede det sociale netværk linket. Artiklen blev dog bevaret i "Arkivet", og brugerne begyndte at distribuere den gennem Wayback Machine [52] . Som en modforanstaltning implementerede Internet Archive i november 2020 værktøjer til at kontrollere oplysninger for ægthed i Wayback Machine. Når man åbner en arkiveret version af et websted, giver Wayback-maskinen brugere information om årsagen til dens sletning i form af et gult banner øverst på skærmen. Hvis en webside er mistænkt for at være involveret i en desinformationskampagne, giver Wayback Machine detaljer om den organisation, der foretog verifikationen, samt et link til dens rapport [53] [54] [55] . En faktatjektjeneste giver brugerne mulighed for bedre at forstå, hvorfor visse sider blev fjernet eller ændret på et givet tidspunkt. Bidragydere til faktatjek indsendt til Wayback Machine inkluderer FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory og andre. Internet Archive forklarede årsagerne til at tilføje faktatjek til disse sider, idet det sagde: "Vi forsøger at bevare vores digitale historie, men vi anerkender udfordringerne ved at give adgang til falsk og vildledende information fra en række forskellige kilder" [56] .

Opbevaring

I anden halvdel af 1990'erne var opbevaringsløsninger dyre. For at løse dette problem brugte Internet Archive magnetbånd i sin første generation af infrastruktur. I 2004 udviklede Arkivet et billigt og kraftfuldt lagringssystem til store mængder data - PetaBox, som kan rumme en petabyte eller en million gigabyte data [6] [12] . Til langtidsopbevaring anvender "Arkivet" et system af spejlsteder placeret på geografisk fjerne steder [6] . Kopier af Wayback Machine findes i San Francisco , Richmond , Alexandria , Amsterdam . Filerne gemmes i formatet ( ARC ). Hvert dokument i ARC-format er omkring 100 MB i størrelse og indeholder flere filer, der er opnået under scanning. Hvert indlejret element indeholder metadata om filen og dens søgning: filnavnet (dens URL), dens størrelse, indholdstype, dato og tidspunkt for udtrækning og navnet på den organisation, der modtog den [6] . Af omkostningsmæssige årsager gemmer "Arkiv" data på ATA -diske placeret i en pizzaboksformfaktor , der rummer fire diske, hvoraf den ene er en Linux OS-startdisk, og den anden gemmer data konfigureret under JBOD . Hvert rack har 40 lagernoder. I slutningen af ​​2000'erne indeholdt San Francisco-klyngen alene omkring 36 stativer [57] [58] .

Webarkivering

Arkivsamlingen består af mange undersamlinger skabt af forskellige organisationer, hver med en forskellig tilgang til webarkivering. Nogle af dataene administreres direkte af Arkivet, mens andre administreres af organisationens mange partnere [59] . I de første år var Alexa Internet -webcrawleren hovedkilden til almindelige data . Men med stigningen i mængden af ​​behandlet trafik indså ledelsen af ​​NPO behovet for at introducere en storstilet og let tilpasselig søgerobot. Men de programmer, der fandtes på markedet, havde ikke tilstrækkelig kraft og kapacitet til bred og dyb scanning af internettet. Det grundlæggende punkt var softwarens åbenhed , som ville fremme udviklingen af ​​samarbejde mellem institutioner, der er interesserede i at arkivere internettet. I første halvdel af 2003 begyndte Arkivet arbejdet med udviklingen af ​​en ny open source-crawler kaldet Heritrix . Crawleren blev skrevet i Java og blev udviklet af International Consortium for the Preservation of the Internet og andre partnerbiblioteker og -institutioner. De samme krav blev stillet til Heritrix som til Alexa Internet-crawleren - robotten skal adlyde alle crawlinstruktioner, der er fastlagt i robots.txt -filen på webstedet og undgå aggressiv arkivering, som kan hindre driften af ​​portalen. Derudover bør alle filer, der fanges af scanneren, kombineres til større filer for at lette administrationen og adgangen. Crawleren begynder at fange sider, der starter fra allerede kendte URL'er og følger derefter links på hvert websted [6] [33] . Robotten analyserer og følger indlejrede links og tilføjer derefter alle URL'er til listen over filer, der skal udpakkes. Den gentager derefter denne proces med følgende links og kontrollerer, at alle gemte websteder er "fanget" [6] . Heritrix har en række begrænsninger - den kan ikke scanne det dybe web eller noget materiale i databaser eller sider, der kræver godkendelse for at få adgang. Robotten vil heller ikke gennemgå adgangskodebeskyttede websteder og vil adlyde undtagelserne beskrevet i robot.txt. Også scanning med stor besvær behandler JavaScript -elementer , streamingmedier , billedkort [60] .

Alexa Internet bruger sine egne algoritmer til at scanne internettet og analyserer oftest websteder baseret på besøgsstatistikker og antallet af links, der fører til dem. Derfor, hvis brugere ønsker at gemme deres eget websted separat, kan de gemme siden gennem en speciel værktøjslinje, der er indlejret i Alexa. Siden 2010 har "Internet Archive" udført Worldwide Web Crawling over det globale netværk og indsamlet webelementer, sider, websteder og dele af websteder fra hele internettet. Fra marts til december 2011 fangede Worldwide Web Crawling 2,7 milliarder snapshots og 2,3 milliarder unikke URL'er fra 29 millioner websteder [59] . Hver gennemgang starter med en liste over specifikke URL'er, kendt som "kildelister", og følger også en separat algoritme, der bestemmer dybden af ​​gennemgangen. De fleste websteder vil blive kapret af kun én, men individuelle portaler (såsom nyhedswebsteder) kan blive arkiveret oftere gennem andre gennemgange [59] .

I 2013 igangsatte Internet Archive sammen med Wikipedia og WordPress programmet Archive No More 404, som konstant overvåger portaler for døde links. Efterfølgende sluttede GDLT [61] sig til programmet . Som en del af dette projekt skabte Arkivet i 2016 sammen med Mozilla Firefox et plugin, der giver brugerne mulighed for at se "døde" sider, hvis de er blevet arkiveret [62] . Disse samarbejder har i høj grad udvidet samlingen med artikler og materialer om aktuelle begivenheder. Arkivet gemmer også data om websider scannet af Alfred Sloan Foundation og Alexa, NARA og Internet Memory Foundation , DNS - registre indeholdende mere end 2,5 milliarder poster siden 2013. Også mange specialiserede arkiver gemmer de endelige skærmbilleder af deres sider i Internet Archive-samlingen. For eksempel inkluderer de GeoCities og Wretch [59] .

Gennemgange kan være rettet mod både en engangs "fangst" af webstedet for at sikre, at mindst én kopi af portalen bevares, eller de kan designes til ofte at genscanne en lille delmængde af manuelt valgte websteder med et regelmæssigt interval - scanningsfrekvensen afhænger direkte af, hvor populær siden er [59] .

Wayback Machine

Wayback Machine er en gratis onlinetjeneste, der giver adgang til internetarkivets webarkiver. Tjenesten blev først tilgængelig for offentligheden i 2001. I de første 20 års eksistens katalogiserede og bevarede Wayback Machine en samling på over 286 milliarder websteder. Arkiveringssnapshots understøtter sider med HTML , JavaScript og CSS [63] . Gennem Wayback Machine kan brugere spore webstedsændringer og sammenligne forskellige versioner af redigeringer [64] . Fra maj 2022 gav Wayback Machine adgang til over 682 milliarder gemte websider [4] [65] . I 2017 introducerede Internet Archive en moderniseret version af Wayback Machine [66] . Teknisk set er Wayback Machine-softwaren ikke et arkiv, men snarere en offentlig grænseflade til en begrænset delmængde af alle depoter [24] . Platformen drives af webcrawlere og brugere, der tilføjer deres egne websteder [63] [67] [68] [69] [70] ved at indtaste URL'en på den interessante portal [71] [24] [35] [72] .

Alle kan gemme URL'er til arkivering, og med en gratis arkivkonto kan du oprette og arkivere alle udgående eller eksterne links på den originale side [73] [73] . Ifølge en undersøgelse fra 2014 går størstedelen af ​​Archive-brugerne til Wayback Machine på jagt efter engelsksprogede materialer, som de ikke kan finde på "live"-segmentet af internettet [74] .

Arkiver det

I 2006 introducerede Arkivet en tjeneste kaldet Archive It, en webbaseret arkiveringstjeneste, der hjælper organisationer og enkeltpersoner med at indsamle, skabe og opbevare deres egne samlinger af digitale data. Arkiv Det giver webstedscrawling, dataorganisering og -styring, tekniske rapporter til crawlovervågning, en grænseflade til indtastning af webstedets metadata og fuldtekstsøgning . Tjenesten drives af Heritrix [60] [75] open source-software .

Alt indhold er hostet i internetarkivets datacentre . Mere end 200 samlinger relateret til historie, kultur, videnskab, menneskerettigheder og andre socialt vigtige emner er tilgængelige for brugere [65] [75] [59] .

Human Rights Web Archive

Human Rights Web Archive (HRWA) er en samling af arkiverede websteder fra mere end 600 ikke-statslige organisationer, nationale menneskerettighedsinstitutioner og blogs, der dækker emnet menneskerettigheder på den ene eller anden måde . HRWA er blevet sammensat af forskellige ikke-statslige organisationer, nationale menneskerettighedsinstitutioner og enkeltpersoner. Oprettelsen af ​​HRWA blev ført i spidsen af ​​bibliotekerne og informationstjenesterne ved Columbia University og dets Center for Human Rights Documentation and Research (CHRDR) med støtte Andrew W. Mellon Foundation . Dataindsamlingen begyndte i 2008, hvor menneskerettighedseksperter fra hele verden identificerede de nødvendige portaler. Fra 2022 er samlingen løbende blevet opdateret. Hjemmesider for mellemstatslige organisationer som f.eks. FN var ikke inkluderet i kompileringen. Samlingen omfatter over 711 hjemmesider, hvoraf over 50 millioner er søgbare [65] . Dataindsamling begyndte med et pilotprojekt i 2008, hvor websteder blev gennemgået kvartalsvis ved hjælp af Archive It-tjenesten [76] . Kopier af samlingerne opbevares på Internet Archive og Columbia University Library. For 2022 inkluderede HRWA mere end tusind steder og 50 millioner dokumenter [65] [77] .

Overtag Wall Street

Siden starten på en række protester i New York City kaldet " Occupy Wall Street " i 2011, der opfordrede til social og økonomisk lighed, har medlemmer af Archive It-teamet og medlemmer af online-fællesskabet frivilligt identificeret og registreret alle ressourcer relateret til bevægelsen . Samlingen omfatter hjemmesider, blogs, sociale portaler og nyhedsartikler fra traditionelle eller alternative medier [65] . Oplysninger om protester uden for New York blev indsamlet af Roy Rosenzweig Center for History and New Media ved George Mason University [78] [79] [80] .

Bogsamling

Antal af alle tekster
(17. maj 2022)
34 739 370 [81]
Sprog Antal tekster
engelsk 25 779 040
fransk 740 679
Deutsch 727 010
hollandsk 722 451
kinesisk 568 727
arabisk 475 878
italiensk 396 364
spansk 311 750
japansk 154 282
græsk 144 773
latin 136 532
Urdu 98 953
Russisk 76 979
portugisisk 71 961

Åbn Content Alliance

I 2005 påbegyndte Arkivet oprettelsen af ​​Open Content Alliance (OSA) - et konsortium af organisationer og virksomheder, der i fællesskab beskæftiger sig med digitalisering af bibliotekssamlinger og placere dem i det offentlige domæne. Ud over Internet Archive deltog Yahoo , University of California, University of Toronto , National Archives of Great Britain og andre i projektet [82] . Microsoft [83] var også medlem af OCA , men i 2008 annoncerede virksomheden, at den reducerede sin investering i et projekt om digitalisering af bøger. Ved at gøre det ophævede Microsoft alle kontraktmæssige begrænsninger på bøger i det offentlige domæne og tillod Arkivet at beholde al den nødvendige hardware [84] [85] . Microsofts beslutning tvang arkivet til at lede efter nye finansieringskilder [86] .

Fra maj 2022 tilbød Arkivet mere end 35.000.000 bøger og tekster med åben adgang. Der er også en samling på 2,3 millioner moderne e-bøger tilgængelig for alle registrerede brugere [5] . Brugere kan søge efter indhold, medietype, årstal, emne og emne. Hovedsiden af ​​bogsektionen viser også samlinger sorteret efter visninger, titel, udgivelsesdato og forfatter. Arkivet har samarbejdet med over 1.100 biblioteksinstitutioner for at skabe bogsamlingen, såsom Boston Public Library , Library of Congress og andre. Under partnerskabet blev forskellige typer medier digitaliseret, herunder mikrofilm, magasiner og serieudgivelser, hovedsageligt på engelsk, hollandsk , tysk , fransk , arabisk , italiensk . Omkring 3.500 bøger blev scannet om dagen 18 steder rundt om i verden. Bøger udgivet for over 95 år siden er tilgængelige til download [87] . Denne digitale distributionsmekanisme bruger de samme sikkerhedsteknologier, som udgivere bruger til deres trykte e-bøger distribueret af kommercielle virksomheder såsom OverDrive, Inc. og Google Books [88] .

Åbn bibliotek

Internetarkivet fungerer som et onlinebibliotek og udsteder digitale kopier til brugerne, forudsat at der ikke er mere end én digital kopi af en bog i omløb ad gangen [25] . I 2006 blev Open Library lanceret , en onlinetjeneste, der giver brugerne mulighed for at læse elektroniske kopier af bøger i overensstemmelse med " controlled digital lending " (eller CDL), som begrænser antallet af samtidige lån af et enkelt scannet billede. Internet Archive omgår traditionelle former for licensrestriktioner - kopier tages fra fysiske kopier i stedet for at købes digitalt, så projektet indgår aldrig en licensaftale med en udgiver [89] .

Antal tekster efter årti
19. århundrede
Årti Antal tekster [90]
(17. maj 2022)
1800-tallet 90 206
1810'erne 111 212
1820'erne 177 361
1830'erne 230 717
1840'erne 269 ​​639
1850'erne 333 956
1860'erne 352 204
1870'erne 377 678
1880'erne 496 878
1890'erne 632 531
20. århundrede
Årti Antal sms'er
(17. maj 2022)
1900-tallet 836 646
1910'erne 849 519
1920'erne 623 578
1930'erne 557 552
1940'erne 631 979
1950'erne 671 795
1960'erne 806 789
1970'erne 2 672 101
1980'erne 1 320 636
1990'erne 1 645 563
XXI århundrede
Årti Antal sms'er
(17. maj 2022)
2000'erne 2033226
2010'erne 3 543 643

Medier

Antal lydfiler
(17. maj 2022)
14 099 859 [91]
Antal billeder
(17. maj 2022)
4 301 137 [92]
Antal videofiler
(17. maj 2022)
7 930 236 [93]

Lyd

I 2017 indledte The Archive The Great 78 Project, dedikeret til at bevare tusindvis af 78 rpm vinylplader , hvoraf nogle blev lavet i begyndelsen af ​​1900-tallet. Ud over "Archive" deltager ARChive of Contemporary Music og George Blood Audio i projektet. The Great 78 Project har til formål at finde, rydde op, digitalisere og arkivere omkring tusind optegnelser fra gamle spillere om dagen [94] . For at gøre dette rengøres hver plade på en speciel maskine, der sprøjter destilleret vand på overfladen . Efterfølgende suger en lille støvsuger vandet op sammen med det snavs, der gennem årene har samlet sig i pladerne. Derefter fotograferes diskene, og der laves etiketter på basis af disse fotografier, der skal tilføjes til arkivets generelle database. De fleste af de behandlede optagelser tilhører store pladeselskaber som Columbia Records , RCA Records og Capitol Studios , men omkring 1.700 andre labels er inkluderet i samlingen [95] . Alene i det første driftsår blev der placeret omkring 50.000 digitaliserede diske. Internet Archive-projektet planlægger at digitalisere over 200.000 fysiske optegnelser, hvoraf de fleste går tilbage til 1950'erne og tidligere [96] .

En væsentlig del af Internet Archives lydsamling er Live Music Archive, en samling af over 220.000 tabsfri komprimerede liveoptagelser . En del af denne samling kom fra etree music community , som distribuerer optagelser af livekoncerter [97] . "Arkivet" indeholder optagelser af liveoptrædener af forskellige kunstnere, herunder Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .

Foto

Fra 2022 bestod Arkivets fotosamling af 4,3 millioner billeder [99] . En af de største undersamlinger er opnået siden 2007 i samarbejde med NASA . Organisationerne scannede og arkiverede i fællesskab fotografier, historiske film og videoer fra styrelsens arkiv. Gennem dette partnerskab er samlingerne tilgængelige i det forenede arkiv af NASA-billeder på arkivets hjemmeside [100] .

I 2014 uploadede forsker Kalev Leetaru fra George Washington University 2,6 millioner billeder fra offentligt tilgængelige bøger fra Arkivet. Efterfølgende tilføjede han alle billederne til Flickr -tjenesten , og tilføjede tags til alle billederne på forhånd, så brugerne kunne søge gennem materialerne [101] .

Videoer og spil

Arkivets videosamling består af mange undersamlinger, herunder over 3 millioner timers optagede tv-nyhedsudsendelser [38] . Nyhedsoptagelses- og konserveringsprojektet blev initieret af Philly Political Media Watch Project, et program skabt af Sunlight Foundation , Philadelphia City Council , Linguistic Data Consortium ved University of Pennsylvania og University of Delaware Community Research og servicecenter . Takket være projektet er hundredtusindvis af nyhedsrapporter og gemte politiske annoncer tilgængelige på Arkivets hjemmeside [37] .

I 2019 udvidede Arkivet sin samling med 2,5 tusinde gamle spil skrevet til DOS -systemet . Dette skete som et resultat af eXoDOS-projektet, hvor gamle spil blev analyseret og optimeret til at køre på moderne computere [102] . I 2021 annoncerede Adobe , at Flash Player vil blive udgået . Som svar offentliggjorde arkivet på webstedet en samling af flere hundrede spil og flash-animationer [103] [104] .

Operativsystemer

I 2016 udgav Internet Archive en større samling af programmer til Windows 3.x -familien af ​​operativsystemer . I alt indeholder Windows 3.x Showcase-sektionen 1523 programmer, hvilket arbejde er muligt takket være den indbyggede Windows 3.1 -emulator i JavaScript. Derudover indeholder samlingen programmer, spil og en demoversion af Windows 95 . For ophavsretligt beskyttede filer udgav arkivets personale gratis analoger [105] .

Copyright

Styret digitalt udlån

For at give adgang til bogværker gennem Open Library-tjenesten følger Arkivets ledelse principperne for Controlled Digital Lending (CDL) - en fortolkning af lov om ophavsret , hvorefter biblioteker kan udlåne digitaliserede trykte bøger efter samme princip. som trykte - antallet af udsendte digitale titler skal stemme overens med de kopier, der ejes af biblioteket. Arkivet erhverver alle bøger i sin samling, enten i trykt eller elektronisk form. Han scanner dem derefter for at lave sine egne digitale filer, som han derefter gør tilgængelige for læserne. Derfor indgår projektet aldrig en licensaftale med forlaget. Alle udstedte onlinefiler har en indlejret kode, takket være hvilken kun én bruger kan få adgang til værket gennem en elektronisk kø. Denne model giver biblioteker mulighed for at gøre deres bøger tilgængelige digitalt, men giver også udgivere og udvidelsesforfattere mulighed for at blive betalt for deres arbejde uden at miste salg. Når en trykt biblioteksbog er meget populær, har bibliotekerne en tendens til at købe flere eksemplarer. Læsere har ingen ret til at kopiere eller distribuere materialer. På denne måde giver CDL-systemet dig mulighed for at omgå nogle af de begrænsninger, der er fastsat i loven om ophavsret [106] [89] [107] .

Webarkivering

"Arkivet" fjerner data fra Wayback-maskinen efter anmodning fra copyright-indehavere, som kan bevise ophavsretten, give en beskrivelse af materialet, kontaktoplysninger på ansøgeren og en underskrevet erklæring [108] [25] .

Indflydelse

Internetarkivets aktiviteter har haft en betydelig indflydelse på udviklingen af ​​webarkiveringspraksis rundt om i verden. Efter eksemplet med kunstig intelligens er der blevet skabt mange store webarkiveringsprogrammer og -portaler, ofte nationale. Store internationale biblioteker var blandt de første til at opbevare onlineindhold - Library of Congress , National Library of Australia , National Library of Sweden , National Library of Norway og National Library of New Zealand [109] . I 2013 blev EU-webarkivprojektet lanceret for at scanne og arkivere EU's websteder for at bevare europæisk webindhold på lang sigt og i det offentlige domæne [34] . I 2000 indledte Tjekkiet Webarchiv -projektet til webarkivering af nationale websteder [110] . Senere blev lignende initiativer implementeret i Kroatien [109] , Ungarn [111] , Irland [112] , Belgien og andre lande [113] . I de fleste tilfælde blev arkivering udført af webcrawleren Heritrix [6] oprettet af "Arkiv" . Internet Archive leverer også meget af den teknologi, som andre institutioner bruger til at skabe arkiveringsapplikationer [6] .

Arkivets samlinger bruges ofte af forskere fra forskellige videnskabsområder. Dataene analyseres således for ændringer i sproglig og social praksis [114] , virksomhedsadfærd, salgsstrategier [23] [115] . Derudover kan forskere bruge arkiverede materialer til at etablere retten til at åbne eller publicere [116] , samt for at få adgang til open access -tidsskrifter - ifølge forskning i 2020 er 84 OA-tidsskrifter inden for naturvidenskab forsvundet fra internettet siden begyndelsen af ​​2000'erne, og mere om 100 - i social og humanitær [117] [118] [119] .

Juridisk skænderi og blokering

Scientology Kirken

I 2002 krævede advokater for Scientology Kirken , at internetarkivet fjernede fra Wayback Machine arkiverede kopier af Xenu.net-portalsiden ejet af kirkekritikeren Andreas Heldal-Lund. Årsagen var tilstedeværelsen af ​​uddrag fra Kirkens dokumenter på Heldala-Lundus portal. Men som svar fjernede "Arkivet" ikke kun siderne på webstedet med uddrag, men lukkede også adgangen til hele Xenu.net-portalen. Arkivets beslutning udløste en massiv offentlig debat om etik og ytringsfrihed [120] [121] .

National Emergency Library

På grund af COVID-19-pandemien og den tvungne isolation af mange mennesker i 2020 lancerede Arkivet den midlertidige tjeneste for National Emergency Library, der gjorde kopier af 1,4 millioner bøger tilgængelige for offentligheden for de mennesker, der ikke kunne komme ind på biblioteker. I modsætning til den traditionelle drift af Open Library-tjenesten kunne brugere af biblioteket i nødstilfælde låne tekster uden at stå i kø [122] . Som svar udsendte den amerikanske sammenslutning af forfattere Authors Guild et åbent brev, hvori de anklagede organisationen for "faktisk tyveri" [123] - projektet overtrådte en række bestemmelser i CDL ved at give mere end én bruger adgang til tekster. Som svar på krænkelser af Internet Archive anlagde fire kommercielle udgivere - Hachette , Penguin Random House , Wiley - en retssag, hvor de anklagede portalen for piratkopiering [124] . Af denne grund afsluttede Internet Archive sit program tidligere end planlagt, den 16. juni 2020 i stedet for den 30. juni [125] [126] [25] [106] . Retssagen søgte at forhindre Open Library i at fungere som en ordning, der digitaliserer og udlåner ophavsretligt beskyttede værker [25] [89] . Retssagen i sagen er berammet til november 2021 [127] .

SNG-lande

I 2014 tilføjede Roskomnadzor Internet Archive til registret over forbudte websteder for at have en kopi af dokumentarfilmen Clash of Swords udgivet af Islamisk Stat [128] . Et år senere udstedte anklagemyndigheden i Den Russiske Føderation en beslutning om at blokere Internet Archive-webstedet på grundlag af artikel 15.3 i loven "om information, informationsteknologi og informationsbeskyttelse". Årsagen til at blokere portalen var den arkiverede artikel "Solitær Jihad i Rusland", som ifølge anklagemyndigheden indeholdt opfordringer til masseoptøjer og ekstremistiske aktiviteter [129] [130] . Efter at ressourcen fjernede alle links til websteder, der er forbudt i Rusland, blev adgangen til portalen gendannet [131] .

I 2015 blev Internet Archive-portalen inkluderet på listen over uønskede websteder, der er blokeret i Kasakhstan [132] .

Den 6. juni 2017 blokerede Oktyabrsky Court of Bishkek webstedet i Kirgisistan på grund af materialer med "ekstremistisk indhold" [133] .

I 2019 talte Association for the Protection of Copyright on the Internet (AZAPI) til at blokere "Internet Archive" i Rusland. Årsagen til dette var tilstedeværelsen i bibliotekets samling af kopier af lydbøger af russiske forfattere - Dmitry Glukhovsky og Daria Dontsova . Retssagen i sagen blev anlagt den 13. marts 2019, og behandling ved Moskvas byret fandt sted den 13. maj 2019 i en nødsituation. Ifølge en domstolsafgørelse blev Internet Archive forbudt at skabe tekniske betingelser for at placere lydbøger [134] .

Den 12. maj 2022 anlagde Roskomnadzor en retssag mod internetarkivet i henhold til artikel 13.41 i Den Russiske Føderations kodeks for administrative lovovertrædelser ("Manglende sletning af oplysninger, der er anerkendt som forbudt i Den Russiske Føderation") [135] [136] . Årsagen var en video arkiveret af tjenesten, som viste, hvordan man laver en molotovcocktail . Retsmødet blev afholdt den 28. juni 2022, ifølge resultaterne blev Internet Archive idømt en bøde på 800 tusind rubler [137] .

Kalkun

Den 9. oktober 2016 blev arkivet midlertidigt blokeret i Tyrkiet , efter at det blev brugt af hackere til at hoste 17 GB offentlige e-mails [138] .

Indien

I 2017 blev hjemmesiden for WayBackMachine-tjenesten blokeret i Indien af ​​en afgørelse fra Madras-domstolen som svar på en retssag fra Bollywood - ophavsretsindehavere, som angav, at portalen havde flere tusinde links til piratkopier af film [139] . Efter lockdownen blev den indiske regering anklaget for censur [140] [141] .

Se også

Noter

  1. Internetarkiv:  Bios
  2. https://projects.propublica.org/nonprofits/organizations/943242767
  3. Global Research Identifier Database  (engelsk) - 2015.
  4. 12 Wayback- maskine . wayback maskine. Dato for adgang: 7. juni 2021.
  5. 12 e-bøger og tekster . Internetarkiv. Hentet: 16. maj 2022.
  6. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rackley, 2010 , s. 2966-2976.
  7. Joel Khalili. Historien om kampen for at arkivere internettet  . techradar. Hentet 23. december 2021. Arkiveret fra originalen 22. december 2021.
  8. 12 Recode Staff. Fuld udskrift: Internet Archive-stifter Brewster Kahle på Recode Decode . Vox. Omkode (8. marts 2017). Hentet 12. juni 2021. Arkiveret fra originalen 2. juni 2021.
  9. Brewster Kahle . Harvard Universitet. Hentet 12. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  10. Tidslinje . Internettet. Hall of Fame. Hentet 12. juni 2021. Arkiveret fra originalen 21. juni 2021.
  11. Quentin Hardy. The Big Deal: Brewster Kahle . Forbes (27. november 2009). Hentet 12. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  12. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Kimpton, 2006 .
  13. Brewster Kahle, 2008 , s. 265-280.
  14. Kara Swisher. Webs 'bibliotekar' ideer baner en vej til en formue . The Wall Street Journal (20. maj 1999). Hentet 12. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  15. Carolyn Said. Arkivering af internettet / Brewster Kahle laver digitale snapshots af internettet . SF Gate (7. maj 1998). Hentet 12. juni 2021. Arkiveret fra originalen 2. april 2019.
  16. Mitchell Clark. Ny forskning viser, hvor mange vigtige links på nettet, der går tabt med tiden . The Verge (21. maj 2021). Hentet 13. juni 2021. Arkiveret fra originalen 20. juni 2021.
  17. Dagens figur: Hvor mange internetlinks har været "døde" siden 1998? . Ferra (22. maj 2021). Hentet 13. juni 2021. Arkiveret fra originalen 22. maj 2021.
  18. Barbara Quint. En "Gave of the Web" til Library of Congress fra Alexa Internet . Information Today (19. oktober 1998). Hentet 13. juni 2021. Arkiveret fra originalen den 31. marts 2019.
  19. John Alderman. Alexas gave til regeringen . Wired (14. oktober 1998). Hentet 12. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  20. David Bank Staff. Microsoft frigiver ny browser, annoncerer aftale med RealNetworks . The Wall Street Journal (17. marts 1999). Hentet 13. juni 2021. Arkiveret fra originalen 19. maj 2021.
  21. John Christian. Hvorfor har Amazon to helt forskellige produkter kaldet Alexa? . The Outline (juni 2017). Hentet 13. juni 2021. Arkiveret fra originalen 1. juni 2021.
  22. Rick Prelinger . Creative Commons (1. oktober 2005). Hentet 13. juni 2021. Arkiveret fra originalen 24. november 2020.
  23. 12 Arora , 2015 .
  24. 1 2 3 Bowyer, 2021 , s. 43-57.
  25. 1 2 3 4 5 Aja Romano. En retssag truer Internet Archive - men det er ikke så alvorligt, som du måske har hørt . Vox (23. januar 2020). Hentet 12. juni 2021. Arkiveret fra originalen 18. august 2021.
  26. Begivenhederne den 11. september 2001 påvirkede hele verden. . Internetarkiv. Dato for adgang: 13. juni 2021.
  27. Lucas Mearian. Online arkiv fortæller om 3.000 timers tv-dækning 9/11 . Computerverden (10. september 2011). Hentet 13. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  28. Bibliotheca Alexandrina . Internetarkiv. Dato for adgang: 13. juni 2021.
  29. Alexandria 2.0: One Millionaire's Quest for at bygge det største bibliotek på jorden . Kabelforbundet (20. august 2012). Hentet 13. juni 2021. Arkiveret fra originalen 7. marts 2021.
  30. Savitskaya, 2019 , s. 67-76.
  31. Witten, 2007 , s. 29-59.
  32. Steve Cisler. Brev fra San Francisco. Internet bogmobilen . Tidsskrift for Internettet. Hentet 13. juni 2021. Arkiveret fra originalen 25. oktober 2021.
  33. 123 Mohr , 2004 .
  34. 12 EU- webarkiv . Den Europæiske Unions Publikationskontor. Hentet 17. juni 2021. Arkiveret fra originalen 19. juni 2021.
  35. 1 2 3 Jaffe, 2009 .
  36. Aaron Souppouris. Internet Archive er nu hjemsted for 10 petabyte data . The Verge (27. oktober 2012). Hentet 12. juni 2021. Arkiveret fra originalen 11. april 2021.
  37. 1 2 David Streitfeld. Internetarkivet, forsøger at omfatte al skabelse . New York Times (31. oktober 2014). Hentet 13. juni 2021. Arkiveret fra originalen 10. maj 2021.
  38. 1 2 Benny Evangelista. Internet Archive, arkiv over moderne kultur, fylder 20 år . San Francisco Chronicle (28. oktober 2016). Hentet 12. juni 2021. Arkiveret fra originalen 20. maj 2021.
  39. Kurtis Alexander. Internet Archives SF-kontor beskadiget i brand . SF gate (6. november 2013). Hentet 13. juni 2021. Arkiveret fra originalen 15. maj 2021.
  40. David Streitfeld. Internetarkiv vil beskytte besøgende . New York Times (24. oktober 2013). Hentet 13. juni 2021. Arkiveret fra originalen 26. oktober 2021.
  41. Verdens største internetarkiv flygter fra USA på grund af Trump . C News (30. november 2016). Hentet 11. juni 2021. Arkiveret fra originalen 15. april 2021.
  42. Andrew Liptak. Internetarkivet arbejder på at bevare offentlige Google+ indlæg, før det lukker ned . The Verge (17. marts 2019). Hentet 12. juni 2021. Arkiveret fra originalen 29. august 2021.
  43. Mark Hill. Mød de aktivistiske arkivarer, der redder internettet fra den digitale skraldespand . Discover (13. maj 2021). Hentet 13. juni 2021. Arkiveret fra originalen 8. juni 2021.
  44. Wikipedias ødelagte links rettet af Internet Archive . BBC News (3. oktober 2018). Hentet 13. juni 2021. Arkiveret fra originalen 9. juli 2021.
  45. Klint Finley. Internetarkivet gør Wikipedia mere pålideligt . Kabelforbundet (11. marts 2019). Hentet 13. juni 2021. Arkiveret fra originalen 24. november 2019.
  46. John Porter. Internet Archive tilføjer digitale forhåndsvisninger af bogkilder til Wikipedia-artikler . The Verge (4. november 2019). Hentet 12. juni 2021. Arkiveret fra originalen 25. februar 2021.
  47. Adam Smith. Internetarkivet forbinder digitale bøger med Wikipedia-citater . PC Mag (4. november 2019). Hentet 13. juni 2021. Arkiveret fra originalen 7. marts 2021.
  48. John Porter. Brave browser peger nu automatisk på Wayback Machine på 404 . The Verge (26. februar 2020). Hentet 12. juni 2021. Arkiveret fra originalen 22. juni 2021.
  49. Lily Hay Newman. Wayback Machine og Cloudflare ønsker at stoppe internettet . Kabelforbundet (17. september 2020). Hentet 13. juni 2021. Arkiveret fra originalen 18. maj 2021.
  50. Lila Bailey. Bekæmpelse af misinformation online . Internet Archive Blogs (30. oktober 2019). Dato for adgang: 13. juni 2021.
  51. Acker, 2020 .
  52. Elizabeth Dwoskin. Misinformation om coronavirus finder nye veje på uventede websteder . Washington Post (20. juni 2020). Hentet 13. juni 2021. Arkiveret fra originalen 16. juni 2021.
  53. Wayback Machine validerer nu information til arkivwebsider . Skraldespand (2. november 2020). Hentet 5. juni 2021. Arkiveret fra originalen 28. juni 2021.
  54. Adi Robertson. Internet Archive advarer brugere om debunkeret 'zombie' coronavirus misinformation . The Verge (12. maj 2020). Hentet 12. juni 2021. Arkiveret fra originalen 20. maj 2021.
  55. J. Fingas. Internet Archive tilføjer faktatjek for at forklare fjernelser af websider . engadget (1. november 2020). Hentet 13. juni 2021. Arkiveret fra originalen 23. juli 2021.
  56. Victor Barreiro. Internet Archive tilføjer faktatjek til sider på Wayback Machine . Rappler (2. november 2020). Hentet 13. juni 2021. Arkiveret fra originalen 26. oktober 2021.
  57. Schwarz, 2006 .
  58. Toyoda, 2012 , s. 1441-1443.
  59. 1 2 3 4 5 6 Kalev Leetaru. Internetarkivet fylder 20: Et kig bag kulisserne på arkivering af nettet . Forbes (11. juni 2021). Hentet 12. juni 2021. Arkiveret fra originalen 26. oktober 2021.
  60. 12 Simon, 2006 .
  61. Arkivering af verden: GDELT slutter sig til internetarkivets "No More 404"-initiativ . GDELT-projektet. Hentet 20. juni 2021. Arkiveret fra originalen 8. marts 2021.
  62. Mark Graham. Ikke flere 404'ere! Genopliv døde websider med vores nye Firefox-tilføjelse. . Archive.org (9. august 2016). Dato for adgang: 20. juni 2021.
  63. 12 Lerner , 2017 , s. 1741-1755.
  64. Michael Bryant. Hvad er Wayback-maskinen, og hvorfor er den nyttig? . Groovy Post (22. april 2021). Hentet 29. maj 2021. Arkiveret fra originalen 18. maj 2021.
  65. 1 2 3 4 5 Fernando, 2016 , s. 109-112.
  66. Chris Welch. Internet Archive vil lancere en moderniseret Wayback Machine i 2017 . The Verge (22. oktober 2015). Hentet 12. juni 2021. Arkiveret fra originalen 11. april 2021.
  67. Rogers, 2017 , s. 160-172.
  68. Laura Bohannon. Wayback Machine arkiverer websteder i over 20 år . Spartan News Room (7. december 2017). Hentet 5. juni 2021. Arkiveret fra originalen 24. juni 2021.
  69. O'Connor, 2008 , s. 64.
  70. Maemura, 2018 .
  71. Noter, 2002 .
  72. Anton Blagoveshchensky. Frem til fortiden . Rossiyskaya Gazeta (7. marts 2012). Hentet 12. juni 2021. Arkiveret fra originalen 26. oktober 2021.
  73. 12 Mark Graham . Tips til brug af internetarkivets Wayback-maskine i din næste undersøgelse . Global Investigative Journalism Network (5. maj 2021). Hentet 29. maj 2021. Arkiveret fra originalen 29. maj 2021.
  74. AlNoamany, 2014 .
  75. 12 Jones , 2018 .
  76. Graham, 2019 , s. 103-110.
  77. Human Rights Web Archive-Archived Index . Columbia University Libraries. Hentet 16. maj 2022. Arkiveret fra originalen 11. maj 2021.
  78. Jennifer Schuessler. Occupy Wall Street: From the Streets to the Archives . New York Times (2. maj 2012). Hentet 13. juni 2021. Arkiveret fra originalen 28. oktober 2021.
  79. Occupy Movement 2011/2012 . Arkiver det (november 2011). Hentet 15. juni 2021. Arkiveret fra originalen 3. juni 2021.
  80. Lischer-Katz, 2013 .
  81. Søg. Internetarkiv . Internetarkiv. Hentet: 17. maj 2022.
  82. Katie Hafner. I Challenge to Google vil Yahoo scanne bøger . The New York Times (3. oktober 2005). Hentet 16. juni 2021. Arkiveret fra originalen 1. september 2021.
  83. Microsoft tilbyder online bogindholdssøgninger . The New York Times (26. oktober 2005). Hentet 16. juni 2021. Arkiveret fra originalen 1. september 2021.
  84. Bøger, der scannes for at blive offentligt finansieret . Internetarkiv. Dato for adgang: 15. juni 2021.
  85. Nate Anderson. Hvorfor dræbe Live Book Search er godt for bøgernes fremtid . Ars Technica (26. maj 2008). Hentet 15. juni 2021. Arkiveret fra originalen 1. september 2021.
  86. Miguel Helft. Microsoft lukker bogsøgningsprogrammet ned . The New York Times (24. maj 2008). Hentet 15. juni 2021. Arkiveret fra originalen 12. december 2020.
  87. Michael Bryant. Hvad er internetarkivet, og hvad kan jeg finde på det? . G Post (22. april 2021). Hentet 15. juni 2021. Arkiveret fra originalen 16. juni 2021.
  88. Brewster Kahle. At transformere vores biblioteker fra analog til digital: A 2020 Vision . Uddannelsesgennemgang (13. marts 2017). Hentet 15. juni 2021. Arkiveret fra originalen 2. august 2021.
  89. 1 2 3 Russell Brandom. Udgivere sagsøger Internet Archive over Open Library e-bogsudlån . The Verge (1. juni 2020). Hentet 12. juni 2021. Arkiveret fra originalen 1. juni 2020.
  90. Søg . Internetarkiv. Dato for adgang: 16. juni 2021.
  91. Søg. Internetarkiv . Internetarkiv. Hentet: 17. maj 2022.
  92. Søg. Internetarkiv . Internetarkiv. Hentet: 17. maj 2022.
  93. Søg. Internetarkiv . Internetarkiv. Hentet: 17. maj 2022.
  94. Will Pritchard. Hvordan The Great 78 Project redder en halv million sange fra uklarhed . Vinylfabrikken (18. august 2017). Hentet 16. juni 2021. Arkiveret fra originalen 7. november 2017.
  95. Kait Sanchez. Her er, hvordan Internet Archive digitaliserer 78rpm-poster . The Verge (26. april 2021). Hentet 12. juni 2021. Arkiveret fra originalen 25. maj 2021.
  96. Dani Deahl. Over 50.000 digitaliserede stykker vinyl kan nu lyttes til på Internet Archive . The Verge (12. august 2017). Hentet 12. juni 2021. Arkiveret fra originalen 12. juli 2021.
  97. Jake Coyle. På nettet: Koncerter på nettet . Taiwan nyheder. Hentet 16. juni 2021. Arkiveret fra originalen 28. oktober 2021.
  98. Verge Staff. The Verges foretrukne musikstreamingtjenester . The Verge (13. april 2021). Hentet 16. juni 2021. Arkiveret fra originalen 20. april 2021.
  99. billeder . Internetarkiv. Dato for adgang: 16. juni 2021.
  100. Bob Jacobs, Paul Hickman. NASA og Internet Archive Team skal digitalisere rumbilleder . NASA. Hentet 16. juni 2021. Arkiveret fra originalen 28. august 2021.
  101. Leo Kelion. Millioner af historiske billeder lagt ud på Flickr . BBC News (29. august 2014). Hentet 16. juni 2021. Arkiveret fra originalen 5. august 2021.
  102. Vasily Parfenov. 2500 grunde til at installere DOS dukkede op i "internetarkivet" . Populær mekanik (17. oktober 2019). Hentet 12. juni 2021. Arkiveret fra originalen 28. oktober 2021.
  103. Alexander Abramov. Internet Archive vil bevare Flash-baserede projekter . SpB IT (23. november 2020). Hentet 12. juni 2021. Arkiveret fra originalen 28. januar 2021.
  104. Ian Carlos Campbell. Internet Archive beskytter nu Flash-spil og animationer . The Verge (19. november 2020). Hentet 12. juni 2021. Arkiveret fra originalen 20. november 2020.
  105. Et arkiv med 1500 browserbaserede programmer til Windows 3.x er blevet offentliggjort . N+1 (15. februar 2016). Hentet 12. juni 2021. Arkiveret fra originalen 28. oktober 2021.
  106. 12 Ojala , 2021 .
  107. Constance Grady. Hvorfor forfattere er så vrede over Internet Archives Emergency Library . Vox (2. april 2020). Hentet 12. juni 2021. Arkiveret fra originalen 4. april 2020.
  108. Berčič, 2005 , s. 17-24.
  109. 12 Holub , 2014 .
  110. Webarkiv: 20 års webarkivering i Tjekkiet . International Internet Preservation Consortium (8. december 2020). Hentet 17. juni 2021. Arkiveret fra originalen 4. juli 2021.
  111. Fra pilot til portal: et år med webarkivering i Ungarn . International Internet Preservation Consortium (26. juni 2020). Hentet 17. juni 2021. Arkiveret fra originalen 4. juli 2021.
  112. National Library of Ireland Collections 2011-2018 . Arkiver det. Hentet 17. juni 2021. Arkiveret fra originalen 2. juli 2021.
  113. Brügger, 2019 .
  114. Harrison, 2005 .
  115. Milligan, 2016 .
  116. Pearce, 2009 , s. 875.
  117. Jeffrey Brainard. Dusinvis af videnskabelige tidsskrifter er forsvundet fra internettet, og ingen har bevaret dem . Videnskab (8. september 2020). Hentet 1. juni 2021. Arkiveret fra originalen 15. oktober 2020.
  118. Diana Kwon. Mere end 100 videnskabelige tidsskrifter er forsvundet fra internettet . Natur (10. september 2020). Hentet 1. juni 2021. Arkiveret fra originalen 3. oktober 2020.
  119. avouner. Dusinvis af videnskabelige tidsskrifter er forsvundet fra internettet i de sidste 20 år, og ingen har reddet dem . Habr (10. september 2020). Hentet 5. juni 2021. Arkiveret fra originalen 29. oktober 2021.
  120. Lisa M. Bowman. Netarkiv gør Scientology-kritiker tavs . CNet (24. september 2002). Dato for adgang: 10. juni 2021.
  121. Ernest Miller. Funktioner: Sherman, Set the Wayback Machine for Scientology . LawMeme (24. september 2002). Dato for adgang: 10. juni 2021.
  122. Dmitry Kinsky. Internet Archive har udgivet mere end en million sjældne bøger til offentligheden . World of Fantasy (3. april 2020). Hentet 12. juni 2021. Arkiveret fra originalen 4. november 2021.
  123. Amerikanske bogudgivere sagsøger Internet Archive . Vedomosti (2. juni 2020). Hentet 12. juni 2021. Arkiveret fra originalen 30. juni 2021.
  124. Vestlige bogudgivere presser internettets "tidsmaskine" fra verden . CNews (2. juni 2020). Hentet 12. juni 2021. Arkiveret fra originalen 1. september 2021.
  125. Kim Lyons. Internet Archive har afsluttet sit 'nødbibliotek' tidligt . The Verge (14. juni 2020). Hentet 12. juni 2021. Arkiveret fra originalen 9. juli 2021.
  126. Elizabeth A. Harris. Udgivere sagsøger internetarkiv over gratis e-bøger . New York Times (1. juni 2020). Dato for adgang: 13. juni 2021.
  127. Andrew Albanese. Dommer opstiller foreløbig tidsplan for internetarkivets ophavsretssag . Publishers Weekly (1. september 2020). Hentet 18. juni 2021. Arkiveret fra originalen 8. september 2020.
  128. Roskomnadzor føjede "internetarkivet" til registret over forbudte websteder . Meduza (25. oktober 2014). Hentet 18. juni 2021. Arkiveret fra originalen 15. juni 2021.
  129. Georgy Peremitin. Roskomnadzor blokerede internetarkivet . RBC (25. juni 2015). Hentet 12. juni 2021. Arkiveret fra originalen 21. august 2021.
  130. "Internetarkiv" føjet til listen over forbudte websteder . Moskva 24 (1. september 2015). Hentet 12. juni 2021. Arkiveret fra originalen 27. november 2021.
  131. Dmitry Shestoperov, Anastasia Yevtushenko. "Internetarkivet" er online igen . Gazeta.ru (18. april 2016). Hentet 13. juni 2021. Arkiveret fra originalen 3. maj 2021.
  132. Eksperter forklarer årsagen til blokering af websteder i Kasakhstan . Kaz Pravda (21. oktober 2015). Hentet 18. juni 2021. Arkiveret fra originalen 3. oktober 2021.
  133. Natalia Kozina. Myndighederne i Kirgisistan har blokeret "Internettets arkiv" på grund af "ekstremistiske materialer" . Kloop (18. juli 2017). Hentet 12. juni 2021. Arkiveret fra originalen 28. juni 2021.
  134. "Internetarkiv" kan være permanent blokeret i Rusland . C News (23. august 2019). Hentet 12. juni 2021. Arkiveret fra originalen 24. juni 2021.
  135. I Rusland blev der indledt en sag mod "hele internettets arkiv" . RBC (12. maj 2022). Hentet 13. maj 2022. Arkiveret fra originalen 12. maj 2022.
  136. Internet Archive risikerer en bøde på 4 millioner rubler på grund af manglende fjernelse af forbudt indhold . Interfax (12. maj 2022). Hentet 17. maj 2022. Arkiveret fra originalen 16. maj 2022.
  137. Valery Romanov. Russisk domstol idømte Internet Archive en bøde for molotovcocktail . gazeta.ru (29. juni 2022). Hentet: 1. juli 2022.
  138. Tyrkiet gendanner adgangen til Google Drev efter blokering af cloud storage-tjenester . Daglige nyheder (10. oktober 2016). Hentet 18. juni 2021. Arkiveret fra originalen 14. april 2021.
  139. Internetarkiv blokeret i Indien . Nag (16. august 2017). Hentet 12. juni 2021. Arkiveret fra originalen 29. oktober 2021.
  140. Colm Gorey. Indien anklaget for censur, da Internet Archive blokeres uventet . Silicon Republic (9. august 2017). Hentet 18. juni 2021. Arkiveret fra originalen 2. marts 2021.
  141. Leo Kelion. 'Bollywood blokerer internetarkivet' . BBC. Hentet 18. juni 2021. Arkiveret fra originalen 6. august 2018.

Litteratur

  • Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics.  // Harvard Kennedy School (HKS) Misinformation Review. - 2020. - doi : 10.37016/mr-2020-41 .
  • Arora S., Li Y., Youtie J., Shapira P. Brug af wayback-maskinen til at mine websteder inden for samfundsvidenskab: En metodisk ressource. - 2015. - T. 67 , no. 8 . - S. 1904-1915 . - doi : 10.1002/asi.23503 .
  • AlNoamany Y., AlSum A., Weigle M., Nelson M. Hvem og hvad linker til Internet Archive //Int J Digit Libr. - 2014. - Udgave. 14 . - S. 101-115 . - doi : 10.1007/s00799-014-0111-5 .
  • Berčič B. Beskyttelse af personlige data og ophavsretligt beskyttet materiale på nettet: Sagerne fra Google og Internet Archive // ​​Communications Technology Law. - 2005. - T. 14 , no. 1 . - S. 17-24 . - doi : 10.1080/1360083042000325283 .
  • Bowyer S. The Wayback Machine: noter om en fortryllelse // Arkivvidenskab. - 2021. - T. 21 . - S. 43-57 .
  • Fernando Z., Marenzi I., Nejdl W., Kalyani R. ArchiveWeb: Collaboratively Extending and Exploring Web Archive Collections // Forskning og avanceret teknologi til digitale biblioteker. - 2016. - S. 107-121 .
  • Harrison T. Internetarkivet og indholdsanalysen // Qualitative Social Research on IKT. - 2005.
  • Graham P. Redaktionel gæste: Reflections on the Ethics of Web Archiving // Journal of Archival Organization. - 2019. - S. 103-110 . doi : 10.1080 / 15332748.2018.1517589 .
  • Jaffe E., Kirkpatrick S. Architecture of The Internet Archive //Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference 2009, Haifa, Israel, 4.-6. maj 2009. - 2009. - doi : 10.1145/1534545.5 .
  • Kahle B. Brewster Kahle. Grundlægger, WAIS, Internet Archive, Alexa Internet // Founders at Work. Historier om startups' tidlige dage. - 2008. - S. 265-280 .
  • Karolina Holub. Croatian Web Archive: An Overview // Pregled NDC. - 2014. - Udgave. 25 . - S. 11-16 .
  • Kimpton M., Ubois J. År for år: Fra et arkiv af internettet til et arkiv på internettet // Webarkivering. - 2006. - S. 201-212 .
  • Lischer-Katz Z. Conceptualizing emergent archival forms: A case study of the occupy wall street "archive" // Association for Information Science & Technology. - 2013. - doi : 10.1002/meet.14504901275 .
  • Lerner A., ​​​​Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present  // Association for Computing Machinery. - 2017. - doi : 10.1145/3133956.3134042 .
  • Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. - 2018. - T. 69 , no. 10 . - S. 1223-1233 .
  • Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. – 2016.
  • Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix  // 4th International Web Archiving Workshop (2004). – 2004.
  • Murphy J., Hashim N., O'Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. - 2008. - Udgave. 13 . - S. 60-75 .
  • Niels Brügger, Ditte Laursen. Det historiske web og digitale humaniora. Sagen om nationalt webdomæne. — Routledge. - 2019. - 206 s. — ISBN 9780367671181 .
  • Bemærkninger G. The Wayback Machine: The Web's Archive  //​Online. - 2002. - T. 26 , no. 2 .
  • Ojala M. Kontrolleret digitalt udlån: Lovligt udlån eller piratkopiering? // Information i dag. - 2021. - T. 45 , no. 1 .
  • Pearce D., Charlton B. Plagiat af onlinemateriale kan bevises ved hjælp af Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. - 2009. - S. 875 .
  • Rackley M. Internet Archive // ​​Encyclopedia of Library and Information Sciences. - 2010. - Vol. 1 , udgave. 1 . - S. 2966-2976 .
  • Rogers R. At lave webhistorie med Internet Archive: screencast dokumentarer // Internet Histories. - 2017. - Vol. 1 , udgave. 1-2 . - S. 160-172 . - doi : 10.1080/24701475.2017.1307542 .
  • Simon J. Center for Forskningsbiblioteker Mellemøstlige politiske partier Web Harvesting og andre indsatser  // "International Collections Development Workshop". – 2006.
  • Shawn M. Jones, Michele C. Weigle, Alexander Nwala, Michael L. Nelson. Arkiv-Its mange former. Karakteristika for Archive-It-samlinger  // ArXiv.org. – 2018.
  • Schwarz T., Baker M., Bassi S., Baumgart B., Flagg W., Ingen C., Joste K., Manasse M., Shah M. Diskfejlsundersøgelser på internetarkivet // NASA/IEEE Conference om masselagringssystemer og -teknologier. – 2006.
  • Toyoda M., Kitsuregawa M. The History of Web Archiving // Proceedings of the IEEE. - 2012. - T. 100 . - S. 1441-1443 .
  • Witten I., Gori M., Numerico T. Litteratur og nettet // Web Dragons. - 2007. - S. 29-59 .
  • Savitskaya T.E. Projekt "Million Books"  // Bibliotekovedenie. - 2019. - T. 68 , no. 1 . - S. 67-76 .

Links