Dybt web

The Deep Web (også kendt som "Invisible Web", "Deep Web", "Deep Internet"; engelsk  deep web ;) er et sæt World Wide Web -websider , der ikke er indekseret af søgemaskiner .

Udtrykket stammer fra iflg. engelsk  usynligt web [1] . Den væsentligste del af det dybe web er Deep Web (fra engelsk.  deep web, hidden web ), der består af websider dynamisk genereret af forespørgsler til onlinedatabaser [2] .

Begrebet Deep Web skal ikke forveksles med begrebet Dark Web (fra det engelske dark web ), som henviser til netværkssegmenter , selvom de er forbundet til det generelle internet , men som kræver visse softwareværktøjer for at få adgang.  

Essensen af ​​problemet

Det dybe web indeholder websider , der ikke er forbundet med andre hyperlinks (f.eks. blindgydewebsider, der er dynamisk skabt af scripts på selve webstederne, on demand, som direkte links ikke fører til), samt websteder , der kun er tilgængelige for registrerede brugere brugere og websider kun tilgængelige med en adgangskode.

Søgemaskiner bruger specielle søgerobotter , der følger hyperlinks og indekserer indholdet af de websider, de befinder sig på, ved at indtaste deres indhold og hyperlinks til dem i deres databaser. Efter at have fundet links til andre sider på den indekserede webside, følger søgerobotten dem og indekserer indholdet på hver af de fundne sider, finder nye hyperlinks og følger dem til indeksering; som et resultat af klik på links, der fører uden for de indekserede sider, er antallet af indekserede websider konstant stigende. Søgebotten kan ikke komme til websider, der ikke er linket fra andre sider, hvorfor indholdet af disse sider ikke er indekseret. Som et resultat, uden at kende URL'en på et websted eller en webside på Deep Web, vil en almindelig bruger ikke være i stand til at komme til dem.

The Deep Web inkluderer også websteder, hvis ejere frivilligt nægtede at blive indekseret af søgemaskiner (for eksempel ved at bruge filen "robots.txt" ), såvel som websteder og websider, der er beskyttet af autorisation mod at se oplysninger fra tredjeparter. I dette tilfælde, uden at kende login og (eller) adgangskode til websiden, er det umuligt fuldt ud at se indholdet eller bruge webstedet.

Skala

Størrelsen af ​​det dybe net er ukendt. Der er relativt pålidelige skøn over det samlede antal websteder, der fører til onlinedatabaser: omkring 300.000 sådanne websteder på hele nettet i 2004 og omkring 14.000 på RuNet i 2006 [3] [4] .

Dyb websøgning

I 2005 , Yahoo! tog et seriøst skridt i retning af at løse dette problem. Virksomheden udgav søgemaskinen "Yahoo! Abonnementer", som søger efter websteder (stadig få), som kun er åben for registrerede medlemmer af disse websteder. Dette løste dog ikke helt det eksisterende problem. Søgemaskineeksperter forsøger stadig at finde tekniske muligheder for at indeksere databaseindhold og få adgang til private websteder.

En af de populære deep web-datatjenester er UFOseek , oprindeligt designet til at organisere paranormale data [5] .

Indholdstyper

Selvom det ikke altid er muligt direkte at finde indholdet på en bestemt webserver, så det kan indekseres, er det stadig muligt at få adgang til et sådant websted (på grund af computersårbarheder ) .

For at opdage indhold på nettet bruger søgemaskiner webcrawlere, der følger hyperlinks gennem kendte protokol-virtuelle portnumre. Denne metode er ideel til at opdage indhold på World Wide Web , men er ofte ineffektiv, når du søger efter indhold på det dybe web. For eksempel leder webcrawlere ikke efter dynamiske sider, der er resultatet af databaseforespørgsler på grund af det ubestemte antal af de samme forespørgsler. Det er blevet bemærket, at dette (delvis) kan overvindes ved at give links til forespørgselsresultater, men dette kan utilsigtet øge populariteten for et medlem af det dybe netværk.

Der er flere søgemaskiner, der har tilgået det dybe web. Intute har afsluttet sin finansiering og er nu et midlertidigt arkiv fra juli 2011. Scirus lukkede i slutningen af ​​januar 2013.

Forskere har undersøgt, hvordan det dybe web kan scannes automatisk, inklusive indhold, der kun kan tilgås med dedikeret software såsom Tor . I 2001 præsenterede Sriram Raghavan og Hector Garcia-Molina (Stanford Computer Science Department, Stanford University ) en arkitektonisk model af en skjult søgemaskine, der brugte søgeord leveret af brugere eller indsamlet fra forespørgselsgrænseflader til at forespørge og gennemgå det dybe web.

Kommercielle søgemaskiner er begyndt at udforske alternative metoder til at crawle det dybe web. Sitemap - protokollen (først udviklet og implementeret af Google i 2005) og mod_oai er mekanismer, der gør det muligt for søgemaskiner og andre interessenter at opdage dybe webressourcer på specifikke webservere. Begge mekanismer tillader webservere at hoste tilgængelige URL'er på dem, hvilket giver mulighed for automatisk opdagelse af ressourcer, der ikke er direkte forbundet til World Wide Web . Googles dybe webnavigationssystem beregner visninger for hver HTML-formular og tilføjer de resulterende HTML-sider til Googles søgemaskineindeks. Resultaterne er baseret på 1000 anmodninger i sekundet for dybt webindhold. I dette system udføres repræsentationsforberegning ved hjælp af tre algoritmer:

Se også

Noter

  1. Gary Price, Chris Sherman. The Invisible Web: Afdækning af informationskilder, søgemaskiner kan ikke se. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
  2. Denis Shestakov, Natalia Vorontsova (2005). " Struktur af den russisktalende del af det dybe web  (utilgængeligt link) ". Internet Mathematics 2005 , s. 320-341.
  3. Denis Shestakov (2011). " Sampling the National Deep Web  (link utilgængeligt) ". Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA) , s. 331-340.
  4. Hvor stort er internettet? . Hentet 30. juli 2015. Arkiveret fra originalen 29. juni 2015.
  5. Igor Raikhman, 2013 , s. 118.

Litteratur