reCAPTCHA | |
---|---|
Type | crowdsourcing |
Forfatter |
|
Udvikler | |
Første udgave | 27. maj 2007 |
Internet side | google.com/recaptcha |
Mediefiler på Wikimedia Commons |
ReCAPTCHA er et system udviklet på Carnegie Mellon University til at beskytte hjemmesider mod internetbots og samtidig hjælpe med digitaliseringen af bogtekster. Det er en fortsættelse af CAPTCHA- projektet [1] . I september 2009 blev reCAPTCHA opkøbt af Google . Fra begyndelsen af 2011 digitaliserede reCAPTCHA The New York Times arkiver og bøger, der var tilgængelige på Google Bogsøgning .
I foråret 2012 lancerede Google et eksperiment for at genkende billeder fra Google Maps og Google Street View ved hjælp af ReCAPTCHA-tjenesten [2] . Fra og med juli 2013 tilbyder ReCAPTCHA-tjenesten fortsat fragmenter af billeder fra Google Street View til genkendelse; som regel er der tale om brudstykker, der viser bygningsnumre. Således har det originale motto for ReCAPTCHA - Stop Spam, Læs bøger - i dag ikke meget at gøre med, hvad dette system faktisk bruges til.
Allerede i begyndelsen af 2015 blev ReCAPTCHA opdateret. Nu bliver brugeren bedt om blot at markere afkrydsningsfeltet , efter at have klikket på afkrydsningsfeltet, kan brugeren blive bedt om at vælge alle de billeder, der falder under forudbestemte betingelser - for eksempel, vælg alle motorcykler .
reCAPTCHA er næsten ikke bedraget af OCR-software . Det andet ord er taget fra en kilde, der kræver genkendelse (for eksempel en bog). Kontrol og videregivelse af "captcha" udføres i henhold til det ord, der er kendt af systemet. Det ukendte andet ord er valgfrit. Det andet ord, som brugeren indtaster, gemmes i systemet og bruges som en mulig genkendelsesmulighed. Endelig ordgenkendelse udføres ved at vælge det ord, der oftest bruges til input. reCAPTCHA-systemet giver brugerne billeder til genkendelse og indsamler resultaterne, hvorefter det overfører dem til arrangørerne af digitaliseringen af materialer [1] .
Systemet er meget brugt af sider som Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10. januar 2015), LiveJournal og cirka 350.000 andre websteder. Cirka 100 millioner ord digitaliseres om dagen, hvilket kan give cirka 2,5 millioner bøger om året. Antallet af personer, der hjalp med at digitalisere mindst ét ord fra bogen, anslås til 750 millioner [1] . Effektiviteten af denne metode er ret høj, da systemet er forsynet med flere anerkendte muligheder.
Da ordene vises i tilfældig rækkefølge, opstår der uundgåeligt nysgerrige kombinationer af ord. Dette gav anledning til internetmemet "inglip", når folk tager et skærmbillede af to ord fra reCAPTCHA-systemet og tegner sjove tegninger [1] .
Vittigheder som "find en Viet Cong " dukkede op i adressen på den grafiske version af reCAPTCHA (der er en solid jungle i billedet).
Når du forbinder denne tjeneste til webstedet, tilbydes du et begrænset antal forespørgsler gratis. ReCAPTCHA-algoritmerne er bevidst bygget, så brugeren fremsætter så mange anmodninger som muligt, hvilket fører til overskridelse af frigrænsen og tvinger webstedsejeren til at skifte til den betalte version. Brugere er tvunget til at indtaste dobbelt så meget tekst, som det kræves for en given form for Turing-testen , uden at modtage nogen belønning for at gøre det. Indtægter fra den brugte genkendte tekst forbliver hos Google Corporation . Kræver JavaScript for at virke, og i tilfælde af at du bruger en forældet browser, er den besøgende tvunget til at opdatere til Google -browseren .
Dog har webstedsejere ret til at forbeholde sig valget om, hvordan de beskytter sig mod bots.
Med for hyppige CAPTCH-anmodninger fra den samme IP-adresse bliver reCAPTCHA næsten ulæselig, hvilket gør det meget vanskeligt at indtaste det, når du bruger Tor -softwaren (da hyppigheden af captcha-anmodninger fra Tor-udgangsnoder er meget højere end fra en almindelig bruger-IP) . Derudover, i sådanne tilfælde, er begge ord, der tilbydes brugeren til genkendelse, verificerbare, det vil sige, reCAPTCHA begynder at fungere som ethvert andet system for at beskytte mod bots. Men efter den næste opdatering af algoritmen i reCaptcha blev det vanskeligt for mange brugere at komme ind på webstedet, så hvis en person kommer ind på webstedet og begynder at løse anti-bot, vil det være for langsomt, men selv efter at han har løst dette problem korrekt, anti-bot systemet vil ikke tælle hans svar vil bede dig om at vælge de rigtige billeder igen, som igen vil blive opdateret meget langsomt, som et resultat, kan brugeren bruge lidt tid (fra flere minutter) på at løse dette problem. Der er også opstået blokering af adgang til at løse captcha fra en specifik IP-adresse, hvilket gør det umuligt at bruge det, når du går ind på siden, og selvom du med en dynamisk ip-adresse kan tildele dig selv en ny ved at oprette forbindelse igen, kan en statisk ip ikke bruges .
Brugeren er ikke forpligtet til at indtaste begge ord. En af dem er ikke kontrolleret, det er ret let at genkende den: på forskellige tidspunkter var det tjekkede ord "støjende" med en dobbelt kontur, linjer og geometriske forvrængninger. Derudover findes der nogle gange tegnsætningstegn , tekst på andre sprog, matematiske formler osv. i et umarkeret ord En inversion af baggrundsfarver og bogstaver er også muligt for et umarkeret ord .
Et komplekst ord, der ikke kan verificeres, taget ud af kontekst kan være fejlidentificeret. For eksempel blev kaptajn Infernet ( Louis-Antoine Infernet , deltager i slaget ved Trafalgar ) nogle gange identificeret som internettet [3] .
Nogle billeder er svære at genkende selv af en person. Der kan være problemer med spørgsmålets usikkerhed, for eksempel: det er nødvendigt at mærke busser, men på billedet en trolleybus; valget af butiksvinduer er måske ikke oplagt, hvis der vises en glasindgang til bygningen.