Nutch

Apache Nutch
Type Java [d] bibliotek ,funktionsbibliotekogcrawler
Udvikler Apache Software Foundation
Skrevet i Java
Operativ system Cross-platform software
Hardware platform Java virtuel maskine
nyeste version
Læsbare filformater Web ARChive fil
Genererede filformater Web ARChive fil
Stat Aktiv
Licens Apache-licens 2
Internet side nutch.apache.org
 Mediefiler på Wikimedia Commons

Apache Nutch er en modulær ramme til opbygning af søgemaskiner skrevet i Java og baseret på Lucene , Solr , Tika , Hadoop og Gora teknologier tilpasset til de specifikke internetsøgninger (for eksempel understøttes crawler , linkbase, HTML -parsing og andre formater) . Nutch-arkitekturen giver udviklere mulighed for at skabe plugins til behandling af nyt medieindhold, modtagelse af data gennem ikke-standardkanaler for at danne standardforespørgsler eller organisere en søgeklynge.

Systemet giver værktøjer til at bygge højskala indekseringssystemer, der er abstraheret fra den type lagring, som gør det muligt at bruge sådanne lagringspladser til store mængder data som Apache Accumulo , Apache Avro , Apache Cassandra , Apache HBase og HDFS , samt SQL - databaser og placering af NoSQL -databaser i hukommelsen.

Brug

Baseret på Nutch 2.0, der kører oven på en 34-node Hadoop-klynge, blev Kalooga- søgetjenesten bygget , hvis indeks indeholder mere end en milliard sider [2] .

Søgemaskiner baseret på Nutch:

Noter

  1. https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
  2. Apache Nutch 2.0 søgemaskine udgivet . Hentet 9. januar 2017. Arkiveret fra originalen 14. juli 2012.
  3. Vores opdaterede søgning . Creative Commons (3. september 2004). Hentet 9. januar 2017. Arkiveret fra originalen 7. september 2011.
  4. Creative Commons unikke søgeværktøj er nu integreret i Firefox 1.0 (downlink) . Creative Commons (22. november 2004). Arkiveret fra originalen den 22. juli 2013. 
  5. Ny CC-søgnings-UI . Creative Commons (2. august 2006). Hentet 9. januar 2017. Arkiveret fra originalen 7. november 2011.
  6. Hvor kan jeg hente kildekoden til Wikia Search? (utilgængeligt link) . Hentet 9. januar 2017. Arkiveret fra originalen 4. november 2011. 
  7. Opdatering på Wikia – gør mere af det, der virker . Hentet 9. januar 2017. Arkiveret fra originalen 3. maj 2009.

Links