Nutch

Apache Nutch

Type	Java [d] bibliotek ,funktionsbibliotekogcrawler
Udvikler	Apache Software Foundation
Skrevet i	Java
Operativ system	Cross-platform software
Hardware platform	Java virtuel maskine
nyeste version	2.4 ( 11. oktober 2019 ) [1]
Læsbare filformater	Web ARChive fil
Genererede filformater	Web ARChive fil
Stat	Aktiv
Licens	Apache-licens 2
Internet side	nutch.apache.org
Mediefiler på Wikimedia Commons

Apache Nutch er en modulær ramme til opbygning af søgemaskiner skrevet i Java og baseret på Lucene , Solr , Tika , Hadoop og Gora teknologier tilpasset til de specifikke internetsøgninger (for eksempel understøttes crawler , linkbase, HTML -parsing og andre formater) . Nutch-arkitekturen giver udviklere mulighed for at skabe plugins til behandling af nyt medieindhold, modtagelse af data gennem ikke-standardkanaler for at danne standardforespørgsler eller organisere en søgeklynge.

Systemet giver værktøjer til at bygge højskala indekseringssystemer, der er abstraheret fra den type lagring, som gør det muligt at bruge sådanne lagringspladser til store mængder data som Apache Accumulo , Apache Avro , Apache Cassandra , Apache HBase og HDFS , samt SQL - databaser og placering af NoSQL -databaser i hukommelsen.

Brug

Baseret på Nutch 2.0, der kører oven på en 34-node Hadoop-klynge, blev Kalooga- søgetjenesten bygget , hvis indeks indeholder mere end en milliard sider [2] .

Søgemaskiner baseret på Nutch:

Creative Commons Search - lanceret i 2004, Nutch-implementering erstattet i 2006 [3] [4] [5]
DiscoverEd er en åben pædagogisk ressourcesøgningsprototype udviklet af Creative Commons.
Krugle
MozDex
Wikia Search - lanceret i 2008, lukket i 2009 [6] [7]
search2.net

Noter

↑ https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
↑ Apache Nutch 2.0 søgemaskine udgivet . Hentet 9. januar 2017. Arkiveret fra originalen 14. juli 2012. (ubestemt)
↑ Vores opdaterede søgning . Creative Commons (3. september 2004). Hentet 9. januar 2017. Arkiveret fra originalen 7. september 2011. (ubestemt)
↑ Creative Commons unikke søgeværktøj er nu integreret i Firefox 1.0 (downlink) . Creative Commons (22. november 2004). Arkiveret fra originalen den 22. juli 2013. (ubestemt)
↑ Ny CC-søgnings-UI . Creative Commons (2. august 2006). Hentet 9. januar 2017. Arkiveret fra originalen 7. november 2011. (ubestemt)
↑ Hvor kan jeg hente kildekoden til Wikia Search? (utilgængeligt link) . Hentet 9. januar 2017. Arkiveret fra originalen 4. november 2011. (ubestemt)
↑ Opdatering på Wikia – gør mere af det, der virker . Hentet 9. januar 2017. Arkiveret fra originalen 3. maj 2009. (ubestemt)

Links

nutch.apache.org - Nutchs officielle hjemmeside
Officiel wiki
Building Nutch: Open Source Search（2004）- ACM Queue vol. 2, nr. 2
Artikel om Nutch（2003）-Search Engine Watch
Mere artikel om Nutch（2003）- Tech News World
Officiel Hadoop-projektside

Apache Software Foundation

Projekter på topniveau

ActiveMQ
luftstrøm
Myre
Apache HTTP-server
ÅOP
Cassandra
Cayenne
kamel
Commons
Kokon
CouchDB
DB
bibliotek
Druide
Flink
Forrest
Geronimo
Gump
Hadoop
HBase
HttpComponents
Jackkanin
James
jmeter
Kafka
Lenya
Maven
Mina
mod perl
mod_wsgi
MyFaces
Nutch
OFBiz
Oozie
åbent kontor
POI
Portaler
Santuario
service mix
Shiro
Gnist
SpamAssassin
stivere
subversion
supersæt
Gobelin
Tcl
Tomcat
Turbine
Hastighed
WebWork2
Wicket
Xalan
Xerces
XMLBeans
Zeppelin
Dyrepasser

Delprojekter

Apache Commons	BCEL BSF JCS
Apache Lucene	Luce Java Lucene4c Lucy Solr
ApacheDB	Derby Moment DdlUtils OJB JDO

Apache Web

Akse
Akse2
CXF
WS-
EWS
JaxMe
jUDDI
Kandula
Mirae
Muse
Abonner
Sandesha
spejder
SÆBE
Synapse
TSIK
Toscana
Woden
WSIF
WSRF
WSS4J
XML-RPC

Andre projekter

Batik
FOP
Log4j

Udvikling af projekter ( inkubator )

XAP
River
OpenEJB
Åbn JPA
Graffito
Toscana
Log4Net
Rulle
Felix
Abdera
CeltiXfire
FtpServer
Heraldik
Ivy
Juice
Kabuki
Lokahi
Lucene.Net
mod_ftp
NMaven
Ode
stdcxx
Woden
WSRP4J
Yoko
WADI
Qpid
TripleSoup
UIMA
Adobe Flex

Nedlagte projekter ( loftsrum )

AxKit
Beehive
Kaktus
ECS
Excalibur
Harmoni
HiveMind
iBATIS
Jakarta
ORO
Regexp
Skifer
Slide
Taglibs

Licens: Apache-licens