Apache Nutch | |
---|---|
Type | Java [d] bibliotek ,funktionsbibliotekogcrawler |
Udvikler | Apache Software Foundation |
Skrevet i | Java |
Operativ system | Cross-platform software |
Hardware platform | Java virtuel maskine |
nyeste version |
|
Læsbare filformater | Web ARChive fil |
Genererede filformater | Web ARChive fil |
Stat | Aktiv |
Licens | Apache-licens 2 |
Internet side | nutch.apache.org |
Mediefiler på Wikimedia Commons |
Apache Nutch er en modulær ramme til opbygning af søgemaskiner skrevet i Java og baseret på Lucene , Solr , Tika , Hadoop og Gora teknologier tilpasset til de specifikke internetsøgninger (for eksempel understøttes crawler , linkbase, HTML -parsing og andre formater) . Nutch-arkitekturen giver udviklere mulighed for at skabe plugins til behandling af nyt medieindhold, modtagelse af data gennem ikke-standardkanaler for at danne standardforespørgsler eller organisere en søgeklynge.
Systemet giver værktøjer til at bygge højskala indekseringssystemer, der er abstraheret fra den type lagring, som gør det muligt at bruge sådanne lagringspladser til store mængder data som Apache Accumulo , Apache Avro , Apache Cassandra , Apache HBase og HDFS , samt SQL - databaser og placering af NoSQL -databaser i hukommelsen.
Baseret på Nutch 2.0, der kører oven på en 34-node Hadoop-klynge, blev Kalooga- søgetjenesten bygget , hvis indeks indeholder mere end en milliard sider [2] .
Søgemaskiner baseret på Nutch:
Apache Software Foundation | |||||||
---|---|---|---|---|---|---|---|
Projekter på topniveau |
| ||||||
Delprojekter |
| ||||||
Apache Web |
| ||||||
Andre projekter | |||||||
Udvikling af projekter ( inkubator ) |
| ||||||
Nedlagte projekter ( loftsrum ) | |||||||
|