[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[Debian] [OT] Erfahrungen mit Web-Crawlern



Hallo,

auf meiner Suche durch die Debian-Archive nach einem Web-Crawler bin ich
leider nicht fündig geworden.  Eine Suche auf Sourceforge hat folgendes
ergeben:

http://sourceforge.net/projects/webharvest/  (stable)
http://sourceforge.net/projects/grub/        (alpha)
http://sourceforge.net/projects/jcrawler/    (alpha)
http://sourceforge.net/projects/spindexer/   (alpha)

Hat jemand schon eines dieser Programme im Einsatz und vielleicht ein
Debian-Paket dazu? (Etwas ausführlichere Info im angehefteten HTML-Text.)
Ich bin ansich mit htdig ganz zufrieden, aber bei uns soll unbedingt ein
Crawler eingesetzt werden und htdig ist leider ein indexer.

Viele Grüße

       Andreas.

--
We have joy, we have fun,
we have Linux on our Sun.
Group Name Description Status
Harvest Web IndexingHarvest is a web indexing package, originally disigned for distributed indexing, it can form a powerful system for indexing both large and small web sites. Also now includes Harvest-NG a highly efficient, modular, perl-based web crawler.stable
grub.org - Distributed Internet CrawlerGrub is a distributed internet crawler/indexer designed to run on multi-platform systems, interfacing with a central server/database.alpha
Java Web CrawlerA web crawler written in Java.alpha
spindexerSpindexer is a Search Engine/Crawler tool similar to UDMsearch or ht://dig - but unlike these tools, Spindexer is *very* fast and flexible. A simple Perl script works as a front-end to Pavuk and Swish++, allowing a fast crawl across any site(s).alpha

Reply to: