WebCollector é uma estrutura de crawler da web de código aberto para java.
O projeto está no github: https://github.com/CrawlScript/WebCollector
Demo: Baixe o projeto em https://github.com/CrawlScript/WebCollector,find webcollector-version-bin.zip.Unzip it.
Para Windows:
clique duas vezes em start.bat
Para linux:
sh start.sh