Apache Nutch 1.2并不索引整个网站,只有子文件夹。我的索引页面提供了我网站大多数地区/子文件夹的链接。例如,东西,学生,研究......但nutch只能爬在一个特定的文件夹 - 在这种情况下的“学生”。似乎没有遵循其他目录中的链接。Apache Nutch不索引整个网站,只有子文件夹
抓取-urlfilter.txt: +^HTTP://www5.my-domain.de/
seed.txt在网址文件夹: http://www5.my-domain.de/
与(窗口开始的nutch/Linux都使用): nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000
深度的不同变体(5 -23)和topN(100-1000000)进行测试。在seed.txt中提供更多链接完全没有帮助,仍然没有遵循注入页面中的链接。
有趣的是,爬行gnu.org工作完美。没有robots.txt或阻止在我的网站中使用元标记。
任何想法?
您是否使用参数为您的网站URL,因为从我的头顶默认配置过滤掉了这样的东西的URL? = etc ... – millebii 2011-02-14 23:56:45