Apache Nutch不索引整个网站，只有子文件夹

Apache Nutch 1.2并不索引整个网站，只有子文件夹。我的索引页面提供了我网站大多数地区/子文件夹的链接。例如，东西，学生，研究......但nutch只能爬在一个特定的文件夹 - 在这种情况下的“学生”。似乎没有遵循其他目录中的链接。Apache Nutch不索引整个网站，只有子文件夹

抓取-urlfilter.txt： +^HTTP：//www5.my-domain.de/

seed.txt在网址文件夹： http://www5.my-domain.de/

与（窗口开始的nutch/Linux都使用）： nutch crawl“D：\ Program \ nutch-1.2 \ URLs”-dir“D：\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

深度的不同变体（5 -23）和topN（100-1000000）进行测试。在seed.txt中提供更多链接完全没有帮助，仍然没有遵循注入页面中的链接。

有趣的是，爬行gnu.org工作完美。没有robots.txt或阻止在我的网站中使用元标记。

任何想法？

2011-02-14 user616146

您是否使用参数为您的网站URL，因为从我的头顶默认配置过滤掉了这样的东西的URL？ = etc ... – millebii 2011-02-14 23:56:45

看看你是否有内部域链接限制（在nutch-site.xml中属性为false）。还请查看其他属性，如每页最大内部链接和http大小。有时他们在抓取过程中产生错误的结果。

Ciao！

2011-04-17 13:57:16 Luiscappa

在试图抓取从索引页面所有链接，我发现，Nutch的仅限于大约1000的设置正是100链接，抱着我回了：

db.max.outlinks.per.page

将其设置为允许2000 nutch可以一次性将所有这些数据进行索引。

2013-07-02 18:34:31 user1357196

回答