2011-02-14 57 views
1

Apache Nutch 1.2并不索引整个网站,只有子文件夹。我的索引页面提供了我网站大多数地区/子文件夹的链接。例如,东西,学生,研究......但nutch只能爬在一个特定的文件夹 - 在这种情况下的“学生”。似乎没有遵循其他目录中的链接。Apache Nutch不索引整个网站,只有子文件夹

抓取-urlfilter.txt: +^HTTP://www5.my-domain.de/

seed.txt在网址文件夹: http://www5.my-domain.de/

与(窗口开始的nutch/Linux都使用): nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

深度的不同变体(5 -23)和topN(100-1000000)进行测试。在seed.txt中提供更多链接完全没有帮助,仍然没有遵循注入页面中的链接。

有趣的是,爬行gnu.org工作完美。没有robots.txt或阻止在我的网站中使用元标记。

任何想法?

+0

您是否使用参数为您的网站URL,因为从我的头顶默认配置过滤掉了这样的东西的URL? = etc ... – millebii 2011-02-14 23:56:45

回答

1

看看你是否有内部域链接限制(在nutch-site.xml中属性为false)。还请查看其他属性,如每页最大内部链接和http大小。有时他们在抓取过程中产生错误的结果。

Ciao!

2

在试图抓取从索引页面所有链接,我发现,Nutch的仅限于大约1000的设置正是100链接,抱着我回了:

db.max.outlinks.per.page 

将其设置为允许2000 nutch可以一次性将所有这些数据进行索引。

相关问题