2014-06-15 53 views
0

抓取网站时,如www.example.com有一个页面x.html,其中有4个子页面的链接,如果处理链接,我将获得所有的x.html标题4个子页面。使用nutch抓取子页面时获取父标题

在这种情况下,我们添加父标题给nutch的孩子?

回答

1

您可以编写HTMLParseFilter并将自定义元数据(see JIRA)添加到主页面标题为值的输出链接。

顺便说一句,你会得到一个更相关的观众张贴在Nutch user list