0
抓取网站时,如www.example.com有一个页面x.html,其中有4个子页面的链接,如果处理链接,我将获得所有的x.html标题4个子页面。使用nutch抓取子页面时获取父标题
在这种情况下,我们添加父标题给nutch的孩子?
抓取网站时,如www.example.com有一个页面x.html,其中有4个子页面的链接,如果处理链接,我将获得所有的x.html标题4个子页面。使用nutch抓取子页面时获取父标题
在这种情况下,我们添加父标题给nutch的孩子?
您可以编写HTMLParseFilter并将自定义元数据(see JIRA)添加到主页面标题为值的输出链接。
顺便说一句,你会得到一个更相关的观众张贴在Nutch user list