2012-08-13 81 views
0

我注意到像tika这样的解析插件从内容中提取出链接,但在方法getParse/2中传递的对象WebPage已经有两个数组包含outlinks和inlinks。Nutch 2解析和链接

getParse中的提取和提取后的区别是什么?

谢谢。

回答

0

网页对象是从nutch数据库中的信息创建的,在我的情况下是hsql。

在解析过程之后(在方法getParse返回之后)填充网页字段outlinks(和其他一些)。