0
我注意到像tika这样的解析插件从内容中提取出链接,但在方法getParse/2中传递的对象WebPage已经有两个数组包含outlinks和inlinks。Nutch 2解析和链接
getParse中的提取和提取后的区别是什么?
谢谢。
我注意到像tika这样的解析插件从内容中提取出链接,但在方法getParse/2中传递的对象WebPage已经有两个数组包含outlinks和inlinks。Nutch 2解析和链接
getParse中的提取和提取后的区别是什么?
谢谢。
网页对象是从nutch数据库中的信息创建的,在我的情况下是hsql。
在解析过程之后(在方法getParse返回之后)填充网页字段outlinks(和其他一些)。