2013-06-04 46 views
0

我是Apache Nutch/Solr系列产品的新手。我已经使用Solr(4.3)设置了基本的Nutch(1.6),并且已经成功爬取了一个站点,Solr也为我的抓取的数据编制了索引。Apache Nutch&Solr基于模板索引/提取

现在我的问题是如果我抓取一个网络博客,如用户可以给他们的评论(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),我怎么能确保Nutch考虑用户的意见和主博客作为单独的文件,所以当我搜索关键字时,它将主要博客和评论作为单独结果返回给我,稍后我也可以将这些数据用于情感分析。

我非常感谢这里的任何帮助。

谢谢。 Tony

回答

0

您可以使用xpath过滤器插件将抓取的内容分隔为两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

内容类=“后”会去现场A,类=“commentlist”内容会去现场B.

在搜索页面逻辑,您查询Solr的字段A让你搜索结果只来自您的博客文章,而不是评论。

评论数据仍针对文档保存,但无法搜索。