我是Apache Nutch/Solr系列产品的新手。我已经使用Solr(4.3)设置了基本的Nutch(1.6),并且已经成功爬取了一个站点,Solr也为我的抓取的数据编制了索引。Apache Nutch&Solr基于模板索引/提取
现在我的问题是如果我抓取一个网络博客,如用户可以给他们的评论(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),我怎么能确保Nutch考虑用户的意见和主博客作为单独的文件,所以当我搜索关键字时,它将主要博客和评论作为单独结果返回给我,稍后我也可以将这些数据用于情感分析。
我非常感谢这里的任何帮助。
谢谢。 Tony