使用nutch抓取页面的后处理

我有一组使用nutch抓取的页面。而且我知道这些爬网页面被保存为段。我想从这些页面中提取某些关键值并将其作为xml提供给solr。使用nutch抓取页面的后处理

一个示例情况是，我爬了一个包含许多产品列表的购物网站。我想提取关键的信息，如名称，价格，产品规格，并忽略其余的数据。所以我可以提供来解决一些xml，如 qwerty123qwerty 这是这样的，使用solr我应该能够根据价格对不同的产品列表进行排序。

现在如何完成这个提取部分？地图是否缩小到图片的任何位置？

2012-03-06 qwerty123

将原始网页转化为信息并不是一项简单的任务。一个用于这项工作的工具是Boilerpipe。但是，它不会给你一个解决方案。

如果您正在研究固定目标，您可能只需编写自己的程序代码来查找所需的数据。如果您需要以任意HTML格式查找这类内容，您将面临一个非常棘手的问题，即没有现成的解决方案。

2012-03-06 14:46:32 bmargulies

它不是真的任意的HTML。提取部分实际上可以用简单的正则表达式来完成。我在考虑是否有任何解析由nutch创建的细分的具体解决方案。 – qwerty123 2012-03-06 16:58:27

Nutch刚刚抓住了whar的文字通过http回来，不是吗？ – bmargulies 2012-03-06 18:55:07

是的。但似乎存储在一些其他格式，而不是HTML或TXT格式 – qwerty123 2012-03-08 11:29:37

回答