2012-03-06 34 views
0

我有一组使用nutch抓取的页面。而且我知道这些爬网页面被保存为段。我想从这些页面中提取某些关键值并将其作为xml提供给solr。使用nutch抓取页面的后处理

一个示例情况是,我爬了一个包含许多产品列表的购物网站。我想提取关键的信息,如名称,价格,产品规格,并忽略其余的数据。所以我可以提供来解决一些xml,如 qwerty123qwerty 这是这样的,使用solr我应该能够根据价格对不同的产品列表进行排序。

现在如何完成这个提取部分?地图是否缩小到图片的任何位置?

回答

1

将原始网页转化为信息并不是一项简单的任务。一个用于这项工作的工具是Boilerpipe。但是,它不会给你一个解决方案。

如果您正在研究固定目标,您可能只需编写自己的程序代码来查找所需的数据。如果您需要以任意HTML格式查找这类内容,您将面临一个非常棘手的问题,即没有现成的解决方案。

+0

它不是真的任意的HTML。提取部分实际上可以用简单的正则表达式来完成。我在考虑是否有任何解析由nutch创建的细分的具体解决方案。 – qwerty123 2012-03-06 16:58:27

+0

Nutch刚刚抓住了whar的文字通过http回来,不是吗? – bmargulies 2012-03-06 18:55:07

+0

是的。但似乎存储在一些其他格式,而不是HTML或TXT格式 – qwerty123 2012-03-08 11:29:37