如何从Nutch spidered网页数据库获取XML格式的信息

我正在尝试构建书籍聚合门户。 Nutch为我提供了优秀的网络爬虫，但是我想要非常具体的信息，如书名，书价，ISBN，作者等。如何从抓取的页面中提取信息？如果可能，我想以XML格式获取这些信息。如何从Nutch spidered网页数据库获取XML格式的信息

除了上述内容，我想问问这是否是正确的做法！可以用其他开源软件以更好的方式完成吗？

2013-04-09 deepdive

这取决于数据的结构。

我假设你主要是抓取HTML页面。

时常可以使用XPath抓住页的部分，诸如“// DIV [@类=‘书籍’] /一个/文本（）”

如果大部分的文本的是非结构化的（无结构化的HTML模式来抓取），那么你将不得不使用正则表达式或信息提取。

如果幸运的话，您可以使用正则表达式来做一些/大部分操作。

对于一些更复杂的结构，您需要使用信息提取/命名实体识别。

你将不得不培训一个IE工具，例如Stanford's CoreNLP来识别书名，并在你的文档中注释它们。也检查出BRAT Rapid Annotation Tool。

像Mozenda这样的服务可以为您执行抓取和X-Path工作，但我还没有看到提供IE服务的公司。

2013-04-10 19:11:43

回答