2013-04-09 23 views
1

我正在尝试构建书籍聚合门户。 Nutch为我提供了优秀的网络爬虫,但是我想要非常具体的信息,如书名,书价,ISBN,作者等。如何从抓取的页面中提取信息?如果可能,我想以XML格式获取这些信息。如何从Nutch spidered网页数据库获取XML格式的信息

除了上述内容,我想问问这是否是正确的做法!可以用其他开源软件以更好的方式完成吗?

回答

0

这取决于数据的结构。

我假设你主要是抓取HTML页面。

时常可以使用XPath抓住页的部分,诸如“// DIV [@类=‘书籍’] /一个/文本()”

如果大部分的文本的是非结构化的(无结构化的HTML模式来抓取),那么你将不得不使用正则表达式或信息提取。

如果幸运的话,您可以使用正则表达式来做一些/大部分操作。

对于一些更复杂的结构,您需要使用信息提取/命名实体识别。

你将不得不培训一个IE工具,例如Stanford's CoreNLP来识别书名,并在你的文档中注释它们。也检查出BRAT Rapid Annotation Tool

像Mozenda这样的服务可以为您执行抓取和X-Path工作,但我还没有看到提供IE服务的公司。