2011-12-16 77 views
1

我正在使用Mozenda(Mozenda.com)来抓取在线数据库,但其中一些数据是PDF文件。 Mozenda似乎不支持抓取这些文件,所以我正在寻找另一种解决方案。如何从PDF中抓取信息?

有两个问题...

  1. 什么是适当的XPath语法选择从 链接的网址?目前尚不清楚如何使用Mozenda来做到这一点,并且PDF地址 是实施第三方解决方案所必需的。

  2. 什么是将大量PDF在线转换为 html的好工具,或者更好的办法是刮掉它们?

任何有用的建议是非常值得赞赏的。我很高兴澄清......只是问。

回答

0

使用mozenda本身可以创建xpath。创建任何操作>优化操作>放置。在Xpath中,并从CaptureDefination获取所需数据。