Q

如何从PDF中抓取信息？

2011-12-16 77 views 1 likes

1

我正在使用Mozenda（Mozenda.com）来抓取在线数据库，但其中一些数据是PDF文件。 Mozenda似乎不支持抓取这些文件，所以我正在寻找另一种解决方案。如何从PDF中抓取信息？

有两个问题...

什么是适当的XPath语法选择从链接的网址？目前尚不清楚如何使用Mozenda来做到这一点，并且PDF地址是实施第三方解决方案所必需的。
什么是将大量PDF在线转换为 html的好工具，或者更好的办法是刮掉它们？

任何有用的建议是非常值得赞赏的。我很高兴澄清......只是问。

2011-12-16 user1043070

A

回答

0

使用mozenda本身可以创建xpath。创建任何操作>优化操作>放置。在Xpath中，并从CaptureDefination获取所需数据。

2012-02-15 10:35:34

1

我认识到这是一个较迟的答案，但Mozenda增加了将PDF转换为HTML并从中删除的能力。这很容易。

https://www.mozenda.com/faqs

2014-07-17 16:25:35 TravisChambers

相关问题