2011-10-07 50 views
3

我有一个PDF文件,包含图层。从PDF文件提取图层为HTML

例如,在一些网页,还有图形,与点击(层)当对图的顶部显示的附加数据。

现在我需要尝试将所有这些层取出来的PDF文件,或者更确切地说,我需要从PDF文件中的所有数据,包括图层。 pdf文件包含javascript以适当地显示/隐藏图层。

什么是最好的方法?是否有任何工具可以用于我的意图?或者我应该自己写点什么? (如果这是可能的话)。

编辑:

在这里你可以下载PDF文件: http://www.2shared.com/document/IutUfDfr/OR_erasmus.html

观看的密码是:伊拉斯谟

回答

1

我不知道是否有任何工具本身,而是如果你不能找到那些你不妨做到以下几点:

  • 为对你有兴趣走的所有页面,并收集/关闭图层每个组合内容流。将这些内容进行标记并剪切出您不想看到的内容(您需要监视的命令以确定这是BDC和EMC)。使用剪辑的内容再次保存流(自然将结果保存在不同的文件中)。您需要阅读PDF对象结构并更新一些对象(这里有很多库),而且需要能够解析内容流。

现在你将有不带层的一组PDF文件(可选内容),对此有很多工具来渲染为HTML等

注:可选的内容< - 在PDF>层交换机查看器通常是1:1,但标准支持完整的n:m映射。我会专注于可以打开/关闭的真正可选内容块,以保持简单。

+0

的能力,这看起来我配不上。我正在尝试使用外部PDF库(itextsharp),现在我正在遍历每一页的部分,在PdfDictionary中收集该页面的内容。然后,我有点困... – Mortana

0

您可以使用此工具从甚至锁定的PDF文件中提取图像和文字

http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html

我有时用它自己,它必须转换为HTML

+0

我试过了,但是,在打开PDF文件,我得到一个未知的加密使用的错误... – Mortana

+1

哦,我看到的,那么我想他们已经锁定了它很紧笑 – Tules

+0

我将添加PDF,以便您可以看到它是什么类型。 – Mortana