从PDF文件提取图层为HTML

我有一个PDF文件，包含图层。从PDF文件提取图层为HTML

例如，在一些网页，还有图形，与点击（层）当对图的顶部显示的附加数据。

现在我需要尝试将所有这些层取出来的PDF文件，或者更确切地说，我需要从PDF文件中的所有数据，包括图层。 pdf文件包含javascript以适当地显示/隐藏图层。

什么是最好的方法？是否有任何工具可以用于我的意图？或者我应该自己写点什么？（如果这是可能的话）。

编辑：

观看的密码是：伊拉斯谟

2011-10-07 Mortana

我不知道是否有任何工具本身，而是如果你不能找到那些你不妨做到以下几点：

为对你有兴趣走的所有页面，并收集/关闭图层每个组合内容流。将这些内容进行标记并剪切出您不想看到的内容（您需要监视的命令以确定这是BDC和EMC）。使用剪辑的内容再次保存流（自然将结果保存在不同的文件中）。您需要阅读PDF对象结构并更新一些对象（这里有很多库），而且需要能够解析内容流。

现在你将有不带层的一组PDF文件（可选内容），对此有很多工具来渲染为HTML等

注：可选的内容< - 在PDF>层交换机查看器通常是1：1，但标准支持完整的n：m映射。我会专注于可以打开/关闭的真正可选内容块，以保持简单。

2011-10-07 10:57:50

的能力，这看起来我配不上。我正在尝试使用外部PDF库（itextsharp），现在我正在遍历每一页的部分，在PdfDictionary中收集该页面的内容。然后，我有点困... – Mortana

您可以使用此工具从甚至锁定的PDF文件中提取图像和文字

我有时用它自己，它必须转换为HTML

2011-10-07 11:03:54 Tules

我试过了，但是，在打开PDF文件，我得到一个未知的加密使用的错误... – Mortana

哦，我看到的，那么我想他们已经锁定了它很紧笑 – Tules

我将添加PDF，以便您可以看到它是什么类型。 – Mortana

回答