我正在寻找一种方法来实际获取文件本身的内容,以文本格式转储。例如:我不想要一个字典对象,我不想要某种提取策略选项,我只想要与itextsharp用来解析的相同文本文档...整个事物作为字符串或字符串构建器...itextsharp PDF到文本转储
我还没有找到一种方法来做到这一点使用任何工具,所以永远......我的问题是,我正在尝试阅读一个动态的PDF到一个C#应用程序......我们都知道那些补给动态PDF可以不会被iTextSharp解析(AcroForm和AcroFields总是空的),所以我想如果我能得到整个文件的实际文本转储,我可以看到它看起来像什么,并自己解析它为这个特定的任务(例如:为每个我知道我可以收到的文档创建一个类,并根据我所看到的创建一个地图)。
如果任何人都可以帮助我做到这一点,甚至更好,请在C#中找到一种方式来为PDF提取XML源(有点像单击LiveCycle中的XML源代码标签),这将不胜感激。
谢谢!
马特
要知道,即使是全文的页面此页面的内容可能仅仅包含对其他资源流,又包含文本或引用其他资源引用... – mkl
它具有对所选字体,选定图像等的引用。例如,在这里很明显,选择了/ F1字体。现在您知道应该从哪里开始在可用流中查找此对象。 – VahidN
在上下文中,XObject资源可能更相关。或者根本没有,OP似乎毕竟对XFA表单数据感兴趣。 – mkl