我如何知道PDF是否被标记?我正在开发一个程序,它将复制PDF文件中的文本并将其显示在我的应用程序中,所以我试图测试PDF文件,我从PDF文件(普通复制+粘贴)中复制了一个表格并将其粘贴到MS字。结果是没有表的正常文本。有一些问题,当你从PDF文件复制表格并将其粘贴到Word时,它会变成图片。真的吗?如何确定PDF是否被标记?
回答
如何确定PDF被标记或不?
根据您正在使用,以处理您的文件库中,你可以尝试检索来自Catalog
辞典条目MarkInfo
。
从PDF规格:
表3.25条目目录中的字典
KEY: MarkInfo
TYPE:字典
VALUE:(可选; PDF 1.4)标记信息字典,其中包含有关文档对标记PDF 约定的使用情况的信息(请参阅第10.6节“逻辑结构”)。
然而,即使这个属性的值设置为TRUE,这并不意味着该标签实际上是在那里,如果是这样,他们可能不会在所有的提取表是有用到您。您仍然可以使用仅使用标记标记段落和图片的表格来查找PDF文件。
长话短说,除非你正在生成您的应用程序要消耗,这样就可以知道哪个标签来查找文件,它是不是一个好主意,依靠这些标签为“从PDF中提取表格“。
我发现了一个不同的问题的评论,似乎已经回答了这个问题。
How to read a Table in a PDF using iText java?
您可以提取从内容流中的文本,但对于普通的PDF文件,其结果将是纯文本(没有任何结构)。如果页面上有表格,该表格将不会被识别。你会得到内容和一些空白空间,但这不是一个表格结构!只有你有一个带标签的PDF,你才能获得一个XML文件。如果PDF中包含被识别为表格标签的标签,这将在PDF中反映出来。
哦。所以即使使用PDF的正常提取来编程它也只会是文本格式。甚至显示? –
只有在PDF被标记并可以转换为xml时,才会以表格的形式显示。 –
- 1. 如何判断PDF是否被标记
- 2. 如何确定Rails对象是否被标记为要破坏?
- 3. 如何确定PDF是否可搜索
- 4. 确定一个值是否被标记为未知值
- 5. 如何确定F15是否被按下?
- 6. 如何确定文件是否已被复制到目标
- 7. 如何确定blob是否标记为“公开分享”?
- 8. 如何确定是否类实现标记接口
- 9. 如何确定多个div是否有嵌套标记
- 10. 如何检查PDF是否被修改
- 11. 如何检查模型是否由特定标记标记
- 12. 如何确定NSData对象是否包含特定的HTML标记?
- 13. 如何确定数组中的第一个索引是否定的标记
- 14. 如何确定是否扫描.pdf文件的内容
- 15. 如何浏览PDF以确定元素是否为文本?
- 16. 如何确定Android是否可以处理PDF
- 17. 如何确定当前的Windows会话是否被锁定?
- 18. 如何确定注册表项是否被WOW64重定向?
- 19. 如何确定一个页面是否被重定向
- 20. 在IE6中,如何确定window.open是否被重新定义?
- 21. 如何确定Console.Out是否已被重定向到文件?
- 22. 如何判断当前修订版是否被标记
- 23. 如何检查文件是否已被标记为添加?
- 24. 我的标记技术是否正确?
- 25. 什么是“标记PDF”?
- 26. 是否被锁定了一条记录?
- 27. 确定修改键是否被按下
- 28. 确定事件是否被.trigger()调用
- 29. 确定线程是否被阻塞
- 30. 确定窗体是否被阻挡
从PDF复制的文本是否可以作为表格粘贴取决于您用来查看/复制PDF和要粘贴到的程序的程序。 PDF可能会将文本显示为表格,但当您从中复制时,查看器正在将其转换为纯文本。或者,您粘贴的程序可能会在粘贴时将其转换为纯文本。 –
啊所以这取决于它将如何被复制?即时通讯计划使用API读取PDF文件和即时通讯在Android上开发我的应用程序。 –