我有一些MHTML格式和pdf格式的文档。我想知道在MHTML和PDF中内容是否相同。我如何比较差异?如何比较不同类型的两个文件的内容?
0
A
回答
3
您将需要一个MHTML解析器以及一个PDF解析器库。然后你平行浏览两个文件并比较内容。并不是说这绝对不是微不足道的,因为您必须在不同文件格式的元素之间构建映射系统。
如果您想要考虑内容可以用不同的方式写入(例如表格与标签)并且看起来与用户完全一样,那么事情会变得非常复杂。
我从你提出问题的方式中感受到的直觉是,这个项目比你准备好的方式更大更复杂。
+0
他可以解析为文本并忽略空格\新行\标签 - 例如只比较字母(忽略大小写,也许允许一些错误率 - 可以说每500个字符中有1个字符可以有错误并且仍然相等) –
+0
@Quantic编程:这适用于简单的文本文档,但只要有文本框(div或HTML中的任何内容)不属于主文本流程,就会遇到问题。 –
相关问题
- 1. 比较任何文件类型的两个文件的内容
- 2. 比较不同类型的两个值
- 3. 如何比较两个文本文件的内容并返回“相同内容”或“不同内容”?
- 4. 如何比较两个dll的内容?
- 5. ant:如何比较两个文件的内容
- 6. 如何比较两个资源文件(* .res)的内容?
- 7. 如何比较两个具有相似内容的文件
- 8. 比较内容中有多个文件的两个文件夹
- 9. C# - 如何比较两个不同的文本文件
- 10. 如何比较两个不同表的两个不同的行?
- 11. 如何比较两个StructType共享相同的内容?
- 12. 比较Eclipse的不同版本的两个java类文件
- 13. 如何比较两个不同的IP?
- 14. 如何比较python中两个不同文件中的两个图像文件
- 15. 如何比较同一类型的两个对象的“状态”?
- 16. 如何在php中比较两个不同的扩展文件?
- 17. scala中如何比较两种不同类型的对象?
- 18. 比较2个excel文件的内容
- 19. JUnit:比较两个无序文本文件的内容
- 20. 比较同一个文件的两个不同的目录
- 21. 比较SQL中不同类型的不同表中的两列
- 22. 比较两个类的类型
- 23. 比较两个std :: lists的内容
- 24. 比较两个列表的内容
- 25. 比较Unix中两个csv的内容
- 26. 比较两个字符值的内容
- 27. 比较两个HTML块,如果它具有相同的内容
- 28. 比较控制器内两个不同模型的属性
- 29. Doc4j:比较两个文件失败,因为不同的元素类型
- 30. 比较两列两个不同的Excel文件查找的java
请参阅:http://stackoverflow.com/questions/968935/c-binary-file-compare长相类似 –
您想比较内容吗?如果没有非常复杂的解析器,这是不可能的。 –
你是说你想将MHTML文件与PDF文件进行比较以检查内容是否相同?或者你想比较两个MHTML或两个PDF文件? –