2011-07-21 66 views
0

我有一些MHTML格式和pdf格式的文档。我想知道在MHTML和PDF中内容是否相同。我如何比较差异?如何比较不同类型的两个文件的内容?

+0

请参阅:http://stackoverflow.com/questions/968935/c-binary-file-compare长相类似 –

+0

您想比较内容吗?如果没有非常复杂的解析器,这是不可能的。 –

+0

你是说你想将MHTML文件与PDF文件进行比较以检查内容是否相同?或者你想比较两个MHTML或两个PDF文件? –

回答

3

您将需要一个MHTML解析器以及一个PDF解析器库。然后你平行浏览两个文件并比较内容。并不是说这绝对不是微不足道的,因为您必须在不同文件格式的元素之间构建映射系统。

如果您想要考虑内容可以用不同的方式写入(例如表格与标签)并且看起来与用户完全一样,那么事情会变得非常复杂。

我从你提出问题的方式中感受到的直觉是,这个项目比你准备好的方式更大更复杂。

+0

他可以解析为文本并忽略空格\新行\标签 - 例如只比较字母(忽略大小写,也许允许一些错误率 - 可以说每500个字符中有1个字符可以有错误并且仍然相等) –

+0

@Quantic编程:这适用于简单的文本文档,但只要有文本框(div或HTML中的任何内容)不属于主文本流程,就会遇到问题。 –

相关问题