2010-09-30 33 views
7

可能重复:
Tool to compare large numbers of PDF files?以可编程方式比较PDF的可靠方法?

我在经典场景的业务给你一堆 PDF表单在新的一年有没有修订说明任何和你应该算出与前一年不同的东西。

我在这里讨论窗体的负载,所以我试图找到一种比较PDF的方法来勾画差异,而不需要人手动通过每个人。

我的想法是从PDF中提取所有文本并将其转储到.txt中,然后在文本文件上运行差异,但听起来很可怕。

我的问题是以编程的方式说的,但我很乐意用任何可靠的工具来比较PDF,主要是想从人们的经验中获得一个想法。也愿意接受任何程序化的解决方案(最好在C#中,但请拍出任何想法)。

+0

为什么这是重复的?显然问题是关于如何以编程方式进行。任何数量的可安装工具都不是这个问题的答案。 – Vin 2014-03-30 14:29:47

回答

8

有相当多的软件产品声称diff pdfs。我从来没有必要使用一个,但如果这将是一个反复的过程,我认为你的公司投资其中一个是明智的。只需谷歌“pdf差异”就可以得到一堆潜在的应用。

此外,您的情况是非常类似于这个问题:Tool to compare large numbers of PDF files?我认为它的讨论可能会有所帮助。

+0

感谢那 - 这个问题确实非常相似(出于某种原因,当我写作我的时候没有弹出)。 – JohnIdol 2010-09-30 22:34:16

4

我采取了从PDF中获取原始数据的方法,然后利用Word或TortiseSVN或WinMerge等来照顾比较部分。在我的例子中,我在C#中的RichTextBox中进行了比较......为差异着色等等,因为我们希望在我们的应用程序中完成这一切。

这是我做的... PDF comparison因为我试图比较混合文档,Word和PDF。

不过,我会建议PDFBox的用于解析,更优雅一点......虽然iTextSharp的制定好的...

2

我写了一篇博客提出一些方法来比较PDF文件在https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

+0

将PDF转换为图像,然后进行比较,仍然需要人工干预?这是如何有用呢? – vsingh 2010-12-08 18:05:01

+0

该软件可以告诉你,如果他们没有改变,所以你知道你没有破坏任何东西。只有一个人可以评估任何变化。 – 2010-12-08 23:29:36

7

我我是Docotic.Pdf Library的开发者。我们在单元测试中使用PDF比较来检查测试是否按预期生成PDF。 PDF是特殊对象的集合,我们比较所有PDF对象,忽略某些属性,如拖车ID和创建者信息。这个实现工作正常。

您可以尝试方法PdfDocument.DocumentsAreEqual。这种方法只是告诉你文档是平等的,没有特定的区别。如果您需要更多功能,您可以联系我们。

相关问题