文档差异算法如何工作？

差异的操作是基于解决最长公共子问题

在这个问题上，你有一个项目两个序列：
a b c d f g h j q z 

    a b c d e f g i j k r x y z 
，你要查找的最长序列物品存在于机器人h原始序列以相同的的顺序排列。也就是说，你想要找到一个新的序列，它可以从的第一个序列中删除一些项目，并从第二个序列中删除其他项目的。你也想这个序列只要是可能的。在这种情况下，它是
a b c d f g j z 
从最长公共子这只是一小步，得到 DIFF样输出：
e h i q k r x y 
    + - + - + + + + 

那说，这一切都正常工作与基于文本的文档。由于Word文档实际上是一种二进制格式，并且包含大量格式化信息和数据，因此这将变得更为复杂。理想情况下，你可以看看自动运行Word本身，因为它有能力的文档之间“差异”，详见这里：

Microsoft Word Tip: How to compare two documents for differences

来源

2009-10-02 15:30:03 CraigTP

实现差异算法有两个目的：只存储版本之间的差异，或显示版本之间的差异。这些是非常不同的（没有双关语意图）。 LCS通常仅用于显示差异，但为了实现最佳存储，需要更高级的算法。例如，如果您从文档的一个部分剪下大部分，并将其粘贴到另一部分中，则优秀的存储算法会检测到该部分，而不会将其存储为“嘿，这里出现了大量新数据”。 – 2009-10-02 15:32:52

@Lasse - 同意。由于最初的提问者在谈论Word文档，因此我认为他们会更偏好差异化的“视觉”方面，而不是存储方面。然而，对于存储方面你是正确的，你会看到Delta Encoding/Compression（http://en.wikipedia.org/wiki/Delta_encoding）等。 – CraigTP 2009-10-02 16:37:41

文档差异算法如何工作？

回答

相关问题