2013-03-06 37 views
1

我有大约1TB的图像,存储在我的硬盘上。这些是随着时间的推移拍摄的朋友和家人的照片。这些图片中的许多图片都是重复的,从某种意义上讲,同一个文件保存在不同的位置,可能也会有不同的名称。我想问问是否有任何工具,实用程序或方法(我可以编写一个)来找出重复的文件。查找重复的图像文件

回答

4

我会推荐使用md5deep or sha1deep。在Linux上,只需安装包md5deep(它包含在大多数Linux发行版中)。

一旦你安装它,只需在你的整个磁盘递归模式下运行,并使用命令你这样的磁盘上保存校验每个文件为文本文件:

md5deep -r -l . > filelist.txt 

如果你喜欢比sha1更好md5,改为使用sha1deep(它是同一包中的一部分)。

一旦你有一个文件,只需使用sort(或管道将它导入sort在前面的步骤)对其进行排序:

sort <filelist.txt> filelist_sorted.txt 

现在,只需看看使用任何文本编辑器的结果 - 你很快就会看到所有复制品与他们在磁盘上的位置一起。

如果您非常喜欢,可以使用Perl或Python编写简单的脚本来删除基于此文件列表的重复项。

+0

是否有一些可用的东西在Windows中。 – abhinav 2013-03-06 05:42:23

+0

是的,Windows二进制文件可以在我提供的链接 – mvp 2013-03-06 05:42:52

+0

也只是好奇,这是一个很好的例子来尝试一些地图缩减代码,如果图像数据将增加到更大的体积。 – abhinav 2013-03-06 05:43:06