我struggeling找到一种有效的方式(< 0.5瑞典克朗)。只有所需的文件名的一小部分一个巨大的文件系统来搜索特定的文件。搜索/索引巨大的文件达
这里的情景:
考虑您对15.000.000文件全部由他们的类型的信息分类包含包含每个20.000文件编号的目录中的批处理:
DATA
--TYPE_1_001
----ID_1234567_TYPE1.XML
----ID_2345678_TYPE1.XML
----[...]
--TYPE1_002
--[...]
--TYPE_1_097
--TYPE_2_001
----ID_1234567_TYPE2.JPG
----ID_2345678_TYPE2.JPG
----ID_2345679_TYPE2.JPG
----[...]
--[...]
--TYPE2_304
--[...]
等。
所以,给出的ID(即1234567),我试图找到包括所有相关的文件名表示ID。 这个“查找过程”将在另一个XML文件中给出的7.000.000个ID中执行。
当前进程将采取405天处理所有7.000.000的ID,这 - 数字谁 - 是不能接受的;)
有什么建议?
在此先感谢!
试试这个http://lucene.apache.org/java/docs/index.html –