我必须读取几个文件并为文件中的每个单词编制索引。 而索引我必须遵循的格式:许多文件的标记和索引
要求==>字,{D1,TF1,D2,TF2,D4,TF4},someOtherValue
说明:
1)word = any word in the files
2)d1,d2,d4... are fileId
3) tf1,tf2,tf4....are the number of times the word appears
in d1,d2,d4 respectievly
我创建一个“Token”类,它包含来自不同文件的字符串作为“String token”,它所属文件的名称为“String fileId”,其文件中的频率为“Int count”。
我可以轻松检查1个文件中的各种单词并更新其计数。 我用arrayList来做到这一点。 但是,当相同的单词出现在另一个文件中时,如何在索引时追加fileId和它的计数。
您是否尝试创建某种文本搜索应用程序。如果是,那么你可以看看Lucene,它的索引和搜索部分非常简单。 – Shailendra
@Shailendra我必须这样做inn客栈java.thats问题。任何建议? – radhapiyari
如果你的意思是Java语言,那么Lucene是用Java编写的。如果您必须在您尝试实现的基础上开发完整的文本搜索应用程序,那么您可以尝试使用Lucene。 – Shailendra