我有一个基于Spring的Java Web应用程序。而我的问题是:从Lucene的非常大的文件中获取随机行
我有一个文件有34MB,有270万行。行只是一个字一个接一个:
abc
abcdfg
xyz
etc
我需要选择从该文件15条随机独特的线,是不是在一个相当快的方式彼此相邻。我知道要搜索这么大的文件,我可以使用Apache Lucene。你知道Lucene是否可以为我提供这些随机线路。或者,也许你有其他的想法可以帮助我解决这个问题。
我真的很感谢所有帮助提前
感谢
编辑:
或者,也许只是把这个文件到数据库[PostgreSQL的]?
如果它不一定是完美的,你可以寻找文件中的随机位置,直到下一个开始 - 行(如果到达结尾,则回卷到开头),然后返回下一行。随着时间的推移,这将会在更长的线路之后积累对线路的偏见。你可以通过用空格填充所有行到相同的长度来纠正这种偏见。 – Wug
如果你想随机选择一些行,那么Lucene不能帮你,因为它是一个全文索引/搜索库(http://en.wikipedia.org/wiki/Lucene)。 – Vikdor
对不起,也许你误解了我,我需要15个不相邻的唯一行 –