Lucene中的索引推文

目前我有很多我想索引的推文，但是每个推文都是小文档。如果我要将它们聚合成每个文件有100条推文，是否可以使用Lucene索引它们，但同时保持推文ID（ID列存在于文件中）？Lucene中的索引推文

例如，每一行看起来象下面这样：

TweetID | TweetText

感谢，安迪。

2011-12-10 cherhan

请将它重新格式化为一个问题。什么让你感到困难，其他人怎么帮助？谢谢。 –

Solr称这些“多值字段”和他们完成它的方式是通过偏移。基本上，你分配每个推文200字节，然后设置第n个推文的偏移量以200 *偏移量开始。

搜索时，您可以找回匹配推文的偏移量，并从中找出匹配的推文。

2011-12-12 22:30:21 Xodarap

假设我保留TweetID的20位数字和Tweet文本的140个字符= 160字节+其他信息的另外40字节，那是什么意思？ – cherhan

是的，您可以保留您认为有必要的金额。 Lucene使用稀疏的存储格式，因此您可以根据自己喜好设置偏移量，而无需支付存储费用。 – Xodarap

回答