2011-12-10 89 views
0

目前我有很多我想索引的推文,但是每个推文都是小文档。如果我要将它们聚合成每个文件有100条推文,是否可以使用Lucene索引它们,但同时保持推文ID(ID列存在于文件中)?Lucene中的索引推文

例如,每一行看起来象下面这样:

TweetID | TweetText 

感谢, 安迪。

+0

请将它重新格式化为一个问题。什么让你感到困难,其他人怎么帮助?谢谢。 –

回答

0

Solr称这些“多值字段”和他们完成它的方式是通过偏移。基本上,你分配每个推文200字节,然后设置第n个推文的偏移量以200 *偏移量开始。

搜索时,您可以找回匹配推文的偏移量,并从中找出匹配的推文。

+0

假设我保留TweetID的20位数字和Tweet文本的140个字符= 160字节+其他信息的另外40字节,那是什么意思? – cherhan

+0

是的,您可以保留您认为有必要的金额。 Lucene使用稀疏的存储格式,因此您可以根据自己喜好设置偏移量,而无需支付存储费用。 – Xodarap