2012-04-10 36 views
0

我正在使用solr建立的引擎对PMI进行研究。我想获取语料库中的关键字数量(不是numofDocs)。有没有直接的方法来获得这个? 另一个问题: 我可以在solr系统中进行包含逻辑操作器(如NEAR)的搜索吗?或类似的方法来做到这一点?solr:我怎样才能得到整个语料库中关键字的数量?

+0

你是什么意思,“语料库中的关键字数量”?你能澄清一下吗?你是指特定文档的匹配关键字的数量?或返回的所有文件中匹配关键字的数量?或匹配文档中的关键字总数? – 2012-04-10 13:55:19

+0

我指的是所有文档中匹配关键字的数量。 – wensir 2012-04-11 10:44:51

+0

啊,所以如果一个文件是匹配的,你想知道文件中有多少单词符合搜索?然后对每个匹配的文档执行相同的操作? Offhand我不知道有任何直接的方法来做到这一点。你可能会试着用'&hl.fragsize = 0'(返回整个文档!)使用突出显示,然后解析返回的数据(获得高亮标记内的单词边界计数,加1)。 – 2012-04-17 18:27:02

回答

2

NEAR是“接近搜索”; Solr的提供的“sloppy phrase queries”的形式类似的东西,它有如下形式:

field:"phrase of words"~10 

10是一语中的的话必须有多近是。

+0

非常感谢! – wensir 2012-04-11 11:53:21

相关问题