2014-02-05 48 views
0

我有一个存储在Lucene中的文档索引。我需要从索引中提取所有搭配词的频率。我知道有多种算法可以检测给定文档中的搭配,但我不知道任何可以与Lucene专门用于此任务的现有库。有谁知道任何图书馆?从Lucene索引中提取搭配词

我知道如何从lucene索引中提取二元组,但并非所有的二元组当然是搭配词。

回答

0

如何使用Shingles这将产生所有的n-gram。然后,使用方面将这些ngram重新计数?或从管理部分进行任期分析。