2014-02-10 36 views
2

我使用Lucene将一些Java应用程序中的英文文本编入索引,我需要使用Lucene 4_1_0将它们进行词形化。我发现词干(PorterStemFilter和SnowballFilter),但还不够。Lucene语义化

经过词典化之后,我想用查询扩展的词库,Lucene也包含词库吗?

如果这是不可能的,我会使用StanfordCoreNLP和WordNet来代替。

您是否认为词形化可能影响使用Lucene库的搜索?

谢谢

+0

推理应该可以提高准确性,而不会丢失与词干相关的信息(这可能会将不同的形态形式混合在一起)。预计使用Wordnet扩展引理的第二步可以降低准确性并提高召回率。如果您可以在天真地从词汇网络(使用word2vec)或者其他语义相似度算法(或者其他语义相似度算法)中提取同义词之前进行词义解读,可以减少准确性问题 –

回答

-1

据我所知,你需要在自己建立同义词支持。