2
我使用Lucene将一些Java应用程序中的英文文本编入索引,我需要使用Lucene 4_1_0将它们进行词形化。我发现词干(PorterStemFilter和SnowballFilter),但还不够。Lucene语义化
经过词典化之后,我想用查询扩展的词库,Lucene也包含词库吗?
如果这是不可能的,我会使用StanfordCoreNLP和WordNet来代替。
您是否认为词形化可能影响使用Lucene库的搜索?
谢谢
推理应该可以提高准确性,而不会丢失与词干相关的信息(这可能会将不同的形态形式混合在一起)。预计使用Wordnet扩展引理的第二步可以降低准确性并提高召回率。如果您可以在天真地从词汇网络(使用word2vec)或者其他语义相似度算法(或者其他语义相似度算法)中提取同义词之前进行词义解读,可以减少准确性问题 –