目标是评估大型文本语料库中词语之间的语义相关性,例如。 '警察'和'犯罪'应该比'警察'和'山'有更强的语义相关性,因为它们倾向于在相同的背景下共同发生。如何从文本语料库中提取语义相关性
我读过的最简单的方法是从语料库中提取IF-IDF信息。
很多人都使用潜在语义分析来发现语义相关性。
我遇到了Lucene搜索引擎:http://lucene.apache.org/
你认为这是合适的提取IF-IDF?
对于技术和软件工具(对于Java的偏好)而言,您会推荐做什么?
在此先感谢!
Mulone