我正在使用宠物搜索引擎(SE)。如何实现在搜索引擎中使用同义词?
我现在什么是布尔关键字SE,作为被分成两个部分库:
指数:这是一个倒排索引,即。它与它出现
查询原始文档相关联的术语:这是由用户提供的,可以是任意复杂的布尔表达式,看起来像
(mobile OR android OR iphone) AND game
我想提高搜索引擎以一种自动将简单查询扩展到布尔查询的方式,以便它包含在原始查询中不会出现的搜索项,即。我想支持同义词。
我需要一些帮助来构建同义词图。
如何计算出现在类似上下文中的单词列表?
这里是例如同义词的名单我想计算:
- PSQL,pgsql里,Postgres的,PostgreSQL的
- 手机,iphone,安卓
和同义词,包括ngrams like:
- rdbms,关系数据库管理系统,...
该算法不一定非常完美,我可以手动后处理结果,但至少我需要知道哪些术语与其他术语相似。
我认为你想做的事叫做“[概率性主题建模](https://stackoverflow.com/questions/tagged/topic-modeling)”,但是不能回答这个问题。 – knb