我正在开发一个应用程序以在电子开始网站上搜索产品。我们将大约5,000,000种产品放入Solr索引中,包括所有常规字段:标题,说明等。而多字搜索短语可以很好地工作(例如“夏季凉鞋”或“高尔夫衬衫”)。单词搜索不太好。Solr中的单词搜索不准确
例如,当我搜索“吉他”时,Solr会返回一串提到吉他的产品。不管怎样,不管怎样,吉他音乐CD在指导如何弹吉他和吉他形钥匙链方面的排名都高于实际的吉他。第一个实际的吉他出现在第120位左右。 从用户的角度来看,我在想,如果我输入“gutar”,我正在寻找真正的吉他。如果我需要关于如何弹吉他的指导,我会搜索“吉他演奏指南”,它的方式完美。
同样的问题,如果你搜索“鞋”。它带回了一堆音乐CD。显然有很多这样的标题或描述都有单词鞋。
我发现的一个观察结果是,搜索结果中的这些“不相关的”产品的标题和描述都非常短。我猜想这里提出了每个单词的重要性。如果你有一个音乐CD“法国鞋”的标题,并没有太多其他的经过,索尔被欺骗。那么我是否有办法将更高级别的文档分配给文本较长的文档?我将不得不使用字段长度的概念来确定它是否是Solr中的一个简单调整。
其他建议?