1
今天,当在YouTube上搜索一些视频时,我发现即使您搜索英语以外的语言的视频,YouTube也可以返回相关结果。MultiLanguage搜索引擎如何工作
尝试在谷歌搜索这个,但我得到的是一些API来做到这一点编程。可以有人抛出这个理论背后的理论。纸/链接/解释,任何事情都会做。
感谢
今天,当在YouTube上搜索一些视频时,我发现即使您搜索英语以外的语言的视频,YouTube也可以返回相关结果。MultiLanguage搜索引擎如何工作
尝试在谷歌搜索这个,但我得到的是一些API来做到这一点编程。可以有人抛出这个理论背后的理论。纸/链接/解释,任何事情都会做。
感谢
当我已经与elasticsearch做到了这一点,我只是映射多个字段,每个文档,如:
"text_val": {
"type": "text",
"fields": {
"en": {
"type": "text",
"analyzer": "english"
},
"it": {
"type": "text",
"analyzer": "italian"
}
}
}
然后就是寻找每个查询这两个字段。这工作得很好,对许多应用程序来说已经够用了。不过,我相信Google正在做更复杂的事情,当然也包括索引文档和查询语言的识别。如果你想进行语言识别,我以前使用过python langid,并且有很好的结果。
根据我的经验,使用elasticsearch进行这种事情所面临的问题不是多语言部分,而是英语之外的其他语言的分析器并不总是如此。你想要。您可能必须编写自定义分析器,并使用规则处理大量特殊情况,并针对您的特定数据集进行调整。