1

今天,当在YouTube上搜索一些视频时,我发现即使您搜索英语以外的语言的视频,YouTube也可以返回相关结果。MultiLanguage搜索引擎如何工作

尝试在谷歌搜索这个,但我得到的是一些API来做到这一点编程。可以有人抛出这个理论背后的理论。纸/链接/解释,任何事情都会做。

感谢

回答

1

当我已经与elasticsearch做到了这一点,我只是映射多个字段,每个文档,如:

"text_val": { 
    "type": "text", 
    "fields": { 
    "en": { 
     "type": "text", 
     "analyzer": "english" 
    }, 
    "it": { 
     "type": "text", 
     "analyzer": "italian" 
    } 
    } 
} 

然后就是寻找每个查询这两个字段。这工作得很好,对许多应用程序来说已经够用了。不过,我相信Google正在做更复杂的事情,当然也包括索引文档和查询语言的识别。如果你想进行语言识别,我以前使用过python langid,并且有很好的结果。

根据我的经验,使用elasticsearch进行这种事情所面临的问题不是多语言部分,而是英语之外的其他语言的分析器并不总是如此。你想要。您可能必须编写自定义分析器,并使用规则处理大量特殊情况,并针对您的特定数据集进行调整。