2013-04-13 99 views
0

我想知道如果在构建倒排索引时在搜索引擎中选择基词的规则。我知道一般停用词不会被索引。但是其他人呢?我很困惑... 在此先感谢。搜索引擎中的基础词

回答

0

你的意思是干扰?一些搜索引擎使用它。这意味着所有单词都被截断,因此walk,walks,0 walkedwalking将全部索引为walk。运行搜索之前,查询也一样。它会导致更多的点击,因为walking in the woods的搜索也将加快“一个walk in the woods”。

+0

不只是阻止。我的意思是我们无法索引网页中的每一个词,因为它太大了,对吧?那么哪些词应该被索引,哪些词应该被忽略?有一个共同的规则吗? – ray6080

+0

搜索模块*会为每个文档中的每个文档编制索引。有压缩技术可以减少所需的硬盘空间,但这些二进制索引迅速增长。我认为每个搜索引擎运营商都有自己的规则,有经验的排除。例如,如果我必须自己设计一个搜索引擎,我会排除从OCR读取的文档中永远不会出现超过一次的字符串,但那只是我自己的决定。我也知道一个搜索引擎,它只搜索那些属于有效句子的单词。但是没有_general_规则。 – Paramaeleon

+0

我看...谢谢。 – ray6080