2013-03-21 27 views
0

我想从数据集中提取什么是类似的术语,然后用否定约束对它们进行查询。例如。提取类似词语Solr

索引集,我怎么能推断出黑莓和诺基亚是两个类似的术语。或者说是2种类似的商品。

这可以通过solr来实现。 ? 这不是同义词。但我需要实现的相似性约束。

回答

0

当然不是你正在寻找的确切情况,但你可以检查出Solr with Mahout
亨利马乌提供支持LDA为主题建模,这将有助于您将主题从数据集中

主题模型是,大概,分层贝叶斯模型 联营公司与每个文档在 的概率分布“话题“,而话题又是话语的分布。例如,新闻专线中的话题可以包括关于“运动”, 诸如“棒球”,“本垒打”,“运动员”以及关于在棒球中使用的类固醇的文档可能包括“运动” ,“毒品”和“政治”。注意 标签“运动”,“药物”和“政治”是人类指派的事后标签 ,并且该算法本身仅将关联词与概率分配给 。这些模型中的参数估计 的任务是学习两个主题是什么,以及哪些文档以什么比例使用它们。

所以,如果如果你有手机的文档数据集内,你会得到一组黑莓,iPhone,手机等条款。
这些可能不是相似的术语,但会涉及相同的主题。

+0

嘿感谢您的回复。但是我会用solr来尝试Mahout。所以某种程度上你说这些文件将作为贝叶斯模型的一个语料库。你也有任何线索,它是否提供了更高的权重,邻近的条款或只是与关联领域也可以跟踪该模型。它会帮助我提交数据集。感谢您的回复。 – user2193363 2013-03-21 12:24:12

+0

您可以将Solr术语建模为短语(bigrams)或将由mahout使用的单个单词。 – Jayendra 2013-03-21 12:59:12