2016-07-20 53 views
0

我一直在研究一个项目,要求我根据产品的描述给出关键字/关键词建议。关键字建议算法

我目前拥有的产品:产品描述,产品类别(可能有可能不存在)。

我想要什么:机器生成的关键字/基于描述的关键字句。

我做了什么研究:(基于NLP的方法)这个问题可以分解成两个独立的方法。

  • 不使用过去的数据:刚才总结当前的描述
  • 方法: - 符号化,制止,拆除停用词等(预处理)
  • 浅层NLP(选区解析),只保留NP & JJ短语。

这将是一种不使用数据库中的描述的方法。

我正在寻找的是一种更好的方法,它使用ML算法并使用我以前的产品描述数据。

我在考虑在整个数据集上应用浅层解析,然后给出超过N个产品遇到的关键字。

什么算法或方法会派上用场? 如何使用我的数据?

+0

您是否有一大组产品中已经包含关键字的产品,您可以使用它们进行学习? –

+0

是的,我确实有关于“某些”产品说明的关键字。 –

回答

0

尝试看看基本的车型,如:词频或TF-IDF,这给你一些重要的话:https://en.wikipedia.org/wiki/Tf%E2%80%93idf, 然后搜索文本聚类(对于集群文本被彼此相关组)和栏目检测方法(这可以帮助你找到相关的文件突出词和话题)

然后你可以找到每个群集(也可以考虑的文件类别)的关键字,并试图找到最相关的词换句话说

我建议读一些/或w本书的孔洞章节:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

+0

我可以做文档(描述)相似性(基本上基于TF-IDF)吗?然后建议在类似文件列表中的大多数文件中找到的关键字? –