2016-12-04 18 views
0

我们有〜的意见50-300个字符预标记有多个主题,如“音乐”,“高科技”,以及特定的电影,艺术家等最简单的方法/黑匣子根据现有(标记)的数据集来为短帖建议标签?

我们要培养一种算法来autotag未来的评论。我们会手动调整建议以提高准确性,并随着时间的推移手动添加更多标签(例如,新艺术家)。帖子将有一个或多个标签。

开始这个最简单的方法是什么?我在寻找像添加contenttag 1, tag 2...这样的简单操作,自动进行培训,然后再给它发回文本以获取建议的标签列表(最好有信心%)。

我们将以成千上万的标签和潜在的10万个帖子结束。

我玩过几件事(天真的贝叶斯,LDA),但我觉得这样一个普通而简单的用例肯定有一些简单的东西。也许一个图书馆或SaaS可以让它变得简单。

回答

相关问题