2017-08-01 103 views
-3

我正在研究需要确定单词是否为水果的项目。我已经尝试了几种方法,但对任何结果都不满意。有什么建议么?将文本分类为多个类别

我的训练集看起来像这样

  • 输入:苹果是一种水果。 输出:Apple。
  • 输入:番石榴也是水果输出:番石榴。
  • 输入:菠萝是一种时令水果输出:菠萝。外面训练数据运行时

例子:

  • 输入:我喜欢所有的水果,但最喜欢的是番石榴和苹果。 输出:番石榴,苹果
+0

你到目前为止尝试过什么。我假设你只是想要一个现成的解决方案。请改述你的问题 –

+0

我到目前为止使用scikit学习SVM所做的工作对于单一标签的分类效果很好,但对于多标签来说性能并不好。我想了解如何解决我的问题。 @ArpitSolanki –

+0

你只需要从字符串中提取信息(_i _._ e_。水果名称)?如果是这样,多标记分类器可能会矫枉过正。 – arturomp

回答

1

此任务被称为命名实体识别。你可以阅读关于on Wikipedia的初学者。

一个受欢迎的图书馆是斯坦福大学的CoreNLP。你可以在Stanford Natural Language Processing Groups website上阅读。

为了使用它,您需要在训练数据中标记每个标记(单词),以指示它是否为水果。希望这可以帮助。

+0

@Soham Chakraborty对您有帮助吗? – langkilde