2016-01-19 67 views
0

我有一个文本一样,分类文本分为多个类别的scikit学习

"India, officially the Republic of India is a country in South Asia." 

我需要它能够给我,

Country: India 
Region: South Asia 

无论我在scikit的文档中发现,这是能够将它归类到一个类别中,例如,我可以在两个分类器上进行训练以检查一个国家是否存在或区域存在,但是我希望它告诉我它正在拾取哪个功能,有点像NLTK最丰富的功能,为每个分类。 我该怎么做?

+0

你用什么算法来训练分类器? – Ali

+0

@alivar我正在考虑使用SVM – n00b

+0

看看[这个问题](https://stackoverflow.com/questions/10526579/use-scikit-learn-to-classify-into-multiple-categories)你可以还检查[sckit文档](http://scikit-learn.org/stable/auto_examples/plot_multilabel.html#sphx-glr-auto-examples-plot-multilabel-py)中的多标签分类,特别是[OneVsRest](http ://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html#sklearn.multiclass.OneVsRestClassifier)classiffier,我想这就是你要找的... –

回答

0

如果您使用SVM this question进行交叉验证可能会让您开始。这个想法是解释分类权重,但这不是微不足道的。

个人而言,我更喜欢使用RandomForestClassifier,它具有内置的功能排名。它由feature_importances_属性公开。在scikit-learn文档中甚至有an example