词性分析（POS）标签文本分类的特征选择

我有使用斯坦福POS标签获得的POS标签句子。例如：词性分析（POS）标签文本分类的特征选择

/DT island/NN was/VBD very/RB beautiful/JJ ./。 I/PRP爱/ VBP it/PRP ./。

（XML格式也可）

谁能解释如何从这个POS标签的句子进行特征选择和使用机器学习方法，将它们转换成特征向量的文本分类。

2011-03-31 sashi

一个简单的出发方式如下（假设语序对您的分类算法并不重要）。

首先，您将手动分类多个句子。这是你的训练数据集。通常，您从每个班级手动分类的句子越多，您获得的准确度就越高。对于这样的监督方法，请记住，只有您选择的功能才是您手动分类的句子。您的功能在您的所有训练语句中都是单词/ POS的独特组合。

最后，您必须选择一种特征选择算法。在那里有很多，但流行的是卡方。其他一些是信息增益，相互信息等。使用卡方，您将单独测量每个特征上的类变量的依赖性。您会选择一些阈值，例如最低卡方值的特征的前10％，并且只保留这些特征以便稍后在分类器中使用。

特征选择算法的选择很重要，需要反映你正在使用的算法。例如，当你想找到与你的班级正相关和负相关的特征时，卡方是很好的。在其他情况下，您可能只想要正相关的功能，所以您需要选择另一种算法或修改现有算法。

希望对您有所帮助 William Riley-Land

2011-08-04 19:41:44 wprl

回答