5

我有使用斯坦福POS标签获得的POS标签句子。例如:词性分析(POS)标签文本分类的特征选择

/DT island/NN was/VBD very/RB beautiful/JJ ./。 I/PRP爱/ VBP it/PRP ./。

(XML格式也可)

谁能解释如何从这个POS标签的句子进行特征选择和使用机器学习方法,将它们转换成特征向量的文本分类。

回答

4

一个简单的出发方式如下(假设语序对您的分类算法并不重要)。

首先,您将手动分类多个句子。这是你的训练数据集。通常,您从每个班级手动分类的句子越多,您获得的准确度就越高。对于这样的监督方法,请记住,只有您选择的功能才是您手动分类的句子。您的功能在您的所有训练语句中都是单词/ POS的独特组合。

最后,您必须选择一种特征选择算法。在那里有很多,但流行的是卡方。其他一些是信息增益,相互信息等。使用卡方,您将单独测量每个特征上的类变量的依赖性。您会选择一些阈值,例如最低卡方值的特征的前10%,并且只保留这些特征以便稍后在分类器中使用。

特征选择算法的选择很重要,需要反映你正在使用的算法。例如,当你想找到与你的班级正相关和负相关的特征时,卡方是很好的。在其他情况下,您可能只想要正相关的功能,所以您需要选择另一种算法或修改现有算法。

希望对您有所帮助 William Riley-Land