7

我想创建我自己的和简单的功能选择算法。我将要使用的数据集是here(非常有名的数据集)。有人能给我一个关于如何做的指针吗?最简单的功能选择算法

我打算为文本分类编写一个特征排名算法。这是为了对电影评论进行情感分析,将它们分为正片或负片。

所以我的问题是如何为文本数据集编写简单的功能选择。

+0

这是一个很大的话题。有没有特定的问题,或者您需要从哪里开始? – 2011-03-07 17:36:14

+0

我只是想消除为分类增加噪音的功能。但是,我如何系统地选择这些类型的单词?什么是适当数量的功能,给了我最好的准确性和哪些单词......我想这就是我想要算法的最终结果是 – aherlambang 2011-03-07 18:07:46

回答

3

特征选择方法是一个很大的话题。你可以用以下入手:

  1. 卡方

  2. 互信息

  3. 期限频率

等,如果你有时间阅读本文:Comparative study on feature selection in text categorization这将有助于你很多。

实际实施取决于您如何预处理数据。基本上它保持计数,不管它是散列表还是数据库。

+0

除此之外,术语频率似乎是不那么强大的权利? – aherlambang 2011-03-07 19:26:40

+0

不可以。您想删除嘈杂的词语。假设一个术语只发生一次,那么很可能是它的噪音(也许是一个拼写错误的名字)。在决定之前,您需要运行一些测试。 – Xolve 2011-03-07 21:41:57

+0

一些测试,如?删除频率最低50位的条款,然后测试精度并继续下去,直到频率下降? – aherlambang 2011-03-07 22:11:53

0

以下是一个选项:使用pointwise mutual information。您的功能将是令牌,信息应根据情感标签进行衡量。小心频繁的单词(停用词),因为在这种类型的任务中,它们实际上可能是有用的。

2

随机功能工作良好,当时你正在建设合奏。它被称为特征装袋。

0

我目前使用这种方法:

计算平均每类数据的价值和方差。一个好的候选特征应该有小的方差,平均值应该不同于其他类的平均值。

目前只有< 50个功能我手动选择它们。为了实现这个过程的自动化,可以计算所有类别中的平均值的差异,并给予那些具有较大方差的较高优先级。然后,首先选择一个类别中具有较小差异的那些类别。

因为这并不能消除多余的功能。