最简单的功能选择算法

我想创建我自己的和简单的功能选择算法。我将要使用的数据集是here（非常有名的数据集）。有人能给我一个关于如何做的指针吗？最简单的功能选择算法

我打算为文本分类编写一个特征排名算法。这是为了对电影评论进行情感分析，将它们分为正片或负片。

所以我的问题是如何为文本数据集编写简单的功能选择。

这是一个很大的话题。有没有特定的问题，或者您需要从哪里开始？ – 2011-03-07 17:36:14

我只是想消除为分类增加噪音的功能。但是，我如何系统地选择这些类型的单词？什么是适当数量的功能，给了我最好的准确性和哪些单词......我想这就是我想要算法的最终结果是 – aherlambang 2011-03-07 18:07:46

特征选择方法是一个很大的话题。你可以用以下入手：

等，如果你有时间阅读本文：Comparative study on feature selection in text categorization这将有助于你很多。

实际实施取决于您如何预处理数据。基本上它保持计数，不管它是散列表还是数据库。

2011-03-07 18:18:40 Xolve

除此之外，术语频率似乎是不那么强大的权利？ – aherlambang 2011-03-07 19:26:40

不可以。您想删除嘈杂的词语。假设一个术语只发生一次，那么很可能是它的噪音（也许是一个拼写错误的名字）。在决定之前，您需要运行一些测试。 – Xolve 2011-03-07 21:41:57

一些测试，如？删除频率最低50位的条款，然后测试精度并继续下去，直到频率下降？ – aherlambang 2011-03-07 22:11:53

以下是一个选项：使用pointwise mutual information。您的功能将是令牌，信息应根据情感标签进行衡量。小心频繁的单词（停用词），因为在这种类型的任务中，它们实际上可能是有用的。

2011-03-07 17:59:15

随机功能工作良好，当时你正在建设合奏。它被称为特征装袋。

2012-05-10 20:37:30

我目前使用这种方法：

计算平均每类数据的价值和方差。一个好的候选特征应该有小的方差，平均值应该不同于其他类的平均值。

目前只有< 50个功能我手动选择它们。为了实现这个过程的自动化，可以计算所有类别中的平均值的差异，并给予那些具有较大方差的较高优先级。然后，首先选择一个类别中具有较小差异的那些类别。

因为这并不能消除多余的功能。

来源

2015-02-01 12:06:27

回答