2013-02-11 98 views
3

我正在实施一个分类工具,并正在试验各种TF版本:两个对数(对数调用内部/外部的校正),归一化,增量和对数平均值。显然,我的分类器准确度有很大的差异 - 多达5%。然而,奇怪的是,我无法预先说哪一个在给定的数据集上表现更好。我想知道是否有一些我缺少的工作,或者,也许有人可以分享与这些工作有关的经验?TFIDF:tf implementation

回答

1

基本上,通过给文件添加一个给定的术语来增加重要性应该随着术语的出现次数而减少。例如,在文档中出现两次的“汽车”意味着该术语比仅出现一次更重要。但是,如果将出现20次的术语与出现19的相同术语进行比较,则这种差异应该更小。

通过指定不同的归一化,你正在做的是定义TF值在某个点饱和的速度有多快。

您可以尝试将您的发现与关于每个文档的平均TF或类似指标的一些信息相关联。

+0

这很有道理,谢谢。那么,表现的差异可能是由于术语(s)体重饱和的速度。 不知道你是否可以指出一些解释这些模型的工作(不确定它是否适合使用)? – seninp 2013-04-25 20:05:58

+0

恐怕我还没有找到像样的相关文章... 你可能会发现一些寻找加权计划,特征加权或规范化的东西。 – miguelmalvarez 2013-04-26 10:50:53

2

确实很难提前说出哪个加权方案最适合。总的来说,有no free lunch - 对一个数据集最有效的算法对另一个数据集可能会很糟糕。更重要的是,我们并不是在这里谈论完全不同的选择。 TF-IDF体现了关于分类/检索的一个特定直觉,并且其所有不同的变体都是相同的。要告诉的唯一方法是进行实验

PS关于术语的注释:如果您认为重要,您是否使用交叉验证或随机重采样进行了任何统计显着性测试?这可能是因为你看到的差异是偶然的。

+0

我在列车数据集(500个实例)上训练我的分类器,并在测试数据上测试它们:它们不重叠。对于625个实例的测试集,由于TF实现而导致32错误似乎很重要。 – seninp 2013-02-17 16:15:34