2014-03-03 50 views
0

因此,我正在制作一个python类,它可以计算文档中每个单词的tfidf权重。现在在我的数据集中,我有50个文档。在这些文件中,许多单词相交,因此具有多个相同的单词特征,但具有不同的tfidf权重。所以问题是我如何将所有权重归结为一个单一的权重?(Text Classification)处理来自不同文档的相同单词[TFIDF]

+0

你是要求公式还是方法? – Drewness

+0

将多个相同单词特征的重量加总成一个的方法 – gncvnvcnc

回答

2

首先,让我们弄清楚一些术语。术语是语料库中的单词单元。令牌是特定文档中特定位置的术语。可以有多个使用相同术语的令牌。例如,在我的回答中,有许多使用术语“the”的标记。但是“这个”只有一个术语。

我觉得你有点困惑。 TF-IDF样式加权函数指定如何使文档中术语的标记频率和文档中每个术语的语料库中的背景标记文档频率之间的每项得分。 TF-IDF将文档转换为术语到权重的映射。因此,在文档中共享同一个术语的更多令牌将增加该术语的相应权重,但每个术语只有一个权重。在文档中共享一个术语的代币没有单独的分数。

+0

是的,我忘了df是指整个语料库中的文档不是单词所在的位置。谢谢 – gncvnvcnc

相关问题