这可能听起来很天真,但我只是想确保在使用机器学习术语进行交谈时,文档群集中的功能是从文档中选择的单词,如果某些文字在词干或停用词后被丢弃。文档聚类/分类中的功能?
我正在尝试使用LibSvm库,它说不同类型的{no_of_instances,no_of_features}有不同的方法。
就像no_of_instances远低于no_of_features一样,线性内核也可以。如果两者都很大,线性就会很快。但是,如果no_of_features很小,则非线性内核更好。
因此,对于我的文档聚类/分类,我有少量的文档像100,每个文档可能有2000左右的文字。所以我落入小no_of_instances和大no_of_features类别取决于我认为是什么功能。
我想为文档使用tf-idf。
那么no_of_features是我从tf-idf获得的向量的大小吗?
如果是tf-idf,它会是矢量的大小吗? –
对于tf-idf,'j'th'文件的partiular'i'th'特征将是'tf(i,j)* idf(i)',其中'tf(i,j)'是数字第i个单词在'j'th'文档中出现(按其长度标准化),'idf(i)'是(文档用'i'th'单词划分的文档数量)的对数。这些特征的数量将等于被分析的单词数量(可能是steemed,没有停用词或者在另一个词中被过滤 - 基于知识的方式) – lejlot