2013-08-12 75 views
0

这可能听起来很天真,但我只是想确保在使用机器学习术语进行交谈时,文档群集中的功能是从文档中选择的单词,如果某些文字在词干或停用词后被丢弃。文档聚类/分类中的功能?

我正在尝试使用LibSvm库,它说不同类型的{no_of_instances,no_of_features}有不同的方法。

就像no_of_instances远低于no_of_features一样,线性内核也可以。如果两者都很大,线性就会很快。但是,如果no_of_features很小,则非线性内核更好。

因此,对于我的文档聚类/分类,我有少量的文档像100,每个文档可能有2000左右的文字。所以我落入小no_of_instances和大no_of_features类别取决于我认为是什么功能。

我想为文档使用tf-idf。

那么no_of_features是我从tf-idf获得的向量的大小吗?

回答

1

你在这里谈论的只是其中一种可能性,实际上是定义文档特征的最微不足道的方式。在机器学习中,术语特征是从输入空间(在该特定示例 - 从文档空间)到某个抽象空间的任何映射,其适合于特定的机器学习模型。大多数ML模型(如神经网络,支持向量机等)都在数值向量上工作,所以特征必须是从文件到(恒定大小)数字向量的映射。这是有时选择包owrds的表示的原因,其中我们具有单词'计数向量作为文档表示。只要我们可以定义特定的条件概率,就可以使用特定的模型来克服这个限制,例如朴素贝叶斯(或用于支持SVM的自定义内核,使其能够处理非数字数据)在这里,最基本的方法是将包含特定单词的文档或不以“特征”作为对待。一般来说,这不是唯一的可能性,有几十种方法使用统计特征,语义特征(基于一些本体论,如wordnet)等。

总结 - 这只是一个,最简单的文档表示机器学习模型。首先要好好理解基础知识,但远不是“特征定义”。

编辑

no_of_features是你为自己的文档表示向量的大小,因此,如果您使用TF-IDF,则导致vecor的大小是一个no_of_featuers

+0

如果是tf-idf,它会是矢量的大小吗? –

+1

对于tf-idf,'j'th'文件的partiular'i'th'特征将是'tf(i,j)* idf(i)',其中'tf(i,j)'是数字第i个单词在'j'th'文档中出现(按其长度标准化),'idf(i)'是(文档用'i'th'单词划分的文档数量)的对数。这些特征的数量将等于被分析的单词数量(可能是steemed,没有停用词或者在另一个词中被过滤 - 基于知识的方式) – lejlot