文档聚类/分类中的功能？

这可能听起来很天真，但我只是想确保在使用机器学习术语进行交谈时，文档群集中的功能是从文档中选择的单词，如果某些文字在词干或停用词后被丢弃。文档聚类/分类中的功能？

我正在尝试使用LibSvm库，它说不同类型的{no_of_instances，no_of_features}有不同的方法。

就像no_of_instances远低于no_of_features一样，线性内核也可以。如果两者都很大，线性就会很快。但是，如果no_of_features很小，则非线性内核更好。

因此，对于我的文档聚类/分类，我有少量的文档像100，每个文档可能有2000左右的文字。所以我落入小no_of_instances和大no_of_features类别取决于我认为是什么功能。

我想为文档使用tf-idf。

那么no_of_features是我从tf-idf获得的向量的大小吗？

2013-08-12 Ashish Negi

你在这里谈论的只是其中一种可能性，实际上是定义文档特征的最微不足道的方式。在机器学习中，术语特征是从输入空间（在该特定示例 - 从文档空间）到某个抽象空间的任何映射，其适合于特定的机器学习模型。大多数ML模型（如神经网络，支持向量机等）都在数值向量上工作，所以特征必须是从文件到（恒定大小）数字向量的映射。这是有时选择包owrds的表示的原因，其中我们具有单词'计数向量作为文档表示。只要我们可以定义特定的条件概率，就可以使用特定的模型来克服这个限制，例如朴素贝叶斯（或用于支持SVM的自定义内核，使其能够处理非数字数据）在这里，最基本的方法是将包含特定单词的文档或不以“特征”作为对待。一般来说，这不是唯一的可能性，有几十种方法使用统计特征，语义特征（基于一些本体论，如wordnet）等。

总结 - 这只是一个，最简单的文档表示机器学习模型。首先要好好理解基础知识，但远不是“特征定义”。

编辑

no_of_features是你为自己的文档表示向量的大小，因此，如果您使用TF-IDF，则导致vecor的大小是一个no_of_featuers。

来源

2013-08-12 07:34:26 lejlot

如果是tf-idf，它会是矢量的大小吗？ –

对于tf-idf，'j'th'文件的partiular'i'th'特征将是'tf（i，j）* idf（i）'，其中'tf（i，j）'是数字第i个单词在'j'th'文档中出现（按其长度标准化），'idf（i）'是（文档用'i'th'单词划分的文档数量）的对数。这些特征的数量将等于被分析的单词数量（可能是steemed，没有停用词或者在另一个词中被过滤 - 基于知识的方式） – lejlot

文档聚类/分类中的功能？

回答

相关问题