1
有人可以共享显示如何使用SVM进行使用scikit进行文本挖掘的代码片段。我已经看到了一个关于数值数据的SVM的例子,但不太清楚如何处理文本。我看着http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但找不到SVM。使用scikit进行文本挖掘的SVM
有人可以共享显示如何使用SVM进行使用scikit进行文本挖掘的代码片段。我已经看到了一个关于数值数据的SVM的例子,但不太清楚如何处理文本。我看着http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但找不到SVM。使用scikit进行文本挖掘的SVM
在文本挖掘问题中,文本用数字值表示。每个特征代表一个字,值是二进制数。这给了一个矩阵有很多零和几个1,这意味着相应的单词存在于文本中。可以根据词的频率或其他标准给词赋予一些权重。然后你会得到一些真正的数字而不是0和1
数据集转换为数值,你可以用这个例子后:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC