2013-04-04 33 views

回答

1

在文本挖掘问题中,文本用数字值表示。每个特征代表一个字,值是二进制数。这给了一个矩阵有很多零和几个1,这意味着相应的单词存在于文本中。可以根据词的频率或其他标准给词赋予一些权重。然后你会得到一些真正的数字而不是0和1

数据集转换为数值,你可以用这个例子后:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC