我试图创建一个数据集,其中包括数字和文本功能 使用TF-IdfVectorizer预测模型(或分类),我设法文本列转换为列表 因此每个小区在文本列是浮点数的诸如 [0.0 0.3567 0.0 0.0]
(没有逗号)的列表。 我的目标功能是一组类。每一行可以有多个值,如多类预测与文本和数字数据
[a, b, c, 1]
[1, d]
[]
的问题是如何可以预先处理对象变量,以便我的模式使得分类的预测?我试过标签编码,但是它为每一行创建了新的编码,所以相同的整数被编码到不同行的不同类中。
我打算接受所有的每一行超过一定的阈值的预测。有没有一个模型也支持这个? 提前感谢
这是一个多标签分类问题。目标上的尝试[MultilabelBinarizer(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html),然后按[从这里使用的算法(http://scikit-learn.org /stable/modules/multiclass.html#multiclass-and-multilabel-algorithms)支持它。 –
@VivekKumar所以我可以简单地传递一个矩阵来适应分类器的(x,y)方法而不是一维列表? (作为y变量) – emrahozkan
是的,这是正确的。请为X和Y添加一些示例信息以及代码,我们可以给你一个工作示例。 –