多类预测与文本和数字数据

我试图创建一个数据集，其中包括数字和文本功能使用TF-IdfVectorizer预测模型（或分类），我设法文本列转换为列表因此每个小区在文本列是浮点数的诸如 [0.0 0.3567 0.0 0.0]（没有逗号）的列表。我的目标功能是一组类。每一行可以有多个值，如多类预测与文本和数字数据

[a, b, c, 1] 
[1, d] 
[]

的问题是如何可以预先处理对象变量，以便我的模式使得分类的预测？我试过标签编码，但是它为每一行创建了新的编码，所以相同的整数被编码到不同行的不同类中。

我打算接受所有的每一行超过一定的阈值的预测。有没有一个模型也支持这个？提前感谢

来源

2017-10-12 emrahozkan

这是一个多标签分类问题。目标上的尝试[MultilabelBinarizer（http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html），然后按[从这里使用的算法（http://scikit-learn.org /stable/modules/multiclass.html#multiclass-and-multilabel-algorithms）支持它。 –

@VivekKumar所以我可以简单地传递一个矩阵来适应分类器的（x，y）方法而不是一维列表？（作为y变量） – emrahozkan

是的，这是正确的。请为X和Y添加一些示例信息以及代码，我们可以给你一个工作示例。 –

一种方法是训练分类对每个标签单独（这将是二元分类每个样本是否具有一定的标记）。另一个想法是对标签进行二进制化并制作多类别分类，但最后删除softmax函数（将日志概率归一化为1），并为每个标签应用逻辑损失。

Keras会很容易在这里使用。

来源

2017-10-12 22:23:15

我有大约30个标签，所以我估计会很贵。 – emrahozkan

@emrahozkan它主要取决于你的算法和特征/样本的数量。目标变量30个并不多。 –

多类预测与文本和数字数据

回答

相关问题