0

我试图创建一个数据集,其中包括数字和文本功能 使用TF-IdfVectorizer预测模型(或分类),我设法文本列转换为列表 因此每个小区在文本列是浮点数的诸如 [0.0 0.3567 0.0 0.0](没有逗号)的列表。 我的目标功能是一组类。每一行可以有多个值,如多类预测与文本和数字数据

[a, b, c, 1] 
[1, d] 
[] 

的问题是如何可以预先处理对象变量,以便我的模式使得分类的预测?我试过标签编码,但是它为每一行创建了新的编码,所以相同的整数被编码到不同行的不同类中。

我打算接受所有的每一行超过一定的阈值的预测。有没有一个模型也支持这个? 提前感谢

+0

这是一个多标签分类问题。目标上的尝试[MultilabelBinarizer(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html),然后按[从这里使用的算法(http://scikit-learn.org /stable/modules/multiclass.html#multiclass-and-multilabel-algorithms)支持它。 –

+0

@VivekKumar所以我可以简单地传递一个矩阵来适应分类器的(x,y)方法而不是一维列表? (作为y变量) – emrahozkan

+0

是的,这是正确的。请为X和Y添加一些示例信息以及代码,我们可以给你一个工作示例。 –

回答

0

一种方法是训练分类对每个标签单独(这将是二元分类每个样本是否具有一定的标记)。另一个想法是对标签进行二进制化并制作多类别分类,但最后删除softmax函数(将日志概率归一化为1),并为每个标签应用逻辑损失。

Keras会很容易在这里使用。

+0

我有大约30个标签,所以我估计会很贵。 – emrahozkan

+0

@emrahozkan它主要取决于你的算法和特征/样本的数量。目标变量30个并不多。 –