我有这样一个类似的列表:类别中的一个热编码
list = ['Opinion, Journal, Editorial',
'Opinion, Magazine, Evidence-based',
'Evidence-based']
其中逗号类别例如之间分割。意见和期刊是两个不同的类别。真正的名单要大得多,并且有更多可能的类别。我想使用单热编码来转换列表,以便它可以用于机器学习。例如,从该列表中我想以产生含有像数据的稀疏矩阵:
list = [[1, 1, 1, 0, 0],
[1, 0, 0, 0, 1],
[0, 0, 0, 0, 1]]
理想情况下,我想用scikit-learn's one hot encoder作为我相信这将是最有效的。
响应于@nbrayns评论:
的想法是从文本转换类别的列表给矢量wherby如果它属于该类别将被分配1,否则为0。对于上面的例子,该标题将是:
headings = ['Opinion', 'Journal', 'Editorial', 'Magazine', 'Evidence-based']
什么值应该是1,什么应该是0? – nbryans
@nbryans编辑了这个问题。 – user7347576