我想运行的一些数据的机器学习算法使用的功能列表,所以我第一个导出数据到一个文件中。在ML模型
但我对我正在分类的文本的一个特征是标签列表, ,每个文本可以包含多个标签。 ([“神秘”,“惊悚片”])。
是它建议时,我写信给我的CSV文件导出数据,我写的整个列表作为我的数据的特点之一(“标签”功能)。 还是为每个标签制作一个单独的功能更好。唯一的问题是大多数例子只有一个标签,所以这些标签的其他特征列将是空白的。
所以好像写的标签这个列表作为一个特征是很有道理的,但后来解析它用于训练的时候,我会再处理该列表中的每个元素作为它自己的特点仍然还是没有?
无论你与他们无关。最后,当你提供他们的ML算法,它们将被转换为不同的列,分别为每个不同的标签 –