我有一个数据集由一些文本列(有限的可能性)和一些csv格式的数字列组成。有什么方法可以自动将文本列转换为数字(例如:A将为0,B将为1等等)以将数据集转换为np.array
?python - 将数据转换为numpy数组sklearn
这将稍后在scikit-learn
上使用,所以在所有处理结束时它需要为np.array
。
编辑:添加数据集的一行:
ENABLED;ENABLED;10;MANUAL;ENABLED;ENABLED;1800000;OFF;0.175;5.0;0.13;OFF;NEITHER;ENABLED;-65;2417;"wifi01";65;-75;DISCONNECTED;NO;NO;2621454;432477;3759;2.2436838539123705E-6;
您能给我们从文件(或“文本列”)的例子(节选),所以我们可以更好地理解你在使用什么? 'numpy'的'genfromtext'可能是一个很好的开始,或者可能是'pandas.read_csv' ... – mgilson
已被添加到说明中。每个文本列可能有3或4个可能的值。 – Minoru