我是新来的Python和机器学习。我有这个数据file我想要应用二进制分类。但我无法猜测它的格式,并用Python加载它。有人能帮助我吗?我的训练数据文件的格式是什么?
在数据集中,第一列是类,有100个特征。我正在使用熊猫IO来加载它,并尝试read_csv
,但它不工作!而且它绝对不是JSON。 (至今我只使用这些格式,所以如果它是一些众所周知的格式,请提前谅解!)
我是新来的Python和机器学习。我有这个数据file我想要应用二进制分类。但我无法猜测它的格式,并用Python加载它。有人能帮助我吗?我的训练数据文件的格式是什么?
在数据集中,第一列是类,有100个特征。我正在使用熊猫IO来加载它,并尝试read_csv
,但它不工作!而且它绝对不是JSON。 (至今我只使用这些格式,所以如果它是一些众所周知的格式,请提前谅解!)
您可以尝试sklearn.datasets.load_svmlight_file来阅读文件。
下面是从文档链接如何使用方法的例子:
from sklearn.externals.joblib import Memory
from sklearn.datasets import load_svmlight_file
mem = Memory("./mycache")
@mem.cache
def get_data():
data = load_svmlight_file("mysvmlightfile")
return data[0], data[1]
X, y = get_data()
这是一个纯文本文件。通过查看第一行,它看起来像一个libsvm格式。 请参阅this以供参考。
文件似乎是一个自定义格式。熊猫将不会有任何可以读取此特定格式的读取方法,因此您必须编写自己的自定义代码来解析数据集。 –
@ Scratch'N'Purr好吧!非常感谢! – Fenil