2017-08-28 43 views
0

我是新来的Python和机器学习。我有这个数据file我想要应用二进制分类。但我无法猜测它的格式,并用Python加载它。有人能帮助我吗?我的训练数据文件的格式是什么?

在数据集中,第一列是类,有100个特征。我正在使用熊猫IO来加载它,并尝试read_csv,但它不工作!而且它绝对不是JSON。 (至今我只使用这些格式,所以如果它是一些众所周知的格式,请提前谅解!)

+0

文件似乎是一个自定义格式。熊猫将不会有任何可以读取此特定格式的读取方法,因此您必须编写自己的自定义代码来解析数据集。 –

+0

@ Scratch'N'Purr好吧!非常感谢! – Fenil

回答

0

您可以尝试sklearn.datasets.load_svmlight_file来阅读文件。

下面是从文档链接如何使用方法的例子:

from sklearn.externals.joblib import Memory 
from sklearn.datasets import load_svmlight_file 
mem = Memory("./mycache") 

@mem.cache 
def get_data(): 
    data = load_svmlight_file("mysvmlightfile") 
    return data[0], data[1] 

X, y = get_data() 
0

这是一个纯文本文件。通过查看第一行,它看起来像一个libsvm格式。 请参阅this以供参考。

相关问题