我真的是python世界的新手。 我已经看到了在trainset和testset中分裂的例子。但仅限于数字类型。例如:用输入的字符串分割成trainset和testset
import random
with open("datafile.txt", "rb") as f:
data = f.read().split('\n')
random.shuffle(data)
train_data = data[:50]
test_data = data[50:]
所以我想要做的是将数据分成训练或测试集由一个常规/相对表达。用输入来做。想象一下,我有一列所有的水果,另一个与他的体重,另一个与他的价格,但有些没有价格。我想分解数据,例如价格大于0的苹果做trainset,价格为0的苹果到测试集做一些预测。
,我想这样做,有一个数据集,我已经输入什么,我想预测
很抱歉,如果我不解释它做好。
并感谢您的帮助,任何建议将是apreciated。
的数据可能是这样的
Fruits Weight Price
Apple 5 1
Apple 3 0.6
Apple 3 0
Banana 5 10
Banana 4 8
Banana 2 0
Orange 10 20
Orange 5 12
Orange 2 0
Kiwi 5 6
Kiwi 5 6
Kiwi 2 0
然后我想喜欢水果输入:苹果,重量:10 和输出希望的价格做训练。
再次感谢您的帮助!
import pandas as pd
import numpy as np
df = pd.read_table('datafile.txt', sep='\s+', header=None)
df.fillna(0, inplace=True)
print(df)
print(df.reindex(np.random.permutation(df.index)))
第一print
的输出是:
学习numpy的和布尔索引 –
*如果我不解释很好* - 它会更好,如果你张贴的输入采样和最终预期输出 – RomanPerekhrest