2017-04-09 52 views
-1

如果输入样本的张量流码数为5000000.这是否意味着它训练所有这些样本进行训练?我如何知道分别用于训练和测试目的的样本数量?张量流程代码中的训练和测试样本数量?

+0

你在哪里看到这个号码?你是提供训练和测试数据的人,所以你应该知道每个样本有多少个样本。 – interjay

回答

0

您将不得不选择哪些样本用于培训和哪些用于测试。一般的做法是设置随机70%的样本进行训练,剩下的30%进行测试。这可以简单地做到这一点:

让我们假设您有一个名为df的5000000个样本的数据框。来自熊猫的sample()函数将允许您选择一个指定的百分比的随机样本,可以留待培训。其余的30%将被编入索引并用于测试。

import pandas as pd 

train_set = df.sample(frac=0.7) 
test_set = df.loc[~data_.index.isin(train_set.index)] 

现在你有两个dataframes,一个用于培训(350万个样本),一个用于测试(150万个样本)