-1
如果输入样本的张量流码数为5000000.这是否意味着它训练所有这些样本进行训练?我如何知道分别用于训练和测试目的的样本数量?张量流程代码中的训练和测试样本数量?
如果输入样本的张量流码数为5000000.这是否意味着它训练所有这些样本进行训练?我如何知道分别用于训练和测试目的的样本数量?张量流程代码中的训练和测试样本数量?
您将不得不选择哪些样本用于培训和哪些用于测试。一般的做法是设置随机70%的样本进行训练,剩下的30%进行测试。这可以简单地做到这一点:
让我们假设您有一个名为df
的5000000个样本的数据框。来自熊猫的sample()
函数将允许您选择一个指定的百分比的随机样本,可以留待培训。其余的30%将被编入索引并用于测试。
import pandas as pd
train_set = df.sample(frac=0.7)
test_set = df.loc[~data_.index.isin(train_set.index)]
现在你有两个dataframes,一个用于培训(350万个样本),一个用于测试(150万个样本)
你在哪里看到这个号码?你是提供训练和测试数据的人,所以你应该知道每个样本有多少个样本。 – interjay