我有一个问题,但我觉得解决方案应该很简单。我正在构建一个模型,并希望通过10倍交叉验证来测试其准确性。为此,我必须将训练语料库90%/ 10%分成训练和测试部分,然后训练我的模型90%和测试10%。这个我想做10次,每次做不同的90%/ 10%的分割,这样最终每个比特的语料库都被用作测试数据。然后我会平均每个10%测试的结果。如何从数据文件中提取特定行
我试图编写一个脚本来提取10%的训练语料库并将其写入一个新文件,但到目前为止我没有得到它的工作。我所做的是计算文件中的总行数,然后将这个数字除以10以知道我想提取的十个不同测试集中每一个的大小。
trainFile = open("danish.train")
numberOfLines = 0
for line in trainFile:
numberOfLines += 1
lengthTest = numberOfLines/10
对于我自己的培训文件,我发现它包含3638行,因此每个测试应该大致由363行组成。
如何将第1-363行,第364-726行等写入不同的测试文件?
那么哪部分不适合你?我试过你的代码(用我自己的文本文件),它告诉我每个“测试块”的大小。您是否需要帮助编写部分内容:“如何将第1-363行,第364-726行等写入不同的测试文件?”就这样?或者在你到达那里之前还有其他的东西不适合你? –