1
A
回答
3
时间序列的地方,你不应该随意分割典型案例(一般你不应该随意拆分的时候那里有显著例子,例如相关) 。
通常销售不是严格动态的时间序列(如股票价格),但使用train_test_split
可能会有问题。
您可以在不使用sklearn的情况下获得所需的交叉验证拆分(例如sklearn: User defined cross validation for time series data,Pythonic Cross Validation on Time Series ...)。
培训的70-80%是标准。假设例子的分布均匀,可以使用1月至4月/ 5月的数据作为训练集,其余记录用于验证。
目前,据我所知,sklearn不支持严格的时间相关问题的交叉验证。所有开箱即用的交叉验证程序将构建训练折叠,其中包含有关测试折叠的未来信息(例如[WIP] RollingWindow cross-validation #3638)。
此外,您应该考虑您的数据是季节性的还是另有明显的组别划分(例如地理区域)。
相关问题
- 1. SSAS - 分类 - 如何将数据分割为:训练集 - 验证集 - 测试集
- 2. 训练集和验证不同维度的集合
- 3. 如何将文档分割为训练集和测试集?
- 4. 1)从整个训练集中训练CNN和2)训练集中的训练集,然后是整个训练集之间的区别是什么?
- 5. R训练和测试集
- 6. 训练数据集
- 7. 在Matlab中训练数据集,验证数据集,测试数据集
- 8. R:如何将数据帧分成训练,验证和测试集?
- 9. 如何将数据集分割/分割为训练和测试数据集以进行交叉验证?
- 10. 如何在Apache Spark中训练Matrix分解模型MLlib的ALS使用训练,测试和验证数据集
- 11. 随机样本集创建交叉验证和基于标签的训练集
- 12. 培训和测试集拆分
- 13. 在Postgres中将数据集分成训练和测试集
- 14. 培训验证面部表情数据集的测试集拆分
- 15. 双向LSTM(BLSTM)的训练,测试和验证集
- 16. 在RandomForest中使用验证和训练数据集
- 17. 中提琴琼斯实验(训练集)
- 18. 我应该如何将大的(〜50Gb)数据集分成训练,测试和验证集?
- 19. 如何拆分自己的数据集在Tensorflow中进行训练和验证CNN
- 20. 在MATLAB中将数据拆分为训练/测试数据集?
- 21. 基于训练集的数据分类
- 22. 贝叶斯分类器训练集
- 23. AdaBoost算法的训练集
- 24. 更新ANN的训练集
- 25. 追加Tensorflow训练集
- 26. Twitter主观训练集
- 27. Neuroph不能训练集
- 28. 训练集平衡策略
- 29. 表示训练集与
- 30. FANN训练数据集
查看此答案的详细摘要:http://stackoverflow.com/questions/13610074/is-there-a-rule-of-thumb-for-how-to-divide-a-dataset-into-training -and-validatio – Harjatin
'scikit-learn'有一个用于分割数据的有用帮助函数:http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html – numentar
可能的重复[where to保存激活密钥](http://stackoverflow.com/questions/1360749/where-to-save-activation-key) – Prune