我是一名初学者,我需要一些关于如何对以下场景建模的建议
我从外部系统平均消耗约5000行数据每天。传入行的数量在4950到5050之间。我想建立一个警报机制,告诉我传入的行数是否不正常。即我想要一个解决方案让我知道,如果我得到的话,在给定日期的2500行,即少于50%,或说15000行超过平均值。
样本数据如下:
| Day |传入数据的大小(以MB为单位)|行数|标签|
|平日| 3.44 | 5000 | Y |
|平日| 3.3 | 4999 | Y |
|平日| 3.1 | 4955 | Y |
|平日| 3.44 | 5000 | Y |
|周末| 4.1 | 5050 | N |
我最初的想法是使用一些异常检测算法。我尝试使用主成分分析算法来检测异常。我收集了每天收到的总行数,并用它来训练模型。但是,在对我所掌握的数据进行训练后,这些数据非常有限(少于500次观察),我发现精度非常差。一类SVM也没有给我带来好的结果。 我已经使用“行数”作为分类特征,标签为..标签,并忽略其余参数,因为在这种情况下我不感兴趣。无论传入数据的日期和大小如何,我的逻辑都只围绕行数。 另外,到目前为止,我没有任何负面情况,也就是说,我从来没有收到太多或太多的记录。所以我标记了所有的日子,当我收到5050行异常。其余的我标记为正常。
我知道我在这里做了一些根本性的错误。问题是,我的方案是否有资格用于机器学习? (我认为是这样,但希望您的意见) 如果是,如何应对这种有限的训练数据集,你几乎没有任何样品异常。这真的是一个异常问题,或者我可以使用一些分类算法来获得更好的结果吗?
感谢Azure Machin Learing - 如何使用非常有限的数据集进行训练
-1
A
回答
0
请参阅时间序列的异常检测模块。它应该做你需要的东西:
相关问题
- 1. 如何在非常大的数据集上训练Word2vec?
- 2. 训练数据集
- 3. 如何在MATLAB中训练大数据集以进行分类
- 4. 使用OpenNLP训练大型数据集
- 5. FANN训练数据集
- 6. TensorFlow:收集我自己的训练数据集&使用该训练数据集来查找对象的位置
- 7. 如何使用pycrfsuite在两个数据集上训练CRF?
- 8. 如何使用CRF ++在两个数据集上训练CRF?
- 9. 如何使用视频数据集训练分类器
- 10. 使用StanfordNLP进行名称实体识别的训练数据集
- 11. 初始训练是否适用于非平衡数据集? (Tensorflow)
- 12. R中的auto.arima的训练数据集
- 13. 使用TensorFlow进行增量训练
- 14. 可以训练带有标签的训练集的神经网络,并使用没有标签的数据集对其进行测试?
- 15. 训练数据集群的BOW预测
- 16. SegNet - 训练我自己的数据集
- 17. 基于训练集的数据分类
- 18. 如何在Azure中训练数据(如谷歌预测API)
- 19. 如何在Apache Spark中训练Matrix分解模型MLlib的ALS使用训练,测试和验证数据集
- 20. R glm()不包括训练数据集
- 21. 数据集训练MITIE模型
- 22. 地面真相与训练数据集
- 23. PyBrain:MemoryError:加载训练数据集
- 24. 在大块数据集上训练SGDRegressor
- 25. 1)从整个训练集中训练CNN和2)训练集中的训练集,然后是整个训练集之间的区别是什么?
- 26. Tesseract训练数据
- 27. 正规化无限大训练集?
- 28. 使用Theano的简单CNN训练的准确性非常低
- 29. 如何在apache模型训练后对新的训练样例进行分类?
- 30. 将预测数据放入训练数据集是否有效?
非常感谢海宁,这符合我的目的。我会更新你的方式。 –