Azure Machin Learing - 如何使用非常有限的数据集进行训练

-1

我是一名初学者，我需要一些关于如何对以下场景建模的建议

我从外部系统平均消耗约5000行数据每天。传入行的数量在4950到5050之间。我想建立一个警报机制，告诉我传入的行数是否不正常。即我想要一个解决方案让我知道，如果我得到的话，在给定日期的2500行，即少于50％，或说15000行超过平均值。

样本数据如下：
| Day |传入数据的大小（以MB为单位）|行数|标签|
|平日| 3.44 | 5000 | Y |
|平日| 3.3 | 4999 | Y |
|平日| 3.1 | 4955 | Y |
|平日| 3.44 | 5000 | Y |
|周末| 4.1 | 5050 | N |

我最初的想法是使用一些异常检测算法。我尝试使用主成分分析算法来检测异常。我收集了每天收到的总行数，并用它来训练模型。但是，在对我所掌握的数据进行训练后，这些数据非常有限（少于500次观察），我发现精度非常差。一类SVM也没有给我带来好的结果。我已经使用“行数”作为分类特征，标签为..标签，并忽略其余参数，因为在这种情况下我不感兴趣。无论传入数据的日期和大小如何，我的逻辑都只围绕行数。另外，到目前为止，我没有任何负面情况，也就是说，我从来没有收到太多或太多的记录。所以我标记了所有的日子，当我收到5050行异常。其余的我标记为正常。

我知道我在这里做了一些根本性的错误。问题是，我的方案是否有资格用于机器学习？（我认为是这样，但希望您的意见）如果是，如何应对这种有限的训练数据集，你几乎没有任何样品异常。这真的是一个异常问题，或者我可以使用一些分类算法来获得更好的结果吗？

感谢Azure Machin Learing - 如何使用非常有限的数据集进行训练

来源

2017-10-10 Guru Pasupathy

请参阅时间序列的异常检测模块。它应该做你需要的东西：

https://msdn.microsoft.com/library/azure/96b98cc0-50df-46ff-bc18-c0665d69f3e3?f=255&MSPPError=-2147217396

来源

2017-10-11 04:28:10

非常感谢海宁，这符合我的目的。我会更新你的方式。 –

Azure Machin Learing - 如何使用非常有限的数据集进行训练

回答

相关问题