2014-09-21 58 views
4

我目前正在研究时间系列女巫430属性和约。 80k实例。现在我想对每个实例进行二进制分类(而不是整个ts)。我发现的关于对TS进行分类的一切都是关于标记整个事情的。 是否有可能用SVM之类的东西来分类每个实例,完全忽略数据的顺序特性,还是只会导致一个非常糟糕的分类器? 还有哪些其他选项可以将每个实例分类,但仍将数据视为时间序列?分类多变量时间序列

+0

正在为您的数据要求其他分类器...... – Devavrata 2014-09-21 12:57:11

回答

0

它当然取决于430属性中的数据, 数据类型和特别是你想解决的问题

在时间序列分析中,您通常要利用相邻点之间的依赖关系,即它们如何随时间变化。你可能会在书中找到的例子通常谈论一个功能​​。如果我理解正确,那么您只需关注430个属性之间的依赖关系(垂直依赖关系)并忽略水平依赖关系。如果我是你,我会首先尝试训练多个分类器(支持向量机,最大熵模型,多层感知器,随机森林,概率神经网络......),并比较他们在你的框架中的预测性能问题。

对于培训,您可以开始将所有430个属性作为特征提供给Maxent分类器(可以轻松处理数百万个特征)。 您还需要执行一些N-fold交叉验证以查看分类器是否过度配置。然后选择最好的解决您的问题“够好”。

如果这种方法不能很好地执行其他的想法:

  • 包括T-1,T-2功能...
  • 通过尝试不同特征的子集进行特征选择
  • 派生出新时间序列,如移动平均,小波频谱......并将它们用作新特征

Maxent分类器的一个很好的实现可以在openNLP中找到。

2

如果数据被标记了,你可能会把运算连在一起,所以每个实例变成一个单独的长时间序列,并且通过应用所谓的Shapelet Transform。这将导致每个时间序列的值可以输入到SVM,随机森林或任何其他分类器中。这可能是因为选择正确的shapelets将允许您在分类实例时专注于单个属性。

如果没有标记,您可以先试用unsupervised shapelets应用程序来探索您的数据,然后继续上述shapelet转换。

+0

感谢您对shapelet转换纸的链接。 – 2016-05-02 14:53:44

+0

@seninp我只是偶然发现了你的答案。出于好奇,你认为可以将shapelet变换应用于面板/横截面时间序列数据吗?在文献中,我通常只看到它适用于实际价值的时间序列。 – Pylander 2016-09-13 20:19:02