-1

是否存在一些常用的强大的数据分析技术,这些技术常见且适用于各种情况下的各种数据?最好的数据库/分类技术

例如,我需要对新数据进行分类。我已经有了它的分类。我需要尝试(我的想法示例如下):

  1. 尝试应用PCA,然后RandomForestDecisions;
  2. 经由方法X(使用LIB甲)找到最显著列,然后应用Kohonen神经网络使用这种方式所有数据;
  3. 尝试SVM马尔可夫CHAINES(参见这个例子在R,和在数学,并提高结果与该结果K最近方法;
  4. 使用本工具包找到数据异常,并尝试通常反推NN(如这里)或recvent神经网络喜欢这里;
  5. 结合遗传算法(像)上线性分类器(我的意思)。

例如,我了解到xgboost *算法赢得了很多机器学习任务和比赛。

我觉得像宇航员/宇航员潜水Infinity在当前的数据挖掘工具和算法的数量和搜索正确,但也强大的方法来可行的结果。感谢任何ML原理的结构视觉与链接)

回答

1

你问这些是否有效的监督学习技术?如果是这样,是的,你可以尝试所有这五个,看看哪一个给你最好的结果。使用哪种方法确实取决于您的应用程序。

PCA降低了您的数据维数/功能数量。这通常是无监督学习方法(如最近邻居(特征脸等))的预处理步骤,但实际上可以与随机森林或其他决策树/装袋方法一起使用,以使您的代码更快地运行并减少方差。

SVM(http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html),QDA,LDA,逻辑回归(可能带有内核)是您可以尝试的许多方法之一。

为了使事情简单化,您还可以尝试训练带有一个隐藏层的神经网络,然后看看结果如何。如果你的输出层不是太大(〜10),选择一个合理的隐藏层大小(〜200),并有一个相对较大的输入层大小(约60000),这样一个网络的基本实现可以给你一个分类的准确性约97%。

但是,这又取决于你想要做什么。