1

我有我需要创建一个分类模型关系数据库的庞大数据集。通常对于这种情况我会使用ILP,但由于特殊情况我不能这样做。关系数据挖掘,而不ILP

解决这个问题的另一种方法是试图在我有外部关系时汇总这些值,但是对于某些名义属性,我有数以千计的重要且不同的行(例如:与几种不同药物有关的患者处方),在这种情况下,我无法为那个名义属性的每一个不同的行创建一个新的属性,而且如果我这样做的话,大多数新列都会有NULL值。

是否有任何非ILP算法,可以让我的数据挖掘关系数据库而不诉诸于技术像旋转这将创造数千个新的列?

+0

您可能在http://datascience.stackexchange.com/上有更多运气。 – fxm

+0

然后将检查它 – user3644986

回答

0

首先,一些注意事项

我不知道为什么你不能使用你的首选编程(子)模式*,归纳逻辑程序设计(ILP),或者它是什么你想分类。提供更多细节可能会导致更好的答案;尤其是因为根据与之相关的编程范例来选择分类算法有点不同寻常。如果你的真实世界的例子是保密的,那么简单地构成一个虚构但相似的例子。

大数据分类,而不ILP

话虽如此,排除了ILP后,我们在我们的考虑范围4个其他逻辑编程范例:

  1. 答案集
  2. 约束
  3. 功能

除了逻辑编程之外的几十个范式和子范式。

在例如功能逻辑编程,存在ILP的延伸称为感应功能逻辑编程,其基于反转缩小(即,节流机构的反转)。此方法克服了ILP的一些局限性和(according to some scholars, at least)是作为适合于应用在代表性方面和具有允许以更自然的方式来表达问题的好处。

不知道更多有关数据库的细节和你的脸使用ILP的障碍,我不知道这是否解决您的问题或来自同样的问题困扰。因此,我会抛出一种完全不同的方法。

ILP is contrasted with "classical" or "propositional" approaches to data mining。这些方法包括机器学习的肉和骨骼,如决策树,神经网络,回归,装袋和其他统计方法。由于数据规模的原因,您可以加入许多数据科学家,大数据工程师和统计人员的行列,以利用高性能计算(HPC)将这些方法应用于海量数据集(而不是还可以选择抽样和其他统计技术来减少分析关系数据库中大数据所需的计算资源和时间)。

HPC包括诸如利用多个CPU核心,通过使用具有高内存和大量快速CPU内核的服务器的弹性使用,使用高性能数据仓库设备,采用集群或其他形式的并行计算来扩展分析,等等。我不确定你用什么语言或统计套件来分析你的数据,但作为一个例子,这个例子列出了许多用于R语言的HPC资源,这将允许你扩展一个命题算法。