决策树学习者算法生成的规则是否相关？

我一直在研究决策树学习者算法，以检测欺诈性银行交易。到目前为止，我已经根据我的数据集为决策树生成了规则集。我还为每个规则生成了显着性值：我的数据集中有多少交易满足特定规则，规则捕获的欺诈百分比等。现在，根据规则的重要性，我需要选择top十条规则。决策树学习者算法生成的规则是否相关？

我的问题是当我选择前十条规则时，是否有一些规则相关的机会？

例如：我正在处理的数据集有10000个事务。决策树算法给了我20条规则。在20条规则中，我需要选择前十条规则。现在，假设规则1标识了50个事务，规则2标识了60个事务。规则1所标识的一些规则也有可能被规则2识别出来了吗？

注：前十名交易是捕获大部分欺诈行为的交易。

你不能以这种方式推导出概率。相关性是数据集的一个特征属性，可以为每种情况计算。这是而不是你可以从给定的信息代数派生的东西。您的示例的答案可能会在整个理论范围内变化：0到50.

在此应用程序中，您将不得不单独计算哪些事务满足哪些规则（10000 * 20列表），并根据这些实际统计数据计算相关性。

确定相互作用和个人有效性的一个领域是“交叉验证”。例如，您将从集合中删除一条规则，重新运行交易模型，并查看您的验证指标（精确度，召回率等）有哪些变化。这通常是主成分分析的第一步。

我注意到你还没有定义“前十条规则”。这十条规则是否单独采取了大部分交易？谁的个人缺席错过了大部分交易？也许你需要一套总体上具有最高准确性的十条规则？这些是三个截然不同的问题，并取决于你所问的相关性。

2017-05-25 15:29:36 Prune

回答