2017-05-25 27 views
1

我一直在研究决策树学习者算法,以检测欺诈性银行交易。 到目前为止,我已经根据我的数据集为决策树生成了规则集。 我还为每个规则生成了显着性值:我的数据集中有多少交易满足特定规则,规则捕获的欺诈百分比等。 现在,根据规则的重要性,我需要选择top十条规则。决策树学习者算法生成的规则是否相关?

我的问题是当我选择前十条规则时,是否有一些规则相关的机会?

例如: 我正在处理的数据集有10000个事务。 决策树算法给了我20条规则。 在20条规则中,我需要选择前十条规则。 现在,假设规则1标识了50个事务,规则2标识了60个事务。规则1所标识的一些规则也有可能被规则2识别出来了吗?

注:前十名交易是捕获大部分欺诈行为的交易。

回答

0

你不能以这种方式推导出概率。相关性是数据集的一个特征属性,可以为每种情况计算。这是而不是你可以从给定的信息代数派生的东西。您的示例的答案可能会在整个理论范围内变化:0到50.

在此应用程序中,您将不得不单独计算哪些事务满足哪些规则(10000 * 20列表),并根据这些实际统计数据计算相关性。

确定相互作用和个人有效性的一个领域是“交叉验证”。例如,您将从集合中删除一条规则,重新运行交易模型,并查看您的验证指标(精确度,召回率等)有哪些变化。这通常是主成分分析的第一步。

我注意到你还没有定义“前十条规则”。这十条规则是否单独采取了大部分交易?谁的个人缺席错过了大部分交易?也许你需要一套总体上具有最高准确性的十条规则?这些是三个截然不同的问题,并取决于你所问的相关性。