我一直在研究决策树学习者算法,以检测欺诈性银行交易。 到目前为止,我已经根据我的数据集为决策树生成了规则集。 我还为每个规则生成了显着性值:我的数据集中有多少交易满足特定规则,规则捕获的欺诈百分比等。 现在,根据规则的重要性,我需要选择top十条规则。决策树学习者算法生成的规则是否相关?
我的问题是当我选择前十条规则时,是否有一些规则相关的机会?
例如: 我正在处理的数据集有10000个事务。 决策树算法给了我20条规则。 在20条规则中,我需要选择前十条规则。 现在,假设规则1标识了50个事务,规则2标识了60个事务。规则1所标识的一些规则也有可能被规则2识别出来了吗?
注:前十名交易是捕获大部分欺诈行为的交易。