2014-02-24 24 views
2

当试图使用pmml包导出R分类器到PMML时,我注意到树中节点的类分布没有被导出。R PMML类的分布

PMML支持这一与ScoreDistribution元素:http://www.dmg.org/v1-1/treemodel.html

反正是有有在PMML这一信息?我想用另一个依赖于这些信息的工具读取PMML。

我做这样的事情:

library(randomForest) 
library(pmml) 

iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,proximity=TRUE) 
pmml(iris.rf) 

回答

4

你能提供一些更information..such为,其功能,您试图使用。

例如,如果您使用的是randomForest包,我相信它不提供有关评分分布的信息;所以PMML表示也是如此。但是,如果使用默认值,则用于分类的参数'nodesize'例如等于1,并且这意味着终端节点将具有ScoreDistribution,例如:

ScoreDistribution value = predictedValue probability =“1.0” />

ScoreDistribution值= AnyOtherTargetCategoty概率= “0.0”/>

如果使用的rpart包树模型中,PMML函数执行输出的得分分布信息。也许你可以给我们你使用的确切命令?

+0

我的确在使用randomForest包。我查看了Weka的RandomForest来源,它们提供了分数分布。为什么R不是一样的? 我已经编辑我有我使用的示例代码问题。 – halfwarp

+1

所以,正如我所说的,原因是在R“随机森林”包,而不是“PMML”。我不能说为什么该软件包的作者不选择输出这些信息,但是如果我不得不猜测,那是因为这些信息可能不是必需的?通常情况下,ScoreDistribution用于计算预测的概率...随机森林,我相信,这是否通过简单地计票的数量。 – Tridi