我有一个属性集20,其中很少是字符串,例如美国州的代码,订阅计划的名称等等。我们如何处理WEKA中用于决策树构建的字符串属性?具有字符串属性的WEKA决策树
我读了关于stringtowordvector转换器,但每个属性的字符串本身只是一个字。
我有一个属性集20,其中很少是字符串,例如美国州的代码,订阅计划的名称等等。我们如何处理WEKA中用于决策树构建的字符串属性?具有字符串属性的WEKA决策树
我读了关于stringtowordvector转换器,但每个属性的字符串本身只是一个字。
您可能已经想通了 - 您必须将名称属性声明为“字符串属性”(实际字符串属性是WEKA中的其他属性),即您必须声明它们可以在ARFF标题中包含的所有值大括号。
就宣布这个模式在ARFF文件如下属性:
@attribute <att_name> string
要小心,因为Strings
都内部存储在一个字符串表,并通过 其在该表中的地址表示。因此,包含相同字符的两个字符串 具有相同的值。
源(书):数据挖掘:实用机器学习工具与技术第三版
实施例从WEKA手册: @ATTRIBUTE类{虹膜setosa,虹膜云芝,虹膜锦葵} – 2014-09-04 11:38:33