0
我使用的Weka的聚类方法将类似的字符串模式如何使用聚类方法将类似的字符串模式。我已经使用首先WEKA的fonction“stringtowordVector”,然后我直接使用聚类一些methodes,但我不能得到正确的结果,可能有人给我一些正确的方法来组这类数据?这是我的数据的一小部分:Weka中,
@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk
其实这个数据的每一行代表一个提取频繁模式(通过数据挖掘算法)和每个字母交流或电子邮件......代表一个属性,但每模式(每一行)不具有相同的属性,所以我怎么能使用聚类方法将类似的模式?非常感谢你!!!期待您的回复:)
大卫
这也许可以用[隐马尔可夫模型(https://en.wikipedia.org/wiki/Hidden_Markov_model)来表示,所以,如果你一定要使用Weka的,或许检查出[HMMWeka(HTTP:/ /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html),但我从来没有用它自己(对我来说很难得精通本) – knb