2017-07-17 35 views
0

我使用的Weka的聚类方法将类似的字符串模式如何使用聚类方法将类似的字符串模式。我已经使用首先WEKA的fo​​nction“stringtowordVector”,然后我直接使用聚类一些methodes,但我不能得到正确的结果,可能有人给我一些正确的方法来组这类数据?这是我的数据的一小部分:Weka中,

@relation ponds 
@ATTRIBUTE LCC string 
@data 
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj 
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj 
acehiadfhjacehikkkkkkkkkkk 

其实这个数据的每一行代表一个提取频繁模式(通过数据挖掘算法)和每个字母交流或电子邮件......代表一个属性,但每模式(每一行)不具有相同的属性,所以我怎么能使用聚类方法将类似的模式?非常感谢你!!!期待您的回复:)

大卫

+1

这也许可以用[隐马尔可夫模型(https://en.wikipedia.org/wiki/Hidden_​​Markov_model)来表示,所以,如果你一定要使用Weka的,或许检查出[HMMWeka(HTTP:/ /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html),但我从来没有用它自己(对我来说很难得精通本) – knb

回答

0

每串都不同,所以“串词矢量”将给予他们不同的载体。详情请阅读“文字袋型号”。

您可以尝试使用Levenshtein距离进行聚类,但我宁愿尝试为您的问题设计一些好的功能。