我想使用KMeans聚类算法分析配置文件数据。示例数据的格式为:聚类算法的功能缩放(规范化)(如Kmeans&EM)
Features: name ISBN Date ID price ....
'A' '31NDB' '05/18/2014' 'CBDDN' 12.00
'B' '3241B' '08/19/2012/ 'ABCDE' 33.08
这些仅仅是示例,实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法,那么特征缩放又如何可以规范化部分呢?我应该如何处理字符串值和日期值以及价格(双倍)值?这些值之间是否存在关系?我很困惑...
任何想法?
那么应该是什么工具?对于非数字数据?假设我想将类似的书分组在一起?或者,假设我正在分析服务器日志文件.... – JudyJiang 2014-10-31 11:24:27
使用例如主题建模,这些主题建模旨在处理稀疏的文本数据,并根据是否存在单词重叠功能。 – 2014-10-31 17:30:12