0

我想使用KMeans聚类算法分析配置文件数据。示例数据的格式为:聚类算法的功能缩放(规范化)(如Kmeans&EM)

Features: name ISBN  Date    ID  price .... 
      'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 
      'B' '3241B' '08/19/2012/ 'ABCDE' 33.08 

这些仅仅是示例,实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法,那么特征缩放又如何可以规范化部分呢?我应该如何处理字符串值和日期值以及价格(双倍)值?这些值之间是否存在关系?我很困惑...

任何想法?

回答

1

K均值和EM值为数字仅用于数据。

将它们应用于名称/日期/价格类型的数据没有多大意义。

顾名思义,该算法需要计算均值。你如何计算你的“名称”列中的平均值?你可以砍掉日期的某些东西,但不能用于名称。

工作错误的工具。

+0

那么应该是什么工具?对于非数字数据?假设我想将类似的书分组在一起?或者,假设我正在分析服务器日志文件.... – JudyJiang 2014-10-31 11:24:27

+0

使用例如主题建模,这些主题建模旨在处理稀疏的文本数据,并根据是否存在单词重叠功能。 – 2014-10-31 17:30:12

0

您必须将非数字特征编码为数字。分类或序数特征就是这种情况。此外,如果某些功能对您的分析不重要,请考虑将它们丢弃。例如,如果您尝试集群图书,则购买日期可能不重要(或者可能是,取决于您所关注的内容),因此添加日期无效。例如,你可以将它编码为3个变量[1,0,0],[0,1,0],[0,0,1],或者将其编码为3个变量作为2个变量[0,0],[1,0],[0,1]。 关于这个here有更多的讨论。

请注意,由于您的KMeans/GMM(因为您避开EM)将计算点之间的距离,所以正确的编码尤为重要。了解它们的含义,尤其是在使用不同的功能规范化方案时,并尝试使用不同的功能来查看结果。

+0

所以我必须将这些值(以某种方式)转换为数值?说,日期---日期号,和名称字符串---(使用一些函数..)并且还找到它们之间的关系..? – JudyJiang 2014-10-31 11:25:51

+0

对不起,我可能没有什么意义,新的机器学习..有什么方法或来源,我可以读?谢谢! – JudyJiang 2014-10-31 11:26:24