cluster-analysis

0热度

1回答

我试图使用高维数据集（CDR数据）的K均值。集群后，我谨代表每个集群与最翔实的特点能展现出独特的/代表客户在该集群的特征。例如，群集1：高：call_duration]，[低：NUMBER_OF_FRIENDS]，[高：call_at_night] 群集2： [低：call_duration]，[高：use_promot离子] 集群3：高：internet_usage] 我想知道......

0热度

1回答

solr集群组件如何工作？

我一直在寻找（在制作我自己的过程中）到solr的carrot2的默认集群组件。在clustering component类有2种方法，其中的聚类算法被称为：在重写的过程方法 SolrDocumentList solrDocList = SolrPluginUtils.docListToSolrDocumentList( results.docList, rb.req.getSearcher(),

0热度

3回答

K意味着条件

我想将K均值（或任何其他简单聚类算法）应用于带有两个变量的数据，但我希望群集遵守一个条件：每个群集第三个变量的总和> some_value。这可能吗？

0热度

2回答

识别空间聚类在Python考虑到

我正在与一大组，其包括空间包裹的工作的附加属性，与含有地理坐标的每一行（UTM），局部地区&值： [x, y, area, value]: [272564.9434265977, 6134243.108910706, 980.63, 550.6664083293393], [272553.9611341293, 6134209.499155387, 1026.55, 477.326968973

0热度

1回答

基于SAS中几个时间序列变量的集群公司

我有大约70家公司，我想根据三个时间序列变量使用SAS将它们集群到更小的组中。数据标准化和堆叠。它看起来像这样： Day Company Var1 Var2 Var3 1 A 0.01 0.015 0.14 2 A ... 3 A ... ... 99 Z ... 100 Z ... 这里是我的想法：我的三个变量组合成一个变量，通过计算其欧氏距离VAR4 然

0热度

1回答

k = 2的Kmeans算法给出了相等的簇大小输出

我使用修改后的Lloyd算法来获得k = 2的k均值的相同簇大小输出。以下是伪代码： - Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) - Repeat below steps until convergence - Sort all points xi accord

-1热度

2回答

Python：基于它们的相同字符串内容的绝对数量的3D列表聚类

我有数百个包含名称字符串的列表，我想将它们聚类在3D图形上。这里我给出3个列表的例子。包含大量相同字符串内容的列表应该更靠近图表上的其他列表。我该怎么办呢？ person1 = ['mike', 'alex', 'arker','locke','dave','david','ross','rachel','anna','ann','darl','carl','karle'] person2

-4热度

1回答

R数据输出按距离集群中心排序

我试图通过使用谷歌找到我的问题的答案，但我没有设法做到这一点，所以决定在这里问。我正在使用R kmeans过程对我的数据进行聚类，而我真正想要的是查看最接近聚类中心的行吗？有没有简单的方法来做到这一点，而不必重写函数？谢谢

-1热度

1回答

使用机器学习来预测二手车的价格

-2热度

1回答

如何恢复Spark中的单热编码（Scala）

运行k-means（mllib spark scala）后，我想理解从预处理的数据（其他变换器中）获得的聚类中心mllib OneHotEncoder。中心看起来是这样的：集群中心0 0.3496378699559276,0.05482645034473324,111.6962521358467,1.770525792286651,0.0,0.8561916265130964,0.014382