k-means

2热度

1回答

我有很多数据，我已经尝试过基数分区[20k，200k +]。我把它叫做这样的： from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', maxIterations=10, seed=None) C0 = KMeans

0热度

1回答

如何确定需要在k个平均簇中迭代多少次

我正在为kmean聚类的Matlab项目工作我在工作时发现了解我的文件I中的MaxIter和复制之间的差异有100个地块大小当我运行我的项目三次时，我得到的差异情节每一次绘图的质心和数据点位置的变化。例如首先运行>质心位置为x 5，y 3的第二运行>质心位置是X 3，Y 2 第三运行>质心位置是X 2，Y 6 第四运行>质心位置为x 5，y 3的第五运行>质心位置是X 3，Y 2 和

0热度

1回答

Spark：如何获取群集点（KMeans）

我试图检索属于Spark中的特定群集的数据点。在下面的一段代码中，数据是组成的，但我实际上获得了预测的聚类。这里是我到目前为止的代码： import numpy as np # Example data flight_routes = np.array([[1,3,2,0], [4,2,1,4], [3,6,2,2], [0,

0热度

3回答

将160位哈希转换为用于机器学习输入的唯一整数ids

我正在准备一些用于k均值聚类的数据。目前我有160位散列格式的ID（这是比特币地址的格式）。 d = {'Hash' : pd.Series(['1HYKGGzRHDskth2ecKZ2HYvxSvQ1p87m6', '3DndG5HuyP8Ep8p3V1i394AUxG4gtgsvoj', '1HYKGGzRHDskth2ecKZ2HYvxSvQ1p87m6']), 'X1' : pd

1热度

1回答

k-means/x-means（或其他？）聚类在熊猫/ python中

我有一个数据框可以从下面的字典中重新构建。数据框代表全球各城市的23 statistics (X1-X23)。每个城市在数据框中占据一行，23个统计数据作为单独的列。我的实际df有~6 million个城市，所以它是一个很大的数据框。我想要做的是：第1步：确定基础上，23 statistics (X1-X23)城市群。步骤＃2：鉴于步骤所识别的簇＃1，我想要构造城市的组合，使得：一个）

-2热度

1回答

在WEKA中，为什么EM算法中有numKmeansRuns？ K-means对EM做什么？

我目前使用Weka 3.8，EM的配置涉及numKmeansRuns，我很困惑，为什么K-means与EM有关？

0热度

2回答

python中的MATCH函数？

有没有办法做到在Python中的Excel搭配（）函数，使得：在这样图... ...其中我切断在y = 90，我想打印哪个对应的x值最接近。基于我的调查，值/答案应该是4，但我怎么可能打印或存储在一个变量？ In: print(bss/tss*100) Out: [ 1.21976032e-14 7.42743185e+01 8.51440985e+01 9.21584826e+01

0热度

2回答

使用虚拟编码变量在R中进行聚类分析

我试图对一组数据运行聚类分析，但无法找到适当的见解。示例：我有100个资源（列）中的一组50个变量（行）。每种资源都有一些变量，如强度和其他弱点。我将强度标记为1，弱点标记为2.因为每个资源可能只有10个变量作为强度，而5个变量作为弱点，所以其他被忽略的变量标记为0。现在，我想找到分享共同优点和缺点的资源集群。我已经使用层次聚类和k-means转置数据集，以便资源在行中。 k-means图显示了

0热度

1回答

KMeans聚类为以下混合可变数据

有人可以帮我解决这个问题吗？我正在学习KMeans聚类概念。如果变量是连续的，我知道如何聚类。但是这个数据集包含分类/离散变量，如性别和邮政编码。 Sno Age Gender Zip Salary 1 26 0 9822 100 2 38 1 9822 700 3 19 1 9822 100 4 64 0 9810 2500 5 53 1 9810 1200 6 75 1 981

-1热度

2回答

如何将列表转换为未列表？

我想 '清除' 名单所以，像这样 (5,36,5,36,0.434, 0.36, 0.392, 0.37) (1,28,1,28,0.457, 0.588, 0.66, 0.478, 0.358) (1,41,1,41,0.381, 0.289, 0.433) (5,37,5,37,0.525) 输出现在我有这样 (5,36,5,36,List(0.434, 0.36, 0.392, 0