2017-09-14 64 views
0

我使用from pyspark.ml.clustering import KMeans库来完成KMeans集群。我想确保表示集群只移动10次,并且没有更多 10次。我应该使用哪个参数?对我而言,我认为它应该是maxIter=10,但不确定。哪一个是最好的? maxIter=10initSteps=10修复集群运动PySpark

回答

0

initSteps与KMeans的初始化步骤的完成次数有关。而maxIter是它将运行的最大迭代次数。出于您的目的,设置initSteps=10不会确保群集只移动10次。我在PySpark中找不到示例,但对于Sklearn,您可以在this example中看到KMeans初始化的效果。