我训练AK意味着我的数据集模型,现在我想获得从每个集群的几个要素与集群ID val clusters = KMeans.train(data, numClusters, numIterations)
val vectorsAndClusterIdx = data.map{ point =>
val prediction = clusters.predict(point)
(
我有大量的数据,我想运行kmean分类。数据集非常大,我无法将文件加载到内存中。 我的想法是像训练数据集一样在数据集的某些部分上运行分类,然后逐个部分地将数据集应用到数据集的其余部分。 import pandas as pd
import pickle
from sklearn.cluster import KMeans
frames = [pd.read_hdf(fin) for fin