我不知道为什么我收到消息PySpark 2:K均值输入数据不是直接缓存
WARN KMeans: The input data is not directly cached, which may hurt performance if its parent RDDs are also uncached.
当我尝试使用星火K均值
df_Part = assembler.transform(df_Part)
df_Part.cache()
while (k<=max_cluster) and (wssse > seuilStop):
kmeans = KMeans().setK(k)
model = kmeans.fit(df_Part)
wssse = model.computeCost(df_Part)
k=k+1
它说
,我的输入(数据帧)没有被缓存!
我试图打印df_Part.is_cached,我收到True这意味着我的数据帧被缓存,所以为什么火花仍然警告我这个?
预先感谢您
谢谢,那是我:)谁在https://issues.apache.org/jira/browse/SPARK-18356 – MrGildarts
创建该主题哦!那么好吧。 :) – ctwardy