我正在使用GA Package,我的目标是找到k-means聚类算法的最佳初始质心位置。我的数据是在TF-IDF得分的话稀疏矩阵和可下载here.下面是一些我已经实现了阶段: 0库和数据集 library(clusterSim) ## for index.DB()
library(GA) ## for ga()
corpus <- read.csv("Corpus_English
我完全是Spark的新手,目前我正尝试使用Python编写一个简单的代码,用于对一组数据执行KMeans 。 from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
import re
from pyspark.mllib.clustering import KMeans, KMeansMo