我正在尝试使用scikit-learn在训练好的k-means模型中预测一群测试文档的集群。 vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(train_documents)
k = 10
model = KMeans(n_clusters=k, init='k-means++',
我想对特定数据集执行主成分分析,然后将主成分馈送到LogisticRegression分类器。 具体而言,我想申请PCA并使用函数computePrincipalComponentsAndExplainedVariance来保持总方差的90%。 下面的代码读取数据集: // Load the data
val text = sparkSession.sparkContext.textFile("