k-means

0热度

1回答

我想用k-means离散化两个值（0或1）中的时间序列数据。我的时间序列数据是每个基因的矩阵时间（line = time，column = gene）。例如： t\x x1 x2 x3 1 0.122 0.324 0.723 2 0.543 0.573 0.329 3 0.901 0.445 0.343 4 0.612 0.353 0.435 5 0.192 0.233 0.023

8热度

2回答

K-means：初始中心并不明显

我正在使用GA Package，我的目标是找到k-means聚类算法的最佳初始质心位置。我的数据是在TF-IDF得分的话稀疏矩阵和可下载here.下面是一些我已经实现了阶段： 0库和数据集 library(clusterSim) ## for index.DB() library(GA) ## for ga() corpus <- read.csv("Corpus_English

0热度

1回答

Keyerror在应用lambda函数时发生在熊猫数据帧

我在熊猫数据帧上应用K-means聚类。集群分配功能如下： def assign_to_cluster(row): lowest_distance = -1 closest_cluster = -1 for cluster_id, centroid in centroids_dict.items(): df_row = [row['PPG'],row['

2热度

2回答

为什么做文本聚类

当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA： http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中，可选LSA（使用SVD）用于执行降维。为什么这很有用？使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸（特征）的数量。我知道LSA

0热度

2回答

蟒蛇K意味着群集阵列

我正在寻找一种方法来分割与python n个群集中的二维数组。我想使用K平均法，但我没有找到任何代码。我尝试了sklearn库的k-means，但我还没有理解如何正确使用它。

0热度

1回答

不同的聚类标签

我试图聚集在培训期间没有看到的新数据，只包含测试数据。培训文件有5个类别，而测试数据有7个类别（5 +2），其中2个是新类别。现在，我想运行k-均值来为新添加的类找到适当的群集，或者为它们创建新的群集（如果它们不接近任何群集）。这是我的代码的一部分： print("Reading training data...") #mydata = pd.read_csv('.\KDDTrain.cs

0热度

1回答

PCA前K均值聚类

如果我施加PCA上的特征向量，然后我做聚类，例如像以下： reduced_data = PCA(n_components=2).fit_transform(data) kmeans = KMeans(init='k-means++', n_clusters=n_digits, n_init=10) kmeans.fit(reduced_data) 减小的数据将是在PCA分量而言，使后在k

1热度

2回答

Scikit学习为输入数据分配标签的Kmeans

我想为每个输入数据分配一个标签;例如，数据[0]是'k'，数据[2]是'b'，数据[5]是'j'，数据[13]是另一个'k'，....等等。在这里显示聚类后：3D plot of 2 clusters，我想检索每个群集中每个“点标签”的类型。 import numpy as np from sklearn.cluster import KMeans import matplotlib.pyp

3热度

1回答

如何将类型<class'pyspark.sql.types.Row'>转换为Vector

我完全是Spark的新手，目前我正尝试使用Python编写一个简单的代码，用于对一组数据执行KMeans 。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext import re from pyspark.mllib.clustering import KMeans, KMeansMo

2热度

1回答

当python运行spark示例kmeans时出现ClassNotFoundException

我有一个6个从属的spark集群。并且火花默认示例pi.py可以在我的环境中成功运行。但运行spark默认示例kmeans.py时出现以下错误。 ./bin/spark-submit --master spark://master_ip:7077 examples/src/main/python/mllib/kmeans.py data/mllib/kmeans_data.txt 2 的错误