k-means

    0热度

    1回答

    我想用k-means离散化两个值(0或1)中的时间序列数据。我的时间序列数据是每个基因的矩阵时间(line = time,column = gene)。例如: t\x x1 x2 x3 1 0.122 0.324 0.723 2 0.543 0.573 0.329 3 0.901 0.445 0.343 4 0.612 0.353 0.435 5 0.192 0.233 0.023

    8热度

    2回答

    我正在使用GA Package,我的目标是找到k-means聚类算法的最佳初始质心位置。我的数据是在TF-IDF得分的话稀疏矩阵和可下载here.下面是一些我已经实现了阶段: 0库和数据集 library(clusterSim) ## for index.DB() library(GA) ## for ga() corpus <- read.csv("Corpus_English

    0热度

    1回答

    我在熊猫数据帧上应用K-means聚类。集群分配功能如下: def assign_to_cluster(row): lowest_distance = -1 closest_cluster = -1 for cluster_id, centroid in centroids_dict.items(): df_row = [row['PPG'],row['

    2热度

    2回答

    当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中,可选LSA(使用SVD)用于执行降维。 为什么这很有用?使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸(特征)的数量。 我知道LSA

    0热度

    2回答

    我正在寻找一种方法来分割与python n个群集中的二维数组。我想使用K平均法,但我没有找到任何代码。我尝试了sklearn库的k-means,但我还没有理解如何正确使用它。

    0热度

    1回答

    我试图聚集在培训期间没有看到的新数据,只包含测试数据。培训文件有5个类别,而测试数据有7个类别(5 +2),其中2个是新类别。现在,我想运行k-均值来为新添加的类找到适当的群集,或者为它们创建新的群集(如果它们不接近任何群集)。 这是我的代码的一部分: print("Reading training data...") #mydata = pd.read_csv('.\KDDTrain.cs

    0热度

    1回答

    如果我施加PCA上的特征向量,然后我做聚类,例如像以下: reduced_data = PCA(n_components=2).fit_transform(data) kmeans = KMeans(init='k-means++', n_clusters=n_digits, n_init=10) kmeans.fit(reduced_data) 减小的数据将是在PCA分量而言,使后 在k

    1热度

    2回答

    我想为每个输入数据分配一个标签;例如,数据[0]是'k',数据[2]是'b',数据[5]是'j',数据[13]是另一个'k',....等等。 在这里显示聚类后:3D plot of 2 clusters,我想检索每个群集中每个“点标签”的类型。 import numpy as np from sklearn.cluster import KMeans import matplotlib.pyp

    3热度

    1回答

    我完全是Spark的新手,目前我正尝试使用Python编写一个简单的代码,用于对一组数据执行KMeans 。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext import re from pyspark.mllib.clustering import KMeans, KMeansMo

    2热度

    1回答

    我有一个6个从属的spark集群。并且火花默认示例pi.py可以在我的环境中成功运行。 但运行spark默认示例kmeans.py时出现以下错误。 ./bin/spark-submit --master spark://master_ip:7077 examples/src/main/python/mllib/kmeans.py data/mllib/kmeans_data.txt 2 的错误