k-means

0热度

1回答

我正在Python中构建k-means聚类模型。但是，我不确定如何保存群集质心以及如何将它们用于未来的评分目的。当我稍后使用模型时，我总是希望分配相同的群集ID。我会很感激，如果有人有一个明确的代码来演示如何做到这一点。更新： @HannounYassir嗨，肯定，对不起，我应该以前也做过这样的：想象一下，我的数据集的名字是data_clean和所有的变量都是标准化和前手清洗。 # def

1热度

1回答

TF KMeansClustering不能在GPU上运行

在Ubuntu 16.04上运行最新（1.1.0）张量流（通过pip3 install tensorflow-gpu安装），CUDA8 + CUDNN5。代码看起来或多或少是这样的： import tensorflow as tf from tensorflow.contrib.learn import KMeansClustering trainencflt = #pandas fram

-1热度

2回答

使用proc fastclus（SAS）维护意见订购的K-means聚类

我必须将我的人口聚类在8 clusters。我正在使用proc fastclus和k-means方法（以最小化群集之间的差异）。观察结果代表一个分数，所以即使在聚类过程之后，它们仍然是有序的。我注意到这样： proc sort data=input.population; by score; run; proc fastclus data = input.population

-1热度

1回答

如何处理K平均值算法中每个坐标值的不同标度值？

我正在练习使用python的K-means。我正在处理一组购物数据，并且输入数据集看起来像这样。输入表头： [用户ID] [money_spent_on_clothes]诠释 [money_spent_on_food] INT [money_spent_on_shoes] INT [money_spent_on_Monday] INT [money_spent_on_Tuesday ] int

-5热度

1回答

k-means的网格搜索

我有一个线性方程来聚集一些查询，我想调整超参数。现在我想知道我可以使用“网格搜索”进行“k-means”聚类吗？或者它不能用于k-means？在我的工作中，我将数据分成80-20比例，80％的数据用于训练模型，20％用于测试。 TNX

0热度

2回答

k-means使用Spark/Scala对geolocated数据进行聚类

如何使用k-means聚类算法在这里处理geolocated数据，有人可以在这里分享您的输入，在此先感谢。 Project_2_Dataset.txt file entries look like this ================================================= 33.68947543 -117.5433083 37.88

0热度

1回答

如何使用K-means算法发现异常/异常

我目前新机器学习，我将努力对涉及使用机器学习库检测以及可能的异常警报的项目。我将使用Apache Spark，并决定使用KMeans方法来解决该项目。主要项目包括在分析日常文件和检测中的一些记录，波动变化，并报告他们作为可能的异常（如果它们被认为是一个基于模型）。这些文件是在一天结束时生成的，我的程序需要在第二天早上检查它们，看看是否有异常。但是，我需要检查异常文件vs文件，而不是在文件中。这意

1热度

1回答

使用scipy kmeans进行聚类分析

我想了解scipy.cluster.vq.kmeans。在2D空间中分布有许多点，问题是将它们分组为簇。这个问题引起了我的关注，读取this question，我在想，scipy.cluster.vq.kmeans将要走。这是数据：使用下面的代码，所述目的将是获得每个25簇的中心点。 import numpy as np import matplotlib.pyplot as plt f

-2热度

1回答

在K-Means算法（Apache Spark）中查找K的完美值

我正在研究一个涉及使用K均值模型进行异常检测的项目。但是，要获得精确的几乎和精确的结果，我需要找到K. 我的算法依赖于在我的模型的异常值一般由自己放置在群集上的想法的最佳值。通常，“正常”数据将与其他正常数据聚集在一起，但异常数据会形成它们自己的聚类，因此表明存在异常。但是，我需要找到K的最佳值，以便我的算法能够正常工作，并查看它是否合适。关于如何找到一个好的K值的任何想法？这是“正常的”虚

0热度

1回答

库（clValid） - 要集群的项目数大于“maxitems”

每当我打电话：出现 library(clValid) clValid(da_mat, nClust = 2:6,clMethods = "kmeans",method = "ward", validation = "internal",verbose = F,metric = "euclidean") 以下问题：要集群的项目数大于'maxitems' 所需的存储空间和时间可能过多，您是否希