k-means

    3热度

    1回答

    我对sklearn(和python一般)非常陌生,但需要在涉及的某个项目上工作,其中包含超过10k个样本。对于k = 4的少于100个样本的测试数据集,使用以下代码,聚类按预期进行。然而,当我开始使用多于100个样品,则6/8质心似乎在原点(0,0)即它未能产生群集重复。任何可能出错的建议? 截图: 86 Samples, 150 samples 代码: data = pd.read_csv('p

    0热度

    1回答

    我想要做一个小闪亮的Kmeans练习,我下载一个csv文件并在其上运行kmeans(忽略任何所需的预处理步骤)---获取群集,我想附加这些群集数字的原始数据,并在互动datatable(从DT包)输出这个......但我遇到了一个错误....下面的代码.... library(shiny) # Loading the required packages pacman::p_load(Am

    -1热度

    1回答

    我是新来的火花和机器学习,所以为了练习,我试图在spark 1.6.0中使用数据集编写k-means算法。 我按照apache spark网站上的示例中的说明进行操作。 ,而这样做,所以我得到这个错误: java.lang.NumberFormatException: For input string: "2014-03-15:10:10:20,Sorrento,8cc3b47e-bd01-448

    2热度

    1回答

    我有许多问题和选择,用户将要回答。他们有这样的格式: question_id, text, choices 并为每个用户我保存回答问题,并选择的选择由每个用户在MongoDB中一个JSON: {user_id: "", "question_answers" : [{"question_id": "choice_id", ..}] } 现在我试图使用k - 意味着根据他们的问题选择寻找最相似

    0热度

    2回答

    如何使用聚类算法说带预定义质心的K-Means? 或者,如果你能推荐我的问题更好的解决方案,这是代所有像素的RGB图像中到最近的预定义的颜色:{蓝色,红色,绿色,黄色,橙色}

    0热度

    1回答

    我想运行具有超过3个功能的kmeans聚类。我尝试了两个功能,并想知道如何为sklearn.cluster KMeans提供超过3个功能。 这里是我的代码和数据框,我想选择要运行的功能。我有多个数据框作为输入,我必须提供它们作为功能。 # currently two features are selected # I'd like to combine more than 3 features

    1热度

    2回答

    我想使用轮廓分数为我的数据集选择最佳数量的簇。我的数据集是关于2,000多个品牌的信息,包括购买此品牌的客户数量,品牌的销售量以及品牌在各类别下销售的商品数量。 由于我的数据集非常稀疏,因此我在集群之前使用了MaxAbsScaler和TruncatedSVD。 我使用的聚类方法是k-means,因为我最熟悉这个(我会感谢你对其他聚类方法的建议)。 当我将群集数量设置为80并运行k均值时,每次都得到

    0热度

    1回答

    运行KMEANS我想用五个特点运行K均值聚类算法。 (K = 4)不过,我得到一个索引错误说这: > Traceback (most recent call last): > File > "C:\....py", line 756, > in <module> > plt.plot(X[i][0],X[i][1],colors[labels[i]],markersize=10) >

    -2热度

    1回答

    我有不同的数据类型的列(如列:产品编号,名称,大小,颜色,等级,部门等)的表,因为不是所有列是数字的,我怎么能聚集同类产品一起。数据位于Netezza中,为了快速处理,我只想在数据量巨大时(大约200万行)在数据库端执行此操作。 我试图在R中实现Gower的相似性,但它需要很长时间。有没有我可以在netezza上使用的UDF? dput(头(PROD)) 结构(列表(Product_key = C

    3热度

    1回答

    K均值聚类我有在R.已经创建它的结构如下数据集: > head(btc_data) Date btc_close eth_close vix_close gold_close DEXCHUS change 1647 2010-07-18 0.09 NA NA NA NA 0 1648 2010-07-19 0.08 NA 25.97 115.730 NA