k-means

    -3热度

    1回答

    我正在处理来自BigData Challenge的数据集。 https://dandelion.eu/datamine/open-big-data/ 数据集:电信 - 短信,通话,上网 - MI 样本数据集(一天) Square id Time interval Country code SMS-in activity SMS-out activity Call-in activity Call-

    0热度

    2回答

    如何修改此代码以初始化所采取的数据点域内的质心?如果DATA = [[2.0,5.0],[1.0,5.0],[22.0,55.0],[42.0,12.0],[15.0,16.0]] 然后质心(x,y)可以是x属于的任何值:[1,42]和y属于:[5,55]。 质心不一定是数据点。 注意:数据的数据表是float。 import random import math BIG_NUMBER =

    -2热度

    2回答

    我有以下2列的熊猫数据帧: Database Name Name db1_user Login db1_client Login db_care Login db_control LoginEdit db_technology View db_advanced LoginEdi

    -1热度

    1回答

    输入数据 (键,数据点) A,1,2,0,1,2,1的第一列, 2,1 B,2,2,3,1,1,1,1,0 C,3,1,2,3,4,5,0,1 D,1,2,0 ,1,2,5,0,1 .... 我有上述格式的输入数据。我想执行Kmeans cluserting上面的数据忽略第一列,并想确定每个记录属于哪个中心。我已经丢弃了第一栏(键)和能够找到使用以下代码的聚类中心,但我期待在以下格式输出 (键,c

    -1热度

    2回答

    我有一个城市数据样本,我将它们聚类为一些参数。但我无法直观地表示它们,首先使用了clusplot,但我不明白为什么尺度会发生变化,因为即使只绘制两个分量,数据范围从-1到1,范围也是从-4到4, 2至2,如示例1中所示。 [ 所以我用hullplot DBSCAN包,但情节并不在您的输出城市的名称显示,作为clusplot,看到2。有人能给我一个如何将这些名称添加到图表的建议吗?

    -1热度

    1回答

    我已经为2维创建了我的k均值算法。我想修改它的8个维度,即数据点可以取8维值,最后返回8维质心值。 的代码如下: import random import math # Input varibles #k = 3 #Threshold = 1 DATA = [[2, 1, 1, 2, 1, 1, 1, 5], [ 6, 8, 1, 3, 4, 3, 7, 1],[4, 1, 3, 2,

    0热度

    1回答

    我正在使用函数kmeans来执行K均值聚类。 我有一个需要自定义距离测量功能和自定义平均功能的特殊数据。 我可以将(1)自定义距离度量函数和(2)自定义均值函数应用于kmeans函数吗? 它似乎只使用欧几里德测量。

    0热度

    1回答

    我使用OpenCV算法kmeans进行聚类。对于第一轮我想选择k1和k2位置,我不希望它们随机设置。所以我用KMEANS_USE_INITIAL_LABELS: kmeans(points, K, labels, TermCriteria, attempts, KMEANS_USE_INITIAL_LABELS, centers) 但你如何为KMEANS_USE_INITIAL_LABELS设

    2热度

    1回答

    我有一个包含产品名称的未标记数据集。例如,棒球衫,夹克衫,活跃的经典拳击手等。 我创建了一个tf-idf矩阵与数据,然后我在矩阵上运行k-means。我绘制平方的内群集总和以发现是5 聚类后我想出文件 # cosine similarity between each document from sklearn.metrics.pairwise import cosine_similarity

    0热度

    1回答

    在Bag of Features/Visual Words范例,我们有一个矢量V在k - 尺寸,其中V[i]=j如果i个质心(由k -means算法获得的)是所有k -centroids为j视觉描述符中最接近的一个(例如SIFT描述)。 据我所知,所产生的视觉载体是非常稀疏(这意味着大多数项目都是0值),因为k是非常大的,但我的问题是:什么是k一个合理的值(等矢量大小)?数百个维度?成千上万的?特