cluster-analysis

    0热度

    1回答

    我试图使用高维数据集(CDR数据)的K均值。 集群后,我谨代表每个集群与最翔实的特点能展现出独特的/代表客户在该集群的特征。 例如, 群集1:高:call_duration],[低:NUMBER_OF_FRIENDS],[高:call_at_night] 群集2: [低:call_duration],[高:use_promot离子] 集群3:高:internet_usage] 我想知道......

    0热度

    1回答

    我一直在寻找(在制作我自己的过程中)到solr的carrot2的默认集群组件。在clustering component类有2种方法,其中的聚类算法被称为: 在重写的过程方法 SolrDocumentList solrDocList = SolrPluginUtils.docListToSolrDocumentList( results.docList, rb.req.getSearcher(),

    0热度

    3回答

    我想将K均值(或任何其他简单聚类算法)应用于带有两个变量的数据,但我希望群集遵守一个条件:每个群集第三个变量的总和> some_value。 这可能吗?

    0热度

    2回答

    我正在与一大组,其包括空间包裹的工作的附加属性,与含有地理坐标的每一行(UTM),局部地区&值: [x, y, area, value]: [272564.9434265977, 6134243.108910706, 980.63, 550.6664083293393], [272553.9611341293, 6134209.499155387, 1026.55, 477.326968973

    0热度

    1回答

    我有大约70家公司,我想根据三个时间序列变量使用SAS将它们集群到更小的组中。 数据标准化和堆叠。它看起来像这样: Day Company Var1 Var2 Var3 1 A 0.01 0.015 0.14 2 A ... 3 A ... ... 99 Z ... 100 Z ... 这里是我的想法: 我的三个变量组合成一个变量,通过计算其欧氏距离VAR4 然

    0热度

    1回答

    我使用修改后的Lloyd算法来获得k = 2的k均值的相同簇大小输出。 以下是伪代码: - Randomly choose 2 points as initialization for the 2 clusters (denoted as c1, c2) - Repeat below steps until convergence - Sort all points xi accord

    -1热度

    2回答

    我有数百个包含名称字符串的列表,我想将它们聚类在3D图形上。这里我给出3个列表的例子。包含大量相同字符串内容的列表应该更靠近图表上的其他列表。 我该怎么办呢? person1 = ['mike', 'alex', 'arker','locke','dave','david','ross','rachel','anna','ann','darl','carl','karle'] person2

    -4热度

    1回答

    我试图通过使用谷歌找到我的问题的答案,但我没有设法做到这一点,所以决定在这里问。我正在使用R kmeans过程对我的数据进行聚类,而我真正想要的是查看最接近聚类中心的行吗?有没有简单的方法来做到这一点,而不必重写函数? 谢谢

    -1热度

    1回答

    我有一个大型的二手车表。 标题是这样的: maker | model | year | kilometers | transmission | gas_type | price 我做了一个预测模型,这项工作是这样的:每次我想知道一辆车的价格时,我通过品牌和型号过滤数据,然后我跑二次回归,以年和公里为参数。 结果是确定的,但不适用于每辆车。 问题是,同一个制造商和型号有不同的“版本”。 (它与完

    -2热度

    1回答

    运行k-means(mllib spark scala)后,我想理解从预处理的数据(其他变换器中)获得的聚类中心mllib OneHotEncoder。 中心看起来是这样的: 集群中心0 0.3496378699559276,0.05482645034473324,111.6962521358467,1.770525792286651,0.0,0.8561916265130964,0.014382