cluster-analysis

2热度

2回答

我正在尝试使用tf-idf来群集类似的文件。我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起。问题是余弦相似性不满足三角不等式。因为在我的情况下，我不能在多个集群中拥有相同的矢量，我必须将每个集群与一个共同的元素进行合并，这可能会导致两个文档被分组在一起，即使它们彼此不相似。是否有措施的另一种方式两个文件的相似性，因此：的载体，基于自己的方向进球非常相似，无论其规模的手

0热度

1回答

在自动编码器，病房层次聚类等之前，标准化/标准化数据（二进制+数字）？

我有一个包含二进制数据（0,1）和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类（可能是自动编码器或层次聚类），我应该对数据进行标准化还是标准化？谢谢！

0热度

1回答

R：在plot.Mclust中更改轴标签使用ggplot2对mclust模型的不确定性进行AND/OR绘图

我真的很困惑。我想更改'Mclust' model object中的一个图的轴标签（分类或不确定性），在R中，我不明白为什么它只适用于只有两个变量的简单对象，而不是几个。下面的例子： require(mclust) mod1 = Mclust(iris[,1:2]) plot(mod1, what = "uncertainty", dimens = c(1,2), xlab = "test

0热度

1回答

聚类

我有一个数据与下面结构： Row UPC Ref Supplier 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 4 A4 B5 C4 5 A5 B1 C5 6 A3 B2 C6 7 A1 B5 C7 8 A5 B3 C8 现在，我想组号分配给每行是否有“REF”列或“UPC”列的匹配在任何行中。例如：如果我从第1行开始，我将在第2到第8行的第一列中查找“A

1热度

1回答

如何查找由散点图中的点组成的圆？

这里是散点图。很明显，有些点位于其相应的圆上，有些则不是。如何找到他们的中心的圈子和坐标？

1热度

1回答

OpenCV合并点簇，删除大纲

我想确定图像中大多数线交叉点。显然，可以有多个这样的观点，但为了简单起见，我只用了一点。我内置了k均值聚类OpenCV的尝试，但这种算法假定每一点必须聚集，所以我得到的是这样的：显然它变得更糟糕，当更多的行存在为每十字路口将抵消集群中心我想要完成的是去除所有在这里和那里发生意外线路交叉而导致的大纲，这在复杂的场景中尤其成问题。我在考虑DBSCAN，但似乎我需要从头开始自己实现它，因为它不在O

2热度

1回答

聚类时间序列庞大数据集的方法

大多数聚类算法需要距离矩阵。如果数据维度较低，则创建距离矩阵很容易。但是，考虑大约8000点的时间系列呢？ for i in range(total_series): for j in range(total_series): dis[i][j] = distance(series[i],series[j]) 很明显，创建此矩阵所需的最短时间为O（n^2）。现在，如果我们

0热度

1回答

SAS proc genmod与聚簇，乘法估算数据

我正在寻求SAS中使用log pro bingenial回归使用SAS Proc Genmod从SAS乘法估算的集群相关数据中获得风险比率估计值。我已经能够计算原始（非MI）数据的风险比率估计值，但似乎该程序在生成输出数据集时遇到困难，可以让我读入Proc Mianalyze。我包括重复的主题陈述，以便SAS将使用强健的方差估计。没有“重复主题”声明，ODS输出声明似乎工作得很好;但是，一旦我包

0热度

1回答

谈到集群

我有我运行在集群化模型一个非常大的数据集。群集输出格式如下的numpy阵列： [ 0 1 2 1 1 0 0 0 1 2 1 0 2 0 1 2 1 0 2 2 0 0 1 ... ] 我想取原始数据集，并根据数组创建三个数据集。我将如何去做这件事？初始数据集工作： import pandas as pd pd.options.mode.chained_assignment = None

0热度

1回答

我们如何可视化多维数据聚集？

我有100多维的数据集，我用PRECOMPUTED相关度作为距离度量。 ` 从sklearn进口度量从sklearn.datasets.samples_generator进口make_blobs AF = AffinityPropagation（亲和力= '预先计算'）。适合（my_distanceMetric_as_correlationMatrix） cluster_centers_indi