cluster-analysis

    2热度

    2回答

    我正在尝试使用tf-idf来群集类似的文件。我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起。 问题是余弦相似性不满足三角不等式。因为在我的情况下,我不能在多个集群中拥有相同的矢量,我必须将每个集群与一个共同的元素进行合并,这可能会导致两个文档被分组在一起,即使它们彼此不相似。 是否有措施的另一种方式两个文件的相似性,因此: 的载体,基于自己的方向进球非常相似,无论其规模的 手

    0热度

    1回答

    我有一个包含二进制数据(0,1)和不同单位的数字数据的数据集。如果我想应用一些机器学习技术对我的数据进行分类(可能是自动编码器或层次聚类),我应该对数据进行标准化还是标准化? 谢谢!

    0热度

    1回答

    我真的很困惑。我想更改'Mclust' model object中的一个图的轴标签(分类或不确定性),在R中,我不明白为什么它只适用于只有两个变量的简单对象,而不是几个。 下面的例子: require(mclust) mod1 = Mclust(iris[,1:2]) plot(mod1, what = "uncertainty", dimens = c(1,2), xlab = "test

    0热度

    1回答

    我有一个数据与下面结构: Row UPC Ref Supplier 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 4 A4 B5 C4 5 A5 B1 C5 6 A3 B2 C6 7 A1 B5 C7 8 A5 B3 C8 现在,我想组号分配给每行是否有“REF”列或“UPC”列的匹配在任何行中。例如:如果我从第1行开始,我将在第2到第8行的第一列中查找“A

    1热度

    1回答

    这里是散点图。很明显,有些点位于其相应的圆上,有些则不是。如何找到他们的中心的圈子和坐标?

    1热度

    1回答

    我想确定图像中大多数线交叉点。显然,可以有多个这样的观点,但为了简单起见,我只用了一点。我内置了k均值聚类OpenCV的尝试,但这种算法假定每一点必须聚集,所以我得到的是这样的: 显然它变得更糟糕,当更多的行存在为每十字路口将抵消集群中心 我想要完成的是去除所有在这里和那里发生意外线路交叉而导致的大纲,这在复杂的场景中尤其成问题。 我在考虑DBSCAN,但似乎我需要从头开始自己实现它,因为它不在O

    2热度

    1回答

    大多数聚类算法需要距离矩阵。如果数据维度较低,则创建距离矩阵很容易。但是,考虑大约8000点的时间系列呢? for i in range(total_series): for j in range(total_series): dis[i][j] = distance(series[i],series[j]) 很明显,创建此矩阵所需的最短时间为O(n^2)。现在,如果我们

    0热度

    1回答

    我正在寻求SAS中使用log pro bingenial回归使用SAS Proc Genmod从SAS乘法估算的集群相关数据中获得风险比率估计值。我已经能够计算原始(非MI)数据的风险比率估计值,但似乎该程序在生成输出数据集时遇到困难,可以让我读入Proc Mianalyze。 我包括重复的主题陈述,以便SAS将使用强健的方差估计。没有“重复主题”声明,ODS输出声明似乎工作得很好;但是,一旦我包

    0热度

    1回答

    我有我运行在集群化模型一个非常大的数据集。群集输出格式如下的numpy阵列: [ 0 1 2 1 1 0 0 0 1 2 1 0 2 0 1 2 1 0 2 2 0 0 1 ... ] 我想取原始数据集,并根据数组创建三个数据集。我将如何去做这件事? 初始数据集工作: import pandas as pd pd.options.mode.chained_assignment = None

    0热度

    1回答

    我有100多维的数据集,我用PRECOMPUTED相关度作为距离度量。 ` 从sklearn进口度量 从sklearn.datasets.samples_generator进口make_blobs AF = AffinityPropagation(亲和力= '预先计算')。适合(my_distanceMetric_as_correlationMatrix) cluster_centers_indi