cluster-analysis

    0热度

    1回答

    在三个文档中(除去稀疏项后)我有大约1140个术语。我想获得有关集群的信息。如附图所示,我制作了集群,但我无法阅读它们。我也尝试了k-均值集群,但同样的问题依然存在。我对所有的术语都没有太大的兴趣,但明确界定的只有少数三四个团队可以完成这项工作。我一直在R中使用tm包进行文本挖掘。其次,我也在寻找在单个文档中寻找关联的方法;因此,如何将文本文件分割为多个文本文件,即如果我的文件有三个句子: Doc

    0热度

    2回答

    我有一个n个位置的列表,每个位置都包含一个纬度,经度和一个时间戳。这些地点将被固定在地图上。 但是,需要将靠近在一起的位置进行分组,以最近更改的位置为中心,以便地图不会被引脚充斥。 我最初的想法是: 排序时间戳的位置 选择最新的位置 计算的最新位置的距离为n-1个位置 选择那些半径范围内的位置,例如5km,然后将它们从列表中删除 重复步骤2-4 此方法可行,但效率非常低。最坏的情况是〜O(n^2)

    0热度

    1回答

    我有维基百科文章的语料库。我找出了10,000个最常用的单词,找到了它们的Word2Vec向量,并且在这些向量上使用了球形k-均值,根据意义上的相似性将这些单词聚类为500个组。 我挑出了3个单词集并将单词转换回单词向量。每个单词向量都是一个300个数值的数组,所以我将它们全部应用PCA(从sklearn)将它们转换为2D。然后我绘制: 每个点代表一个字,每种颜色代表1簇。问题是,这些群集不应该重

    3热度

    2回答

    我正在尝试开发一个能够理解两线图相似(它们具有相似方向或相似值)的脚本。 例如假设我有两个数组: array1 = [0,1,2,3,4,5,6,7,8,9,10]; array2 = [2,3,4,5,6,7,8,8,10,11,12]; 正如你可以看到他们增长和他们的价值观是非常相似的。 目前,我已找到一个完美的工作解决方案,使用DTW算法。 问题是,DTW的“培训部分”非常快(我只需

    0热度

    2回答

    的离群值数据集的异常值可以通过单连接方法轻松识别。现在我想自动删除异常值。我的想法是删除超过指定距离值的数据。这里是我的代码以mtcars的示例数据: library(cluster) library(dendextend) cluster<-agnes(mtcars,stand=FALSE,method="single") dend = as.dendrogram(cluster) 在

    0热度

    1回答

    给定一个名为hobbies.txt的文件。 此文件包含一组Facebook用户及其爱好。 该文件中的每一行都包含该用户的用户/用户名和业余爱好列表 。每行中的数据由逗号分隔。 例如在线路:2254,reading,coding,swimming,playing soccer, 用户/用户名是:2254 的爱好是:reading`,编码,游泳,踢足球 的数量和类型的嗜好可能因用户而异。 该文件将您的

    0热度

    1回答

    我正在尝试执行文档聚类。输入格式是一个带有各种键和值的字符串和数字类型的JSON字符串。根据存在的键的类型和值,我应该能够使用它自己的相似类型对文档进行聚类。 例如:JSON文档: {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"}, {"title":0, "brand":"Levis", "length

    0热度

    2回答

    首先这个数据帧,这是我的数据框: Date 2012-09-04 00:00:00 2012-09-05 00:00:00 2012-09-06 00:00:00 2012-09-07 00:00:00 2012-09-10 00:00:00 2012-09-11 00:00:00 2012-09-12 00:00:00 2012-09-13 00:00:00 2012-09-14 00:00:0

    1热度

    1回答

    关于训练LDA: 当我们试图实现LDA,我们需要构建一个词 - 文档矩阵,但该矩阵是稀疏的数据,因为我们的令牌字典是非常大的(有的数百万字),并且一个文档有一小组令牌(〜1000 - 10000个字),因此在文档 - 文档矩阵中,它具有很多0值,并且需要更长时间来训练模型。那么我们怎样才能更快? 关于预测新文件: 训练后,现在我们有一个新的LDA模型,所以我们可以用它来预测哪些主题一个新的文件。但

    0热度

    2回答

    我必须根据列名中存在的标记来聚集文档(实际上是数据库的列名)。例如: - C1 = ["Date", "Birth"] C2 = ["Order", "Date"] C3 = ["Birth", "Day"] C4 = ["CUSTOMER", "FIRST", "NAME"] C5 = ["FIRST","NAME"] . . 但是,所有这些标记实际上都是编码的,所以我收到的是以