cluster-analysis

0热度

1回答

在三个文档中（除去稀疏项后）我有大约1140个术语。我想获得有关集群的信息。如附图所示，我制作了集群，但我无法阅读它们。我也尝试了k-均值集群，但同样的问题依然存在。我对所有的术语都没有太大的兴趣，但明确界定的只有少数三四个团队可以完成这项工作。我一直在R中使用tm包进行文本挖掘。其次，我也在寻找在单个文档中寻找关联的方法;因此，如何将文本文件分割为多个文本文件，即如果我的文件有三个句子： Doc

0热度

2回答

算法 - 在地图上对位置进行分组

我有一个n个位置的列表，每个位置都包含一个纬度，经度和一个时间戳。这些地点将被固定在地图上。但是，需要将靠近在一起的位置进行分组，以最近更改的位置为中心，以便地图不会被引脚充斥。我最初的想法是：排序时间戳的位置选择最新的位置计算的最新位置的距离为n-1个位置选择那些半径范围内的位置，例如5km，然后将它们从列表中删除重复步骤2-4 此方法可行，但效率非常低。最坏的情况是〜O（n^2）

0热度

1回答

PCA和K-means for word clustering

我有维基百科文章的语料库。我找出了10,000个最常用的单词，找到了它们的Word2Vec向量，并且在这些向量上使用了球形k-均值，根据意义上的相似性将这些单词聚类为500个组。我挑出了3个单词集并将单词转换回单词向量。每个单词向量都是一个300个数值的数组，所以我将它们全部应用PCA（从sklearn）将它们转换为2D。然后我绘制：每个点代表一个字，每种颜色代表1簇。问题是，这些群集不应该重

3热度

2回答

算法：理解两线图是否相似

我正在尝试开发一个能够理解两线图相似（它们具有相似方向或相似值）的脚本。例如假设我有两个数组： array1 = [0,1,2,3,4,5,6,7,8,9,10]; array2 = [2,3,4,5,6,7,8,8,10,11,12]; 正如你可以看到他们增长和他们的价值观是非常相似的。目前，我已找到一个完美的工作解决方案，使用DTW算法。问题是，DTW的“培训部分”非常快（我只需

0热度

2回答

在聚类分析中自动删除计算的凝聚层次聚类数据

的离群值数据集的异常值可以通过单连接方法轻松识别。现在我想自动删除异常值。我的想法是删除超过指定距离值的数据。这里是我的代码以mtcars的示例数据： library(cluster) library(dendextend) cluster<-agnes(mtcars,stand=FALSE,method="single") dend = as.dendrogram(cluster) 在

0热度

1回答

遍历字典并返回共享x个值的键和值？ x是用户输入？

给定一个名为hobbies.txt的文件。此文件包含一组Facebook用户及其爱好。该文件中的每一行都包含该用户的用户/用户名和业余爱好列表。每行中的数据由逗号分隔。例如在线路：2254,reading,coding,swimming,playing soccer, 用户/用户名是：2254 的爱好是：reading`，编码，游泳，踢足球的数量和类型的嗜好可能因用户而异。该文件将您的

0热度

1回答

使用机器学习JSON文档集群

我正在尝试执行文档聚类。输入格式是一个带有各种键和值的字符串和数字类型的JSON字符串。根据存在的键的类型和值，我应该能够使用它自己的相似类型对文档进行聚类。例如：JSON文档： {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"}, {"title":0, "brand":"Levis", "length

0热度

2回答

遇到问题密谋共同基金

首先这个数据帧，这是我的数据框： Date 2012-09-04 00:00:00 2012-09-05 00:00:00 2012-09-06 00:00:00 2012-09-07 00:00:00 2012-09-10 00:00:00 2012-09-11 00:00:00 2012-09-12 00:00:00 2012-09-13 00:00:00 2012-09-14 00:00:0

1热度

1回答

对于稀疏数据，训练LDA（潜在Dirichlet分配）并预测新文档的更快方法是什么？

关于训练LDA：当我们试图实现LDA，我们需要构建一个词 - 文档矩阵，但该矩阵是稀疏的数据，因为我们的令牌字典是非常大的（有的数百万字），并且一个文档有一小组令牌（〜1000 - 10000个字），因此在文档 - 文档矩阵中，它具有很多0值，并且需要更长时间来训练模型。那么我们怎样才能更快？关于预测新文件：训练后，现在我们有一个新的LDA模型，所以我们可以用它来预测哪些主题一个新的文件。但

0热度

2回答

集群文档是否对文档中的标记词进行编码？

我必须根据列名中存在的标记来聚集文档（实际上是数据库的列名）。例如： - C1 = ["Date", "Birth"] C2 = ["Order", "Date"] C3 = ["Birth", "Day"] C4 = ["CUSTOMER", "FIRST", "NAME"] C5 = ["FIRST","NAME"] . . 但是，所有这些标记实际上都是编码的，所以我收到的是以