cluster-analysis

-2热度

1回答

我正在研究一个涉及使用K均值模型进行异常检测的项目。但是，要获得精确的几乎和精确的结果，我需要找到K. 我的算法依赖于在我的模型的异常值一般由自己放置在群集上的想法的最佳值。通常，“正常”数据将与其他正常数据聚集在一起，但异常数据会形成它们自己的聚类，因此表明存在异常。但是，我需要找到K的最佳值，以便我的算法能够正常工作，并查看它是否合适。关于如何找到一个好的K值的任何想法？这是“正常的”虚

-2热度

2回答

何时使用单热编码以及何时使用虚拟变量？

这里有个简短的问题。我想知道什么时候和什么情况使用单热编码，什么时候应该使用虚拟变量。我打算用绝对的和数值变量做聚类分析。我在一个论坛上读到，我可以尝试使用单热编码对分类变量进行编码。但我想知道是什么使它与虚拟变量不同。谢谢

-1热度

1回答

可以将群集用于预测性分析吗？

我还不确定集群如何用于预测分析？有人能告诉我如何从提取集群中预测未来吗？

-1热度

1回答

在scikit中，什么“标签”代表隐藏指标中的文档？

我有我试图clusterize文本： # Training hasher = HashingVectorizer(non_negative=True,norm="l1", analyzer="char", ngram_range=(5,9)) vectorizer = make_pipeline(hasher, TfidfTransformer()) training = vectorize

0热度

2回答

相似的单词或使用LDA

我想将LDA算法应用于语料库以找出相似的词，如果我给一个单词或词组作为输入。如何才能做到这一点？此外，LDA是否忽略文档中单词的顺序？它是否也忽略了语料库中文档的顺序？还可以使用其他策略搜索类似的单词。文档中单词的顺序与我使用的文档的语言无关，也就是说，我的文档是一包单词，单词顺序无关紧要。

-1热度

1回答

用文本数据确定规范类

我有一个独特的问题，我不知道任何算法可以帮助我。也许有人在这里。我有一个从许多不同来源（团队）编译的数据集。一个领域特别被称为“类型”。下面是一些类型示例值： APLE，苹果，APPLS，ornge，水果，橘，橙Z，梨，菜花，colifower，brocli，西兰花，韭菜，蔬菜，蔬菜。我希望能够做的是将它们组合成例如水果，蔬菜等换句话说，我有一个父级变量（水果或蔬菜在这个例子中）各种排列的

0热度

1回答

关于大型稀疏矩阵上的亲和力传播聚类

我正在尝试R包apcluster上我想要群集的对象，但我遇到性能/内存问题，并且我怀疑我做得不对。我想听听你的意见。总之：我有一套约13000个对象。每个对象都与一组2到5个“特征”相关联。任何两个对象i和j之间的相似性（最终我想要聚类）等于它们共有的特征数量除以它们“跨越”的不同特征的总数量。例如。如果i = {a，b，c}和j = {c，d}，那么sim [i，j] = 1/4 = 0.25

0热度

1回答

使用“ComplexHeatmap”包的热图树状图

我正在使用“ComplexHeatmap”包创建矩阵中相关性的热图。我想用我自己的聚类的热图的树状图，所以我运行下面的代码：， library(ComplexHeatmap); mat = matrix(rnorm(800),80,10); cor.mat= cor(mat) dist.mat = (1-cor.mat)/2; rowdist = dist(as.matrix(dist.

0热度

1回答

完整和加权网络中的社区检测

我确实有一个完整的网络图，每个顶点都相互连接，它们只在不同的权重形式上有所不同。一个示例网络将是：一个贸易网络，其中每个国家都以某种方式相互连接，并且仅以不同的交易量形式存在差异。现在的问题是我如何能够以这种形式的网络执行社区检测。通常的嫌疑人（算法）只能在未加权或不完整的网络中执行。主要问题是测地线无处不在。两个选项走进了我的脑海：剪切网络成小块，通过一定的“重量阈值水平” 或者使用聚类算

0热度

1回答

如何根据频率对分类变量执行聚类/分组？

我有观察的样本集如下 var1 var2 var3 var4 1 2 1 1 3 2 1 3 1 2 0 1 3 2 2 3 所有值在本质上分类。我想将第一行和第三行分组到一个集群，将第二行和第四行分组到另一个集群。我认为在这种情况下单热编码不是有效的，因为分类变量不具有任何等级，并且它们纯粹是名义上的。（这些行不一定必须完全相同）。是否有预先建立的数学算法来根据相似性/频率