我很惊讶地发现library(cluster)
的clara
允许NAs。但函数文档没有说明它如何处理这些值。在R中使用NA值聚类
所以我的问题是:
- 如何
clara
处理来港? - 这可以以某种方式用于
kmeans
(Nas不允许)?
[更新]在clara
功能的代码,所以我也发现线路:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
这确实因valmisdat
缺失值替换。不知道我明白使用这种公式的原因。有任何想法吗?单独使用每一列对新手进行治疗会更“自然”,可能会用平均数/中位数代替吗?
相同的代码行在'雏菊'中处理'clara'函数中的缺失值(请参阅我的问题更新)。 –
@ danas.zuokas我不知道它只是从您认为与该问题有关的来源拉取任意代码行是多么有帮助。你需要研究R代码和C代码。 'valmisdat'是用来表示C代码中缺失数据('NA')的值,而不是直接使用'NA'。如果你看看C代码,你会发现它显然只是忽略了一个变量对于其中一个或另一个或者两个样本的缺失值的比较,其中计算了不相似性。查看指向代码的指针的更新答案。 –
谢谢你,加文! –