我有一个相当大的数据集,其中包含纯粹的分类数据。 数据的行数(样本)超过30,000,000。 属性已减少到4(列),所有属性(属性)都是明确的,其中一个属性几乎有50,000个级别!Clara_具有R中许多级别的分类数据的大数据集的数据集
我想在进一步处理之前将我的数据集群。但是,由于数据量很大,因此不可能使用大多数聚类算法。 我选择使用ClusterR软件包中的Clara_Medoids来尝试集群。我面临的问题是运行代码给我一个我无法解决的错误。
代码:
Cmediods_5 <- ClusterR::Clara_Medoids(MyData, clusters = 5, samples = 3, sample_size = 0.0005, distance_metric = "simple_matching_coefficient")
,这是错误我接收:
错误check_NaN_Inf(数据): 与请求的类型不兼容:[式=字符;目标=双]。
我有一种感觉,这个错误是由于我使用“simple_matching_coefficient”距离度量,但我没有看到任何其他可行的选项,因为我的数据是纯粹的分类。 有没有办法绕过数据类型问题来让这个算法正常工作?显然,我不想创建任何虚拟变量,因为正如我之前解释的,其中一个属性约有5万个关卡!
为Clara_Medoids函数距离度量的选项有: 欧几里德,曼哈顿,切比雪夫,堪培拉,braycurtis,pearson_correlation,simple_matching_coefficient,闵可夫斯基,汉明,jaccard_coefficient,Rao_coefficient,马氏
不幸的是,它没有高尔距离否则,那将是我的选择。
首先处理* sample *,然后放大。处理拥抱数据只是为了找出不工作是浪费时间。 –