2012-02-25 156 views
1

我正在寻找一个Java矩阵库来执行数据分析和执行的聚类算法(如K-装置或DBSCAN)的数据类型(包括字符串)的混合物中爪哇矩阵库

我发现柯尔特和并行Colt(最好用大型和小型数据集执行),但显然他们不支持String矩阵。数据集条目应该只有双矩阵。

有什么建议吗?

感谢您提前给予的帮助。

+0

如果您知道任何C库,可以通过JNA将它与Java挂钩。 – 2012-02-25 22:16:30

+0

我不熟悉这些算法的细节,但是有没有什么方法可以将字符串数据映射到所需的双精度数据中,从而使您能够理解结果(执行反向映射,如果这样做有意义?)。 – DNA 2012-02-25 22:23:47

回答

0

看一看ELKI。它支持任意距离函数,并且已经有余弦距离。所以它显然可以在文本数据上运行这些算法。

请注意,对于大多数应用,由于余弦距离也在数值向量上定义,因此您需要将字符串数据转换为TF-IDF向量。但是,这些向量通常很稀疏,所以对稀疏向量进行优化处理就可以得到回报。