2
我有一个CSV数据集,它是一组键值对,数据集很大,数值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想用Mahout的聚类算法来处理它。将关键值数据集表示为Mahout向量
问题在于将此CSV转换为可由Mahout使用的向量。我一直在阅读“Mahout In Action”,并且似乎有两种矢量化方法,使用Mahout的DenseVector,RandomAccessSparseVector和SequentialAccessSparseVector实现使用数字值,或者使用矢量空间模型矢量化文本文档。
我想要对它进行矢量化的数据不是真正的文本文档,但是由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射到数值。矢量化这种数据以用于Mahout的最佳方式是什么?
任何指针,将不胜感激。
谢谢