2
我加载数据到亨利马乌0.7 RandomAccessSparseVector
,我不知道如何序列化序列化RandomAccessSparseVector。如果我使用VectorWritable
我可以使用SequenceFile.Writer
像这样:在亨利马乌
writer = new SequenceFile.Writer(
fs, conf, new Path("filename"), LongWritable.class,
VectorWritable.class);
没有RandomAccessSparseVectorWritable
,很遗憾。
一种选择是完全忘记稀疏矢量和数据加载到VectorWritable
和序列化。我想避免这种情况,因为手动输入一个零负载到VectorWritable
并且在序列化时会占用一堆磁盘空间。 RandomAccessSparseVector
也不能投射到VectorWritable
。
如果它是任何使用的,我给自己定
Configuration conf = new Configuration();
conf.set("io.serializations",
"org.apache.hadoop.io.serializer.WritableSerialization");
,这样的Hadoop知道如何序列。