2012-09-04 58 views
1

我想用mahout建立一个分类器。模型建成后。 我必须将目标文档“喂”到模型并获得分类结果。mahout分类文本输入矢量化

我检查了mahout源代码中的测试用例,它使用了具有固定数量字段的DenseVector。 但是,我使用mahout来分类文本文档,输入是一些字符串(或包含字符串的数组)。如何将其转换为有效的“Vector”实例。

我试过StaticWordEncoder和RandomAccessSparseVector,但结果不正确。无法弄清楚原因。有点绝望。

+0

“TestClassifierDriver”产生正确的结果,证明模型训练应该没问题。 – zhangv

+0

更好地转到mahout用户列表。 – bmargulies

+0

解决。我必须将文档转换为vecotr实例。这个过程有点肮脏,但它工作正常。多谢你们! – zhangv

回答

0

您必须将文档解析为单词并从中填充该向量。

我会推荐阅读像Mahout In Action之类的东西,以在尝试此操作之前获取更多背景。