2012-08-13 34 views
4

我是Mahout的新手。我有一个要求将文本文件转换为向后分类的向量。Apache Mahout中的矢量化

难道有人能够对这些问题提出一些看法吗?

  1. 如何将文本文件转换为mahout中的矢量? 文件格式类似于“用户名|评论关于项目|
  2. 数据将会很少TBs。那么,我可以使用哪种算法实现我使用矢量进行分类,我想创建?

感谢, 阿伦

回答

2

您可以检查这些两个例子也有点做/解释如何使用序列文件API。 Herehere

,你绝对应该阅读这intro文本分析

+0

谢谢你,@Astatic! – 2012-08-14 08:45:43