2012-09-08 141 views
4

是否可以将文本段落传递给Mapper类而不是逐行传递。我正在寻找一个ParagraphRecordReader实现。段落处理Hadoop

+0

段落有多长?或者你的停产规则是什么? –

+0

分享到:相关文章:http://stackoverflow.com/questions/2711118/multiple-lines-of-text-to-a-single-map –

回答

1

答案在https://stackoverflow.com/a/5398215/1660002这种要求的答案。但是,您也可以简单地将配置参数textinputformat.record.delimiter设置为双换行符字符串(例如:"\n\n")以解决此问题。

如果您使用这些可配置功能,则可以在Apache Hadoop 0.23.x和2.x版本中以及Cloudera的CDH3和CDH4版本中使用这些可配置功能。