4
是否可以将文本段落传递给Mapper类而不是逐行传递。我正在寻找一个ParagraphRecordReader实现。段落处理Hadoop
是否可以将文本段落传递给Mapper类而不是逐行传递。我正在寻找一个ParagraphRecordReader实现。段落处理Hadoop
答案在https://stackoverflow.com/a/5398215/1660002这种要求的答案。但是,您也可以简单地将配置参数textinputformat.record.delimiter
设置为双换行符字符串(例如:"\n\n"
)以解决此问题。
如果您使用这些可配置功能,则可以在Apache Hadoop 0.23.x和2.x版本中以及Cloudera的CDH3和CDH4版本中使用这些可配置功能。
段落有多长?或者你的停产规则是什么? –
分享到:相关文章:http://stackoverflow.com/questions/2711118/multiple-lines-of-text-to-a-single-map –