我的输入包含大量的小ORC文件,我希望在一天的每一天结束,我想将数据拆分为100MB的块。 我的输入和输出都是S3和环境中使用的电子病历, 蜂巢参数,正在设置, set hive.msck.path.validation=ignore;
set hive.exec.reducers.bytes.per.reducer=256000000;
SET hive.exec.dynamic.parti
假设我试图删除这个正则表达式“RT \ s * @ USER \ w \ w {8}:\ s *” 并且我想在我的RDD中删除这种形式的正则表达式。 我现在RDD是: text = sc.textFile(...)
delimited = text.map(lambda x: x.split("\t"))
和这里就是我试图删除正则表达式的一部分。 我试着做下面的RDD转换来摆脱每一个匹配这个