0
A
回答
0
不容易(如果有的话)。输出中的零件文件数量由脚本的并行性决定,数据被非确定性地分割为这些零件文件。我能想到的唯一的办法是这样的:
A = FOREACH output GENERATE 1 AS num ;
B = FOREACH (GROUP A ALL) GENERATE COUNT(A) AS totaloutputlines ;
-- Then store both output and B
然后,从Python包装内,使用totaloutputlines
设置python封装运行脚本的并行性,使PAR = number of lines in B/number of lines you want per file
。这将希望,约控制每部分文件的记录数。
也许你可以用MultiStorage
得到你想要的东西,把你输出的字段分成一个文件。
相关问题
- 1. Quarzt:在调度作业之前/不调度作业时存储JobDataMap
- 2. Scala作业调度器与MongoDB作业存储
- 3. MR作业的猪文档
- 4. HDInsight查询控制台作业记录
- 5. Quartz调度作业未存储在数据库中
- 6. Spark流作业调度控制执行?
- 7. mongodb中的作业调度?
- 8. 将地图缩减作业的输出记录到文本文件中
- 9. 调度作业
- 10. 控制地图的数量并减少产生的作业?
- 11. 调度作业的最大数量sidekiq
- 12. 如何启用记录到Pentaho中的子作业的整个作业的文本文件
- 13. - 作业文件
- 14. 在文件中存储有关Hadoop作业的信息
- 15. 如何控制shell脚本中后台作业的数量
- 16. 如何查找SQL Server代理作业中的作业数量?
- 17. 如何计算MR作业中HDFS文件的数量?
- 18. Flink记录获取作业名称或作业ID
- 19. Hadoop作业调度与缓存映射器中的作业一起在0.20.203
- 20. xmllist复制作业或参考作业?
- 21. 数据库作业调度
- 22. SOS作业调度
- 23. Quartz.net作业调度
- 24. WebLogic作业调度
- 25. Dataprep - 调度作业
- 26. 转储猪的中间MR作业数据
- 27. 在Java中的作业调度算法
- 28. 我们可以强制在APScheduler作业存储中运行作业吗?
- 29. bigquery如何获取本地CSV文件的插入作业的作业引用
- 30. 将关系存储到本地文件中猪不工作