我试图使用Spark中的takeSample()
函数,参数是 - 数据,要采样的数量和种子。但我不想使用种子。我想每次都有不同的答案。我无法弄清楚我该怎么做。我尝试使用System.nanoTime
作为种子值,但它给出了一个错误,因为我认为数据类型不匹配。是否还有其他与takeSample()
类似的功能可以在没有种子的情况下使用?或者是否有其他的实现可以与takeSample()
一起使用,以便每次都得到不同的输出。Spark中的takeSample()函数
6
A
回答
7
System.nanoTime
类型为long
,takeSample
预期的种子为Int
类型。因此,takeSample(..., System.nanoTime.toInt)
应该工作。
1
System.nanoTime
返回Long,而takeSample需要一个Int。
您可以将scala.util.Random.nextInt
作为种子值提供给takeSample函数。
1
从Spark版本1.0.0开始,seed
参数是可选的。见https://issues.apache.org/jira/browse/SPARK-1438。
相关问题
- 1. Spark :: KMeans调用两次takeSample()?
- 2. Spark作业无限期挂在rdd上takeSample
- 3. toBreeze Spark函数scala
- 4. Spark 1.4:Spark SQL ANY和所有函数
- 5. SPARK 2014中幻影函数的编译
- 6. Spark 1.3中的Strip或Regex函数Dataframe
- 7. Spark集群中的RDD映射函数内调用函数
- 8. Spark重复函数CUSUM
- 9. Spark GroupBy聚合函数
- 10. 在spark中使用OrderedRDD函数
- 11. Distinct()函数在Spark中如何工作?
- 12. 如何在Spark中正确求和.map函数中的整数?
- 13. renderer添加Spark DataGrid的函数?
- 14. Spark Hive - 带窗口函数的UDFArgumentTypeException?
- 15. Spark数据集解压缩函数
- 16. 从Java中的spark转换函数写入HDFS中的文件
- 17. 为什么计数函数不适用于Spark中的mapvalues?
- 18. 除了dataframe spark scala参数和实现中的函数。
- 19. Spark Spark函数可以指定动态变量吗?
- 20. Spark UDF作为函数参数,UDF不在函数范围内
- 21. 在scala中了解Spark中的函数文档
- 22. 如何获取Spark的地图函数中的列名?
- 23. 为Spark中的匹配昵称编写高效的scala函数
- 24. Spark DStream的foreachDD函数中RDD的并行转换
- 25. Spark中的reduceByKeyAndWindow函数的奇怪行为
- 26. 将函数应用于Spark中的csv的单个列
- 27. Spark java地图函数执行两次
- 28. AWS lambda函数提交spark工作
- 29. 在Spark Dataframe上运行Python函数
- 30. spark SQL窗口函数滞后
在scala中'.toInt'应该优先于'.intValue' –
@RégisJean-Gilles谢谢,更正。 –