apache-spark

2热度

2回答

我正在使用Spark 1.5.2和Java API。有没有办法为每个文档创建一个包含单词计数的DataFrame，并为每个文档在单个行中包含所有单词和计数？到目前为止，我已经能够使用“org.apache.spark.sql.functions.explode”将文档文本中的每个单词转换为新的行。我就能够创建一个使用下面的代码包含多行，每一行的文件，字和字计数一个新的数据框： df = d

0热度

1回答

从Spark（scala）获取结果并将其传递给另一个进程

一般情况下，如何从一个spark任务中提取结果而不需要输出文件？让我说，我有一个scala程序，它创建一个火花发射器的工作。我可以用Futures包装这个火花工作。一旦完成了火花工作，我怎样才能得到结果？（1种方式，我之前做过的是将结果写入文件，然后外部scala程序读取文件< - 我想避免这种策略）

0热度

2回答

将文件保存在Spark中

RDD上有两个操作要保存。一个是saveAsTextFile，另一个是saveAsObjectFile。我了解saveAsTextFile，但不懂saveAsObjectFile。我是Spark和Scala的新手，因此我对saveAsObjectFile很好奇。它是来自Hadoop的序列文件还是不同的东西？我可以读取使用Map Reduce使用saveAsObjectFile生成的文件吗？如果是

-1热度

2回答

不同的火花输入和输出格式

在Spark中开箱即用支持哪些不同的输入和输出格式？ Map Reduce支持其中的很多，但我在Spark中只看到textFile和objectFile。另外我怎样才能在Spark中利用Hadoop输入/输出格式？

0热度

1回答

加入Spark中的数据集

Spark中加入数据的不同方式有哪些？ Hadoop map reduce提供了分布式缓存，地图边连接和减少边连接。 Spark呢？另外，如果您可以提供简单的scala和python代码来连接Spark中的数据集，那将会很棒。

2热度

2回答

Spark +德鲁伊宁静 - 图书馆版本冲突

当我用Druid Tranquility运行一个火花作业时出现以下错误。 java.lang.NoSuchFieldError: WRITE_DURATIONS_AS_TIMESTAMPS 德鲁伊宁静使用更高版本的杰克逊 - 数据绑定（2.6.1）比什么是火花捆绑。我正在使用最新的稳定版本的Druid Tranquility（0.6.4）和Spark（1.5.2）。如何解决这个问题？强制

0热度

2回答

如何引用执行spark-submit的本地文件系统？

当在簇中处理时，是否可以将驱动程序节点中的spark程序结果的输出写入？ df = sqlContext("hdfs://....") result = df.groupby('abc','cde').count() result.write.save("hdfs:...resultfile.parquet", format="parquet") # this works fine res

3热度

2回答

MongoDB和Spark中的连接太多

My Spark Streaming应用程序将数据存储在MongoDB中。不幸的是每个星火工人打开太多的连接，同时将其存储在MongoDB中以下是我的代码星火 - 蒙戈DB代码： public static void main(String[] args) { int numThreads = Integer.parseInt(args[3]); String mongo

2热度

1回答

如何将最新的100行从Hbase加载到Spark

我正在使用Spark将Hbase数据加载到JavaPairRDD <>中。现在，我想知道我是否可以将最新的100行加载到Spark中而不是来自Hbase的所有行。 1）我尝试scan.setCaching（100），但它仍然返回所有行。是否为了限制我从Hbase加载的行？ 2）我怎样才能确保它是最新的100行任何想法？非常感谢。 Scan scan = new Scan(); scan

3热度

3回答

如何在使用Java中的newAPIHadoopRDD读取MongoDB集合之后停止线程？

我正在使用Java中的newAPIHadoopRDD来读取MongoDB集合。首先，我创建使用下面的类JavaSparkContext对象： public class SparkLauncher { public JavaSparkContext javaSparkContext ; public SparkLauncher() { javaSpark