apache-spark

    2热度

    2回答

    我正在使用Spark 1.5.2和Java API。有没有办法为每个文档创建一个包含单词 计数的DataFrame,并为每个文档在单个行中包含所有单词和计数? 到目前为止,我已经能够使用“org.apache.spark.sql.functions.explode”将文档文本中的每个单词 转换为新的行。 我就能够创建一个使用下面的代码包含多行,每一行的文件,字和字计数一个新的数据框: df = d

    0热度

    1回答

    一般情况下,如何从一个spark任务中提取结果而不需要输出文件? 让我说,我有一个scala程序,它创建一个火花发射器的工作。 我可以用Futures包装这个火花工作。一旦完成了火花工作,我怎样才能得到结果? (1种方式,我之前做过的是将结果写入文件,然后外部scala程序读取文件< - 我想避免这种策略)

    0热度

    2回答

    RDD上有两个操作要保存。一个是saveAsTextFile,另一个是saveAsObjectFile。我了解saveAsTextFile,但不懂saveAsObjectFile。我是Spark和Scala的新手,因此我对saveAsObjectFile很好奇。它是来自Hadoop的序列文件还是不同的东西? 我可以读取使用Map Reduce使用saveAsObjectFile生成的文件吗?如果是

    -1热度

    2回答

    在Spark中开箱即用支持哪些不同的输入和输出格式? Map Reduce支持其中的很多,但我在Spark中只看到textFile和objectFile。 另外我怎样才能在Spark中利用Hadoop输入/输出格式?

    0热度

    1回答

    Spark中加入数据的不同方式有哪些? Hadoop map reduce提供了分布式缓存,地图边连接和减少边连接。 Spark呢? 另外,如果您可以提供简单的scala和python代码来连接Spark中的数据集,那将会很棒。

    2热度

    2回答

    当我用Druid Tranquility运行一个火花作业时出现以下错误。 java.lang.NoSuchFieldError: WRITE_DURATIONS_AS_TIMESTAMPS 德鲁伊宁静使用更高版本的杰克逊 - 数据绑定(2.6.1)比什么是火花捆绑。 我正在使用最新的稳定版本的Druid Tranquility(0.6.4)和Spark(1.5.2)。 如何解决这个问题? 强制

    0热度

    2回答

    当在簇中处理时,是否可以将驱动程序节点中的spark程序结果的输出写入? df = sqlContext("hdfs://....") result = df.groupby('abc','cde').count() result.write.save("hdfs:...resultfile.parquet", format="parquet") # this works fine res

    3热度

    2回答

    My Spark Streaming应用程序将数据存储在MongoDB中。 不幸的是每个星火工人打开太多的连接,同时将其存储在MongoDB中 以下是我的代码星火 - 蒙戈DB代码: public static void main(String[] args) { int numThreads = Integer.parseInt(args[3]); String mongo

    2热度

    1回答

    我正在使用Spark将Hbase数据加载到JavaPairRDD <>中。现在,我想知道我是否可以将最新的100行加载到Spark中而不是来自Hbase的所有行。 1)我尝试scan.setCaching(100),但它仍然返回所有行。是否为了限制我从Hbase加载的行? 2)我怎样才能确保它是最新的100行 任何想法?非常感谢。 Scan scan = new Scan(); scan

    3热度

    3回答

    我正在使用Java中的newAPIHadoopRDD来读取MongoDB集合。 首先,我创建使用下面的类JavaSparkContext对象: public class SparkLauncher { public JavaSparkContext javaSparkContext ; public SparkLauncher() { javaSpark