apache-spark

0热度

1回答

刚做了一些关于spark unpersist（）的实验，并对实际做了什么感到困惑。我搜索了很多，几乎所有的人都说unpersist（）会立即从excutor的内存中驱逐RDD。但在这个测试中，我们可以看到它并不总是真实的。请参见下面的简单的测试： private static int base = 0; public static Integer[] getInts(){ Intege

0热度

1回答

斯卡拉项目编译错误使用的IntelliJ社区版

我建立使用的IntelliJ（社区版）一阶项目时具有以下生成错误：错误：（42 609）未发现：价值collect_list

0热度

1回答

如何调整apache spark 1.5.0的内存设置？

如何调整运行在spark 1.5.0上的应用程序的堆内和堆外内存？通过使用“-XX + PrintGCDetails -XX：+ PrintGCTimeStamps”，我注意到在从文件$ SPARK_HOME/work/application_id/stdout检索到的GC报告中，JVM大约每隔1分钟就会保持一次GC。尽管通过--executor-memory 50g选项和各种--conf spa

0热度

1回答

Spark 2.0 - 如何获取与群集中心关联的群集ID

我想知道与群集中心关联的ID是什么。 model.transform(dataset)将为我的数据点分配预测的群集ID，并且model.clusterCenters.foreach(println)将打印这些群集中心，但我无法弄清楚如何将群集中心与其ID相关联。 import org.apache.spark.ml.clustering.KMeans // Loads data. val d

1热度

2回答

如何应用自定义数据格式/映射到每个事件加载整个数据集之前？

从documentation的标准方法来读取数据流进入Apache的Spark是： events = spark.readStream \ .format("json") \ # or parquet, kafka, orc... .option() \ # format specific options .schema(my_schema) \ # r

0热度

1回答

Spark Streaming Kafka初始偏移量

我正在使用Java Spark API，对于KafkaUtils.createDirectStream，我想跟踪偏移量。有一个名为fromOffset的参数，它记录了Kafka主题分区中的偏移量。对于第一次运行，我不知道将有多少个分区，那么如何设置此参数？并且我是否需要在Kafka参数中设置“auto.offset.reset”？如果是，它会影响我的代码从已知的偏移中恢复吗？

0热度

1回答

每天处理10行B数据以创建变量（计算列）的最佳方法是什么？

想象一下，你有一个历史数据，每天有数百万行的数据被添加到它。有必要每天处理整个数据并更新变量。您如何使用大数据平台解决这个问题？如果需要，欢迎提供更多细节。

-1热度

1回答

创建点播阿帕奇星火网络服务

我完全新的Web服务的独立，我想创建它是这样一个Web服务：用户输入一些字到网页。 Apache Spark作业在后端启动，它将这些词作为输入参数使用该作业的结果将被处理并显示回网页。我想让它成为一个独立的产品，而不使用任何Spark-as-a-service服务，例如Bluemix等现在，我正在考虑采用类似这样的方式：后端的Python服务器接受请求并输入新的Spark作业。当spark

0热度

1回答

ExceptionInInitializer错误，同时从Teradata表读取数据使用星火

我使用下面的代码来读取Teradata的数据，但收到错误 val jdbcDF = spark.read .format("jdbc") .option("url",s"jdbc:teradata://${TeradataDBHost}/database=${TeradataDBDatabase}") .option("dbtable", TeradataDBData

1热度

1回答

使用RStudio-sparklyr连接到本地Spark由IntelliJ提供

早上好，这可能听起来像一个愚蠢的问题，但我想通过RStudio访问Spark中的临时表。我没有任何Spark群集，我只在本地PC上运行所有的东西。当我开始通过的IntelliJ星火，实例被罚款运行： 17/11/11 10:11:33 INFO Utils: Successfully started service 'sparkDriver' on port 59505. 17/11/11