apache-spark

0热度

1回答

使用Spark_sklearn进行嵌套交叉验证GridSearchCV产生SPARK-5063错误

使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ，行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

1热度

1回答

火花sbt与graphx

我是新来的scala和sbt的东西，所以我不知道为什么我得到的错误。，以下是我build.sbt name := "graphx-example" version := "1.0" scalaVersion := "2.11.8" libraryDependencies ++= Seq( "com.typesafe" % "config" % "1.3.1", "o

0热度

1回答

Pyspark：在UDF中通过动态列

尝试在UDF中逐个发送列的列表，但使用for循环但出现错误，即数据框未找到col_name。目前在列表list_col我们有两列，但它可以改变。所以我想写一个代码，它适用于列的每一个列表。在这段代码中，我一次连接一列的行，行的值是结构格式即列表中的列表。对于每一个空，我必须给空间。 list_col=['pcxreport','crosslinediscount'] def struct

0热度

2回答

火花从一个小文件

查找我做的火花项目和需要就如何解决的最佳方式如下问题：我有一个数据帧（说MainDF），其中有上百万的记录。格式是这样的（name：String，value：Int）。下面的内容例如： Davi,130 Joel,20 Emma,500 我还有一个小文件，与4号线的记录，像这样（的className：字符串，minValue（最小值）：诠释，包括maxValue：智力）现在我需要创建通

0热度

1回答

|性能调整和优化

优化在基于Yarn的群集上部署的Spark Jobs的最佳方式是什么？。寻找基于配置而非代码级别的更改。我的问题是经典设计级别的问题，应该使用什么方法来优化Spark Streaming或Spark SQL上开发的作业。

1热度

1回答

执行者上的Spark对象（单例）序列化

我不确定我想实现的是否可能。我所知道的是，我正从一个执行器访问单例对象，以确保它的构造器在每个执行器上只被调用一次。这种模式已经在我的代码库中被证明和按照预期用于类似的用例。但是，我想知道的是，如果我可以在驱动程序初始化之后运送对象。在这种情况下，访问ExecutorAccessedObject.y时，理想情况下它不会调用println，而是返回值。这是一个高度简化的版本，实际上，我想打电话给

1热度

1回答

如何从火花数据帧的所有列中替换多个字符？

我有一个包含多个列的数据框。 >>> df.take(1) [Row(A=u'{dt:dt=string, content=Prod}', B=u'{dt:dt=string, content=Staging}')] 我想从df列A和B的值中去掉花括号'{'和'}'。我知道我们可以使用： df.withColumn('A',regexp_replace('A','//{','')) df.

1热度

1回答

ipython不被识别为内部或外部命令（pyspark）

我已经安装了spark版本：spark-2.2.0-bin-hadoop2.7。我使用Windows 10 OS 我的Java版本1.8.0_144 我已经把我的环境变量： SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

-1热度

1回答

火花流：映射点到队列

我是新的火花流，我不明白地图如何工作。我想从一个流排队一些问题后，我从一个构造函数，因此我写它传递的是： val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

0热度

1回答

使用两列火花蟒蛇

键我有我的csv文件4列和多行。 Date(MM/DD/YY) Arr_Dep Dom_Int Num_Fl 01/01/15 0:00 Arrival Domestic 357 03/01/15 0:00 Arrival International 269 06/01/15 0:00 Departure Domestic 82 08/01/15 0:00 Depar