apache-spark

-1热度

2回答

我有一个数据框，其中包含4列。数据帧样本 id1 id2 id3 id4 --------------- a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c1 c2 c3 c4 b2 c1 a3 a4 c1 d4 有一排2种类型的数据的任一的所有列具有数据或仅一列。我想要在所有列上执行不同的功能，例如在

4热度

2回答

如何将数据从Cassandra导出到BigQuery

我有Apache Cassandra在Google Cloud中的4个虚拟机上工作。我认为它太昂贵了，并且想要将所有数据导出到BigQuery。卡桑德拉大约有2TB（60毫米排）。任何建议我怎么能做到这一点？在此先感谢。

0热度

3回答

Spark错误：GenericRowWithSchema无法转换为scala.collection.mutable.WrappedArray

我正在使用spark 1.6并尝试获取并投射数据帧行值。这里是我的问题：我在我的数据帧一排谁拥有这种结构：我需要涂用[字符串列表]在WrappedArray，所以我尽量将其丢与此代码： val RDD= DF.map( f => { if(f.getAs("ListOfRficAction")!=null){ var listActions = f.

0热度

2回答

如何从JavaSparkContext

在一些星火代码得到HiveContext，我已经看到了程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

1热度

1回答

获取分区拼花地图数据框的最新模式

我们正在开始使用spark和parquet文件在hadoop集群中收集数据......但是我们很难保证拼花图案模式将来不会发生变化。我们试图找到阅读检察院，即使架构改变的最佳途径...... 我们要实现的规则是，最新的实木复合地板的文件将成为我们的参考... 我们做了不同的测试，包括： spark.read.parquet（ “测试”）过滤器（ “年2017年=和月= 10和天> = 15”） s

0热度

1回答

在使用资源的火花提交后，是否有办法收集统计信息？

我正在使用火花和纱线作为我的资源经理。我试着找到一种方法来收集运行后分配给作业的资源。资源管理器仅报告当前使用情况，因此在完成后将其清零。如果在事实之后我不能得到它们，有什么方法让Spark工作在最后输出/存储时积累统计信息？

1热度

1回答

访问循环中的RDD时发生火花 - 酸洗错误

我在Spark中实现了k-means算法。当我运行下面的代码时，出现酸洗错误（如下所示）。如果我修改它并将所有内容放在循环之外，它将正确计算质心。 sc = SparkContext(appName="Document Similarity") lines = sc.wholeTextFiles(sys.argv[1]) articles = lines.flatMap(lambda x:

1热度

1回答

如何设置KRYO的不可修改的Collection串行火花代码

我在Java中使用的火花（V1.6.1）KRYO序列化和序列化的同时具有收藏在该领域的一类，它引发以下错误 - Caused by: java.lang.UnsupportedOperationException at java.util.Collections$UnmodifiableCollection.add(Collections.java:1055) at com

2热度

1回答

如何检查列（数组类型）是否包含SQL中的值（不含任何）？

我有一个SQL表table其中一列arr是一个整数数组。如何将表格筛选到arr下的数组包含整数值的行？（例如，如果我搜索1，那么应该包含数组[1,2,3]和[1,4]，但[3,4]不应该）。我在Databricks上使用Spark并且无法访问ANY或MEMBER OF函数。

1热度

2回答

mllib矢量的最大值？

我使用mllib创建了一个使用Apache Spark的ML管道。评估结果是一个DataFrame，其中有一列“probability”，它是概率的mllib向量（类似于scikit-learn中的predict_proba）。 val rfPredictions = rfModels.bestModel.transform(testing) val precision = evaluat