我有两个相同长度的Python数组。它们是通过读取两个单独的文本文件生成的。一个代表标签;让它被称为“labelArray”。另一个是数组数组;让它被称为“dataArray”。我想将它们变成LabeledPoint的RDD对象。我怎样才能做到这一点?RDD从标签阵列和数据数组在python/spark
0
A
回答
2
我假设源代码dataArray和lableArray是代码中描述的列表。你可以尝试像下面创建一个合并RDD
>>> lableArray=['l1','l2','l3']
>>> dataArray=['d1','d2','d3']
>>> rdd2=sc.parallelize(lableArray)
>>> rdd1=sc.parallelize(dataArray)
>>> rdd1.collect()
['d1', 'd2', 'd3']
>>> rdd2.collect()
['l1', 'l2', 'l3']
>>> rdd=rdd2.zipWithIndex().map(lambda x:(x[1],x[0])).join(rdd1.zipWithIndex().map(lambda y:(y[1],y[0]))).map(lambda x:x[1])
>>> rdd.collect()
[('l1', 'd1'), ('l2', 'd2'), ('l3', 'd3')]
这里的“RDD”是通过结合两种dataArray的和lableArray创建
1
星火有一个功能takeSample可在合并两个RDD最终结果RDD
相关问题
- 1. 分隔标签阵列与组合数据阵列
- 2. 在tableview中显示从数组到数组标签的数据
- 3. 显示数据库标签阵列的数据表信息
- 4. 从“标签”的阵列创建阵列
- 5. JSON数组标准阵列
- 6. 从数据库中计算阵列数组的javascript数组
- 7. 合并和组阵列数据
- 8. 在IMG阵列alt标签的合并数组动态
- 9. 在RDD /数据帧
- 10. 根据熊猫数据框中的列标签分组数据
- 11. Matplotlib:利用numpy的阵列和组/亚组列表中的数据分组的箱图标签
- 12. 与数组转换RDD到数据帧
- 13. 推断系列标签和数据从大熊猫数据框中列绘制
- 14. 插入到数据库从散列数据和阵列
- 15. 数组和复制阵列
- 16. 阵列数组求和php
- 17. 阵列组和计数OCCURENCES
- 18. 数组和IF-标签
- 19. 访问URL和阵列从JSON数据
- 20. AngularJS从数组2获得JSON数据在阵列1
- 21. PHP取多个阵列和从MySQL数据库序列阵列
- 22. SQL和C# - 标签从SQL数据库
- 23. JQuery .clone()选择列表和ladbel,从数组中加载标签
- 24. 数据框中的数据组中的行和标签行R
- 25. 从数据Excel VBA阵列
- 26. 巢JSON数据从阵列
- 27. 从分割阵列数据
- 28. 基于阵列数据分离数组
- 29. Mysql的阵列和数据
- 30. 核心数据和阵列
向我们展示每个数据数组的前几行然后我们可以帮助编写代码。 –