大多数在火花中使用矩阵运算的算法必须使用矢量或以不同的方式存储它们的数据。是否支持直接在火花中构建矩阵?是否激发支持矩阵?
回答
Apache最近发布了Spark-1.0。它支持在Spark中创建矩阵,这是一个非常有吸引力的想法。虽然现在它处于试验阶段,并且支持可以在您创建的Matrix上执行的有限操作,但在将来的版本中这一点肯定会增加。 Matrix操作以Spark的速度执行的想法令人惊叹。
我在Spark中使用矩阵的方式是通过python和numpy scipy。将数据从csv文件拖入矩阵中并根据需要使用。我对待矩阵与我在普通Python pyipy中的一样。这是如何并行化数据,使其稍有不同。
事情是这样的:
for i in range(na+2):
data.append(LabeledPoint(b[i], A[i,:]))
model = WhatYouDo.train(sc.parallelize(data), iterations=40, step=0.01,initialWeights=wa)
疼痛渐渐numpy的SciPy的成火花。发现以确保所有其他图书馆和文件需要被纳入最好的办法是使用:
须藤yum的安装numpy的SciPy的蟒蛇,matplotlib IPython的蟒蛇,大熊猫sympy蟒蛇鼻
好,但性能永远不会匹配使用Spark矩阵本身实现的性能。那些会更优化的方式。 –
是的,你是对的。使用它们是因为从普通Python程序导入并使用numpy进行特定计算。正如你指出的那样,努力使基于Spark的过程实现效率。谢谢! – Jesse
- 1. Incanter是否支持稀疏矩阵?
- 2. Swagger 2.0是否支持矩阵参数?
- 3. Python中是否支持稀疏矩阵?
- 4. Groovy和Java支持矩阵
- 5. Scipy:稀疏矩阵是否支持高级索引?
- 6. R稀疏矩阵支持quantreg
- 7. DataContractSerializer不支持矩形阵列
- 8. Java是否支持类型转发?
- 9. Rebus是否支持批量发送
- 10. Cloud9 IDE是否支持X11转发?
- 11. WinRT开发是否支持NuGet包?
- 12. 是否支持groovvy
- 13. 是否支持SSI?
- 14. 是否支持DataGrid?
- 15. 是否支持MSNP9?
- 16. 是否支持ARC?
- 17. Android是否支持手表支持NFC
- 18. 测试矩阵是否是稀疏矩阵
- 19. 检查矩阵是否是Matlab中的单位矩阵
- 20. Lapack是否在尝试反转矩阵之前检查矩阵是否可逆
- 21. 使用NCurses CDK矩阵时,是否可以在激活CDKMatrix之后更新矩阵?
- 22. XElement是否支持nil = true
- 23. GWT是否支持php?
- 24. Cordova是否支持Tizen?
- 25. TypeScript是否支持TouchEvent?
- 26. Confluence是否支持中文?
- 27. Arduino是否支持线程?
- 28. 是否libevent支持netlink socket
- 29. GraphEngine是否支持RDF?
- 30. LevelDB是否支持java?
这个问题有一些好的信息上该主题:http://stackoverflow.com/questions/24147186/how-to-build-a-large-distributed-sparse-matrix-in-apache-spark-1-0 – maasg
在处理大数据时,我尽量避免使用矩阵运算的算法往往不能很好地扩展。此外,机器学习中的线性代数技术通常源于线性,欧几里德和高斯假设。在处理大数据时,现在是扩大视野和学习一些新技术的时候了:) – samthebest