2017-09-25 121 views
0

我是新来的火花,必须编写一个流式应用程序,必须执行像快速傅里叶变换和一些机器学习的东西,如分类/回归与svms等我想在pyspark这样做,因为python的各种各样的像numpy,scikit学习等模块。我的问题是,是否有可能在流应用程序中做这样的事情?据我所知,spark使用dstreams。这些流可以转换为像numpy数组或类似的东西,可以作为python函数的输入吗?pyspark streaming适合机器学习/科学计算吗?

THX

回答

0

Pyspark用于在火花,这是在Python语言编码的运行程序/代码/算法。

对于机器倾斜,spake有MLlib库包。

对于流的目的,火花有火花流lib包

您可以探索风暴以及对实时流式传输。

+0

好的,但怎么可以一次完成两个(流媒体和机器学习)? – maxE

0

机器学习是从数据中学习的过程。首先你训练你的模型,然后在数据流之上使用它。数据可以作为微型,微型甚至实时处理,取决于它在特定时间产生的数据量。 Flume和Kafka用于实时获取数据并存储在HDFS上,或者可以通过指向水槽接收器的Spark流将其馈送给Spark。