Spark现在有两个机器学习库 - Spark MLlib和Spark ML。它们在实现中有些重叠,但据我了解(作为Spark整个生态系统的新手),Spark ML是最好的选择,而MLlib主要是为了向后兼容。Spark MLlib和Spark ML中的PCA
我的问题非常具体,与PCA有关。在MLlib实施似乎有列数的限制
spark.mllib支持PCA存储在面向行的格式和矢量任何身高和骨感矩阵。
另外,如果你看一下Java的代码示例也有这个
列数要小,例如,小于1000
在另一方面,如果您查看ML文档,则没有提及的限制。
所以,我的问题是 - Spark限制还存在吗?如果是这样,为什么限制和有什么解决方法可以使用这个实现,即使列数很大?
有趣的问题。我在mllib文档中看到了许多其他不一致之处。 – Rob