Q

Spark MLlib IDF洗牌数据？

2017-08-01 83 views 0 likes

0

在下面的代码中，spark是否必须在计算IDF和TF-IDF向量时洗牌数据？Spark MLlib IDF洗牌数据？

val hashingTF = new HashingTF() 
val tf: RDD[Vector] = hashingTF.transform(documents) 
tf.cache() 
val idf = new IDF().fit(tf) 
val tfidf: RDD[Vector] = idf.transform(tf)

2017-08-01 Prasad Nair

A

回答

0

它不洗牌：

两种transform方法是使用RDD.map
IDF.fit使用RDD.treeAggregate实现的实现。

当miDocFreq很低时，fit方法仍然相当昂贵。

2017-08-01 01:03:57 user8371915

相关问题

1. Spark mllib洗牌数据
2. 了解Spark洗牌溢出
3. Apache Spark MLlib - 从数据获取LabeledPoint（Java）
4. java apache spark mllib
5. Spark MLLIB问题
6. 洗牌DevExpress GridControl数据源
7. 算法洗牌数据
8. 结合Spark Streaming + MLlib
9. Spark mllib ALS建议
10. 火花洗牌