2
对于推荐系统,我需要计算余弦相似度整个星火据帧的所有之间的列。阿帕奇星火Python的余弦相似度超过DataFrames
在熊猫我来做到这一点:
import sklearn.metrics as metrics
import pandas as pd
df= pd.DataFrame(...some dataframe over here :D ...)
metrics.pairwise.cosine_similarity(df.T,df.T)
生成该列之间的相似矩阵(因为我使用的换位)
有没有办法做同样的事情在Spark(Python)中?
(我需要这适用于由数百万行和列的成千上万的矩阵,所以这就是为什么我需要做的是在星火)
我该怎么办了行,而不是列? – Charleslmh
@mtoto你知道如何在Scala中实现相同的功能吗?https://stackoverflow.com/questions/47010126/calculate-cosine-similarity-spark-dataframe –
你能解释一下matrixEntry的结果吗?像什么是0和2? –