,我试图通过pyspark做使用columnSimiliraties和pySpark toRowMatrix混乱
import pyspark
pyspark.__version__
#'2.2.0'
from pyspark.mllib.linalg.distributed import RowMatrix, IndexedRowMatrix
test = np.array[[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10]]
# so I can compare rows with each other I need to transpose my data
test = np.transpose(test)
# Calculate exact similarities
exactSim = mat.columnSimilarities()
print(exactSim.numRows(),exactSim.numCols())
# 4 4
正如预期的那样这给了我一个4×4矩阵
当我从这个生成rowMatrix我希望,这应该保留这个形状
rowMat = exactSim.toRowMatrix()
print(rowMat.numRows(), rowMat.numCols())
# 3 4
所以不知何故,我失去了这种转换行。
我相信它是最后一行是全零 - 但理想情况下,我想所有行输出...任何想法如何我可以得到矩阵矩阵?
能否请你解释maxtrix条目的结果,比如我知道哪些是比较给定的i和j是列。我的意思是来自var test的数据正在进行比较。 –