我希望显示的文本文档的相似性我使用这scikit学习的TfidfVectorizer为tfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)
使用相似矩阵,而不是在相似矩阵为MDS scikit学习
,然后进行余弦相似度计算作为cosine_similarity = (tfidf*tfidf.T).toarray()
它给出了相似性,但sklearn.manifold.MDS
需要一个不相似矩阵。当我给出1-cosine_similarity时,应该为零的对角线值不是零。它们是一些小的值,如1.12e-9
等。两个问题:
1)如何使用MDS相似度矩阵或如何将相似度矩阵更改为相异矩阵?
2)在MDS中,有一个选项dissimilarity
,其值可以是'precomputed'
或'euclidean'
。两者之间有什么区别,因为当我给欧几里德,MDS坐标变得相同,无论我使用的是cosine_similarity还是1-cosine_similarity看起来都是错误的。
谢谢!