cosine-similarity

    0热度

    1回答

    我最近在分配任务的地方是使用20_newgroups数据集,并使用3种不同的矢量化技术(文字包,TF,TFIDF)来表示文件的工作矢量格式,然后尝试分析20_Newsgroups数据集中每个类之间的平均余弦相似度之间的差异。所以这就是我在Python中想要做的。我正在读取数据并将其传递给sklearn.feature_extraction.text.CountVectorizer Bag's Wo

    0热度

    1回答

    我必须计算每行之间的余弦距离,但我不知道如何使用Spark API Dataframes优雅地完成它。这个想法是计算每行(项目)的相似度,并通过比较行之间的相似性来获得前10个相似度。 - >这是需要Item-Item Recommender System。 所有我读过有关它被称为计算相似度超过列Apache Spark Python Cosine Similarity over DataFram

    0热度

    1回答

    ,我试图通过pyspark做使用columnSimiliraties和 import pyspark pyspark.__version__ #'2.2.0' from pyspark.mllib.linalg.distributed import RowMatrix, IndexedRowMatrix test = np.array[[1,2,3,4,5,6,7,8,9,10],[1

    0热度

    1回答

    我有一个数据集,其中包含工人与他们的人口统计信息,如年龄性别,地址等及其工作地点。我从数据集创建了一个RDD并将其转换为DataFrame。 每个ID有多个条目。因此,我创建了一个DataFrame,其中只包含工作人员的ID和他/她工作的各个办公地点。 |----------|----------------| | **ID** **Office_Loc** | |------

    0热度

    1回答

    我想在包含许多行的文件上使用TfidfVectorizer(),每个文本都包含一个短语。然后我想用一小部分短语做一个测试文件,做TfidfVectorizer(),然后取原始文件和测试文件之间的余弦相似度,这样对于测试文件中的给定短语,我可以检索出前N个匹配原始文件。这里是我的尝试: corpus = tuple(open("original.txt").read().split('\n'))

    0热度

    1回答

    我试图来计算语料库文本文档的所有可能的组合之间的余弦相似度得分。我正在使用scikit-learn的cosine_similarity函数来执行此操作。由于我的语料库非常庞大(3000万份文档),因此语料库中文档之间的可能组合数量太多,无法存储为数据框。因此,在将它们存储在数据框中供将来使用之前,我想使用阈值过滤相似性分数,因为它们正在创建。虽然我这样做了,但我也希望将这些文档中的每个文档的相应I

    1热度

    1回答

    的文档相似性,我使用TF-IDF与余弦相似度计算描述 输入字符串: 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

    1热度

    2回答

    我有一个TF/IDF向量的语料库V,所以它们很稀疏。 这是一个数组大约2,500到150,000。 我想计算语料库中每个文档之间的余弦相似度。 这几乎是我能想到的最天真的方式。我知道已经有三四次优化,但我不想承担答案。我想知道计算中使用Chapel的计算最有效的方法。我们的目标是让X作为对称矩阵diag(X) = 0 use Norm, LinearAlgebra; var ndoc

    0热度

    1回答

    from gensim import corpora, models, similarities documents = ["This is a book about cars, dinosaurs, and fences"] # remove common words and tokenize stoplist = set('for a of the and to in - , is'

    0热度

    2回答

    我试图计算所有值之间的余弦相似度。 1000 * 20000的计算时间花了我10多分钟。 代码: from gensim import matutils # array_A contains 1,000 TF-IDF values # array_B contains 20,000 TF-IDF values for x in array_A: for y in array_B: