lsa

    0热度

    1回答

    我根据条款计算了我的文档的tf-idf。然后,我应用LSA来降低条款的维度。 'similarity_dist'包含负值(参见下表)。我如何计算范围0-1的余弦距离? tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english') %time tf

    -3热度

    2回答

    我有python 2.7,这是我的代码,当我运行它,我得到这个错误:'继续'不正确的循环。 我知道'继续'应该在循环内部,但我在if里面使用它,那我该怎么办? from numpy import zeros from scipy.linalg import svd from math import log from numpy import asarray, sum #from nltk.

    -1热度

    1回答

    比较选择2列存储在每个行中的文本我有2个矢量 一个= C( “ABC”, “DEF”, “GHI”, “JKL”) B = C( “ABC”, “dez”,“gyx”,“mno”) 如何获得余弦值以比较相应的条目?在这种情况下,我需要能够说每个向量中的第一个条目完全相似,并且每个向量中的第二个条目稍微相似...并且每个向量中的最后一个条目完全不相似?我尝试了LSA包 - 但我能得到一个整体的余弦值

    0热度

    1回答

    我正在进行潜在语义分析,我试图从2个文档中获得相似度。我在Python上运行我的潜在语义分析代码,当我运行它时,我得到: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

    0热度

    1回答

    我尝试学习scala和特定文本minning(词形化,TF-IDF矩阵和LSA)。 我有一些文本我想要lemmatize并作出分类(LSA)。我在cloudera上使用spark。 所以我用了stanfordCore NLP fonction: def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

    0热度

    1回答

    我一直对潜在语义分析(LSA)和应用这个例子:https://radimrehurek.com/gensim/tut2.html 它包括以下主题的条款集群,但无法找到任何我们可以如何在主题下聚集文件。 在这个例子中,它说'根据LSI看来,“树”,“图”和“未成年人”都是相关词(对第一个主题的方向贡献最大),而第二个话题实际上与所有其他词语有关。正如预期的那样,前五个文档与第二个主题更为紧密相关,而

    2热度

    2回答

    当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中,可选LSA(使用SVD)用于执行降维。 为什么这很有用?使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸(特征)的数量。 我知道LSA

    3热度

    1回答

    我知道gensim中的word2vec可以计算单词之间的相似度。但是现在我想用TF-IDF或者LSA来计算词的相似度,用gensim。怎么做? 注:计算使用LSA与gensim文档相似性很容易:http://radimrehurek.com/gensim/wiki.html

    0热度

    1回答

    有没有人有任何关于如何使用Python和scikit-learn将文档中的单词转换为LSA向量的建议?我发现这些网站here和here,它们规定了如何将整个文档转换为lsa矢量,但我有兴趣转换单个单词本身。 最终结果是从每个句子中总结所有向量(表示每个词),然后比较连续句子以评估语义相似性。

    0热度

    1回答

    我打算使用sklearn.decomposition.TruncatedSVD为一个Kaggle 比赛进行LSA,我知道后面SVD和LSA数学,但我通过 scikit学习的用户指南困惑,所以我不知道怎么样实际适用 TruncatedSVD。 在the doc,它指出: 此操作后, U_k * transpose(S_k)是变换训练k功能(在API中称为n_components)设置 这是为什么?我