lsa

0热度

1回答

我根据条款计算了我的文档的tf-idf。然后，我应用LSA来降低条款的维度。 'similarity_dist'包含负值（参见下表）。我如何计算范围0-1的余弦距离？ tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english') %time tf

-3热度

2回答

继续不正确的循环

我有python 2.7，这是我的代码，当我运行它，我得到这个错误：'继续'不正确的循环。我知道'继续'应该在循环内部，但我在if里面使用它，那我该怎么办？ from numpy import zeros from scipy.linalg import svd from math import log from numpy import asarray, sum #from nltk.

-1热度

1回答

中的R

比较选择2列存储在每个行中的文本我有2个矢量一个= C（ “ABC”， “DEF”， “GHI”， “JKL”） B = C（ “ABC”， “dez”，“gyx”，“mno”）如何获得余弦值以比较相应的条目？在这种情况下，我需要能够说每个向量中的第一个条目完全相似，并且每个向量中的第二个条目稍微相似...并且每个向量中的最后一个条目完全不相似？我尝试了LSA包 - 但我能得到一个整体的余弦值

0热度

1回答

如何获得LSA的相似度

我正在进行潜在语义分析，我试图从2个文档中获得相似度。我在Python上运行我的潜在语义分析代码，当我运行它时，我得到： Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

0热度

1回答

Scala将[Seq [string]转换为[String]？（在词形化后的TF-IDF）

我尝试学习scala和特定文本minning（词形化，TF-IDF矩阵和LSA）。我有一些文本我想要lemmatize并作出分类（LSA）。我在cloudera上使用spark。所以我用了stanfordCore NLP fonction： def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

0热度

1回答

如何群集下使用潜在语义分析（LSA）主题文件

我一直对潜在语义分析（LSA）和应用这个例子：https://radimrehurek.com/gensim/tut2.html 它包括以下主题的条款集群，但无法找到任何我们可以如何在主题下聚集文件。在这个例子中，它说'根据LSI看来，“树”，“图”和“未成年人”都是相关词（对第一个主题的方向贡献最大），而第二个话题实际上与所有其他词语有关。正如预期的那样，前五个文档与第二个主题更为紧密相关，而

2热度

2回答

为什么做文本聚类

当我从下面这个Scikit使用教程K均值文本聚类学习K-手段之前使用LSA： http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在这个例子中，可选LSA（使用SVD）用于执行降维。为什么这很有用？使用“max_features”参数可以在TF-IDF矢量化器中控制尺寸（特征）的数量。我知道LSA

3热度

1回答

如何使用TF-IDF或LSA与gensim计算词汇相似度？

我知道gensim中的word2vec可以计算单词之间的相似度。但是现在我想用TF-IDF或者LSA来计算词的相似度，用gensim。怎么做？注：计算使用LSA与gensim文档相似性很容易：http://radimrehurek.com/gensim/wiki.html

0热度

1回答

将单词转化为潜在语义分析（LSA）向量

有没有人有任何关于如何使用Python和scikit-learn将文档中的单词转换为LSA向量的建议？我发现这些网站here和here，它们规定了如何将整个文档转换为lsa矢量，但我有兴趣转换单个单词本身。最终结果是从每个句子中总结所有向量（表示每个词），然后比较连续句子以评估语义相似性。

0热度

1回答

Scikit学习TruncatedSVD文档

我打算使用sklearn.decomposition.TruncatedSVD为一个Kaggle 比赛进行LSA，我知道后面SVD和LSA数学，但我通过 scikit学习的用户指南困惑，所以我不知道怎么样实际适用 TruncatedSVD。在the doc，它指出：此操作后， U_k * transpose(S_k)是变换训练k功能（在API中称为n_components）设置这是为什么？我