0
我有一些代码在文档集合上运行基本的TF-IDF矢量化工具,返回DXF的稀疏矩阵,其中D是文档数,F是数字的条款。没问题。使用sklearn查找文档中特定单词的tf-idf得分
但是,如何找到文档中特定术语的TF-IDF分数?即在术语之间(在其文本表示中)和它们在所产生的稀疏矩阵中的位置之间是否存在某种词典?
我有一些代码在文档集合上运行基本的TF-IDF矢量化工具,返回DXF的稀疏矩阵,其中D是文档数,F是数字的条款。没问题。使用sklearn查找文档中特定单词的tf-idf得分
但是,如何找到文档中特定术语的TF-IDF分数?即在术语之间(在其文本表示中)和它们在所产生的稀疏矩阵中的位置之间是否存在某种词典?
是的。请参阅您的装配/转换TF-IDF矢量器上的.vocabulary_
。
In [1]: from sklearn.datasets import fetch_20newsgroups
In [2]: data = fetch_20newsgroups(categories=['rec.autos'])
In [3]: from sklearn.feature_extraction.text import TfidfVectorizer
In [4]: cv = TfidfVectorizer()
In [5]: X = cv.fit_transform(data.data)
In [6]: cv.vocabulary_
它的形式为一个字典:
{word : column index in array}