我有8个文档,并且我运行了TF-IDF
来获取数组。我不明白我是如何找出哪一个是给定输入查询的最佳文档匹配?从一组文档中输入查询的最佳匹配
all_documents = [doc1, doc2, ...., doc7]
sklearn_tfidf = TfidfVectorizer(norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True, tokenizer=tokenize)
sklearn_representation = sklearn_tfidf.fit_transform(all_documents).toarray()
通过最好的文档,你是指最接近输入查询的文档吗?你必须使用'TfidfVectorizer'来输入查询,然后从你有的7个文件中找到到矢量的距离(这可以是余弦距离/欧氏距离)。 – titipata
@titipat感谢您的方法。但据我所知,找到任何提到的距离矢量的长度应该是相同的。我将如何做到这一点? – user3235169