据我所知,IDF被用来计算有多少文件有这个词(只是这个想法)。由于您事先拥有所有文档,因此可以在训练集中计算IDF(以及TF)。但是如果我事先没有测试集并且以顺序的方式获取测试文档(例如来自网络爬行器),那么如何在测试文档时计算文档中文字的IDF ?测试时计算IDF(如在TF-IDF中)?
4
A
回答
2
对于这种状态,如果你的数据集足够大,你可以使用IDF的训练集。在测试阶段,如果新术语是在训练集中使用训练的IDF,并且如果该术语是新的,则使用训练集文档的数量来计算IDF。 对于某些目的,您可以使用平滑方法获得更好的结果。
0
如果您只在索引/抓取大量文档之后执行测试,则可以在抓取完成后计算IDF。遇到新文档或新术语时,您不必计算IDF。当你需要做一些TD-IDF或其他计算时,你可以随时进行计算。
如果这还不够,出于某种原因,您仍然可以使用其他文档数据集的IDF,最好使用相同类型的文档。
+0
“如果您只在索引/抓取大量文档之后执行测试” - 并非如此。当我通过抓取工具收到页面时,我必须决定该页面在那一刻是相关还是不相关。正如你所提到的计算另一个文件数据集的IDF是否在这种情况下的做法? – KillBill 2012-04-16 14:16:57
相关问题
- 1. 如何计算IDF?
- 2. 如何计算tf-idf?
- 3. 如何计算TF-IDF
- 4. 禁用IDF计算
- 5. 计算TF-IDF在pyspark
- 6. 如何计算OracleSQL中的TF-IDF?
- 7. 为网页计算tf-idf
- 8. 使用SQL计算TF-IDF
- 9. Python(TextBlob)TF-IDF计算
- 10. 如何计算kmeans在tfidf矩阵中解释的方差?
- 11. 使用Lucene计算TFIDF分数
- 12. python的tfidf算法
- 13. 在MATLAB中计算Kolmogorov-Smirnov测试
- 14. 在Java中的Tfidf计算和矩阵存储
- 15. 计算IDF上的熊猫数据帧
- 16. 使用gensim的Tf-idf计算
- 17. IDF(逆文档频率)计算
- 18. 使用来自sklearn.feature_extraction.text.TfidfVectorizer的TfidfVectorizer计算IDF
- 19. DocumentTermMatrix中的R是用下述R代码,以便计算的TF-IDF相对于计算IDF到基座2
- 20. Python tfidf返回相同的值,无论idf
- 21. TestNG中的计时测试
- 22. 你如何测试一个计算器?
- 23. 如何计算Capybara rspec测试代码?
- 24. 如何在计时器中计算所计算的时间?
- 25. 如何计算我的jmeter测试何时停止?
- 26. 的Python:如何计算TF-IDF的大型数据集
- 27. 如何计算字典的tf-idf列表?
- 28. 如何在Elasticsearch中计算嵌套文档相关性分数(TF/IDF)?
- 29. C - 测量计算时间
- 30. 计算solr和java文档中单词的TF-IDF
这个答案对我有意义。但是,我想知道是否有任何纸张或文章可供您参考?而且,我想知道是否有任何图书馆可以用于此事? – Pedram 2017-06-23 02:17:08
这是我编辑的评论:这个答案部分对我有意义。但是,我想知道是否有任何纸张或文章可供您参考?问题是,假设你已经训练了你的模型,一旦你在测试文档中有一个新的单词,即使你可以使用你的大数据集计算该单词的IDF,但是你仍然会有不同数量的特征在训练和测试集中,它不会工作。 – Pedram 2017-06-23 02:23:09