因此,我正在制作一个python类,它可以计算文档中每个单词的tfidf权重。现在在我的数据集中,我有50个文档。在这些文件中,许多单词相交,因此具有多个相同的单词特征,但具有不同的tfidf权重。所以问题是我如何将所有权重归结为一个单一的权重?(Text Classification)处理来自不同文档的相同单词[TFIDF]
0
A
回答
2
首先,让我们弄清楚一些术语。术语是语料库中的单词单元。令牌是特定文档中特定位置的术语。可以有多个使用相同术语的令牌。例如,在我的回答中,有许多使用术语“the”的标记。但是“这个”只有一个术语。
我觉得你有点困惑。 TF-IDF样式加权函数指定如何使文档中术语的标记频率和文档中每个术语的语料库中的背景标记文档频率之间的每项得分。 TF-IDF将文档转换为术语到权重的映射。因此,在文档中共享同一个术语的更多令牌将增加该术语的相应权重,但每个术语只有一个权重。在文档中共享一个术语的代币没有单独的分数。
+0
是的,我忘了df是指整个语料库中的文档不是单词所在的位置。谢谢 – gncvnvcnc
相关问题
- 1. 处理来自parsedatetime的不同结果
- 2. Safari不处理来自XSL的HTML相同
- 3. 使用相同的函数来处理不同的类
- 4. 以相同的方式处理由空格分隔的单词
- 5. 处理来自不同JSON API响应的不同POJO
- 6. 如何处理同一文档的不同路径?
- 7. 在R中用相同的单词替换没有初始@的相同单词
- 8. PHP MySQL将来自不同行的单元格的值相同
- 9. Hadoop MapReduce处理来自HDFS的不同输入文件
- 10. 硒处理与mouseover不同元素的相同链接文本
- 11. 来自不同文件的相同名称的校准功能
- 12. 如何在单个文档的tfidf矩阵中找到哪个单词具有最大tfidf?
- 13. 表单参数不通过,但处理相同的表单中的文件?
- 14. 词典(值相同,不同的密钥)
- 15. 如何处理具有相同父项的不同事件处理程序?
- 16. 管理来自不同来源的
- 17. 来自不同来源的上下文菜单:为不同的菜单项设置不同的数据绑定
- 18. 不同的取代相同的单词记事本++
- 19. javascript编辑带相同单词的textarea
- 20. 要插入的节点来自不同的文档上下文
- 21. 相同的浏览器版本,2个不同的javascript处理
- 22. 我处理完相同表单的文本字段后,文件不会上传
- 23. 如何比较来自不同查询的2个单词?
- 24. 过滤器来自不同过程的单词条目
- 25. 绘制文档tfidf 2D图
- 26. C#控制台来自多个批处理文件的相同输出
- 27. “提升”lucene文档中相同字段的不同实例
- 28. Preg匹配相同的单词与相同的回报?
- 29. 如何自动化Excel文档并同时处理其他Excel文档?
- 30. 使用相同的处理器实例处理不同的注释
你是要求公式还是方法? – Drewness
将多个相同单词特征的重量加总成一个的方法 – gncvnvcnc