我正在研究卷积神经网络的嵌入输入,我理解Word2vec。但是,在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor
。在document。他们说它会将文档映射到单词ID序列。我不太清楚这个功能是如何工作的。它创建一个ID列表,然后用单词映射Ids,或者它有一个单词和它们的ID字典,当运行功能它只给IDS?词汇处理函数
Q
词汇处理函数
6
A
回答
15
可以说你只有两个文件I like pizza
和I like Pasta
。你的整个词汇由这些词组成(I, like, pizza, pasta)
对于词汇表中的每一个单词,都有一个如此相关的索引(1,2,3,4)。现在给出一个文件,如I like pasta
它可以被转换成矢量[1,2,4]。这是learn.preprocessing.VocabularyProcessor
所做的。参数max_document_length
确保所有文件都通过或者通过填充数字长度max_document_length
的载体,如果其长度大于max_document_length
希望这有助于你
相关问题
- 1. 自然语言处理词汇联想
- 2. ANTLR4:空白和空间词汇处理
- 3. 在Rascal中处理复杂词汇
- 4. 如何处理deezer ID词汇表
- 5. 潜在迪里克莱特分配如何处理词汇不在词汇表
- 6. 计算论文中学习词汇总数[图像处理]
- 7. 处理函数
- 8. 词汇或预处理问题:CoreLocation/CoreLocation.h没有找到
- 9. 词汇或预处理问题/ xmlversion.h在iOS应用
- 10. 词汇或预处理器问题与“#import <map>
- 11. 词汇和预处理问题上项目的ios命名
- 12. 词汇或预处理问题“SDWebImage/UIImageView的+ WebCache.h”
- 13. 词汇或预处理问题:“MyViewController.h”找不到文件
- 14. 词典的处理词典
- 15. 并行数据处理结果汇总
- 16. parseInt函数处理
- 17. PHP处理()函数
- 18. 预处理函数
- 19. 处理多个wxWidgets汇编
- 20. 微观数据和词汇
- 21. 关于数字Literals词汇
- 22. MySQL处理谓词
- 23. 通过网络管理Plone词汇表
- 24. 如何在jQuery函数处理函数处理工作
- 25. 处理函数和参数
- 26. JavaScript函数数据处理
- 27. 动态词汇
- 28. 随机词汇
- 29. schema.org微词汇
- 30. RDF词汇和谓词
谢谢卡什亚普表示,如果他们的长度比
max_document_length
短剪裁他们,所以它只将文档编码到向量空间中。它在自然语言处理中有名字吗? – ngoduyvu@ngoduyvu据我所知没有......这是在大多数自然语言处理系统中完成的预处理步骤之一。 – Kashyap
max_document_length应该是不同单词的数量 – zsong