词汇处理函数

我正在研究卷积神经网络的嵌入输入，我理解Word2vec。但是，在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor。在document。他们说它会将文档映射到单词ID序列。我不太清楚这个功能是如何工作的。它创建一个ID列表，然后用单词映射Ids，或者它有一个单词和它们的ID字典，当运行功能它只给IDS？词汇处理函数

来源

2016-10-03 ngoduyvu

可以说你只有两个文件I like pizza和I like Pasta。你的整个词汇由这些词组成(I, like, pizza, pasta)对于词汇表中的每一个单词，都有一个如此相关的索引（1,2,3,4）。现在给出一个文件，如I like pasta它可以被转换成矢量[1,2,4]。这是learn.preprocessing.VocabularyProcessor所做的。参数max_document_length确保所有文件都通过或者通过填充数字长度max_document_length的载体，如果其长度大于max_document_length希望这有助于你

来源

2016-10-03 07:20:43 Kashyap

谢谢卡什亚普表示，如果他们的长度比max_document_length短剪裁他们，所以它只将文档编码到向量空间中。它在自然语言处理中有名字吗？ – ngoduyvu

@ngoduyvu据我所知没有......这是在大多数自然语言处理系统中完成的预处理步骤之一。 – Kashyap

max_document_length应该是不同单词的数量 – zsong

词汇处理函数

回答

相关问题