2016-10-03 60 views
6

我正在研究卷积神经网络的嵌入输入,我理解Word2vec。但是,在CNN text classification。 dennybritz使用功能learn.preprocessing.VocabularyProcessor。在document。他们说它会将文档映射到单词ID序列。我不太清楚这个功能是如何工作的。它创建一个ID列表,然后用单词映射Ids,或者它有一个单词和它们的ID字典,当运行功能它只给IDS?词汇处理函数

回答

15

可以说你只有两个文件I like pizzaI like Pasta。你的整个词汇由这些词组成(I, like, pizza, pasta)对于词汇表中的每一个单词,都有一个如此相关的索引(1,2,3,4)。现在给出一个文件,如I like pasta它可以被转换成矢量[1,2,4]。这是learn.preprocessing.VocabularyProcessor所做的。参数max_document_length确保所有文件都通过或者通过填充数字长度max_document_length的载体,如果其长度大于max_document_length希望这有助于你

+0

谢谢卡什亚普表示,如果他们的长度比max_document_length短剪裁他们,所以它只将文档编码到向量空间中。它在自然语言处理中有名字吗? – ngoduyvu

+0

@ngoduyvu据我所知没有......这是在大多数自然语言处理系统中完成的预处理步骤之一。 – Kashyap

+0

max_document_length应该是不同单词的数量 – zsong