我想培养几个神经网络(使用tensorflow)信息提取,以便能够从发票中提取语义信息。经过一长串的阅读后,我想出了这个:机器学习 - 从一个文档
- 使用word2vec生成字嵌入(更多的语料在下面)。
- 订阅,因为这是紧靠在一起共享相似的语义矢量
word2vec
输出到一个CNN。
所以我上面描述的非常高层次的方法似乎对我来说很好。如果出现任何错误,我很乐意为您解决问题。
一对夫妇的,我有疑虑:
- 语料库的选择。使用维基百科的通用语料库是否足够?还是应该使用专门的语料库进行发票?如果是后者,我怎样才能生成这个语料库?我确实有一个可以使用的发票的大数据集。
- 信息提取。让我们说上述所有工作都很好,我可以从一个新的看不见的发票中理解语义信息。我如何去提取某些信息?例如,假设我们引入了一个新的发票,其中
order number: 12345
,假设order number
被理解为发票号(或任何位于order number
附近的向量),我如何提取值12345
?我正在看的一个领域是SyntaxNet,可以在这里帮助。
任何帮助/洞察力表示赞赏。
跟进到@瓦希·艾哈迈德的问题: 我试图理解语义信息有关的发票是最终能够提取值超出它的原因。所以,举例来说,如果我提出一个看不见的发票到我的神经网络中它会找到发票的号码(无论其标签被称为),并提取其价值。
投票关闭这个问题,因为它太宽泛是没有意义的。我的问题的主题是特定的:从作为发票的文档中提取信息。我提出了我的想法,我需要验证和/或不同的角度,因此我的职位在这里。 – abstractpaper
你可以检查以下讨论:http://stackoverflow.com/questions/40752242/machine-learning-information-extraction-from-a-document希望这会有所帮助.. – sansingh
@sansingh这是我的问题链接 – abstractpaper