2013-10-25 43 views
1

我正在尝试获取页面级别ASCII文本不在一系列多页PDF中。我目前的过程是用批处理Sejda(一个很棒的工具)分割所有的PDF文件,然后从分割的PDF文件(Sejda作为批处理)中提取文本到相应的文本文件。有没有简单的方法来绕过分裂阶段,并直接进入页面级TXT文件?我只想输入多页PDF的集合,并为每个PDF的每个页面输出相应的TXT文件。任何意见或见解将不胜感激。从多页PDF集合中提取页面级ASCII文本?

我的过程

File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc 
+1

既然你提到Sejda,你的功能谈论计划但尚未实施,也许你想继续关注它[这里](https://github.com/torakiki/sejda/issues/85) –

回答