从多页PDF集合中提取页面级ASCII文本？

我正在尝试获取页面级别ASCII文本不在一系列多页PDF中。我目前的过程是用批处理Sejda（一个很棒的工具）分割所有的PDF文件，然后从分割的PDF文件（Sejda作为批处理）中提取文本到相应的文本文件。有没有简单的方法来绕过分裂阶段，并直接进入页面级TXT文件？我只想输入多页PDF的集合，并为每个PDF的每个页面输出相应的TXT文件。任何意见或见解将不胜感激。从多页PDF集合中提取页面级ASCII文本？

我的过程

File.pdf --> File-001.pdf; File-002.pdf; etc. --> File-001.txt; File-002.txt; etc

来源

2013-10-25 user2918726

既然你提到Sejda，你的功能谈论计划但尚未实施，也许你想继续关注它[这里]（https://github.com/torakiki/sejda/issues/85） –

Sejda version 1.0.0.M8有您正在寻找的任务是：在命令行ExtractTextByPages

用法示例：

bin/sejda-console extracttextbypages -f /tmp/file.pdf -o /tmp -e "UTF-8" --pageNumbers 1 3 5

来源

2013-10-26 11:47:51 Edi

从多页PDF集合中提取页面级ASCII文本？

回答

相关问题