根据列明智地分割文本文件

所以我有一张发票，我需要做出报告。平均约250页。所以我试图创建一个脚本来提取发票的具体价值并制作报告。这是我的问题：根据列明智地分割文本文件

该发票是在pdf格式与它跨越两列。在Linux命令中，我想使用'pdftotext'Linux命令将其转换成多个文本文件（每个txt文件代表每个pdf页面）。我该怎么做
我认识到'pdftotext'命令将页面的左边部分和页面的右边部分分开，其间有21个空格。如何将数据的右侧（连续读取至少21个空格后识别）添加到文件末尾
由于文件很大，并且只有文件的最后几页，因此如何删除所有文件这些文本文件在脚本中（不是手动），直到我读了一个关键字（让我们只是说关键字=开始发票）？

我知道这是很多问题，但我很困惑Linux命令可以做什么。你们能指导我走向正确的方向吗？由于

PS：我使用CentOS 5.2

什么：

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT 
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

但你应该看看pdftotext的-raw和-layout选择了。还有更多的方法可以做到这一点...

2012-04-06 07:53:34

回答