2012-04-05 52 views
0

所以我有一张发票,我需要做出报告。平均约250页。所以我试图创建一个脚本来提取发票的具体价值并制作报告。这是我的问题:根据列明智地分割文本文件

  1. 该发票是在pdf格式与它跨越两列。在Linux命令中,我想使用'pdftotext'Linux命令将其转换成多个文本文件(每个txt文件代表每个pdf页面)。我该怎么做
  2. 我认识到'pdftotext'命令将页面的左边部分和页面的右边部分分开,其间有21个空格。如何将数据的右侧(连续读取至少21个空格后识别)添加到文件末尾
  3. 由于文件很大,并且只有文件的最后几页,因此如何删除所有文件这些文本文件在脚本中(不是手动),直到我读了一个关键字(让我们只是说关键字=开始发票)?

我知道这是很多问题,但我很困惑Linux命令可以做什么。你们能指导我走向正确的方向吗?由于

PS:我使用CentOS 5.2

回答

0

什么:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT 
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT 

但你应该看看pdftotext-raw-layout选择了。还有更多的方法可以做到这一点...