0
所以我有一张发票,我需要做出报告。平均约250页。所以我试图创建一个脚本来提取发票的具体价值并制作报告。这是我的问题:根据列明智地分割文本文件
- 该发票是在pdf格式与它跨越两列。在Linux命令中,我想使用'pdftotext'Linux命令将其转换成多个文本文件(每个txt文件代表每个pdf页面)。我该怎么做
- 我认识到'pdftotext'命令将页面的左边部分和页面的右边部分分开,其间有21个空格。如何将数据的右侧(连续读取至少21个空格后识别)添加到文件末尾
- 由于文件很大,并且只有文件的最后几页,因此如何删除所有文件这些文本文件在脚本中(不是手动),直到我读了一个关键字(让我们只是说关键字=开始发票)?
我知道这是很多问题,但我很困惑Linux命令可以做什么。你们能指导我走向正确的方向吗?由于
PS:我使用CentOS 5.2