PDFBox - 2.0.3 - PDFTextStripper在裁剪/旋转之前从页面中拾取旧文本

我试图通过使用Apache PDFBox对文件中的单个PDF页面执行一些字符串验证。PDFBox - 2.0.3 - PDFTextStripper在裁剪/旋转之前从页面中拾取旧文本

我打算在大多数情况下使用PDFTextStripper，因此我要解决的第一个问题是所有我要验证的PDF都将生成为2up;例如第1页，共2页和第2页，共2页在同一页面上，或者如果您想象您将书本面朝下扫描至扫描仪 - 除此之外，它们的定向不正确，需要旋转90度，因此PDFTextStripper可以读取它们正常。

使用以下问题/解决方案的元素，我已经构建了一种方法，首先将页面裁剪为一半，将裁剪后的页面导出为新文件，将每个页面旋转到正确的方向，然后保存文件;

Rotate PDF around its center using PDFBox in java

Split a PDF page in two parts [duplicate]

在视觉上，我的方法似乎是按预期工作，直到我对它运行PDFTextStripper - 它似乎恢复不只是我想要的网页的文本，但也页I从中出来。

为了确认问题，我从整个文档中提取了一个页面，并将其保存为一个新文件 - 运行PDFTextStripper时，即使我看到的字面上只有一页，仍然可以得到相同的结果。 Adobe搜索不会显示隐藏的遗留数据。

我只能假设，在我的转换方法，我需要重新定义裁剪页面只有裁剪页面的内容。

我的问题是，我该怎么做？

ps的 - 我还没有张贴了我的代码，因为它基本上是在上面的上述链接提供的解决方案的融合 - 但是如果我需要，我可以提供

来源

2017-10-09 Rusty Shackleford