您的第一次尝试应该是尝试使用当前版本的PDFBox。您的0.7.3版本可追溯至2006年的!与此同时,PDFBox已成为Apache项目,位于here: http://pdfbox.apache.org/,当前版本(截至2013年5月)为1.8.1。我非常肯定,PDFBox nowerdays不支持PDF参考版本1.5中新增的PDF对象流和交叉参考流,Adobe Acrobat 6的版本已经构建为
如果这样做不起作用,您可能想要尝试其他PDF库,例如iText(或iTextSharp在你的情况下)版本5.4.x如果AGPL(或者购买许可证)对你来说没有问题。
上利用iText(夏普)的文本分析的信息可以在第15章标明含量被发现和解析的iText in Action — 2nd Edition PDF。该章的样本可以在网上找到:Java和.Net。
对于第一次测试,样品ExtractPageContentSorted2.cs/ExtractPageContentSorted2.java将是一个好的开始。中央代码:
PdfReader reader = new PdfReader(PDF_FILE);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
StringBuilder sb = new StringBuilder();
for (int i = 1; i <= reader.NumberOfPages; i++) {
sb.AppendLine(PdfTextExtractor.GetTextFromPage(reader, i));
}
如果没有当前PDFBox的版本,也不是当前的iText(夏普)版本可以解析您的PDF,你可能要张贴检查的样本;有办法从PDF中删除文本解析所需的所有信息...
来源
2013-05-06 13:10:13
mkl
为什么用标记itextsharp标记此问题?你的问题只是关于PDFBox ... – 2013-05-06 12:34:15