4
A
回答
7
尝试PDFBOX
public class PDFTextReader
{
static String pdftoText(String fileName) {
PDFParser parser;
String parsedText = null;
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(fileName);
if (!file.isFile()) {
System.err.println("File " + fileName + " does not exist.");
return null;
}
try {
parser = new PDFParser(new FileInputStream(file));
} catch (IOException e) {
System.err.println("Unable to open PDF Parser. " + e.getMessage());
return null;
}
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
} catch (Exception e) {
System.err
.println("An exception occured in parsing the PDF Document."
+ e.getMessage());
} finally {
try {
if (cosDoc != null)
cosDoc.close();
if (pdDoc != null)
pdDoc.close();
} catch (Exception e) {
e.printStackTrace();
}
}
return parsedText;
}
public static void main(String args[]){
try {
String content = pdftoText(PDF_FILE_PATH);
File file = new File("/sample/filename.txt");
// if file doesnt exists, then create it
if (!file.exists()) {
file.createNewFile();
}
FileWriter fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
bw.write(content);
bw.close();
System.out.println("Done");
} catch (IOException e) {
e.printStackTrace();
}
}
}
4
我已经深深的看了这个问题,我发现,对于正确的结果,你需要无法避免同时使用微软Word。甚至像LibreOffice这样的资助项目也会因为Word格式相当复杂而改变版本而与正确的转换相抗争。只有MS Word会跟踪这一点。
因此,我实施了documents4j将使用Java API的转换委托给MS Word。此外,它还允许您将转换移至另一台可以使用REST API联系的机器。您可以找到详细信息on its GitHub page。
+0
'类型com.documents4j.job.AbstractConverterBuilder无法解析。它是从所需的.class文件中间接引用的,并且该类型不存在于javadoc参考中 – Mauro
+0
看起来像您的类路径不完整。 javadoc只包含官方的API类。 –
相关问题
- 1. 如何将PDF文件转换为使用vb.net的word文件
- 2. Java:使用apache POI如何将ms word文件转换为pdf?
- 3. 使用java中的itext将pdf文件转换为word文档
- 4. 将pdf文件转换为word文档
- 5. 使用java将文件转换为PDF
- 6. 将pdf转换为word doc文件
- 7. 如何使用ABCPdf将WPS office word,excel文件转换为PDF
- 8. 如何将word文档转换为perl中的pdf文件?
- 9. 如何以编程方式将Word文件转换为使用Word 2007的PDF?
- 10. 如何将PDF文件转换为java swing中的doc文件?
- 11. 使用java将.mht文件转换为pdf文件
- 12. 转换HTML文件为PDF使用Java
- 13. 如何使用ImageMagick将PDF文件转换为图像文件
- 14. 如何使用Perl将PDF文件转换为DOC文件?
- 15. 将Excel和Word文件转换为PDF使用ruby
- 16. 如何使用Java将HTML网页转换为PDF文件
- 17. 如何使用java将PNG文件转换为PDF?
- 18. 如何将多个pdf文件转换为使用java的单个tiff文件?
- 19. 如何以编程方式将Word文件转换为PDF?
- 20. 将PDF转换为HTML文件Java API
- 21. 将任何文件类型转换为使用Java API的pdf
- 22. 使用PHP填充word文件并将其转换为PDF文件
- 23. 使用Java将Word文档转换为PDF
- 24. 如何将gp4文件转换为pdf
- 25. 如何将.CATDrawing文件转换为.pdf
- 26. 如何将DJVU文件转换为PDF
- 27. 将word文档转换为pdf的vbscript
- 28. 将html文件转换为PDF文件?
- 29. 将.jrxml文件转换为.pdf文件
- 30. 用于将Word和Excel文档转换为PDF的ActiveX组件
谷歌它,你会发现你的答案。你也应该使用stackoverflow的搜索引擎... – ZeusNet
你可以使用aphace poi。 http://poi.apache.org/ –
它看起来容易吗? –