我正在使用pdfbox库从pdf文件中提取文本内容。我将能够提取所有文本,但无法找到提取字体样式的方法。如何使用pdfbox提取文本内容的字体样式?
4
A
回答
14
这是不正确的方式来提取字体。要阅读的字体一个具有通过PDF页面和下面摘录的字体迭代:
PDDocument doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
Map<String,PDFont> pageFonts=page.getResources().getFonts();
}
0
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
public static void main(String args[])
{
try
{
PDDocument pddDocument=PDDocument.load("table2.pdf");
PDFTextStripper textStripper=new PDFTextStripper();
System.out.println(textStripper.getText(pddDocument));
textStripper.getFonts();
pddDocument.close();
}
catch(Exception ex)
{
ex.printStackTrace();
}
}
}
+2
这给了我一个空的地图,而Harpreet的答案给了我预期的输出 – bcoughlan
+0
PDFTextStripper在pdfBox 2.04中没有'getFonts()'方法。 –
相关问题
- 1. 如何使用pdfbox从pdf中提取粗体文本?
- 2. 如何使用pdfbox获取PDF表单文本字段的内容?
- 3. 使用Apache PDFBox提取出错文字的文本?
- 4. 如何使用Apache PDFBox从PDF文件中提取文本
- 5. Pdfbox文本提取异常
- 6. 使用pdfbox获取pdf文本的字体属性
- 7. 如何使用PDFBox将文本提取到JLabel
- 8. 使用PDFBox获取每行的字体
- 9. 不同的提示字体样式和键入的文本字体样式android
- 10. iText PDF字体和样式的文本提取
- 11. 用粗体/斜体信息PDFBox的文本提取不上的一些文件
- 12. 如何提取PDF格式的文本内容
- 13. PDFBox - 获取内容高度
- 14. 如何在Android中使用pdfbox显示PDF文档的内容
- 15. 如何使用Perl从SGML DTD中提取文本内容?
- 16. 如何从word文档中提取使用特定样式格式的文本?
- 17. 如何使用javascript从文本区域提取文本的样式,包括值?
- 18. 使用pdfbox从PDF文件中提取文本
- 19. 使用PDFBox提取没有页眉和页脚的文本
- 20. 如何使用PS脚本从psd文件获取字体样式
- 21. 使用PDFBox,FontBox等解析PDF到文本的字体问题
- 22. 如何使用pdfbox获取字体大小
- 23. 如何使用pdfbox获取字体颜色
- 24. 使用pdfbox - 如何从COSName获取字体?
- 25. 从单元格中提取文本内容(使用粗体,斜体等)
- 26. 如何使用PHP DOM获取页面样式表的内容?
- 27. 如何提取内容的字体大小
- 28. 使用PDFBox获取文本颜色
- 29. 使用PDFBox 2.0从PDF中提取文本
- 30. 使用Apache PdfBox在两个书签之间提取文本
帮我找到字体信息 - http://stackoverflow.com/questions/21705961/get-font-of-each -line-using-pdfbox – EvilInside