如何使用pdfbox提取文本内容的字体样式？

我正在使用pdfbox库从pdf文件中提取文本内容。我将能够提取所有文本，但无法找到提取字体样式的方法。如何使用pdfbox提取文本内容的字体样式？

2011-08-04 Master Stroke

帮我找到字体信息 - http://stackoverflow.com/questions/21705961/get-font-of-each -line-using-pdfbox – EvilInside

这是不正确的方式来提取字体。要阅读的字体一个具有通过PDF页面和下面摘录的字体迭代：

PDDocument doc = PDDocument.load("C:/mydoc3.pdf"); 
List<PDPage> pages = doc.getDocumentCatalog().getAllPages(); 
for(PDPage page:pages){ 
    Map<String,PDFont> pageFonts=page.getResources().getFonts(); 
}

来源

2012-03-02 18:12:11 Harpreet

import org.apache.pdfbox.pdmodel.PDDocument; 
import org.apache.pdfbox.util.PDFTextStripper; 
public class pdf2box { 
    public static void main(String args[]) 
    { 
     try 
     { 
    PDDocument pddDocument=PDDocument.load("table2.pdf"); 
    PDFTextStripper textStripper=new PDFTextStripper(); 
    System.out.println(textStripper.getText(pddDocument)); 
    textStripper.getFonts(); 



    pddDocument.close(); 
     } 
     catch(Exception ex) 
     { 
     ex.printStackTrace(); 
     } 
    } 


}

来源

2011-08-11 06:00:40

这给了我一个空的地图，而Harpreet的答案给了我预期的输出 – bcoughlan

PDFTextStripper在pdfBox 2.04中没有'getFonts（）'方法。 –

如何使用pdfbox提取文本内容的字体样式？

回答

相关问题