2016-11-17 74 views
1

我正在使用pdf.js.读取文本,我得到的块与字体信息pdf.js获取有关嵌入字体的信息

Object { 
    str: "blabla", 
    dir: "ltr", 
    width: 191.433141, 
    height: 12.546, 
    transform: Array[6], 
    fontName: "g_d0_f2" 
} 

是否有可能获得约g_d0_f2莫名其妙的更多信息。

+0

通过未公开的API,页面obj具有commonObjs属性(https://github.com/mozilla/pdf.js/blob/master/examples/svgviewer/viewer.js#L29) - 您将获得ttf/otf数据,你可以解析它并找到你需要的所有信息:) – async5

回答

0

注意PDF.js getTextContent不会与假设匹配PDF中的字形。 PDF32000规范有两种不同的文本显示和提取算法。即使您可以在page.commonObjs中查找字体数据,但由于字形编码不匹配,它可能对提取的文本内容显示没有任何帮助。

页面的getTextContent正在进行文本提取,getOperatorList正在获取(字形)显示操作符。了解src/display/svg.js渲染器如何显示字形。