使用iTextSharp阅读PDF文件附件注释

/** 
* Extracts attachments from an existing PDF. 
* @param src the path to the existing PDF 
*/ 
public void extractAttachments(String src) throws IOException { 
    PdfReader reader = new PdfReader(src); 
    PdfArray array; 
    PdfDictionary annot; 
    PdfDictionary fs; 
    PdfDictionary refs; 
    for (int i = 1; i <= reader.getNumberOfPages(); i++) { 
     array = reader.getPageN(i).getAsArray(PdfName.ANNOTS); 
     if (array == null) continue; 
     for (int j = 0; j < array.size(); j++) { 
      annot = array.getAsDict(j); 
      if (PdfName.FILEATTACHMENT.equals(annot.getAsName(PdfName.SUBTYPE))) { 
       fs = annot.getAsDict(PdfName.FS); 
       refs = fs.getAsDict(PdfName.EF); 
       for (PdfName name : refs.getKeys()) { 
        FileOutputStream fos 
         = new FileOutputStream(String.format(PATH, fs.getAsString(name).toString())); 
        fos.write(PdfReader.getStreamBytes((PRStream)refs.getAsStream(name))); 
        fos.flush(); 
        fos.close(); 
       } 
      } 
     } 
    } 
    reader.close(); 
}

C＃：

/** 
* Extracts attachments from an existing PDF. 
* @param src the path to the existing PDF 
* @param zip the ZipFile object to add the extracted images 
*/ 
public void ExtractAttachments(byte[] src, ZipFile zip) { 
    PdfReader reader = new PdfReader(src); 
    for (int i = 1; i <= reader.NumberOfPages; i++) { 
    PdfArray array = reader.GetPageN(i).GetAsArray(PdfName.ANNOTS); 
    if (array == null) continue; 
    for (int j = 0; j < array.Size; j++) { 
     PdfDictionary annot = array.GetAsDict(j); 
     if (PdfName.FILEATTACHMENT.Equals(
      annot.GetAsName(PdfName.SUBTYPE))) 
     { 
     PdfDictionary fs = annot.GetAsDict(PdfName.FS); 
     PdfDictionary refs = fs.GetAsDict(PdfName.EF); 
     foreach (PdfName name in refs.Keys) { 
      zip.AddEntry(
      fs.GetAsString(name).ToString(), 
      PdfReader.GetStreamBytes((PRStream)refs.GetAsStream(name)) 
     ); 
     } 
     } 
    } 
    } 
}

KubrickDocumentary包含以下方法extractDocLevelAttachments/ExtractDocLevelAttachments提取文档级别的附件：

爪哇：

/** 
* Extracts document level attachments 
* @param filename  a file from which document level attachments will be extracted 
* @throws IOException 
*/ 
public void extractDocLevelAttachments(String filename) throws IOException { 
    PdfReader reader = new PdfReader(filename); 
    PdfDictionary root = reader.getCatalog(); 
    PdfDictionary documentnames = root.getAsDict(PdfName.NAMES); 
    PdfDictionary embeddedfiles = documentnames.getAsDict(PdfName.EMBEDDEDFILES); 
    PdfArray filespecs = embeddedfiles.getAsArray(PdfName.NAMES); 
    PdfDictionary filespec; 
    PdfDictionary refs; 
    FileOutputStream fos; 
    PRStream stream; 
    for (int i = 0; i < filespecs.size();) { 
     filespecs.getAsString(i++); 
     filespec = filespecs.getAsDict(i++); 
     refs = filespec.getAsDict(PdfName.EF); 
     for (PdfName key : refs.getKeys()) { 
     fos = new FileOutputStream(String.format(PATH, filespec.getAsString(key).toString())); 
     stream = (PRStream) PdfReader.getPdfObject(refs.getAsIndirectObject(key)); 
     fos.write(PdfReader.getStreamBytes(stream)); 
     fos.flush(); 
     fos.close(); 
     } 
    } 
    reader.close(); 
}

C＃：

/** 
* Extracts document level attachments 
* @param PDF from which document level attachments will be extracted 
* @param zip the ZipFile object to add the extracted images 
*/ 
public void ExtractDocLevelAttachments(byte[] pdf, ZipFile zip) { 
    PdfReader reader = new PdfReader(pdf); 
    PdfDictionary root = reader.Catalog; 
    PdfDictionary documentnames = root.GetAsDict(PdfName.NAMES); 
    PdfDictionary embeddedfiles = 
     documentnames.GetAsDict(PdfName.EMBEDDEDFILES); 
    PdfArray filespecs = embeddedfiles.GetAsArray(PdfName.NAMES); 
    for (int i = 0; i < filespecs.Size;) { 
    filespecs.GetAsString(i++); 
    PdfDictionary filespec = filespecs.GetAsDict(i++); 
    PdfDictionary refs = filespec.GetAsDict(PdfName.EF); 
    foreach (PdfName key in refs.Keys) { 
     PRStream stream = (PRStream) PdfReader.GetPdfObject(
     refs.GetAsIndirectObject(key) 
    ); 
     zip.AddEntry(
     filespec.GetAsString(key).ToString(), 
     PdfReader.GetStreamBytes(stream) 
    ); 
    } 
    } 
}

（出于某种原因，C＃示例把提取的文件在一些ZIP文件，而版本的Java把它们放到文件系统......哦也...）

来源

2013-02-19 06:57:56 mkl

确定。谢谢。它完美的作品。 ExtractAttachments函数是我需要的。 – 2013-02-19 21:24:54

使用iTextSharp阅读PDF文件附件注释

回答

相关问题