2013-12-12 191 views
0

感谢您的回复。文本即将到来,但不考虑任何(空格,字体大小,侧面标题,正文)。我想从pdf中读取数据,确切地说它存在于其中。任何帮助赞赏。下面使用java中的itext将pdf文件转换为word文档

这里我的代码被赋予是到目前为止我的代码:

package bis.proj.samp; 

import java.io.File; 
import java.io.FileOutputStream; 
import com.itextpdf.text.pdf.PdfReader; 
import com.itextpdf.text.pdf.parser.PdfTextExtractor; 
import com.lowagie.text.Document; 
import com.lowagie.text.Paragraph; 
import com.lowagie.text.rtf.RtfWriter2; 

public class ReadPdfFile { 

public static void main(String[] args) { 
    try { 

     Document document = new Document(); 

     File file = new File("/home/mujafar/Desktop/file.doc"); 
     if(!file.exists()) 
      file.createNewFile(); 

     RtfWriter2.getInstance(document, new FileOutputStream("/home/mujafar/Desktop/file.doc")); 
     System.out.println("file created"); 
     document.open(); 

    PdfReader reader = new PdfReader("/home/mujafar/Desktop/NPTEL Transcription Guidelines.pdf"); 
    int n = reader.getNumberOfPages(); 
    System.out.println("total no of pages:::"+n); 
    String s=""; 
    for(int i=1;i<=n;i++) 
    { 

     s=PdfTextExtractor.getTextFromPage(reader, i); 


     System.out.println("string:::"+s); 
     System.out.println("===================="); 

     document.add(new Paragraph(s)); 
     document.newPage(); 
    } 
    document.close(); 
    System.out.println("completed"); 
    } catch (Exception de) {} 
    } 

} 

回答

0

它可能更好地使用RenderListener,像这样:

PdfReader reader = new PdfReader(inputStream); 
StringBuilder documentText = new StringBuilder(); 
RenderListener listener = new RenderListener() 
{ 
    @Override 
    public void renderText(TextRenderInfo arg0) 
    { 
     LineSegment segment = arg0.getBaseline(); 
     int x = (int)segment.getStartPoint().get(Vector.I1); 
     int y = (int)segment.getStartPoint().get(Vector.I2); 
     b.append("at "+x+"/"+y+": "+arg0.arg0.getText()); 
     b.append("\n"); 
    } 

    @Override 
    public void renderImage(ImageRenderInfo arg0) 
    { 
     // TODO 
    } 

    @Override 
    public void endTextBlock() 
    { 
    } 

    @Override 
    public void beginTextBlock() 
    { 
    } 
}; 

PdfReaderContentParser p = new PdfReaderContentParser(reader); 
for (int i = 1; i <= reader.getNumberOfPages(); i++) 
{ 
    p.processContent(i, listener); 
    b.append("\n\n(page break)\n\n"); 
} 

// b now contains the accumulated text from your PDF. 
// You could use Apache Poi to construct a DOCX with it. 
System.out.println(b.toString()); 

注意,renderText电话不一定按照它们在屏幕/纸张上出现的顺序排列,您可能需要根据各种arg0对象中的X/Y坐标“重构”页面布局。

+0

感谢您的回复。但我不明白如何使用上述代码。请您附上完整的代码,从pdf文件中读取内容(文本和图像),并将内容写入word文档(doc/docx)。 – mujafar

+0

以上只是为了得到文字,因为这是我认为你需要的。我会编辑它以使其更加完整。图像和布局留作练习。 RenderListener也有一个renderImage()方法。 – geert3

+0

感谢您的回复。文本即将到来,但不考虑任何(空格,字体大小,侧面标题,正文)。我想从pdf中读取数据,确切地说它存在于其中。任何帮助赞赏。我的代码如下 – mujafar

相关问题