2013-01-11 75 views

回答

1

我不知道在Grails/Groovy中,但是您可以使用Apache lib PDF Box在您的项目中解析PDF。

0

就像另一种选择一样,我一直对Aspose产品获得成功。我与Aspose没有任何关系。我只是喜欢他们的产品。

0

其他选项包括支持pdf和其他格式的Apache TikaiText

要将使用Groovy/Grails的使用以下的Java,你会使用Groovy/Grails的

使用Apache蒂卡与Java中,你必须:

  • 下载蒂卡-APP-1.2。从tika.apache.org
  • 下载this示例程序
  • 罐子编译程序用javac -cp蒂卡-APP-1.2.jar TextExtractor.java
  • 提取一些文本java -cp tika-app-1.2.jar :. TextExtractor aPDFFile.pdf

与Java使用的iText,你会:

  • 下载itextpdf-5.3.5.jar
  • 编译如下:

    import java.io.IOException; 
    
    import com.itextpdf.text.pdf.PdfReader; 
    import com.itextpdf.text.pdf.parser.PdfTextExtractor; 
    
    public class itextHelloWorld { 
    
    
        static void extract(String input) throws IOException{ 
         String path = input; 
         PdfReader reader = new PdfReader(path); 
         int numberOfPages = reader.getNumberOfPages(); 
         for (int i = 0;i<numberOfPages;i++) { 
          System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1)); 
         } 
        } 
    
        public static void main(String[] args) throws IOException { 
         extract(args[0]); 
        } 
    } 
    
  • 提取文本用java -cp itextpdf-5.3.5.jar :. itextHelloWorld aPDFFile.pdf

+0

,我不知道该怎么办,因为格式化信息丢失与我贴用于提取PDF数据的方法。也许你可以发布一个后续的Stack Overflow问题来看看如何最好地完成你所要求的。 –