使用Grails阅读PDF文件

我想从网站解析PDF文件。使用Grails阅读PDF文件

任何人都可以说如何从使用Grails的PDF文件中提取文本（逐字）吗？

来源

2013-01-11 itsvks

我不知道在Grails/Groovy中，但是您可以使用Apache lib PDF Box在您的项目中解析PDF。

来源

2013-01-11 15:13:28

就像另一种选择一样，我一直对Aspose产品获得成功。我与Aspose没有任何关系。我只是喜欢他们的产品。

来源

2013-01-11 18:16:07 Gregg

其他选项包括支持pdf和其他格式的Apache Tika和iText。

要将使用Groovy/Grails的使用以下的Java，你会使用Groovy/Grails的

使用Apache蒂卡与Java中，你必须：

下载蒂卡-APP-1.2。从tika.apache.org
下载this示例程序
罐子编译程序用javac -cp蒂卡-APP-1.2.jar TextExtractor.java
提取一些文本java -cp tika-app-1.2.jar :. TextExtractor aPDFFile.pdf

与Java使用的iText，你会：

下载itextpdf-5.3.5.jar

编译如下：

import java.io.IOException; 

import com.itextpdf.text.pdf.PdfReader; 
import com.itextpdf.text.pdf.parser.PdfTextExtractor; 

public class itextHelloWorld { 


    static void extract(String input) throws IOException{ 
     String path = input; 
     PdfReader reader = new PdfReader(path); 
     int numberOfPages = reader.getNumberOfPages(); 
     for (int i = 0;i<numberOfPages;i++) { 
      System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1)); 
     } 
    } 

    public static void main(String[] args) throws IOException { 
     extract(args[0]); 
    } 
}

提取文本用java -cp itextpdf-5.3.5.jar :. itextHelloWorld aPDFFile.pdf

来源

2013-01-11 22:57:08

，我不知道该怎么办，因为格式化信息丢失与我贴用于提取PDF数据的方法。也许你可以发布一个后续的Stack Overflow问题来看看如何最好地完成你所要求的。 –

使用Grails阅读PDF文件

回答

相关问题