apache-tika

    0热度

    1回答

    我有一个扫描的PDF已经被OCR,现在具有双层扫描图像和上面的文本。 如果我使用提卡集成正方体提取从PDF文本我得到重复的文字:一个来自OCR文本和另一个由正方体OCRing图像。 在这种情况下,我只需要OCR文本。 我不能只是禁用正方体,因为有可能是只包含图片或包含文本和图像的PDF文件的PDF文件。 正方体被集成在Tika像Apache Tika extract scanned PDF fil

    0热度

    2回答

    我在服务器模式下使用Appache Tika。 我需要开发java rest客户端来解析文件。 对于PDF文件上传我正在使用的代码: fileBody = new FileBody(file, "application/pdf"); multiPartEntity.addPart("uploaded_file", fileBody); pdfPutRequest.setEntity(multi

    0热度

    1回答

    我想索引扫描的PDF文件。我已经在Centos 6上安装了Solr 6.3.0,tesseract 3.04,leptonica 1.74我已经根据documentation配置了我的solrconfig。 我已经测试了tesseract和solr的png,jpg,并且每件事情都很好看。但是当我尝试索引扫描的PDF文件时,Solr没有索引扫描图像,只提取pdf注释消息(sample documen

    0热度

    1回答

    我无法从下面附加的图像中提取其PDF格式的内容,但是当我将它转换为jpg格式时它工作正常。我的问题是我有很多扫描的pdf,里面有多个扫描页面。我想看看是否有直接的方法来提取内容,而不是将pdf转换为jpg,然后提取文本。我跟在DOC的link PDF版本提供的解决方案是pdfversion 我的Java版本 “1.8.0_112”,正方体01年3月4日,leptonica-1.74.1, libj

    0热度

    1回答

    我尝试在Solr的6.3引用数据库列的字段使用/更新/提取物,但它不工作“stream_size”这个错误在我看来: Status: {"data":{"responseHeader":{"status":400,"QTime":8},"error":{"metadata":["error-class","org.apache.solr.common.SolrException","root-er

    1热度

    1回答

    我解析PDF文件以使用Apache Tika提取文本。 //Create a body content handler BodyContentHandler handler = new BodyContentHandler(); //Metadata Metadata metadata = new Metadata(); //Input file path FileInputStre

    0热度

    1回答

    我想从pdf文件中提取文本。但在某些情况下,pdf文件是硬拷贝的硬拷贝。 有没有一种方法,我可以找到给定的PDF是否扫描文件副本或普通的PDF文件。

    2热度

    1回答

    我正在尝试使用Apache tika解析某些文档,但它给了我很多错误和警告。 的build.gradle dependencies { ... compile ('org.apache.tika:tika-parsers:1.14'){ exclude group: 'org.json', module: 'json' exclude group: 'c

    0热度

    1回答

    我正在制作一个应用程序,它可以在众多已知文档格式(.docx,.odt,.txt等等)上创建Lucence索引。 )。 提卡是提取文本的理想选择,但它似乎是使我的脂肪瓶气球达到62 MB的罪魁祸首。 为了使脂肪罐子我在做这在我的build.gradle: buildscript { repositories { jcenter() } dependencies { // fat

    0热度

    1回答

    我想将tika解析器包含到我的拓扑中。我已经在配置中将jsoup.treat.non.html.as.error设置为false,并且我已经按照storm crawler文档中的描述设置了tika拓扑。是 爬网拓扑结构的设置如下: builder.setSpout("spout", new MemorySpout(testURLs)); builder.setBolt("partitioner