apache-tika

    0热度

    1回答

    我有一个项目与apache solr(版本6.2)和tika。我配置schema.xml,data-config.xml和solrconfig.xml,但是当我尝试使用方法\ update \ extract \上传pdf时,日志显示错误。 错误: Status: failure Response: { "responseHeader": { "status": 400,

    1热度

    1回答

    我们有一个pdf,它是一个手写文档,并使用扫描仪转换为pdf。我正在使用TIKA 1.13,但无法从这种文件中提取文本。解析后,我只将“\ n \ n”作为文本。这里是我的代码: Parser parser = new AutoDetectParser(); ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);

    0热度

    2回答

    我使用python3,urllib3和tika-server-1.13以便从不同类型的文件中获取文本。这是我的Python代码: def get_text(self, input_file_path, text_output_path, content_type): global config headers = util.make_headers() mime_t

    0热度

    1回答

    我有几个excel文件,我想使用TikaOnDotNet从这些文件中提取文本。这个库是所有大小小于160MB的文件的工作文件,但当我使用较大的文件时,它向我显示此错误: 类型'TikaOnDotNet.TextExtraction.TextExtractionException'的未处理异常发生在TikaOnDotNet.TextExtraction.dll 附加信息:从文件中提取文本失败 下面是

    0热度

    1回答

    我正在使用PDFBox和tika的内容索引的PDF文件。 每一件事情是工作的罚款与PDFFBox 1.8,但是当被更新PDFBox的2.0.2然后它给我下面的错误: (Thread-62 (HornetQ-client-global-threads-2071379348)) Exception while creating solr doucment for content::Failed to

    0热度

    1回答

    我正在一个错误,而谷歌查询API愿景: { "responses" : [ { "error" : { "code" : 3, "message" : "image-annotator::Malformed request.: Image processing error!" } } ] } 我已经通过其中包

    2热度

    1回答

    我的pdf包含扫描图像,我想从中提取文本。 我试过了:我用AutoDetectParsers试过但没有输出。 我遵循Apache Tika extract scanned PDF files提供的解决方案以及Apache Tika Jira在https://issues.apache.org/jira/browse/TIKA-1729,但获得空字符串没有任何错误。 我的配置:Win 7 64位操作

    0热度

    1回答

    我正在使用生成'.ps'文件的Postscript打印机,并且正在使用我的Linux机器中的'ps2pdf'命令将该.ps文件转换为.pdf。这是在这里生成的文件,它的内容是不可选择和可复制的。当我尝试使用apache Tika从同一pdf文件中提取内容时,它返回一个空字符串(表示无法提取)。我认为这可能是问题一些字体,所以我也安装了一些新的字体,但仍然没有为我工作。 我无法找出问题所在。无论是打

    1热度

    2回答

    我有以下的测试代码,以检测DOCX内容类型: @Test public void testContentTypeOfaWordDOCXFileIsReturnedCorrectlyByTheServer() throws IOException, TikaException { File docxFile = new File(FILE_COMPLETE_PATH);

    1热度

    1回答

    我有一个SOAP-WebService提供了一个方法,调用者可以上传PDF,JPG,PNG或BMP文件。 对于正确的处理,我需要从DataHandler中获取MIME类型。 我试图让MIME类型与Apache提卡: Tika tika = new Tika(); InputStream stream = dataHandler.getInputStream(); String mimeType