apache-tika

0热度

1回答

我有一个项目与apache solr（版本6.2）和tika。我配置schema.xml，data-config.xml和solrconfig.xml，但是当我尝试使用方法\ update \ extract \上传pdf时，日志显示错误。错误： Status: failure Response: { "responseHeader": { "status": 400,

1热度

1回答

无法使用TIKA提取文本

我们有一个pdf，它是一个手写文档，并使用扫描仪转换为pdf。我正在使用TIKA 1.13，但无法从这种文件中提取文本。解析后，我只将“\ n \ n”作为文本。这里是我的代码： Parser parser = new AutoDetectParser(); ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);

0热度

2回答

Python - urllib3使用tika服务器从docx获取文本

我使用python3，urllib3和tika-server-1.13以便从不同类型的文件中获取文本。这是我的Python代码： def get_text(self, input_file_path, text_output_path, content_type): global config headers = util.make_headers() mime_t

0热度

1回答

如何使用TikaOnDotNet库从大型Excel文件中提取文本？

我有几个excel文件，我想使用TikaOnDotNet从这些文件中提取文本。这个库是所有大小小于160MB的文件的工作文件，但当我使用较大的文件时，它向我显示此错误：类型'TikaOnDotNet.TextExtraction.TextExtractionException'的未处理异常发生在TikaOnDotNet.TextExtraction.dll 附加信息：从文件中提取文本失败下面是

0热度

1回答

我不能索引PDF文件后，我更新PDFBox从1.8到2.0.2

我正在使用PDFBox和tika的内容索引的PDF文件。每一件事情是工作的罚款与PDFFBox 1.8，但是当被更新PDFBox的2.0.2然后它给我下面的错误： (Thread-62 (HornetQ-client-global-threads-2071379348)) Exception while creating solr doucment for content::Failed to

0热度

1回答

谷歌云愿景API - “图像注释::错误的要求：图像处理错误”

我正在一个错误，而谷歌查询API愿景： { "responses" : [ { "error" : { "code" : 3, "message" : "image-annotator::Malformed request.: Image processing error!" } } ] } 我已经通过其中包

2热度

1回答

无法提取扫描的PDF使用TesseractOCRConfig Apache Tika

我的pdf包含扫描图像，我想从中提取文本。我试过了：我用AutoDetectParsers试过但没有输出。我遵循Apache Tika extract scanned PDF files提供的解决方案以及Apache Tika Jira在https://issues.apache.org/jira/browse/TIKA-1729，但获得空字符串没有任何错误。我的配置：Win 7 64位操作

0热度

1回答

无法使用tika从pdf文件中提取文本内容

我正在使用生成'.ps'文件的Postscript打印机，并且正在使用我的Linux机器中的'ps2pdf'命令将该.ps文件转换为.pdf。这是在这里生成的文件，它的内容是不可选择和可复制的。当我尝试使用apache Tika从同一pdf文件中提取内容时，它返回一个空字符串（表示无法提取）。我认为这可能是问题一些字体，所以我也安装了一些新的字体，但仍然没有为我工作。我无法找出问题所在。无论是打

1热度

2回答

提卡检测的docx文件作为邮编

我有以下的测试代码，以检测DOCX内容类型： @Test public void testContentTypeOfaWordDOCXFileIsReturnedCorrectlyByTheServer() throws IOException, TikaException { File docxFile = new File(FILE_COMPLETE_PATH);

1热度

1回答

从DataHandler检测MIME类型

我有一个SOAP-WebService提供了一个方法，调用者可以上传PDF，JPG，PNG或BMP文件。对于正确的处理，我需要从DataHandler中获取MIME类型。我试图让MIME类型与Apache提卡： Tika tika = new Tika(); InputStream stream = dataHandler.getInputStream(); String mimeType