与Apache提卡解析HTML的问题

我爬行网页和爬行它提取该网页的所有链接，然后我将尝试使用下面的代码，以便对某些URL，就来解析使用Apache提卡和BoilerPipe所有网址后解析得很好，但对于一些我得到这样的错误。它显示了上HTMLParser.java一些错误：行号102。这是在HTMLParser.java与Apache提卡解析HTML的问题

String parsedText = tika.parseToString(htmlStream, md);

我所提供的HTMLParse代码也行号102。

org.apache.tika.exception.TikaException: TIKA-198: Illegal IOException from [email protected] 
     at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:203) 
     at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197) 
     at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:135) 
     at org.apache.tika.Tika.parseToString(Tika.java:357) 
     at edu.uci.ics.crawler4j.crawler.HTMLParser.parse(HTMLParser.java:102) 
     at edu.uci.ics.crawler4j.crawler.WebCrawler.handleHtml(WebCrawler.java:227) 
     at edu.uci.ics.crawler4j.crawler.WebCrawler.processPage(WebCrawler.java:299) 
     at edu.uci.ics.crawler4j.crawler.WebCrawler.run(WebCrawler.java:118) 
     at java.lang.Thread.run(Unknown Source) 
Caused by: java.util.zip.ZipException: invalid block type 
     at java.util.zip.InflaterInputStream.read(Unknown Source) 
     at java.util.zip.ZipInputStream.read(Unknown Source) 
     at java.io.FilterInputStream.read(Unknown Source) 
     at org.apache.poi.openxml4j.util.ZipInputStreamZipEntrySource$FakeZipEntry.<init>(ZipInputStreamZipEntrySource.java:114) 
     at org.apache.poi.openxml4j.util.ZipInputStreamZipEntrySource.<init>(ZipInputStreamZipEntrySource.java:55) 
     at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:82) 
     at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:220) 
     at org.apache.poi.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:152) 
     at org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java:65) 
     at org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:67) 
     at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197) 
     ... 8 more

这是我HTMLParser.java文件 -

public void parse(String htmlContent, String contextURL) { 

     InputStream htmlStream = null; 
     text = null; 
     title = null; 
     metaData = new HashMap<String, String>(); 

     urls = new HashSet<String>(); 
     char[] chars = htmlContent.toCharArray(); 

     bulletParser.setCallback(textExtractor); 
     bulletParser.parse(chars); 

     try { 
      text = articleExtractor.getText(htmlContent); 
     } catch (BoilerpipeProcessingException e) { 
      e.printStackTrace(); 
     } 

     if (text == null){ 
      text = textExtractor.text.toString().trim(); 
     } 

     title = textExtractor.title.toString().trim(); 
     try { 
      Metadata md = new Metadata(); 
      String utfHtmlContent = new String(htmlContent.getBytes(),"UTF-8"); 
      htmlStream = new ByteArrayInputStream(utfHtmlContent.getBytes()); 
    //The below line is at the line number 102 according to error above 
       String parsedText = tika.parseToString(htmlStream, md); 
       //very unlikely to happen 
       if (text == null){ 
        text = parsedText.trim(); 
       } 
       processMetaData(md); 
      } catch (Exception e) { 
       e.printStackTrace(); 
      } finally { 
       IOUtils.closeQuietly(htmlStream); 
      } 
      bulletParser.setCallback(linkExtractor); 
      bulletParser.parse(chars); 
      Iterator<String> it = linkExtractor.urls.iterator(); 

      String baseURL = linkExtractor.base(); 
      if (baseURL != null) { 
       contextURL = baseURL; 
      } 

      int urlCount = 0; 
      while 

(it.hasNext()) { 
      String href = it.next(); 
      href = href.trim(); 
      if (href.length() == 0) { 
       continue; 
      } 
      String hrefWithoutProtocol = href.toLowerCase(); 
      if (href.startsWith("http://")) { 
       hrefWithoutProtocol = href.substring(7); 
      } 
      if (hrefWithoutProtocol.indexOf("javascript:") < 0 
        && hrefWithoutProtocol.indexOf("@") < 0) { 
       URL url = URLCanonicalizer.getCanonicalURL(href, contextURL); 
       if (url != null) { 
        urls.add(url.toExternalForm()); 
        urlCount++; 
        if (urlCount > MAX_OUT_LINKS) { 
         break; 
        } 
       }    
      } 
     } 
    }

任何建议将不胜感激。

来源

2011-11-30 ferhan

不知道是什么问题，但我认为你可能能够调试它更容易，如果您既可以通过一个调试器中运行，并检查htmlContent或至少记录它。这可能会让你知道内容中是否有某种奇怪的东西。 –

tika版本的问题？因为我在上面的例子中使用了Apache Tika 0.9，这取决于poi3.7。所以我假设org.apache.poi存在一些问题[http://comments.gmane.org/gmane.comp.apache.tika.user/543](http://comments.gmane.org/gmane。 comp.apache.tika.user/543） – ferhan

当我将tika版本从0.9升级到1.0时，我开始得到这样的不同错误。 'org.apache.tika.exception.TikaException：TIKA-198：来自org.apache.tika.parser.pkg.PackageParser @ 4fd30479的非法IOException＃ – ferhan

听起来像格式错误OOXML文档（.docx，.XLSX等）。要检查问题是否仍与最新版本蒂卡发生，你可以download的蒂卡-应用罐子，像这样运行：

java -jar tika-app-1.0.jar --text http://url.of.the/troublesome/document.docx

这应该打印出包含在文档中的文本。如果不起作用，请将bug report与烦人文档的URL一起提交（或者如果文档不公开，请附上文档）。

来源

2011-11-30 08:45:18

我有同样的问题，我发现，我试图解析文档（DOCX）文件本来就不是简单的文件，它的形式与标签文本旁边的文本和输入字段的Microsoft Word开发。

我删除的文件夹下的所有文件到Solr引擎解析和索引的休息后这样的文件，它的工作。

来源

2016-09-13 16:22:18 JPatel

我发现问题是解析docx文件的“TotalTime”元数据。元数据的问题，以下是错误我得到：异常线程“main” org.apache.tika.exception.TikaException：错误在org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse创建OOXML提取（ OOXMLExtractorFactory.java:120） at。。。。在org.apache.tika.cli.TikaCLI.main（TikaCLI.java:145）引起：org.apache.xmlbeans.impl.values.XmlValueOutOfRangeException：无效int值：4294966778 – JPatel

与Apache提卡解析HTML的问题

回答

相关问题