2013-02-25 50 views
1

我使用伟大的Apache Tika库解析文件。我想用我自己的解析器提取元标记,然后仅从<body> -tag获取HTML内容并将其存储在数据库中。解析元标记并从Tika身上获取HTML内容

现在我已经试过这几个小时/天:-(,但无法找到一个解决方案:当我使用ToHTMLContentHandler<body> -tag我得到一个无效的命名空间异常而不

  • <html> -tag。
  • BodyContentHandler仅返回正文中不包含HTML标签。
  • tika-app似乎用一个TransformerHandler获得HTML(我从来没有听说过这样的处理程序befor的e。)我可以使用它来从<body> -tag获取HTML并自己解析元标记吗?这是比使用ToHTMLContentHandler更好的方法吗?

回答

2
+0

谢谢,我不知道这些有趣的文章,但他们不解决我的问题。当我伪造''开始元素时,我终于使用'TransformerHandler',它也在''标签后面工作。 – Sonson123 2013-03-19 13:04:45

+0

很高兴在这里!如果你对你的问题有一些解决方案,你可以在这里发布它并将此线程标记为“已回答”。所以,有类似问题的其他人可以从这里获得参考。 – 2013-03-26 05:15:09

+1

很难发布我的解决方案的通用版本,它只是一个黑客。如果任何人有类似的问题,我会建议他看看'tika-app'的来源,并阅读更多关于XSLT处理的内容。 – Sonson123 2013-03-26 16:36:37