解析元标记并从Tika身上获取HTML内容

我使用伟大的Apache Tika库解析文件。我想用我自己的解析器提取元标记，然后仅从<body> -tag获取HTML内容并将其存储在数据库中。解析元标记并从Tika身上获取HTML内容

现在我已经试过这几个小时/天:-(，但无法找到一个解决方案：当我使用ToHTMLContentHandler后的<body> -tag我得到一个无效的命名空间异常而不

<html> -tag。
BodyContentHandler仅返回正文中不包含HTML标签。
的tika-app似乎用一个TransformerHandler获得HTML（我从来没有听说过这样的处理程序befor的e。）我可以使用它来从<body> -tag获取HTML并自己解析元标记吗？这是比使用ToHTMLContentHandler更好的方法吗？

2013-02-25 Sonson123