有没有办法从Apache Tika的doc文件中获取所有样式？

我正在用POI解析.doc文件，当文字装饰发挥作用时，它将我引向Apache Tika。现在我可以用简单的文字装饰如<i></i>来提取文本，但是，我希望能够处理更复杂的样式。我的文档包含不同的字体大小，下标，上标等。有没有办法用Tika获取所有这些信息？如果没有，任何人都可以指定我使用更合适的工具吗？有没有办法从Apache Tika的doc文件中获取所有样式？

来源

2016-05-03 nora

如您发现的那样，Tika目前处理的不多于<i>和<b>。根据文档的复杂性，您可能会考虑直接使用POI（可能使用Tika的解析器作为示例）。您也可以在tika dev列表（[email protected]）上询问是否有兴趣将其他格式化功能添加到Tika中，或者可以在我们的Jira site上打开一张票。

来源

2016-05-03 15:15:09

我猜，POI有点草率地把我送走。我按照你的建议使用Tika语法分析器研究它，并找到了解决方法。谢谢！ – nora

有没有办法从Apache Tika的doc文件中获取所有样式？

回答

相关问题