2016-05-03 67 views
0

我正在用POI解析.doc文件,当文字装饰发挥作用时,它将我引向Apache Tika。现在我可以用简单的文字装饰如<i></i>来提取文本,但是,我希望能够处理更复杂的样式。我的文档包含不同的字体大小,下标,上标等。有没有办法用Tika获取所有这些信息?如果没有,任何人都可以指定我使用更合适的工具吗?有没有办法从Apache Tika的doc文件中获取所有样式?

回答

1

如您发现的那样,Tika目前处理的不多于<i>和<b>。根据文档的复杂性,您可能会考虑直接使用POI(可能使用Tika的解析器作为示例)。您也可以在tika dev列表([email protected])上询问是否有兴趣将其他格式化功能添加到Tika中,或者可以在我们的Jira site上打开一张票。

+0

我猜,POI有点草率地把我送走。我按照你的建议使用Tika语法分析器研究它,并找到了解决方法。谢谢! – nora

相关问题