我想在MS Word文档中获取用Textbox写的信息。我使用Apache POI来解析word文档。如何使用Apache POI从MS Word文档的文本框中获取文本?
目前我遍历所有的段落对象,但这段落列表不包含来自TextBox的信息,所以我在输出中缺少这些信息。
例如
paragraph in plain text
**<some information in text box>**
one more paragraph in plain text
什么我想提取:
<para>paragraph in plain text</para>
<text_box>some information in text box</text_box>
<para>one more paragraph in plain text</para>
什么我得到目前:
款明文
以纯文本
多了一个段落任何人都知道如何使用Apache POI从文本框中提取信息?
格式:doc或docx? – JasonPlutext 2011-03-30 11:25:56
@plutext,以doc格式开头,但后来需要为docx和rtf做同样的事情。 – Shekhar 2011-03-31 10:44:51
您可以考虑使用JODConverter + LibreOffice将所有三种格式转换为docx,然后使用POI(或docx4j)从docx中提取文本框内容。这样你就不必担心二进制格式,或者解析rtf。 – JasonPlutext 2011-03-31 12:07:15