2013-05-16 174 views
-1

有没有办法使用Java将XHTML转换为纯文本?将XHTML转换为纯文本

任何人都可以请指导我吗?

+2

你必须写一些代码。 – woz

+1

XHTML到纯文本到底是什么意思? XHTML已经是一个纯文本文件。尝试在编辑器(记事本)中打开。 您的意思是删除所有标签吗?请提供更多信息 – Makky

+0

假设我有下面的XHTML,从那我需要提取“标题”和“身体”作为明文有没有办法做到这一点使用Java/Unix脚本。 <!DOCTYPE html PUBLIC“ - // W3C // DTD XHTML 1.0 Transitional // EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”> 名称的文件 页源

这是测试页。

Aravind

回答

0

如果您想要从XHTML结构中提取特殊数据,请尝试jsoup。它提供了类似jquery的方法来提取和操作XHTML。你可以迭代所有html dom元素并获取文本属性。

或者,如果您想删除html标签并仅保留文本,请尝试使用正则表达式。看看这stackoverflow thread