2011-03-09 69 views
2

我目前正在寻找方法来阅读网站的可见文本并将其存储到使用Java的纯文本字符串中。Html 2文本 - 删除“隐藏”文本

换句话说,我想的东西转换是这样的:

Hello <span style="display: none">stupid</span> World为 “Hello World” 的

或类似

<span>Un</span>friendly为 “不友好”(而不是像“联合国友好“)

Hello 

World 

插入到“Hello World”中(因为HTML中忽略了新行)

你知道任何可以协助完成此任务的lib吗?

干杯,

马蒂亚斯

+0

你试过正则表达式吗? ;) – 2011-03-09 13:26:24

+0

你需要的是某种HTML渲染器。 – adarshr 2011-03-09 13:28:14

回答

0

查看Cobra以查看API是否提供了任何方法来呈现HTML并将其转换为纯文本。