我目前正在寻找方法来阅读网站的可见文本并将其存储到使用Java的纯文本字符串中。Html 2文本 - 删除“隐藏”文本
换句话说,我想的东西转换是这样的:
Hello <span style="display: none">stupid</span> World
为 “Hello World” 的
或类似
<span>Un</span>friendly
为 “不友好”(而不是像“联合国友好“)
或
Hello
World
插入到“Hello World”中(因为HTML中忽略了新行)
你知道任何可以协助完成此任务的lib吗?
干杯,
马蒂亚斯
你试过正则表达式吗? ;) – 2011-03-09 13:26:24
你需要的是某种HTML渲染器。 – adarshr 2011-03-09 13:28:14