我有一个包含一些HTML代码的字符串。我想知道HTML代码是代表可见文本还是图片。我使用Java来解决这个问题,使用下面的正则表达式(我知道你不能使用RegExps解析HTML,但我认为我对RegExps的支持足够了)。看看HTML代码是否代表可见的文本/图片
public static String regex_html_tags_1 = "<\\s*br\\s*[/]?>";
public static String regex_html_tags_2 = "<\\s*([a-zA-Z0-9]+)\\s*([^=/>]+\\s*=\\s*[^/>]+\\s*)*\\s*/>";
public static String regex_html_tags_3 = "<\\s*([a-zA-Z0-9]+)\\s*([^=>]+\\s*=\\s*[^>]+\\s*)*\\s*>\\s*</\\s*\\1\\s*>";
public static String[] HTMLWhiteSpaces = {" ", " "};
使用这些正则表达式的代码工作正常,串像
<h2></h2>
或相似。但一串
<img src="someImage.png"></img>
也被认为是空的。
有没有人比使用RegExps找出一些HTML代码实际上代表人类可读的文本,当它被浏览器解释时有更好的主意?或者你认为我的方法最终会成功吗?
非常感谢。
您是否将'display:hidden'视为隐形? – khachik
谁会创建一个不可读的页面?我不明白。 –
我在说的HTML不是一个(网页)页面。内容是描述“某物”属性的XML文件的一部分。如果此描述不可读,则该财产不应出现在显示“某物”属性的文档中。 – LaDude