2012-11-17 84 views
-3

有人能帮我从HTML页面中的元素?我不想使用图书馆,我只想要一个关于如何使用正确的正则表达式和这样两个指针。我有点卡住这一点,所有的帮助表示赞赏。获取HTML/XML元素和值在Java

+2

因为他提到的正则表达式,有人打算无论如何要做到这一点。 OP,[这里](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)你走。 – Perception

回答

1

你必须先不管你是在谈论HTML或XML来决定。

如果你的文本是一个有效的XML文档,那么你可以使用JAXP解析文档和访问元素/属性编程(正则表达式中没有必要)。

如果您的文本是不是有效的XML文档,则没有组正则表达式是以往任何时候都为你的100%情况下的工作;你能做的最好是使用JDK内置的HTML解析器,将摇摆框架的一部分提供。

0

JDK包含一个基本HTML parser。它不是很健壮,但你确实指定了你“不想使用库”。所以......我想你会把自己击倒吗?