2011-07-12 26 views
0

嘿,我想解析一些数据,我发送给我一个字符串的HTML。 我想要的数据是大写,我将在这里命名为DATAx。 数据的长度是任意的。从字符串解析htmltags java/gwt

http://pastebin.mozilla.org/1270216

还有更多的线路像这样的,我必须解析。

thx for answears!

+0

您需要提供一些关于您试图从该String中提取的数据类型的更多信息,称其为'DATAx'在这种情况下没有帮助。也没有分隔符(如每个数据之间的逗号),这可能是非常困难的。 – Arj

+0

试图让代码进入帖子:) – Alb

+0

它的字符串和双打我想从html获得 – Alb

回答

2

我和jsoup有过很好的运气。它使用jQuery风格的dom节点选择器,并且可以使用HTML片段,即使格式非常不好。

+0

ok thx我看看它 – Alb

+0

http://jsoup.org/cookbook/input/parse-document-从字符串我可以从不同的ID和标签获得纯文本? – Alb

+0

@Alb - 是的。通过例子。具体来说,这一个:http://jsoup.org/cookbook/extracting-data/attributes-text-html – cdeszaq

0

我不知道jsoup,但TagSoup是一个很棒的HTML解析库。我已经在一个生产系统中使用了几年(至少)数万个(至少)的网页,而且我们从来没有从TagSoup那里得到过单一的失败。它甚至可以处理最可怕的格式化HTML想象。