2016-02-04 105 views
0

好的,我试图获取数据标题和href并将它们分配给java中的变量。从html文件中获取信息

<tr class="pl-video yt-uix-tile " data-video-id="MBBWVgE0ewk" data-set-video-id="" data-title="Windows Command Line Tutorial - 1 - Introduction to the Command Prompt"><td class="pl-video-handle "></td><td class="pl-video-index"></td><td class="pl-video-thumbnail"><span class="pl-video-thumb ux-thumb-wrap contains-addto"><a href="/watch?v=MBBWVgE0ewk&amp;index=1&amp;list=PL6gx4Cwl9DGDV6SnbINlVUd0o2xT4JbMu" 
+0

你说你想做点什么。向我们展示你曾经尝试过的做法,但没有成功。 –

+0

@TheHeadRush好的,说实话,我不知道这件事。我试着查找关于这个的教程和文档,但没有发现任何看起来像我想要的东西。我宁愿学习如何做,然后只是有人为我做,但我不认为任何人会回答,如果我只是要求这本书或文件。 –

+0

你想要的是一个DOM解析器。 Java在javax.xml.parsers包中为此提供了一组工具。下面推荐的Jsoup更友好一点,但是消耗更多的内存,至少在我的经验中。 –

回答

1

如果你不介意的话,包括依赖,对于这种东西叫做jsoup一个好的图书馆。

String html = ... 
Document doc = Jsoup.parse(html); 

Element tr = doc.select("tr").first(); 
Element link = tr.select("a").first(); 

String dataTitle = tr.attr("data-title"); 
String href = link.attr("href"); 
+0

这个工作到底如何,以及如果有超过1个的href或数据标题? –

+0

看看***解决方案***部分http://jsoup.org/cookbook/extracting-data/attributes-text-html –