2012-09-02 217 views
0

这里是一段HTML来解析:如何获取HTML/XML中的属性?

<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;" title="Alkali metals; Primordial; Solid"> 
37 
<br /> 
<a title="Rubidium" href="/wiki/Rubidium">Rb</a> 
</td>` 

我可以xmlValue得到的值。 我得到的是:

text br a 
"19" "" "K" 

但我想属性的值,在tdtitle属性,价值“碱金属;原始;固体”atitle属性,数值为“铷”

我该如何得到它?

+0

BTW:maybe [this](http://stackoverflow.com/questions/4393780/scraping-a-wiki-page-for-the-periodic-table-and-all-the-links)SO问题对你有帮助。 – sgibb

回答

3

您可以使用xmlAttrsxmlGetAttr(详情请参阅?xmlAttrs)。

html <- '<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;" title="Alkali metals; Primordial; Solid">37<br /><a title="Rubidium" href="/wiki/Rubidium">Rb</a></td>' 
td <- xmlRoot(xmlParse(html)) 
xmlAttrs(td)["title"] 
# "Alkali metals; Primordial; Solid" 
xmlAttrs(xmlChildren(td)$a)["title"] 
# "Rubidium 

# or 
xmlGetAttr(td, "title") 
# "Alkali metals; Primordial; Solid"