2013-01-12 61 views
0

即时尝试匹配来自html输出的一些数据,但我不知道我能做些什么来执行它的权利。因此,使用下面的代码块IM中提取的访问和组信息的内容:从HTML表格解析结果

import requests 
import lxml.etree as LE 
import lxml.html as LH 

url = "http://theurl" 
r = requests.get(url,auth=('user', 'pass')) 
html = r.text 

root = LH.fromstring(html) 
LE.strip_tags(root, 'b') 
data_list = root.xpath("""//td[text()='grouplist'] 
          /following-sibling::*""")[0] 

accessList= data_list.xpath("""//td[text()='access'] 
           /following-sibling::*/text()""") 

groups = data_list.xpath("""//td[text()='groups'] 
           /following-sibling::*/text()""") 

如果我打印accesslist中,我有我想要的数据:

print accessList 
['Administrators', 'group_a', 'group_b', 'group_c'] 

但是当我打印组,返回的结果将是:

print groups: 
['\n','\n','\n'] 

有了这样的信息,有什么事情才能做才能得到:

print groups 
['group_a', 'group_b', 'group_c'] 

在这里,你可以看到返回的HTML导致

<TABLE bgcolor="#dddddd" border="1" /> 
<TR> 
    <TD valign="top"><B>grouplist</B></TD> 
    <TD> 
     <TABLE /> 
<TR> 
    <TD> 
     <TABLE bgcolor="#dddddd" border="1" /> 
<TR> 
    <TD valign="top"><B>access</B></TD> 
    <TD>Administrators</TD> 
</TR> 
<TR> 
    <TD valign="top"><B>inUse</B></TD> 
    <TD>true</TD> 
</TR> 
<TR> 
    <TD valign="top"><B>groups</B></TD> 
    <TD> 
     <TABLE> 
     <TR> 
      <TD>group_a</TD> 
     </TR> 
     <TR> 
      <TD>group_b</TD> 
     </TR> 
     <TR> 
      <TD>group_c</TD> 
     </TR> 
     </TABLE> 
    </TD> 
</TR> 
<TR> 
    <TD valign="top"><B>deny</B></TD> 
    <TD> 
     <TABLE> 
     </TABLE> 
    </TD> 
</TR> 

编辑:提前 html tester

感谢:HTML代码可以在这里进行测试。

+0

什么是'LH'?什么是'LE'?请提供工作代码片段,而不是没有提供进一步细节的代码片段。 –

+0

@CRUSADER,感谢您指出这一点。 le和lh是lxml.etree和lxml.html。现在添加在主要问题上。 –

回答

1
groups = data_list.xpath("""//td[text()='groups'] 
           /following-sibling::td/table/tr/td/text()""") 

,或者少一点而言,

groups = data_list.xpath("""//td[text()='groups'] 
           /following-sibling::*//td/text()""") 

作品。如果过于具体你的目的,你可以改为定义groups这样:

groups = data_list.xpath("""//td[text()='groups'] 
           /following-sibling::*""")[0] 

然后用text_content

groups = groups.text_content().split() 

不过,将在空白的文本内容可能不是很好,如果group_agroup_b和/或group_c被本身包含空格的文本替换。

+0

再次感谢unutbu。是的,这是特定的情况下,但我有很多其他的HTML结果适合该模式匹配。 –