2015-09-05 13 views
0

我想遍历html页面中的所有子节点。例如 例如<body>......</body>将会有许多子标签,我想要递归遍历所有这些标签,因此没有标签保持未访问状态。然后我想从每个标签中获取文本。 我正在寻找一种通用解决方案,它可以适用于任何具有任何结构的网页。有人可以提出这个建议吗? 谢谢如何遍历所有标签的所有子项以使用Python中的lxml获取数据?

+0

例如1) //一些文本

//some text

  • //some text
  • //Text for End of div
    //一些文本 – Kaggler

    回答

    0

    是的,python beautiful soap 是一个很棒的python库,有很多功能可以做到这一点。

    +0

    谢谢,但我正在寻找使用lxml的解决方案 – Kaggler

    相关问题