3
A
回答
8
from lxml.html import parse
dom = parse('http://www.google.com/').getroot()
links = dom.cssselect('a')
+1
很好的答案,只需要做一个'pip install cssselect'来解决问题。 – taystack
1
from lxml import etree, cssselect, html
with open("/you/path/index.html", "r") as f:
fileread = f.read()
dochtml = html.fromstring(fileread)
select = cssselect.CSSSelector("a")
links = [ el.get('href') for el in select(dochtml) ]
links = iter(links)
for n, l in enumerate(links):
print n, l
+1
请注意,cssselect现在是一个独立的项目,不再使用lxml。用'pip install cssselect'安装。去[这里](https://pythonhosted.org/cssselect/)了解更多信息。 – jheyse
相关问题
- 1. 使用LXML获取所有HTML元素
- 2. 如何从使用watir的HTML获取所有链接?
- 3. 使用lxml获取div的HTML内容
- 4. 使用lxml查找div内的所有链接
- 5. 使用lxml从html获取文本
- 6. 使用左外连接获取表中的所有链接
- 7. 无法使用cURL获取html链接
- 8. HtmlAgilityPack获取DIV中的所有链接
- 9. 获取页面上的所有链接
- 10. 获取DOM中的所有href链接
- 11. jQuery - 获取text = mytext的所有链接
- 12. NSRegularExpression获取html内容中的所有下载链接
- 13. HTML敏捷包 - 获取某个类的所有链接
- 14. 获取HTML网页上的所有链接
- 15. 我如何使用easyhtmlparser从python的html文件中获取所有链接?
- 16. 从html获得所有链接,甚至显示更多链接
- 17. lxml - 查找具有某些扩展名的所有链接
- 18. 我想获取所有指向图片的链接,使用jQuery
- 19. 如何获取所有链接,并使用webdriver的
- 20. 如何使用perl获取网页中的所有链接?
- 21. 使用相同的URL获取所有Facebook链接
- 22. 使用python获取avalibale在网站中的所有链接?
- 23. 如何使用Python获取域中的所有链接?
- 24. 使用Ruby获取网页的所有链接
- 25. 如何从DOMDocument获取所有HTML链接?
- 26. 无法正确获取所有链接
- 27. 如何获取所有软件链接?
- 28. 如何获取所有链接标题?
- 29. Jsoup从页面获取所有链接
- 30. 需要使用webdriver获取所有可用链接
注意,HTML不是XML;如果由于缺少末尾元素或缺少属性值引号而导致解析有问题,[美丽的汤](http://www.crummy.com/software/BeautifulSoup/)可以帮助或者可能更适合。 –