是否有任何方式使用python获取网站中的所有链接,而不仅仅是在网页中?我想这个代码,但是这是给我只能在网页链接使用python获取avalibale在网站中的所有链接?
import urllib2
import re
#connect to a URL
website = urllib2.urlopen('http://www.example.com/')
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links
你是什么意思与“中的所有链接网站不仅在网页上“?你的意思是存储在www.example.com上的任何html页面中包含的每一个链接? – syntonym
是的,这就是我的意思 –
你不能那样做。你甚至可能无法访问所有的html页面。但是,您可以递归访问您收集的链接(如果他们也指向www.exmaple.com或者它们是相对链接)并从那里获取所有链接。然而,这可能不是“全部链接”,例如如果页面example.com/jfifjfi中没有链接指向您将无法访问该页面。 – syntonym