我正在python 2.7上创建我自己的网络爬虫,它将网站下载到我的计算机的路径中,并以类似的方式将文件保存在现场例如在服务器上:如何更改HTML文件的链接到本地链接
https://stackoverflow.com/questions/ask?title=python+how+to+change+links+of+html+file+to+local+links
我将计算器的目录里面的问题,并在里面这个网页的HTML文件的目录...
我怎样才能改变链接到互联网页面链接到我下载的页面,如果它们已经存在于我的电脑上?
例如,如果有: <a href="https://stackoverflow.com/questions">
所以我将通过蟒蛇改变这个网站码到 <a href="/questions">
或这样的事情..
我不知道是否有帮助,但是这是我使用的功能 高清downloadFile(路径,URL):在一个单一的文件下载
try :
print "Downloading : " + url
path=path + urlparse(url).path
path , fileName = pathNameSplit(path)
make_sure_path_exists(path)
print "trying to downoad " + fileName
if (fileName.count(".") == 0):fileName = fileName + ".html"
#pickle.dump(url2Html(url) , open(path + fileName, "w"))
urllib.urlretrieve(url, path + fileName)
print "Download of " + url + " Completed"
except Exception:
print "Sometihng occured in the download of " + url
如果我是你,我禾uld使用[请求](http://docs.python-requests.org/en/latest/)而不是urllib –