是否有网站将其标识为正在访问它的脚本,尽管更改了我假设的User-Agent头部并且出现错误。网站抓取,机器人身份识别
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
如果是,那该怎么办?
是否有网站将其标识为正在访问它的脚本,尽管更改了我假设的User-Agent头部并且出现错误。网站抓取,机器人身份识别
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
如果是,那该怎么办?
首先,您的用户代理程序相当不完整,很容易检测为假。
我在我对3210的回答中描述了一些机器人检测技术。