我刮的网站的URL结构这样改变URL:刮多个网页与Python的
www.website.com/data?page=1
我想编写一个程序,使用迭代从所有页面中删除数据,这些页面从1开始,以各种数字结束,具体取决于我在表单上选择的数据字段。
我想我可以切断URL并使用迭代器来增加该页面,但我无法连接一个str和int对象。有什么建议?
我刮的网站的URL结构这样改变URL:刮多个网页与Python的
www.website.com/data?page=1
我想编写一个程序,使用迭代从所有页面中删除数据,这些页面从1开始,以各种数字结束,具体取决于我在表单上选择的数据字段。
我想我可以切断URL并使用迭代器来增加该页面,但我无法连接一个str和int对象。有什么建议?
我想你想问的是“连接一个str和int对象”。
astr = "ABCD"
aint = 1234
resstr = astr + str(aint)
你可以使用一个for循环,增加页码
for i in xrange(100):
html = urllib2.urlopen('http://website.com/page=%s'%str(i)).read()
soup = BeautifulSoup(html)
#Parsing
然后使用%s
为int添加到字符串
使用迭代环路是上使用str()
函数 将其添加到字符串中,然后将其添加到url
使用st将int更改为str r的构造函数如下:
str(1)