2013-08-27 69 views
0

我刮的网站的URL结构这样改变URL:刮多个网页与Python的

www.website.com/data?page=1

我想编写一个程序,使用迭代从所有页面中删除数据,这些页面从1开始,以各种数字结束,具体取决于我在表单上选择的数据字段。

我想我可以切断URL并使用迭代器来增加该页面,但我无法连接一个str和int对象。有什么建议?

回答

0

我想你想问的是“连接一个str和int对象”。

astr = "ABCD" 
aint = 1234 
resstr = astr + str(aint) 
3

你可以使用一个for循环,增加页码

for i in xrange(100): 
    html = urllib2.urlopen('http://website.com/page=%s'%str(i)).read() 
    soup = BeautifulSoup(html) 
    #Parsing 

然后使用%s为int添加到字符串

使用迭代环路是上使用str()函数 将其添加到字符串中,然后将其添加到url

0

使用st将int更改为str r的构造函数如下:

str(1)