我试图解析使用urllib2的网页,BeautifulSoup和Python 2.7。的urlopen总是检索相同的网页
问题在于上游:每一次我尝试检索一个新的网页,我得到我已经获取的一个。但是,我的网页浏览器中的页面有所不同:请参阅page 1和page 2。循环页码有什么问题吗?
下面是一个代码示例:
def main(page_number_max):
import urllib2 as ul
from BeautifulSoup import BeautifulSoup as bs
base_url = 'http://www.senscritique.com/clement/collection/#page='
for page_number in range(1, 1+page_number_max):
url = base_url + str(page_number) + '/'
html = ul.urlopen(url)
bt = bs(html)
for item in bt.findAll('div', 'c_listing-products-content xl'):
item_name = item.findAll('h2', 'c_heading c_heading-5 c_bold')
print str(item_name[0].contents[1]).split('\t')[11]
print('End of page ' + str(page_number) + '\n')
if __name__ == '__main__':
page_number_max = 2
main(page_number_max)
你设置页面与哈希参数'page',但它只会使用JavaScript工作,并在你的情况,我认为你正在使用像图书馆卷曲加载页面。 看看网站使用什么URL加载页面1或2在AJAX等 – AdrienBrault 2012-07-08 12:33:54
请在文件的顶部进口。 – 2012-07-08 12:47:15