2011-11-01 63 views
-3
for i in range(1,1000000): 

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) 
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i) 
    soup = BeautifulSoup(page) #retreive 

    books = soup.findAll("div",{"id":"Title"}) #process 

我需要爬遍整个目录为出版商。 我需要检索:Beautifulsoup刮书目录

  • 书图像
  • 标题
  • 出版商
  • pubdate的
  • PriceCurrency
  • 约285 | 210
  • 说明(一个Ajax标签内)
+1

问题是什么? – 0xd

+0

我需要为目录中的每本图书提取图像。 – user1023506

+0

您能否提供代表书籍的HTML代码块? – 0xd

回答

0

使用XPath从这些位置提取内容