我试图从本网站访问不同的鱼家族的网址:http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon通过BeautifulSoup解析存储在URL中的数据?
我希望能够运行打开某一网站的链接,然后能够解析脚本存储在页面中的信息。我是相当新的网络抓取,所以任何帮助将不胜感激。提前致谢!
这是我到目前为止有:
import urllib2
import re
from bs4 import BeautifulSoup
import time
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon'
page = urllib2.urlopen(fish_url)
html_doc = page.read()
soup = BeautifulSoup(html_doc)
page = urllib2.urlopen('http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon').read()
soup = BeautifulSoup(page)
soup.prettify()
for fish in soup.findAll('a', href=True):
print fish['href']
Python 3是否有任何开源Web Scraping框架? Scrapy是只有2.7 .. – Erik 2013-03-22 15:42:31
@Erik检查出[BeautifulSoup](crummy.com/software/BeautifulSoup/) – 2014-01-21 03:32:24
感谢Steinar,我最终完全移出Python ..现在利用CasperJS和PhantomJS。这是本地DOM树遍历真正加快了速度。 – Erik 2014-01-21 21:56:56