我刚开始学习使用Python的网页抓取。但是,我已经遇到了一些问题。使用python进行Web Scraping数据?
我的目标是网络废钢不同种类的金枪鱼从fishbase.org(http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)名称
的问题:我无法提取所有的物种名称。
这是我到目前为止有:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
从这里,我不知道我怎么会去提取物种名称。我想使用正则表达式(即soup.find_all("a", text=re.compile("\d+\s+\d+"))
捕捉到标签内的文本...
任何投入将不胜感激!
事实上'findAll'已更名为'find_all'到符合pep8标准。更多信息[这里](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names)。 – jcollado 2012-03-05 09:13:48