我给下面的HTML:提取HREF从HTML
<A HREF="Acaryochloris_marina_MBIC11017_uid58167/"><IMG border="0" SRC="SOMETHING" ALT="[DIR] "></A> <A HREF="Acaryochloris_marina_MBIC11017_uid58167/">Acaryochloris_marina_MBIC11017_></A> Jun 12 2013
<A HREF="Acetobacter_pasteurianus_386B_uid214433/"><IMG border="0" SRC="SOMETHING" ALT="[DIR] "></A> <A HREF="Acetobacter_pasteurianus_386B_uid214433/">Acetobacter_pasteurianus_386B_u></A> Aug 8 2013
还有更多... 我想从这里提取HREF。
这里是我的Python脚本:(page_source包含HTML)
soup = BeautifulSoup(page_source)
links = soup.find_all('a',attrs={'href': re.compile("^http://")})
for tag in links:
link = tag.get('href',None)
if link != None:
print link
但是,这可防止返回以下错误:
links = soup.find_all('A',attrs={'HREF': re.compile("^http://")})
TypeError: 'NoneType' object is not callable
我做的findAll,脚本运行,但没有输出打印在控制台.. – user3739969
嘿,我刚刚工作了。非常感谢! – user3739969