2011-11-23 90 views
2

我试图从中文报纸数据库中删除文章。下面是一些源代码(粘贴节选B/C键的部位):使用BeautifulSoup从HTML表格中提取不干净源代码的链接

<base href="http://huylpd.twinbridge.com.ezp-prod1.hul.harvard.edu/web\" /><html> 
<! -- <%@ page contentType="text/html;charset=GBK" %> 
<head> 
<meta http-equiv="Content-Language" content="zh-cn"> 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312"> 
<meta name="GENERATOR" content="Microsoft FrontPage 4.0"> 
<meta name="ProgId" content="FrontPage.Editor.Document"> 
<title>概览页面</title> 
... 
</head> 
... 
</html> 
</html> 

当我尝试做在表中的链接的一些简单的刮像这样:

import urllib, urllib2, re, mechanize 
from BeautifulSoup import BeautifulSoup 
br = mechanize.Browser(factory=mechanize.RobustFactory()) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.6')] 
br.set_handle_robots(False) 

url = 'http://huylpd.twinbridge.com.ezp-prod1.hul.harvard.edu/search?%C8%D5%C6%DA=&%B1%EA%CC%E2=&%B0%E6%B4%CE=&%B0%E6%C3%FB=&%D7%F7%D5%DF=&%D7%A8%C0%B8=&%D5%FD%CE%C4=%B9%FA%BC%CA%B9%D8%CF%B5&Relation=AND&sortfield=RELEVANCE&image1.x=27&image1.y=16&searchword=%D5%FD%CE%C4%3D%28%B9%FA%BC%CA%B9%D8%CF%B5%29&presearchword=%B9%FA%BC%CA%B9%D8%CF%B5&channelid=16380' 
page = br.open(url) 
soup = BeautifulSoup(page) 
links = soup.findAll('a') # links is empty =(

Python做甚至在html中找不到任何东西,又返回一个空列表。我认为这是因为源代码从基础href标记开始,Python只能识别文档中的两个标记:base href和html。

任何想法如何刮这种情况下的链接?非常感谢!!

回答

0

BS心不是真正发展下去了 - 并且会建议你看看lxml

不要访问特定的网址,但我能得到这个工作,使用HTML片段(而我添加了一个a标签)

>>> soup = lxml.html.document_fromstring(u) 
>>> soup.cssselect('a') 
>>> soup.cssselect('a')[0].text_content() #for example 
+0

现在BS4已经停用并且处于活动状态。 – Amanda

0

当你的html非常搞砸时,最好先清理一下,比如在这种情况下,先删除所有内容,然后删除所有内容(第一个)。下载一个页面,手动模拟它,看看美丽的什么是可以接受的,然后编写一些正则表达式进行预处理。

1

删除第二行让BS查找所有标签。我没有找到更好的解析方法。

page = br.open(url) 
page = page.read().replace('<! -- <%@ page contentType="text/html;charset=GBK" %>', '') 
soup = BeautifulSoup(page) 
+0

非常感谢。这看起来很简单,但运行page.replace()后出现以下错误:“AttributeError:closeable_response实例没有属性'replace'。”任何想法如何解决这个问题? – user1060859

+0

对不起,现在试试。 –

相关问题