2017-07-10 59 views
0

我敢肯定,这是非常接近许多其他SO帖子,但我遇到麻烦剪裁这些问题和答案,我看到的问题。BeautifulSoup返回空列表 - 其他解析器导致Python错误

当我运行下面显示的代码时,BeautifulSoup返回[]。我一直在搜索SO的信息,并看到这篇文章谈论解析器和已知的错误:Html parsing with Beautiful Soup returns empty list。但是,当我尝试其他解析器时,出现错误:

Couldn't find a tree builder with the features you requested: lxml. 

我在Macbook Pro上使用Python 2.7.10。有谁知道一种方法来获得不同的解析器的工作?或者即使解析器是问题?该网站本身不会将类名称分配给div标签,因此下面的标签只是为了返回一些内容。因为有页面上没有<div>标签

import urllib2, base64, csv 
from bs4 import BeautifulSoup 

request = urllib2.Request("http://www.oklahomacounty.org/assessor/Searches/AN-R_HistoricalView.asp?Accountno=R120682380") 
result = urllib2.urlopen(request) 
soup = BeautifulSoup(result.read(), 'html.parser') 
div=soup.findAll('div') 
print div 
+2

'无法找到具有您请求的功能的树生成器:lxml.' - 该错误听起来像您没有安装lxml库。 – yeputons

+0

如果网站没有分配任何'div'类,你为什么期望它返回一些东西而不是空的列表? –

+0

该网站使用'div'标签,但标签内没有使用'class name'属性。 –

回答

1

BeautifulSoup是报告的页面上没有<div>标签。如果你确实看到有问题的URL的内容,你会看到:

<html> 
<head> 
<META NAME="robots" CONTENT="noindex,nofollow"> 
<script src="/_Incapsula_Resource?SWJIYLWA=2977d8d74f63d7f8fedbea018b7a1d05"> 
</script> 
<script> 
(function() { 
var z="";var bfor (var i=0;i<b.length;i+=2){z=z+parseInt(b.substring(i, i+2), 16)+",";}z = z.substring(0,z.length-1); eval(eval('String.fromCharCode('+z+')'));})(); 
</script></head> 
<body> 
<iframe style="display:none;visibility:hidden;" src="//content.incapsula.com/jsTest.html" id="gaIframe"></iframe> 
</body></html> 

这里没有<div>标签;页面内容通过JavaScript和iframe的组合生成。如果你想刮这个网站,你需要的不仅仅是BeautifulSoup。