BeautifulSoup返回不正确的文字

我试图刮下面网站的实况网球比分。当比赛结束时，我抓取的元素发生变化，我可以获得比分，但是在比赛期间，当我搜索保留比分的关联'span'类时，我将返回该类，但得分为空（见下文）BeautifulSoup返回不正确的文字

http://www.scoreboard.com/game/6LeqhPJd/#game-summary

score = score.findAll('span',attrs={'class':'scoreboard'})

输出：

[<span class="scoreboard">-</span>, <span class="scoreboard">-</span>]

预期输出

[<span class="scoreboard">1</span>, <span class="scoreboard">0</span>]

使用萤火虫我可以看到这些字段内的分数，但我似乎无法返回它。谁会知道为什么会发生..？

注意：当上述URL中的匹配已完成分数更改的元素时。这只是LIVE匹配的一个问题...

来源

2013-05-05 DavidJB

该网页使用的是JavaScript。如果您下载的URL是urllib，那么JavaScript没有执行。您在浏览器中看到的大部分HTML都没有生成。

执行JavaScript的一种方法是使用Selenium。另一种方法是使用PyQt4：

import sys 
from PyQt4 import QtWebKit 
from PyQt4 import QtCore 
from PyQt4 import QtGui 

class Render(QtWebKit.QWebPage): 
    def __init__(self, url): 
     self.app = QtGui.QApplication(sys.argv) 
     QtWebKit.QWebPage.__init__(self) 
     self.loadFinished.connect(self._loadFinished) 
     self.mainFrame().load(QtCore.QUrl(url)) 
     self.app.exec_() 

    def _loadFinished(self, result): 
     self.frame = self.mainFrame() 
     self.app.quit() 

url = 'http://www.scoreboard.com/game/6LeqhPJd/#game-summary' 
r = Render(url) 
content = unicode(r.frame.toHtml())

一旦你有content（后执行JavaScript），你可以用HTML解析器（像BeautifulSoup或LXML）解析它。

例如，使用LXML：

import lxml.html as LH 

def clean(text): 
    return text.replace(u'\xa0', u'') 

doc = LH.fromstring(content) 
result = [] 
for tr in doc.xpath('//tr[td[@class="left summary-horizontal"]]'): 
    row = [] 
    for elt in tr.xpath('td'): 
     row.append(clean(elt.text_content())) 
    result.append(u', '.join(row[1:])) 
print(u'\n'.join(result))

产生

Chardy J. (Fra), 2, 6, 77, , , , 
Zeballos H. (Arg), 0, 4, 63, , , ,

使用Selenium和PhantomJS（这样一个GUI浏览器不弹出），这相当于什么代码将如下所示：

import selenium.webdriver as webdriver 
import contextlib 
import os 
import lxml.html as LH 

# define path to the phantomjs binary 
phantomjs = os.path.expanduser('~/bin/phantomjs') 
url = 'http://www.scoreboard.com/game/6LeqhPJd/#game-summary' 
with contextlib.closing(webdriver.PhantomJS(phantomjs)) as driver: 
    driver.get(url) 
    content = driver.page_source 
    doc = LH.fromstring(content) 
    result = [] 
    for tr in doc.xpath('//tr[td[@class="left summary-horizontal"]]'): 
     row = [] 
     for elt in tr.xpath('td'): 
      row.append(elt.text_content()) 
     result.append(u', '.join(row[1:])) 
    print(u'\n'.join(result))

Selenium/PhantomJS解决方案和PyQt4解决方案的运行时间大致相同。

来源

2013-05-05 16:43:02 unutbu

非常感谢！！只有问题 - ：转换为JavaScript似乎很慢，如果有更快捷的方式来做到这一点..？ – DavidJB 2013-05-05 19:08:13

我对这两种方法比较熟悉的是Selenium和PyQt4。在这两者中，我认为PyQt4在满足时速度更快。还有其他方法，比如分析JavaScript并查看哪些请求最终提供了您之后的数据。这可能会更快。 – unutbu 2013-05-05 20:48:48

BeautifulSoup返回不正确的文字

回答

相关问题