0
我有麻烦试图在URL从表中抽取数据的特定位点/表工作:的Python刮的XPath不
http://economia.uol.com.br/cotacoes/bolsas/indx-bovespa/?intraday&size=600
它指的是盘中的市场数据。 基于由萤火虫提供前面的例子和XPath的标签,我写了下面的代码,但无论是tr_nodes和td_content返回空列表:
import urllib2
from lxml import etree
uol = urllib2.urlopen("http://economia.uol.com.br/cotacoes/bolsas/indx-bovespa/?intraday&size=600")
t = uol.read()
html = etree.HTML(t)
tr_nodes = html.xpath(".//*[@id='main']/table/tbody/tr")
td_content = [[td.text for td in tr.xpath('td')] for tr in tr_nodes]
,我读了堆栈溢出以下问题:
python scraping reuters site...bad xpath?
,并试图解决它适合我的需求:
import lxml
import lxml.html
import lxml.etree
url = 'http://economia.uol.com.br/cotacoes/bolsas/indx-bovespa/?intraday&size=600'
content = lxml.html.parse(url)
item = content.xpath(".//*[@id='main']/table/tbody/tr/td")
ticker = [thing.text for thing in item]
print ticker
发生同样的问题。 实际上,当我尝试将整个url内容写入文本文件时,我无法找到想要刮取的td节点。它可能是一张无法用我使用过的图书馆进行剪辑的动态表格/表格,还是仅仅是我的无知? 在此先感谢