2012-07-29 57 views
1

我试图获取由网页中的JavaScript动态生成的HTML表格的内容&使用BeautifulSoup解析它以使用表格中的某些值。使用selenium获取动态html表格并使用beautifulsoup解析它

由于内容是由JavaScript生成的,因此它在源文件中不可用(driver.page_source)。

是否有任何其他方式获取内容并使用它?它是包含任务列表的表格,我需要解析表格并确定我正在搜索的特定任务是否可用。

回答

0

你需要弄清楚Javascript正在做什么HTTP请求,并在你的Python代码中做出相同的请求。你可以通过使用你最喜欢的浏览器的开发工具来实现这一点,或者如果被迫使用wireshark。

1

正如朱利安所提到的,我宁愿检查Firebug(或其他浏览器中的类似工具)中的“Net”选项卡,并获取这样的数据。如果数据是JSON,只需使用json.loads(),如果它是html,则可以使用BS或任何其他库来解析它,就像你说的那样。也许你想尝试我的dummy lib,这简化了这一点,并返回表格作为tablib对象,你可以得到csv,excel,json等。