使用selenium获取动态html表格并使用beautifulsoup解析它

我试图获取由网页中的JavaScript动态生成的HTML表格的内容&使用BeautifulSoup解析它以使用表格中的某些值。使用selenium获取动态html表格并使用beautifulsoup解析它

由于内容是由JavaScript生成的，因此它在源文件中不可用（driver.page_source）。

是否有任何其他方式获取内容并使用它？它是包含任务列表的表格，我需要解析表格并确定我正在搜索的特定任务是否可用。

2012-07-29 pprakash

你需要弄清楚Javascript正在做什么HTTP请求，并在你的Python代码中做出相同的请求。你可以通过使用你最喜欢的浏览器的开发工具来实现这一点，或者如果被迫使用wireshark。

2012-07-29 06:10:00 Julian

正如朱利安所提到的，我宁愿检查Firebug（或其他浏览器中的类似工具）中的“Net”选项卡，并获取这样的数据。如果数据是JSON，只需使用json.loads()，如果它是html，则可以使用BS或任何其他库来解析它，就像你说的那样。也许你想尝试我的dummy lib，这简化了这一点，并返回表格作为tablib对象，你可以得到csv，excel，json等。

来源

2012-07-29 07:06:19 starenka

使用selenium获取动态html表格并使用beautifulsoup解析它

回答

相关问题