0
我正在使用Python从特定表中刮取数据并将其保存到将用多个网页(化合物)中的同一张表填充的文件中。但是,我很难用BeautifulSoup来识别适当的表格。 下面是相关的HTML代码:扫描时自动搜索超时错误
Table Identifier HTML from Website
这里是我的代码的相关部分:
url2="https://chem.nlm.nih.gov/chemidplus/rn/50-00-0"
r=requests.get(url2)
html=r.content
soup=BeautifulSoup(html,'lxml')
print(soup.prettify())
给了我一个只有脚本的HTML: “自动搜索:最大1每3秒重新加载1. setTimeout(function(){location.reload(true);},1100);“
我相信这是我的代码中的错误,但是websearch没有解释为什么会出现这种情况,或者说如何解决这个问题。 *更新/结论:我添加了driver.implicitly_wait(3)后加载页面和识别表后减慢程序。该错误未被复制。
看起来像该网站有一些机器人检测,它给你一个消息。因此,请遵循以下建议:“每3秒搜索一次” – eLRuLL
脚本的这部分内容仅针对列出的单个网页上的单个表单执行一次搜索,并且在加载页面后包含一个driver.implicitly_wait(10),以及然后直接进入上面的脚本。有没有另一种方法来减缓僵尸的刮擦? – HStinnett