bs4

    1热度

    1回答

    我使用Python 3,我想简单地下载一个网站的内容如下: # IMPORTS -------------------------------------------------------------------- import urllib.request from bs4 import BeautifulSoup as bs # CLASS DESC ----------------

    0热度

    1回答

    我目前正在从Udemy的Python教程(总新手到Python)学习。 我目前在一个美丽的汤部分,我们正在忙于练习,以刮除作者在亚马逊书上的价格。 我的代码如下: import bs4, requests url = 'https://www.amazon.com/Automate-Boring-Stuff-Python-Programming/dp/1593275994/' headers

    -1热度

    1回答

    我正在开发一个项目,希望从Google学术搜索中获取数据。我想刮掉所有在某个类别中标记的作者(例如,Anaphylaxis),并将他们的引用次数,h-index和i-10索引存储在CSV文件中。但是,鉴于Google学术搜索没有API,我不确定如何执行此操作。我知道我可以使用刮刀像美丽的汤,但我不确定如何刮取数据而不被阻塞。 所以,我的问题是如何使用bs4来存储标记为过敏反应的所有作者以及每个作者

    0热度

    1回答

    我正在研究一个项目,以从Google学术搜索中获取数据。我想刮一个作家h指数,总引用和i-10指数(全部)。例如,从Louisa Gilbert我想刮: h-index = 36 i10-index = 74 citations = 4383 我写了这个: from bs4 import BeautifulSoup import urllib.request url="https://

    3热度

    1回答

    我写了下面的代码来从Google Scholar security page.刮数据。但是,每当我运行它我收到此错误: Traceback (most recent call last): File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 53, in <module> getProfileF

    1热度

    1回答

    我正在使用bs4和urllib从Google Scholar中抓取数据。我正试图让第一年发布一篇文章。例如,从this page我试图得到1996年。这可以从条形图中读取,但只能在单击条形图后读取。我已经编写了下面的代码,但它会在单击条形图之前打印出可见年份。 from bs4 import BeautifulSoup import urllib.request url = 'https:/

    0热度

    1回答

    我试图查看该网站的全部内容fortune.com/best-companies 原始代码在其脚本如下标签: <nav id="bottom-panel-pagination" class="panel-pagination hasNextOnly"> <div data-event="view left" class="prev-page icon-new-left-arrow"></d

    0热度

    1回答

    虽然我设法获得所需的所有数据,并将其保存在一个cv文件中,但我得到的输出是UTF-8格式,这是正常的(纠正我如果我错了) TBH我已经“玩”了.encode()和.decode()选项没有任何结果。 这里是我的代码 brands=[name.text for name in Unibrands] 这里是输出 u'Spirulina \u0395\u03bb\u03bb\u03b7\u03bd\

    0热度

    1回答

    有一个页面带有一个表格和一个刷新表格的下一个按钮。我现在可以提取表格的内容,但需要使用下一个按钮移动到其他行。这是某种没有href刷新页面的ajax表。因此我被卡住了。该页面是https://www.whoscored.com/Regions/252/Tournaments/2/Seasons/6335/Stages/13796/PlayerStatistics/England-Premier-L

    0热度

    2回答

    我使用bs4并遍历所需的单个页面上的所有链接。然后我将这些链接存储在一个列表中。 这里是我的代码: def scrape1(self): html = self.browser.page_source soup = BeautifulSoup(html, 'html.parser') # add links to list for later use ur