bs4

1热度

1回答

我使用Python 3，我想简单地下载一个网站的内容如下： # IMPORTS -------------------------------------------------------------------- import urllib.request from bs4 import BeautifulSoup as bs # CLASS DESC ----------------

0热度

1回答

Python - 美丽的汤选择只返回[]

我目前正在从Udemy的Python教程（总新手到Python）学习。我目前在一个美丽的汤部分，我们正在忙于练习，以刮除作者在亚马逊书上的价格。我的代码如下： import bs4, requests url = 'https://www.amazon.com/Automate-Boring-Stuff-Python-Programming/dp/1593275994/' headers

-1热度

1回答

根据Google学术搜索的标签刮掉作者

我正在开发一个项目，希望从Google学术搜索中获取数据。我想刮掉所有在某个类别中标记的作者（例如，Anaphylaxis），并将他们的引用次数，h-index和i-10索引存储在CSV文件中。但是，鉴于Google学术搜索没有API，我不确定如何执行此操作。我知道我可以使用刮刀像美丽的汤，但我不确定如何刮取数据而不被阻塞。所以，我的问题是如何使用bs4来存储标记为过敏反应的所有作者以及每个作者

0热度

1回答

Scrap authors h-index，i10-index和Google学术搜索的总引用

我正在研究一个项目，以从Google学术搜索中获取数据。我想刮一个作家h指数，总引用和i-10指数（全部）。例如，从Louisa Gilbert我想刮： h-index = 36 i10-index = 74 citations = 4383 我写了这个： from bs4 import BeautifulSoup import urllib.request url="https://

3热度

1回答

防止503错误时挖Google Scholar

我写了下面的代码来从Google Scholar security page.刮数据。但是，每当我运行它我收到此错误： Traceback (most recent call last): File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", line 53, in <module> getProfileF

1热度

1回答

获取首次发布的年份Google学术搜索

我正在使用bs4和urllib从Google Scholar中抓取数据。我正试图让第一年发布一篇文章。例如，从this page我试图得到1996年。这可以从条形图中读取，但只能在单击条形图后读取。我已经编写了下面的代码，但它会在单击条形图之前打印出可见年份。 from bs4 import BeautifulSoup import urllib.request url = 'https:/

0热度

1回答

变化ATTRS查看全部内容Python的BeautifulSoup

我试图查看该网站的全部内容fortune.com/best-companies 原始代码在其脚本如下标签： <nav id="bottom-panel-pagination" class="panel-pagination hasNextOnly"> <div data-event="view left" class="prev-page icon-new-left-arrow"></d

0热度

1回答

UTF-8编码和希腊字符

虽然我设法获得所需的所有数据，并将其保存在一个cv文件中，但我得到的输出是UTF-8格式，这是正常的（纠正我如果我错了） TBH我已经“玩”了.encode（）和.decode（）选项没有任何结果。这里是我的代码 brands=[name.text for name in Unibrands] 这里是输出 u'Spirulina \u0395\u03bb\u03bb\u03b7\u03bd\

0热度

1回答

硒和旋转容器

有一个页面带有一个表格和一个刷新表格的下一个按钮。我现在可以提取表格的内容，但需要使用下一个按钮移动到其他行。这是某种没有href刷新页面的ajax表。因此我被卡住了。该页面是https://www.whoscored.com/Regions/252/Tournaments/2/Seasons/6335/Stages/13796/PlayerStatistics/England-Premier-L

0热度

2回答

Python返回列表

我使用bs4并遍历所需的单个页面上的所有链接。然后我将这些链接存储在一个列表中。这里是我的代码： def scrape1(self): html = self.browser.page_source soup = BeautifulSoup(html, 'html.parser') # add links to list for later use ur