scrape

1热度

4回答

我无法解析这个网站上正确的HTML：https://nwis.waterdata.usgs.gov/usa/nwis/gwlevels/?site_no=332857117043301 我想提取行“北纬34°02'48.57”，东经117°02'09.16" 。虽然这在管路862页面的源代码（网页开发工具）显示出来，它不显示，当我通过BeautifulSoup解析。使用lxml的分析器不产生任何所

0热度

2回答

如何阅读带有数据块的复杂txt文件并将其保存为python中的csv文件？

如果我有一个文件，举办这样的 ++++++++++++++ Country 1 **this sentence is not important. **date 25.09.2017, also not important ******* Address **Office Address A, 100 City. Country X **work time 09h00

0热度

1回答

有没有办法在不成为它的拥有者的情况下刮掉WordPress博客？

这听起来似乎有些不道德，但事实并非如此 - 我被要求使用WordPress博客中的数据制作应用程序，但我现在无法通过管理面板讨论添加JSON API插件。所以我想知道是否有一种简单的方法可以通过博客的标题，标签和内容获取所有帖子。

0热度

2回答

获取两个不同标签之间的所有字符串

我正在尝试将与人共享的对话的聊天记录放在一起。我希望能够通过名称，时间和文本来分解它。由于我拉的对话不是一个漂亮而整齐的CSV文件，我需要从源代码中删除。我得到如下代码。有什么办法可以将<div class='message'>和</p>之间的所有字符串都拉出来，这样我就可以将每个聊天消息与相应的发件人和时间发送到一起了吗？谢谢！ <div class="message"><div class="

-1热度

3回答

Python - 之前的列表元素在while循环期间被新元素覆盖

你好，我是Python新手，想弄清楚为什么我的列表每当新的页面在while循环中被加载和刮取时都会覆盖前面的元素。先谢谢你。 def scrapeurls(): domain = "https://domain234dd.com" count = 0 while count < 10: page = requests.get("{}{}".format

1热度

1回答

在Python中用循环刮掉多个页面

我成功地刮掉了网站的第一页，但是当我试图刮掉多页面页面时，它工作正常，但结果完全错误。代码： import requests from bs4 import BeautifulSoup from urllib.parse import urljoin for num in range(1,15): res = requests.get('http://www.abcde.com/

-3热度

2回答

python scrape links关键字

我是python的新手，我需要帮助才能抓取某个关键字的所有链接。问题是，我发现了以下错误： if "air-max" in link["href"]: ^ IndentationError: expected an indented block. 这里是我的代码 import requests import time from bs4 import BeautifulSoup header

-1热度

1回答

是否有可能取消一个公开twitter帐号（页面）的粉丝名单

我是学生，我是全新的抓取等，今天我的主管给了我任务，以获得用户或页面的追随者名单（名人等等）该列表应包含有关每个用户的信息（即用户名称，屏幕名称等）长时间搜索后，我发现我无法获取任何用户在Twitter上的年龄和性别。其次我得到了关于让我的追随者名单的帮助，但我无法找到关于“如何我能得到公众账号的用户列表” 好心建议我说的可能与否，如果有可能，有什么帮助如何达到我的目标预先感谢您

0热度

1回答

如何在Google Spreadsheet中导入xml

我很烦恼importxml中的Google Spreadsheet中。 A100： = IMPORTXML（URL，xpath_查询） 1 /源URL，我通过多个网址，范围A1需要输入。 2 /我的公式是= IMPORTXML（URL，“// UL/@类=‘属性附加伤害’]）它显示了该结果在多个列，而不是行。我只是在新的行的每个新的数据。请帮帮我。非常感谢你！

0热度

1回答

无法抓取特定的URL

我有一个Kodi插件，并使用PHP来抓取很多不同的内容来源。我最近偶然发现： http://m.ddizi1.com/izle/60108/dolunay-10-bolum-hd.htm 我勉强通过的iframe和得到： http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7 流通过这个嵌入的链接（上m.ddizi1.c