scrape

    1热度

    4回答

    我无法解析这个网站上正确的HTML:https://nwis.waterdata.usgs.gov/usa/nwis/gwlevels/?site_no=332857117043301 我想提取行“北纬34°02'48.57”,东经117°02'09.16" 。虽然这在管路862页面的源代码(网页开发工具)显示出来,它不显示,当我通过BeautifulSoup解析。使用lxml的分析器不产生任何所

    0热度

    2回答

    如果我有一个文件,举办这样的 ++++++++++++++ Country 1 **this sentence is not important. **date 25.09.2017, also not important ******* Address **Office Address A, 100 City. Country X **work time 09h00

    0热度

    1回答

    这听起来似乎有些不道德,但事实并非如此 - 我被要求使用WordPress博客中的数据制作应用程序,但我现在无法通过管理面板讨论添加JSON API插件。所以我想知道是否有一种简单的方法可以通过博客的标题,标签和内容获取所有帖子。

    0热度

    2回答

    我正在尝试将与人共享的对话的聊天记录放在一起。我希望能够通过名称,时间和文本来分解它。由于我拉的对话不是一个漂亮而整齐的CSV文件,我需要从源代码中删除。我得到如下代码。有什么办法可以将<div class='message'>和</p>之间的所有字符串都拉出来,这样我就可以将每个聊天消息与相应的发件人和时间发送到一起了吗?谢谢! <div class="message"><div class="

    -1热度

    3回答

    你好,我是Python新手,想弄清楚为什么我的列表每当新的页面在while循环中被加载和刮取时都会覆盖前面的元素。先谢谢你。 def scrapeurls(): domain = "https://domain234dd.com" count = 0 while count < 10: page = requests.get("{}{}".format

    1热度

    1回答

    我成功地刮掉了网站的第一页,但是当我试图刮掉多页面页面时,它工作正常,但结果完全错误。 代码: import requests from bs4 import BeautifulSoup from urllib.parse import urljoin for num in range(1,15): res = requests.get('http://www.abcde.com/

    -3热度

    2回答

    我是python的新手,我需要帮助才能抓取某个关键字的所有链接。问题是,我发现了以下错误: if "air-max" in link["href"]: ^ IndentationError: expected an indented block. 这里是我的代码 import requests import time from bs4 import BeautifulSoup header

    -1热度

    1回答

    我是学生,我是全新的抓取等,今天我的主管给了我任务,以获得用户或页面的追随者名单(名人等等) 该列表应包含有关每个用户的信息(即用户名称,屏幕名称等) 长时间搜索后,我发现我无法获取任何用户在Twitter上的年龄和性别。 其次我得到了关于让我的追随者名单的帮助,但我无法找到关于“如何我能得到公众账号的用户列表” 好心建议我说的可能与否,如果有可能,有什么帮助如何达到我的目标 预先感谢您

    0热度

    1回答

    我很烦恼importxml中的Google Spreadsheet中。 A100: = IMPORTXML(URL,xpath_查询) 1 /源URL,我通过多个网址,范围A1需要输入。 2 /我的公式是= IMPORTXML(URL,“// UL/@类=‘属性附加伤害’])它显示了该结果在多个列,而不是行。我只是在新的行的每个新的数据。 请帮帮我。非常感谢你!

    0热度

    1回答

    我有一个Kodi插件,并使用PHP来抓取很多不同的内容来源。我最近偶然发现: http://m.ddizi1.com/izle/60108/dolunay-10-bolum-hd.htm 我勉强通过的iframe和得到: http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7 流通过这个嵌入的链接(上m.ddizi1.c