scraper

    0热度

    1回答

    http://www.iata.org/publications/Pages/code-search.aspx 的URL发送到Web表单想能够通过多个通航空公司代码的网址,所以我可以循环。我希望能通过像“?airlinecode = AL”等东西,并刮去结果的HTML。 我看了一下html源代码,但它超出了我的理解。 欣赏是否有人能解决这个问题。

    0热度

    1回答

    我试图创建一个使用GOUTTE一个PHP脚本 登录 点击提交按钮保存下载文件。 将本地csv文件保存下载(如果手动完成)。 这个应用程序(http://portal.agrinet.ie/)是建立在asp.net 我能够成功登录,并通过代码点击提交按钮太多的形式,但它目前只返回这个结果: Symfony\Component\DomCrawler\Crawler Object (

    0热度

    1回答

    我想凑这个链接的网站: https://www.whoscored.com/Players/11119/Show/Lionel-Messi 我想从汇总的数据,防守,进攻的标签和我试图 这: import requests # This is the json data link i wish to get from the defensive tab (from developer tools)

    0热度

    1回答

    我在基本节点应用程序中的第一次尝试。 如果我测试运行此文件(> node index.js)与其中的console.log(eventsArray),阵列成功从命令窗口中刮板模块输出数据,所以我的刮板模块正在工作。 如果我设置eventsArray = ['this','is,'a','test','array'];在index.js中作为一个测试,然后这些字符串会显示在主页上,就像在Expres

    1热度

    1回答

    我一直在试图建立一个网站刮板收集的名称,价格和网站上的对象的区,但不能用它做任何事情,因为它提出了一个错误: AttributeError: 'NoneType' object has no attribute 'strip'. 我该怎么办?帮帮我!另外我如何去第二个div?当我做districtcontainers = souped.find_all("div",{"class":"announ

    0热度

    1回答

    nodejs对我来说是新的,我刚刚开始学习web刮板。问题是我需要废弃一个受JS保护的网站。所以我需要从网站获取手机,但只有在用户点击“显示号码”按钮后才会显示带有电话号码的电话号码。有没有什么方法或npm获得数字?这里是网站enter link description here,但它是俄语。所以按钮是“показатьтелефоны”。先谢谢你!

    0热度

    1回答

    在尝试了不同的教程并阅读大量帖子后,我仍然无法使用jsoup登录到网站。 这是我的代码 Connection.Response response = Jsoup.connect("https://www.ivolatility.com/login.j") .method(Connection.Method.GET) .execute(); respo

    0热度

    1回答

    我是scrapy和Python的新手,所以我的问题可能很简单。通过使用现有的网站指南,我写了一个刮板,它刮掉网站的页面,并在输出文件中显示图像URL,名称和...。我想下载一个目录中的图像,但输出目录是空的! 这里是我的代码: myspider.py import scrapy class BrickSetSpider(scrapy.Spider): name = 'brick_spider`

    -3热度

    2回答

    Usualy我使刮刀在Ruby中,但决定在Perl做。当我运行我的脚本时,我看到一些打开的网址非常非常慢。 我感谢,也许它的重定向问题?或者,也许它的JS网站这是为什么问题。我决定使用一些可以打开JS网站的模块。 所以我期待cpan doc,拿下代码并尝试运行它。没有什么内容。 我做错了什么?请纠正我。或者,也许建议我smth。我尝试使用Selenium,但安装有问题,当我尝试在Linux控制台中

    1热度

    1回答

    我有一个使用BeautifulSoup刮的python脚本。这是我的代码: re.findall('stream:\/\/.+', link) ,其目的是找到像链接: stream://987cds9c8ujru56236te2ys28u99u2s 但它也返回一个字符串这样的: stream://987cds9c8ujru56236te2ys28u99u2s [SD] Spanish -