scrape

    0热度

    1回答

    我目前正在尝试使用Powershell从特定网站中抓取链接页面。已经打破了当前代码的变体,但它是必不可少的。 我正在尝试获取搜索谷歌搜索结果的URL。我添加了下面的截图来解释我希望抓住的东西。 我到目前为止有以下代码是将文本转换到一个成功的搜索,并正在为expected.however当与调用-的WebRequest我没有得到任何有意义的结果调用。当使用带有链接的浏览器时,它的工作很成功 func

    0热度

    1回答

    刮superliga.dk我有一些麻烦,从以下方面scrabing数据: http://www.superliga.dk/kamp/2016-2017/november/esbjerg-fb-aab 我想获得所有的统计信息。但是由于它们不是永久的,而是从其他地方“拉”数据,所以我不知道如何继续。 我习惯于R中的“rvest”包和Python中的“requests”。 任何人都可以帮助或给我一些提示

    0热度

    1回答

    我正在寻找你们的帮助,因为我遇到了一个很大的问题,我无法解决并在互联网上找到任何帮助。 我有这样的代码: <span class="test taLnk hvrIE6" onclick="ta.trackEventOnPage('Hotel_Review' ,'URL_HOTEL|text|2||', '74682', 0, false); ; ta.trackEve

    0热度

    1回答

    我想刮这个用户的第二页reviews。 但是,下一个按钮执行XHR请求,虽然我可以使用Chrome开发人员工具查看它,但我无法复制它。

    -1热度

    2回答

    我是VBA和html编码的新手。如果我不了解基本术语或错误地使用它们,我很抱歉。我期待在excel中创建和运行一个宏,这样可以使我的工作变得更容易。从本质上讲,我需要从一个房地产网站上获取大量信息。这包括地址,标价,上市代理,拍卖日期(如果有的话)等。我花了最近4个小时阅读所有关于网页抓取的内容,我理解这些流程,我只是不知道如何编码。根据我读过的内容,我需要编写一个代码来自动打开网站,强制等待直到

    -3热度

    1回答

    是否有一个库支持如下的同步JavaScript函数? function getPageHTML(url){ // scrape HTML from external web page return html; } function getPageJS(url){ // scrape final JavaScript variable results from e

    0热度

    2回答

    我知道在这个主题上有很多帖子,我通常能够完成我想要的东西,但我在这个特定链接中遇到了麻烦。这很可能与excel文件的非正统布局有关。这是我的工作流程: library(rest) url<-"http://irandataportal.syr.edu/wp-content/uploads/3.-economic-participation-and-unemployment-rates-for-p

    0热度

    1回答

    根据Im挖掘的项目类型,我刮了一个具有不同行的网站。我有一个看起来像下面的1st blockcode的工作刮刀,但是,我希望能够从数据库中取出一个类型并从start_requests(self)发送到解析函数。我有11种不同的类型,在页面的某个部分,所有的表都有不同的行数,而页面上其他表中的其余行是相同的。我试图显示第二个代码中的代码。 我该如何在start_requests中从数据库中取出类型并

    1热度

    1回答

    我想弄清楚我应该用什么正则表达式来从gov.uk网站上刮取一些数据。 基本上,我使用的的file_get_contents以下网址: https://www.compare-school-performance.service.gov.uk/?keywords=[SCHOOL-NAME]&suggestionurn=&searchtype=search-by-name 作为示例 - 本+城堡+学校

    1热度

    2回答

    我已经看到了一些将这个askee引用到其他库(如phantom.js)的答案,但我在这里想知道它是否在所有可能的只是在node.js中做到这一点? 考虑到我的代码如下。它请求一个使用request的网页,然后使用cheerio它探索了dom到scrape的数据页面。它的工作完美无缺,如果一切按计划进行,我相信它会输出一个我想像中的文件。 问题是,page I am requesting为了凑,建表