scraper

    0热度

    1回答

    这可能是一个愚蠢的问题,但我目前正在使用Scraperwiki来处理twitter。 Tho ScraperWiki运行频率相当低。有没有办法强制ScraperWiki运行更频繁而不碰python,因为我的知识仅限于JavaScript。 我迄今为止代码: 的Javascript: $(document).ready(function() { var url ='https://free-ec2

    0热度

    1回答

    我正在使用Java的基于多线程的Web应用程序。 我在该应用程序中有两个线程,一个Web Scraper和一个线程来执行一些计算(类似于生产者和消费者)。 Scraper不断从第三方API(每秒更新的世界人口)读取数据。另一个线程(消费者)不断尝试从刮取器检索数据并计算每分钟内最快的更改率。 我的问题是,刮刀需要每秒钟不断提取数据。当消费者检索数据时,它需要锁定记录数据的碎片变量(例如,缓冲区)。

    -1热度

    1回答

    我一直想弄清楚如何webscrape此页:sick.com 我无法弄清楚。我一直在尝试Visual Web Ripper,但它没有通过提交表单,因为它不记得cookie。你有什么想法? Sick.com可以提取数据,但他们懒得给我们提供数据库。

    3热度

    5回答

    我一直在考虑使我的网络刮板多线程,而不是像正常的线程(例如线程scrape =新线程(函数);)但像线程池那里可以有大量的线程。 我的刮刀通过使用for循环来刮擦页面。 for (int i = (int)pagesMin.Value; i <= (int)pagesMax.Value; i++) 那么我怎么能多线程函数(包含循环)像线程池?我以前从来没有使用过线程池,并且我看到的例子对我来说

    -2热度

    1回答

    我想从HTML页面中提取一些数据。 我试过用php,但是我遇到了一个问题,因为这个页面只在连接到特定网络时可用:不幸的是,我的客户端连接到该网络,但不是我的服务器,所以PHP请求失败。 我的问题是:如果我试图用javascript而不是PHP来刮页面,我的请求是否会来自我的客户端网络?

    1热度

    1回答

    在下面的xml: <mo> <customers> <customer cno="2222"> <cname>Charles</cname> <street>123 Main St.</street> <city>Wichita</city> <zip>67226</zip> <phone>316-636-5

    0热度

    4回答

    我必须从一个网站获取许多网址,然后我必须将这些网址复制到一个excel文件中。 我正在寻找一种自动的方式来做到这一点。该网站的结构是一个包含约300个链接的主页面,每个链接的内部有2或3个对我来说很有意思的链接。 有什么建议吗?

    1热度

    1回答

    我的代码包含在下面,实际上并不比example lifted from Scrapy's documentation稍微调整过的版本更多。代码的工作原理,但我在逻辑上存在差距,我不理解登录和请求如何通过后续请求传递。 根据文档,请求对象返回一个响应对象。此响应对象作为第一个参数传递给回调函数。我得到了。这是使用用户凭证可以处理认证和后续请求的方式。 我不理解的是响应对象如何使其在认证后进行下一次请

    0热度

    2回答

    我注意到,这已被问过,但没有一个人有没有收到回复,所以我会尽我所能过高的要求。 在过去的几个月里,我的Wordpress网站http://geekvision.tv/,已经被Facebook的调试器检测不到。我设法让我的主页工作一两次,但是我的所有帖子都完全没有注册到调试器,回来说没有明确提供og:url。对于一个链接到该网站上的一个帖子,你可以在这里找到:为您的主页以下错误http://geek

    0热度

    1回答

    对于一个学校项目,我们需要抓取一个“求职”网站并将其存储在数据库中,并在稍后与正在搜索人员的公司匹配。 在这个特定的网站上,我需要抓取的网页的所有网址都在1个div(每页10个链接)中,div被称为“primaryResults”,其中有10个链接。 用beautifulsoup我希望首先通过循环浏览url中的页码来清除数组中的所有链接,直到404或类似的东西弹出。 然后遍历每个页面,并将我需要的