scraper

0热度

1回答

这可能是一个愚蠢的问题，但我目前正在使用Scraperwiki来处理twitter。 Tho ScraperWiki运行频率相当低。有没有办法强制ScraperWiki运行更频繁而不碰python，因为我的知识仅限于JavaScript。我迄今为止代码：的Javascript： $(document).ready(function() { var url ='https://free-ec2

0热度

1回答

Java多线程网络抓取工具，可以在每秒钟连续提取数据的同时允许用户检索数据

我正在使用Java的基于多线程的Web应用程序。我在该应用程序中有两个线程，一个Web Scraper和一个线程来执行一些计算（类似于生产者和消费者）。 Scraper不断从第三方API（每秒更新的世界人口）读取数据。另一个线程（消费者）不断尝试从刮取器检索数据并计算每分钟内最快的更改率。我的问题是，刮刀需要每秒钟不断提取数据。当消费者检索数据时，它需要锁定记录数据的碎片变量（例如，缓冲区）。

-1热度

1回答

如何使用提交表单在入口处网页抓取？

我一直想弄清楚如何webscrape此页：sick.com 我无法弄清楚。我一直在尝试Visual Web Ripper，但它没有通过提交表单，因为它不记得cookie。你有什么想法？ Sick.com可以提取数据，但他们懒得给我们提供数据库。

3热度

5回答

多线程web刮板？

我一直在考虑使我的网络刮板多线程，而不是像正常的线程（例如线程scrape =新线程（函数）;）但像线程池那里可以有大量的线程。我的刮刀通过使用for循环来刮擦页面。 for (int i = (int)pagesMin.Value; i <= (int)pagesMax.Value; i++) 那么我怎么能多线程函数（包含循环）像线程池？我以前从来没有使用过线程池，并且我看到的例子对我来说

-2热度

1回答

刮一个网页：Javascript？

我想从HTML页面中提取一些数据。我试过用php，但是我遇到了一个问题，因为这个页面只在连接到特定网络时可用：不幸的是，我的客户端连接到该网络，但不是我的服务器，所以PHP请求失败。我的问题是：如果我试图用javascript而不是PHP来刮页面，我的请求是否会来自我的客户端网络？

1热度

1回答

如何在添加XQuery中少数节点的值后获取不同的值？

在下面的xml： <mo> <customers> <customer cno="2222"> <cname>Charles</cname> <street>123 Main St.</street> <city>Wichita</city> <zip>67226</zip> <phone>316-636-5

0热度

4回答

如何使用抓取工具或刮板来获取网站的所有网址？

我必须从一个网站获取许多网址，然后我必须将这些网址复制到一个excel文件中。我正在寻找一种自动的方式来做到这一点。该网站的结构是一个包含约300个链接的主页面，每个链接的内部有2或3个对我来说很有意思的链接。有什么建议吗？

1热度

1回答

响应对象在Scrapy刮板中如何通过请求回调传递？

我的代码包含在下面，实际上并不比example lifted from Scrapy's documentation稍微调整过的版本更多。代码的工作原理，但我在逻辑上存在差距，我不理解登录和请求如何通过后续请求传递。根据文档，请求对象返回一个响应对象。此响应对象作为第一个参数传递给回调函数。我得到了。这是使用用户凭证可以处理认证和后续请求的方式。我不理解的是响应对象如何使其在认证后进行下一次请

0热度

2回答

无法凑网站：URL返回一个错误的HTTP响应代码

我注意到，这已被问过，但没有一个人有没有收到回复，所以我会尽我所能过高的要求。在过去的几个月里，我的Wordpress网站http://geekvision.tv/，已经被Facebook的调试器检测不到。我设法让我的主页工作一两次，但是我的所有帖子都完全没有注册到调试器，回来说没有明确提供og：url。对于一个链接到该网站上的一个帖子，你可以在这里找到：为您的主页以下错误http://geek

0热度

1回答

BeautifulSoup4 - 多个页面内1 div内的所有链接

对于一个学校项目，我们需要抓取一个“求职”网站并将其存储在数据库中，并在稍后与正在搜索人员的公司匹配。在这个特定的网站上，我需要抓取的网页的所有网址都在1个div（每页10个链接）中，div被称为“primaryResults”，其中有10个链接。用beautifulsoup我希望首先通过循环浏览url中的页码来清除数组中的所有链接，直到404或类似的东西弹出。然后遍历每个页面，并将我需要的