cheerio

0热度

1回答

所以我用Cheerio，类似的jQuery的节点服务器端库，它允许您解析HTML文本并遍历与其相应的文本的所有元素它就像你会用jQuery一样。我需要获取html正文的纯文本，但不仅如此，我需要获取相应的元素和数字。 IE：如果纯文本是在第三段元素中找到，我会是这样的： { text: <element plaintext>, element: "p-3" } 我现在有下

0热度

1回答

删除特定的标签和文本 - cheeriojs

我想删除一个非常具体的标签和html文件内的文本我刮。有没有人有任何想法如何我可以搜索和删除这个特定的标签和文字在一起？ <p class="align-left"> Scheduled Arrival Time</p>

1热度

3回答

如何在Javascript中添加服务器端延迟for循环？

我在摆弄使用Node.js从电子商务网站刮取数据。我使用Request来检索页面的DOM，并使用Cheerio来执行服务器端DOM选择。 const cheerio = require('cheerio'); const request = require('request'); // takes a URL, scrapes the page, and returns an object

2热度

1回答

Cheerio错误处理程序节点js

我使用Node.js开始一个新项目，我想知道是否有任何方法来管理从cheerio.load（）函数返回的内容。我试图使用回调和承诺（然后赶上），但它没有工作。例如： var $ = cheerio.load(html); //what if it's falied ???? how I can handle it? 我问这个，因为我试图运行脚本薮时间，但有时它的工作，有时没有。 BTW：

2热度

1回答

如何获取cheerio.js中的节点行号？

我使用cheerio.js按如下： var $ = cheerio.load(html,{withStartIndices : true}); 当我使用console.log($('#element1'));。它将返回字符位置的节点。 { type: 'tag', name: 'h6', attribs: { align: 'center', id: 'r' },

0热度

2回答

如何解析多个页面？

我一直在试图解析一个网站表格数据到一个json文件中，如果我一个接一个地做每一页，我可以做，但看到有415页需要一段时间。我已经看到并阅读了很多关于此主题的StackOverflow问题，但我似乎无法修改我的脚本以便它; 擦伤每一页，并提取50项，每页项目IDS 这么做速率限制的方式，所以我不会不利服务器脚本等待，直到所有的请求都这样做影响我可以将每个item + item id写入JSON文

0热度

1回答

如何使用express.js正确地分配有效负载到GET函数

我正在尝试使用node + express + cheerio构建爬网程序。在路线我把这个： [index.js] app.get('/api/crawler/android', crawlerController.android); 它调用到控制器 [crawler-controller.js] var androidCrawler = require('../crawlers/an

1热度

1回答

节点js cheerio解析html

所以我有一个问题，我无法获得电影的链接，我想为“人们也喜欢”部分刮到它显示你类似的电影。我不能太上一些电影该页面，但因为有一个人物部分 function findCommonMovies(movie, callback){ request('http://www.imdb.com/find?ref_=nv_sr_fn&q='+ movie +'&s=all', function (er

1热度

1回答

Javascript函数不返回对象

我正在学习如何为个人项目执行爬网程序（使用'cheerio'）。爬行本身工作正常，但不知何故我正在构建的对象（eventDetails）没有被返回。您可以在下面看到，在函数级别声明的对象已正确填充请求，但不在其外部。你能帮忙吗？谢谢。 function crawlEventDetails(eventLink){ var eventDetails = new Object();

0热度

2回答

想要选择某个单词索引的父节点

我在本示例中使用了cheerio。我想找到第400个单词并选择它的parentNode。 <article> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer nec odio. Praesent libero. Sed cursus ante dapibus diam. Sed nisi. Nul