cheerio

    0热度

    1回答

    所以我用Cheerio,类似的jQuery的节点服务器端库,它允许您解析HTML文本并遍历与其相应的文本的所有元素它就像你会用jQuery一样。我需要获取html正文的纯文本,但不仅如此,我需要获取相应的元素和数字。 IE:如果纯文本是在第三段元素中找到,我会是这样的: { text: <element plaintext>, element: "p-3" } 我现在有下

    0热度

    1回答

    我想删除一个非常具体的标签和html文件内的文本我刮。有没有人有任何想法如何我可以搜索和删除这个特定的标签和文字在一起? <p class="align-left">  Scheduled Arrival Time</p>

    1热度

    3回答

    我在摆弄使用Node.js从电子商务网站刮取数据。我使用Request来检索页面的DOM,并使用Cheerio来执行服务器端DOM选择。 const cheerio = require('cheerio'); const request = require('request'); // takes a URL, scrapes the page, and returns an object

    2热度

    1回答

    我使用Node.js开始一个新项目,我想知道是否有任何方法来管理从cheerio.load()函数返回的内容。 我试图使用回调和承诺(然后赶上),但它没有工作。 例如: var $ = cheerio.load(html); //what if it's falied ???? how I can handle it? 我问这个,因为我试图运行脚本薮时间,但有时它的工作,有时没有。 BTW:

    2热度

    1回答

    我使用cheerio.js按如下: var $ = cheerio.load(html,{withStartIndices : true}); 当我使用console.log($('#element1'));。它将返回字符位置的节点。 { type: 'tag', name: 'h6', attribs: { align: 'center', id: 'r' },

    0热度

    2回答

    我一直在试图解析一个网站表格数据到一个json文件中,如果我一个接一个地做每一页,我可以做,但看到有415页需要一段时间。 我已经看到并阅读了很多关于此主题的StackOverflow问题,但我似乎无法修改我的脚本以便它; 擦伤每一页,并提取50项,每页项目IDS 这么做速率限制的方式,所以我不会不利服务器 脚本等待,直到所有的请求都这样做影响我可以将每个item + item id写入JSON文

    0热度

    1回答

    我正在尝试使用node + express + cheerio构建爬网程序。 在路线我把这个: [index.js] app.get('/api/crawler/android', crawlerController.android); 它调用到控制器 [crawler-controller.js] var androidCrawler = require('../crawlers/an

    1热度

    1回答

    所以我有一个问题,我无法获得电影的链接,我想为“人们也喜欢”部分刮到它显示你类似的电影。我不能太上一些电影该页面,但因为有一个人物部分 function findCommonMovies(movie, callback){ request('http://www.imdb.com/find?ref_=nv_sr_fn&q='+ movie +'&s=all', function (er

    1热度

    1回答

    我正在学习如何为个人项目执行爬网程序(使用'cheerio')。爬行本身工作正常,但不知何故我正在构建的对象(eventDetails)没有被返回。您可以在下面看到,在函数级别声明的对象已正确填充请求,但不在其外部。你能帮忙吗?谢谢。 function crawlEventDetails(eventLink){ var eventDetails = new Object();

    0热度

    2回答

    我在本示例中使用了cheerio。 我想找到第400个单词并选择它的parentNode。 <article> <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer nec odio. Praesent libero. Sed cursus ante dapibus diam. Sed nisi. Nul