前言
最近在爬取了某某电影站的3,000多条数据(下载链接)试手之后,发现爬虫结合nunjucks,感觉可以弄一个不错的网站集合,把我常用的网站整合成一个页面,应该能提高不少信息获取的效率。
现在暂时开了一个小头,者期间关于node的好用的工具或是技巧,慢慢整理在此作为备忘。
普通的获取页面信息:superagent—-中文点我
(中文更新较慢,推荐看官网)分析页面信息:cheerio
通读cheerio API - CNode技术社区将获取的html信息进行解析,实现了大部分jQuery选择器语法,包括了jQuery核心的子集。
控制并发:async
直接看教程就好使用async控制并发 via:alsotang虚拟浏览器:phantomjs 教程
某种意义上的神器图片存储
获取数据