Node爬虫备忘

node 爬虫

字数统计: 231阅读时长: 1 min

 2018/08/05   Share

前言

最近在爬取了某某电影站的3,000多条数据（下载链接）试手之后，发现爬虫结合nunjucks，感觉可以弄一个不错的网站集合，把我常用的网站整合成一个页面，应该能提高不少信息获取的效率。

现在暂时开了一个小头，者期间关于node的好用的工具或是技巧，慢慢整理在此作为备忘。

普通的获取页面信息：superagent—-中文点我
(中文更新较慢，推荐看官网)
分析页面信息：cheerio
通读cheerio API - CNode技术社区

将获取的html信息进行解析，实现了大部分jQuery选择器语法，包括了jQuery核心的子集。
控制并发：async
直接看教程就好使用async控制并发　 via:alsotang
虚拟浏览器：phantomjs 　教程
某种意义上的神器
图片存储
获取数据

原文作者：Sansx

原文链接：https://github.com/sansx/2018/08/05/nodespider/

发表日期：August 5th 2018, 12:00:00 am

更新日期：June 21st 2019, 9:52:52 am

Next Post

学习js数据结构与算法（1）
Previous Post

CoffeeScript 中 switch-when 语句编译后为何是switch (false)

CATALOG

1. 前言



缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true