NodeJs实现爬虫功能
我们可以经常见到一些后端语言的爬虫,既然Node已经使JS脱离浏览器了,何不用Node来写个爬虫呢?
实现爬取数据功能
要实现简单的爬虫,我们需要引入node的http模块,使用对应的get方法。我们以爬取百度首页为例子,实现如下:
var http = require('http');
var req = http.get('http://www.baidu.com', function(res) {
var html = '';
res.on('data', function(chunk) {
html += chunk;
});
res.on('end', function() {
console.log(html);
});
});
此时,用node命令运行js文件,我们可以在命令提示符中看到一连串的代码,其实这是百度首页的代码。这样的话,一个很简单的爬取数据的功能就实现了。
解析数据
我们虽然可以爬取到数据了,但是由于各种有用的、无用的数据杂合在一起,很不容易分析。所以我们现在要解析数据,活得我们真正感兴趣的内容。
首先,我们通过npm安装cheerio(cheerio是node的抓取页面的模块,由于他包括了 jQuery 核心的子集,用法十分的简单,可以像jQuery一样操作DOM),
npm install cheerio --save
仅修改end监听函数中的内容,
res.on('end', function() {
$ = cheerio.load(html); // 将HTML DOM传给cheerio
console.log($('#lg > img').attr('src'));
});
这样的话,我们可以得到百度首页上,id是lg、img子元素的src路径。实际上,这是百度首页的log的路径。是不是发现,cheerio很容易使用呢。
下载资源
我们可以从爬取的数据中解析出img的路径,那么下载就不成问题了吧?为了进行写操作,我们引入了fs模块。
var http = require('http');
var fs = require("fs");
var cheerio = require('cheerio');
var req = http.get('http://www.baidu.com', function(res) {
var html = '';
res.on('data', function(chunk) {
html += chunk;
});
res.on('end', function() {
$ = cheerio.load(html);
var oImg = $('img'),
length = oImg.length;
for (var i = 0; i < length; ++i) {
getPic(oImg.eq(i).attr('src'), 'pic/' + i + '.png');
console.log(oImg.eq(i).attr('src')); // 打印img路径,注1.
}
});
});
// 下载图片函数
function getPic(url, local) {
http.get(url, function(res) {
var img = '';
res.setEncoding("binary"); // 必须设置response的编码为binary,否则下载下来的图片会打不开
res.on('data', function(chunk) {
img += chunk;
});
res.on('end', function() {
fs.writeFile(local, img, 'binary', function(err) { // 写操作函数
if (err) {
console.log('dowmload error!');
} else {
console.log('sucess!');
}
});
});
});
}
注1:我们会发现有些图片实际下载下来是空白的,可以直接看命令提示符中的打印的路径信息,不正常图片的src路径是有问题的,我们可以特殊处理下。
其实下载图片的函数不过是另外的get请求函数而已,只是这次直接请求的是图片资源而已。这样,我们就可以下载到百度首页下的所有图片资源了。
其他
在爬取异步加载页面(页面由js组合形成),数据逻辑复杂的页面时,可以考虑使用chrome提供的puppeteer库。