heroku部署爬虫
JavaScript Nodejs Heroku发表于2017年06月22日11:22:35
0条评论 221次阅读
superagent是抓取数据的工具。可以发起get和post请求。cheerio是Node.js 版的 jquery,用来从网页中以 css selector 取数据。
var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');
var app = express();
var items = [];
app.get('/', function (req, res, next) {
superagent.get('https://cnodejs.org/')
.end(function (err, sres) {
if (err) {
return next(err);
}
var $ = cheerio.load(sres.text);
$('.topic_title').each(function (idx, element) {
var $element = $(element);
items.push({
title: $element.attr('title'),
url : $element.attr('href')
});
})
res.send(items);
})
})
app.listen(process.env.PORT || 5000);
最后监听5000端口。。当5000端口被占用,heroku 使用了主动的策略,主动提供一个环境变量 `process.env.PORT` 来供我们监听。
参考来源:https://github.com/alsotang/node-lessons/tree/master/lesson12
实例:https://luckyhhreptile.herokuapp.com/
👍 0 👎 0
共有0条评论