程序博客网 > 数据透视表实时更新

nodejs 爬虫

来源：互联网发布：数据透视表实时更新编辑：程序博客网时间：2024/05/23 22:59

arrayOpr.js

Array.prototype.uniquelize = function(){
var ra = new Array();
for(var i = 0; i < this.length; i ++){
if(!(ra.indexOf(this[i]) >-1)){
ra.push(this[i]);
}
}
return ra; };
Array.prototype.each = function(fn){
fn = fn || Function.K;
var a = [];
var args = Array.prototype.slice.call(arguments, 1);
for(var i = 0; i < this.length; i++){
var res = fn.apply(this,[this[i],i].concat(args));
if(res != null) a.push(res);
}
return a;
};

Array.union = function(a, b){
return a.concat(b).uniquelize();
};

Array.intersect = function(a, b){
return a.uniquelize().each(function(o){return b.indexOf(o)>-1 ? o : null});
};

Array.minus = function(a, b){
return a.uniquelize().each(function(o){return b.indexOf(o)>-1 ? null : o});
};

Array.complement = function(a, b){
return Array.minus(Array.union(a, b),Array.intersect(a, b));
};

asynSpider.js

var http = require('http');
var promise = require('promise');
var cheerio = require('cheerio');
var fs = require("fs");
const arrayOpr = require('./arrayOpr.js');

var url = "http://pe.pedaily.cn/vcpe/"
var list = [];
for(var i=1;i<=1;i++) {
let curl = url + i.toString();
list.push(getPageList(curl));
}

function getPageList(url){
return new Promise(function(resolve,reject) {
http.get(url,function(res) {
var body = '';

res.on('data',function(chunk) {
res.setEncoding('utf8');
body += chunk;
});

res.on('end',function() {
var spiderContent = [];
var $ = cheerio.load(body);

$('h3','#newslist-all').map(function(i,e1){
let content = {
title: '',
url: ''
}
content.title = $(this).children('a').text();
content.url = $(this).children('a').attr('href');
spiderContent.push(content);
});

resolve(spiderContent);
});

res.on('error',function(e) {
reject(e.message);
});
})
})
}

function getUrlContent(url) {
return new Promise(function(resolve,reject) {
http.get(url,function(res) {
var body = '';
var filename = url.substr(url.lastIndexOf('/') +1);

res.on('data',function(chunk){
res.setEncoding('utf8');
body += chunk;
});

res.on('end',function() {
var urlContent = {
url: url,
subject: '',
content: '',
filename: filename
};
var newcontent$ = cheerio.load(body);
urlContent.subject = newcontent$('div.subject').text();
urlContent.content = newcontent$('div.news-content').text();

resolve(urlContent);
});

res.on('error',function(e) {
reject(e.message);
})

})
})
}

Promise
.all(list)
.then(function(data) {

fs.writeFile('newsList.json', JSON.stringify(data), function(err) {
if (err) {
return console.error(err);
}
fs.readFile('newsList.json', function (err, data) {
if (err) {
return console.error(err);
}
var urls = [];
for(var i=0;i<JSON.parse(data).length;i++) {
var list = JSON.parse(data)[i];
list.map(function(i) {
urls.push(i.url);
});
}

fs.writeFile('urls.json',JSON.stringify(urls),function(err) {
if(err) {
return console.error(err);
}
})

var detail = [];
var count = urls.length;
for(var i=0; i<count;i++) {
detail.push(getUrlContent(urls[i]));
}

console.log(`本次爬虫共计下载页面${count}个`);

Promise
.all(detail)
.then(function(data) {
if(data && data.length >0){
for(var i=0;i<data.length;i++){
let temphtmldata = '<html><body><h1>';
temphtmldata += data[i].subject;
temphtmldata += '</h1><br/><br/><h2>'
temphtmldata += data[i].content;
temphtmldata += '</h2></body></html>'
fs.writeFile('./spiderdata/'+ data[i].filename,temphtmldata,function(err) {
if(err) {
return console.log(err);
}
})
}
}
})

});
});
});

checkUpdate.js

const http = require('http');
const promise = require('promise');
const cheerio = require('cheerio');
const fs = require("fs");
const arrayOpr = require('./arrayOpr.js');

let urlprefix = "http://pe.pedaily.cn/vcpe/"
let checklist = [];
let checkcount = 1;
for(let i=1;i<=checkcount;i++) {
let url = urlprefix + i;
checklist.push(getPageList(url));
}

function getPageList(url){
return new Promise(function(resolve,reject) {
http.get(url,function(res) {
var body = '';

res.on('data',function(chunk) {
res.setEncoding('utf8');
body += chunk;
});

res.on('end',function() {
var spiderContent = [];
var $ = cheerio.load(body);

$('h3','#newslist-all').map(function(i,e1){
let content = {
title: '',
url: ''
}
content.title = $(this).children('a').text();
content.url = $(this).children('a').attr('href');
spiderContent.push(content);
});

resolve(spiderContent);
});

res.on('error',function(e) {
reject(e.message);
});
})
})
};

Promise
.all(checklist)
.then(function(data) {
fs.writeFile('updateList.json', JSON.stringify(data), function(err) {
if (err) {
return console.error(err);
}
fs.readFile('updateList.json', function (err, data) {
if (err) {
return console.error(err);
}
let urls = [];
for(let i=0;i<JSON.parse(data).length;i++) {
let list = JSON.parse(data)[i];
list.map(function(i) {
urls.push(i.url);
});
}

fs.readFile('urls.json', function(err,data) {
if (err) {
return console.error(err);
}
let existUrls = [];

for(let i=0;i<JSON.parse(data).length;i++) {
existUrls.push(JSON.parse(data)[i]);
}
let temp = Array.intersect(urls,existUrls);
let updateurl = Array.minus(urls,temp);

let updateDetail = [];
for(let i=0;i<updateurl.length;i++) {
updateDetail.push(getUrlContent(updateurl[i]));
}

if(updateDetail.length >0) {
console.log(`共发现${updateDetail.length}条新记录`);
Promise
.all(updateDetail)
.then(function(data) {
if(data && data.length >0){
for(var i=0;i<data.length;i++){
let temphtmldata = '<html><body><h1>';
temphtmldata += data[i].subject;
temphtmldata += '</h1><br/><br/><h2>'
temphtmldata += data[i].content;
temphtmldata += '</h2></body></html>'
console.log(`已更新文件${data[i].filename}`);
fs.writeFile('./spiderdata/'+ data[i].filename,temphtmldata,function(err) {
if(err) {
return console.log(err);
}
})
}


let finalurls = Array.union(updateurl,existUrls);
fs.writeFile('urls.json',JSON.stringify(finalurls), function(err) {
if(err) {
return console.log(err);
}
});
}
});
} else {
console.log('未发现有更新的数据');
}

})

});
});
});

function getUrlContent(url) {
return new Promise(function(resolve,reject) {
http.get(url,function(res) {
var body = '';
var filename = url.substr(url.lastIndexOf('/') +1);

res.on('data',function(chunk){
res.setEncoding('utf8');
body += chunk;
});

res.on('end',function() {
var urlContent = {
url: url,
subject: '',
content: '',
filename: filename
};
var newcontent$ = cheerio.load(body);
urlContent.subject = newcontent$('div.subject').text();
urlContent.content = newcontent$('div.news-content').text();

resolve(urlContent);
});

res.on('error',function(e) {
reject(e.message);
})

})
})
}

阅读全文

0 0

数据透视表实时更新

数据透视表实时更新

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 10平方线多粗魔兽世界粗线怎么获得粗线鱼粗线鱼图片肛列小腿为什么粗为什么小腿粗为什么大腿粗小腿粗的原因小腿变粗为什么小腿越来越粗抱紧少帅大粗腿跑步腿粗腿粗的原因跑步腿会变粗吗跑步腿变粗腿粗女孩穿搭指南胯宽腿粗穿衣搭配图腿毛略粗跑步会腿粗吗粗腿腿粗穿什么裤子跳绳腿会变粗吗粗腿图片深蹲腿粗大粗腿为什么腿粗为什么会腿粗腿越来越粗是怎么回事小粗腿为什么腿会粗腿为什么会粗腿太粗动感单车会让腿变粗吗粗苯粗苯供应粗苯价格长房嫡女粗饭淡茶粗陶茶具适合泡什么茶人鱼法则粗饭淡茶粗茶