node.js实现简单的网络爬虫程序
来源:互联网 发布:git mac客户端 编辑:程序博客网 时间:2024/04/30 17:34
用node.js实现简单的网络爬虫程序
目标:抓取新浪网站带有中国关键字的链接
ps:在这之前要安装request cheerio模块
代码如下:
var request=require(‘request’);
//引入操作dom的模块
var cheerio=require(‘cheerio’);
//引入文件模块
var fs=require(‘fs’);
//定义一个匹配关键字连接的正则表达式
var pattern=/中国/;
//定义要爬的网站首页
var firstUrl=’http://www.sina.com‘;
//发起请求
request({url:firstUrl},function(err,response,body){
if(err)
{
console.log(‘读取出错’);
}
else
{
console.log(‘读取网页成功’);
//用cheerio模块加载所读的内容 var $=cheerio.load(response.body.toString()); var arr = $('a').toArray(); var hrefs = []; var href = {}; arr.forEach(function(a){ //此处进行关键字的匹配,匹配到则返回true,否则返回false if(pattern.test($(a).text().trim())){ href.href = $(a).attr('href'); href.text = $(a).text().trim(); hrefs.push(href); console.log(hrefs); //将爬取的数据写入文件 fs.appendFile('href.txt',href.text+'\n'+href.href+'\n\n','utf8',function(err) { if(err) { console.log('写入出错'); } }); } });}
})
第一次写博客,写的不好请见谅
0 0
- node.js实现简单的网络爬虫程序
- Node.js 实现爬虫(1) —— 简单的爬虫程序
- node js简单爬虫实现
- Node.JS 简单爬虫
- Node.js 实现爬虫(2) —— 多页面的爬虫程序
- 网络爬虫的简单实现
- 简单网络爬虫程序
- Node.js 实现简易爬虫
- 简单的Python网络爬虫程序
- 一个简单的网络爬虫程序
- 网络爬虫(三) Java实现简单的网络爬虫
- 网络爬虫(四) Java实现简单的网络爬虫
- Java实现的网络爬虫程序,简单易懂无框架(我的网络大作业)
- node.js:利用cheerio编写的小爬虫程序
- 简单的scala实现的网络爬虫
- 简单的网络爬虫的python实现
- Java简单的网络爬虫实现
- Java实现简单的网络爬虫
- [Swift]不使用storyboard创建视图
- 百度UEditor编辑器ueditor.setContent总是报错
- javaee
- Container With Most Water
- 微信公众号01: ase实现access_token的存储和被动刷新
- node.js实现简单的网络爬虫程序
- Hust oj 2118 Friend number(递推)
- ueditor1_4_3-utf8-jsp 配置实现上传图片的功能遇到的问题,改变图片上传请求地址
- Hibernata的特点
- jdk安装
- todo 基本设计模式
- jQuery 从零开始学习 (六) 工具函数
- Ueditor编辑保存的内容网页显示时背景等信息无效果---参考UEditor官方文档之编辑内容展示
- linux中守护进程启停工具start-stop-daemon使用介绍