nodejs:csv模块解析
来源:互联网 发布:轩辕剑入灵进阶数据 编辑:程序博客网 时间:2024/06/10 10:56
本文介绍一种程序开发中常见文件格式(csv)的处理。在nodejs官网提供的开发包中,有很多关于csv的包,下载量最多的是CSV包,下面就介绍如何使用CSV包处理文件。
首先下载包:
npm install csv
以官网上的例子解析用法:
//node samples/string.js
var csv =require('csv');
csv()
.from('"1","2","3","4"\n"a","b","c","d"')
.to(console.log )
//Output:
//1,2,3,4
//a,b,c,d
首先要引用csv模块,require('csv'),引用之后,它封装的方法和属性就可以直接使用了。csv()相当于实例化一个对象,.from和.to都是csv封装的方法
.from()方法:顾名思义,是从源文件中读取数据,参数既可以像上面一样直接传字符串,也可以像下面的高级应用传源文件的路径。
.to()方法:是将从form方法中读取出的数据输出,既可以输出到控制台,也可以输出到目标文件。此例子是输出到控制台。
1 // node samples/sample.js 2 var fs =require('fs'); 3 var csv =require('csv'); 4 csv() 5 .from.stream(fs.createReadStream(__dirname+'/sample.in')) 6 .to.path(__dirname+'/sample.out') 7 .transform(function(row){ 8 row.unshift(row.pop()); 9 return row;10 })11 .on('record',function(row,index){12 console.log('#'+index+' '+JSON.stringify(row));13 })14 .on('close',function(count){15 // when writing to a file, use the 'close' event16 // the 'end' event may fire before the file has been written17 console.log('Number of lines: '+count);18 })19 .on('error',function(error){20 console.log(error.message);21 });22 // Output:23 // #0 ["2000-01-01","20322051544","1979.0","8.8017226E7","ABC","45"]24 // #1 ["2050-11-27","28392898392","1974.0","8.8392926E7","DEF","23"]25 // Number of lines: 2
.transform()方法:处理from读取出的数据,处理后写入到目标文件;参数可以传回调函数,在回调函数中,可以写处理数据的方法。
.on() : 事件监听机制,
'record'监听读取出的每行记录,参数中row是一行的数据,index是数据个数,注意,此数据个数只是读取出的数据个数,而不是处理完的数据个数,因为nodejs是异步操作,所以处理数据是批量的,程序会一批批的将数据发出给transform,等到处理完一批后再写入目标文件,因而读取出的个数index往往大于已经写入文件的个数,关于如何捕获处理完写入文件的个数,后面会进行处理。
'end' 处理完一个文件后触发的事件;
'error' 处理数据时,发生异常触发的事件;
'close'文件关闭时触发的事件;
高级用法:
csv模块的高级之处在于它按行读取数据,读取出来的数据是以对象的形式,列名是对象的key,值是value,这样取每一列的值就变得非常简单,不想c++中那样还得解析字段。
.from.path(strSrcPath, {header: true, columns: true})
from方法中第二个参数设置将列分开;
在将处理后的数据写入新的文件时,也可以设置参数。
.to.path(strDestPath,{
header: true
,lineBreaks:'windows'
,newColumns: true
,end: false
,columns:fields
,flags : 'w'
})
下面是每个参数的说明
* `delimiter` csv文件每列的分隔符;
* `columns` 目标文件目标文件的列,
* `header` 是否带有表头;
* `lineBreaks` 分隔行之间的标识,有 'auto', 'unix', 'mac', 'windows', 'unicode'几种;
* `flags` 新建目标文件还是在已有的目标文件上追加数据,’w’新建;’a’追加;
* `end` 在响应end消息之前,文件不可写;
csv断点续传
此csv模块唯一的缺陷就是不能支持断点,即一个文件没有处理完,下次接着处理。解决此问题的关键在于要捕获到程序已经处理数据的个数,前面提到'record'只能监听到程序读取到的个数,而不代表已经写入文件的个数。跟踪了csv模块的源代码,发现只要修改源代码,监听到每次批量写入目标文件时的事件,问题就迎刃而解。
this.emit("writen", this.state.countWriten);
在csv.js添加自定义的监听事件,countWriten就是记录的每次写入目标文件的个数。然后在调用csv模块时添加上此事件即可。
.on('writen', function(index){
console.log("rtn", index);
})
这样就能实时捕获到写入文件的个数,可以将此数据写入游标文件记录下来。稍加修改,csv模块就支持断点的功能,使用起来就完美了。
- Nodejs:csv模块解析
- nodejs:csv模块解析
- Python_使用csv模块解析csv文件
- Python_使用csv模块解析csv文件
- nodejs模块xml2js解析xml的坑
- Nodejs之地址解析模块URL
- nodejs模块学习: express-session 解析
- nodejs 导出csv
- nodejs读取csv
- Python_使用csv模块解析csv文件(处理Excel表格)
- Nodejs 模块
- nodejs模块
- Nodejs 模块
- nodejs-模块
- NodeJS-模块
- NodeJS模块
- nodejs 模块
- nodejs模块
- 多态与继承中多态
- nginx启动、重启、关闭、升级
- 无法将网络更改为桥接状态:没有未桥接的主机网络适配器
- 如何不使用代理网站,用谷歌浏览器访问外网
- nodejs: C++扩展
- nodejs:csv模块解析
- nodejs: 理解Buffer
- 一份快速实用的 tcpdump 命令参考手册
- 在线Apache重写规则转Nginx
- 深入浅出LinkedList与ArrayList(2)
- java环境配置总结
- Sed命令基础操作
- nodejs:express 4.x
- JVM学习笔记