Linux 处理数据文件

来源:互联网 发布:sql语句转换成linq 编辑:程序博客网 时间:2024/05/18 22:43

排序

处理大量数据时的一个常用命令是 sort 命令。
sort 命令参数

参数 说明 -b –ignore-leading-blanks 排序时忽略起始的空白 -C –check=quiet 不排序,如果数据无序也不要报告 -c –check 不排序,但检查输入数据是不是已排序;未排序的话,报告 -d –dictionary-order 仅考虑空白和字母,不考虑特殊字符 -f –ignore-case 默认情况下,会将大写字母排在前面;这个参数会忽略大小写 -g –general-number-sort 按通用数值来排序(跟 -n 不同,把值当浮点数来排序,支持科学计数法表示的值) -i –ignore-nonprinting 在排序时忽略不可打印字符 -k –key=POS1[,POS2] 排序从POS1位置开始;如果指定了POS2的话,到POS2位置结束 -M –month-sort 用三字符月份名按月份排序 -m –merge 将两个已排序数据文件合并 -n –numeric-sort 按字符串数值来排序(并不转换为浮点数) -o –output=file 将排序结果写出到指定的文件中 -R –random-sort 按随机生成的散列表的键值排序 –random-source=FILE 指定 -R 参数用到的随机字节的源文件 -r –reverse 反序排序(升序变成降序) -S –buffer-size=SIZE 指定使用的内存大小 -s –stable 禁用最后重排序比较 -T –temporary-directory=DIR 指定一个位置来存储临时工作文件 -t –field-separator=SEP 指定一个用来区分键位置的字符 -u –unique 和 -c 参数一起使用时,检查严格排序;不和 -c 参数一起用时,仅输出第一例相似的两行 -z –zero-terminated 用NULL字符作为行尾,而不是用换行符

搜索数据

grep 命令会在输入或指定的文件中查找包含匹配指定模式的字符的行。

压缩数据

Linux文件压缩工具

名称 后缀 描述 bzip2 .bz2 采用Burrows-Wheeler块排序文本压缩算法和霍夫曼编码 compress .Z 最初的Unix文件压缩工具,已经快没人用了 gzip .gz GNU压缩工具,用Lempel-Ziv编码 zip .zip Windows上PKZIP工具的Unix实现

tar 命令最开始是用来将文件写到磁带设备上归档的,然而它也能把输出写到文件里,这种
用法在Linux上已经普遍用来归档数据了。

参数 说明 -A –concatenate 将一个已有tar归档文件追加到另一个已有tar归档文件 -c –create 创建一个新的tar归档文件 -d –diff 检查归档文件和文件系统的不同之处 –delete 从已有tar归档文件中删除 -r –append 追加文件到已有tar归档文件末尾 -t –list 列出已有tar归档文件的内容 -u –update 将比tar归档文件中已有的同名文件新的文件追加到该tar归档文件中 -x –extract 从已有tar归档文件中提取文件 -C dir 切换到指定目录 -f file 输出结果到文件或设备 file -j 将输出重定向给 bzip2 命令来压缩内容 -p 保留所有文件权限 -v 在处理文件时显示文件 -z 将输出重定向给 gzip 命令来压缩内容

参考文献
Linux命令行与shell脚本编程大全