linux下删除大数据文件中部分字段重复的行
来源:互联网 发布:散打运动员的身体数据 编辑:程序博客网 时间:2024/06/06 14:02
最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移:
1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)
use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;
1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)
use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;
- linux下删除大数据文件中部分字段重复的行
- oracle删除一个大表中部分数据的讨论
- sqlMapConfig.XML中部分字段的意义
- Mysql 两种情况下更新字段中部分数据的方法
- linux下重复行的删除
- linux中部分常用的命令详解
- Linux中部分命令
- linux中部分概念
- Mysql更新字段中部分数据的方法
- Mysql更新字段中部分数据的方法
- 删除重复的字段
- 通过句柄恢复Linux下误删除的数据库数据文件
- Linux 下Oracle 数据文件被物理误删除的恢复
- mysql替换字段中部分字符串
- SQL替换字段中部分字符
- 数据库中部分简单的
- 关于hql中部分关联字段为空时,不报错而直接查不出字段为空的记录
- 【Linux】rm删除数据文件的恢复操作
- cuda4+vs2010安装
- 无知的自我
- 首发Zend Studio 9.0正式版注册破解
- formview 的模版使用
- CSS3基础知识小测验上线,大家有兴趣可以测试一下!
- linux下删除大数据文件中部分字段重复的行
- ACE Service Configurator框架
- object/param标签
- OMNet++4.0及Mobility framework安装篇
- java 实习遇到的问题和一些小经验(第一个月)
- vimrc配置(每次找都很麻烦)
- 坐下来,理理思绪
- Servlet中的Request的一些实现细节和应用
- linux /proc 目录底下的档案