数据清洗小记(12):姓与名的提取

来源:互联网 发布:2015 库里对火箭 数据 编辑:程序博客网 时间:2024/03/29 02:02

【背景】
由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。

【解决】
1、长度判读利用case、length函数;
2、截取函数利用substr函数。

【实验】
1、构造源端实验表

create table yuduan (english_name varchar2(100),chinese_name varchar2(100));

2、插入实验数据

insert into yuduan(english_name,chinese_name) values ('huanggai','黄盖');insert into yuduan(english_name,chinese_name) values ('zhugeliang','诸葛亮');insert into yuduan(english_name,chinese_name) values ('caocao','曹操');insert into yuduan(english_name,chinese_name) values ('suolanglaji','索朗拉吉');insert into yuduan(english_name,chinese_name) values ('ouyangzhenghua','欧阳正华');commit;

3、查询源端数据情况

select * from yuduan;

这里写图片描述
4、写查询语句进行测试,用于后续插入数据时使用

SELECT SYS_GUID() ID,--主键IDENGLISH_NAME ENGLISH_NAME,--英文名CHINESE_NAME CHINESE_NAME,--中文名CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)ELSE SUBSTR(T.CHINESE_NAME,1,2) END PASG_FIRSTNAME, --旅客姓CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)ELSE SUBSTR(T.CHINESE_NAME,3) END  PASG_LASTNAME --旅客名FROM YUDUAN T;

这里写图片描述
5、模拟写插入目标端语句

INSERT /*+APPEND*/ INTO TB_PEOPLE NOLOGGINGSELECT SYS_GUID() ID,--主键IDENGLISH_NAME ENGLISH_NAME,--英文名CHINESE_NAME CHINESE_NAME,--中文名CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)ELSE SUBSTR(T.CHINESE_NAME,1,2) END PASG_FIRSTNAME, --旅客姓CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)ELSE SUBSTR(T.CHINESE_NAME,3) END  PASG_LASTNAME --旅客名FROM YUDUAN T;COMMIT;

6、删除测试表

drop table yuduan purge;

小知识,简而记之。

蓝的成长记系列:

原创作品,出自 “深蓝的blog” 博客

蓝的成长记——追逐DBA(1):奔波于路上,挺进山东

蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装

蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统

蓝的成长记——追逐DBA(6):做事与做人:小技术,大为人

蓝的成长记——追逐DBA(7):基础命令,地基之石

蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere

蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记——追逐DBA(12):七天七收获的SQL

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机……”

蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折

蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了

蓝的成长记——追逐DBA(17):是分享,还是消费,在后IOE时代学会成长

蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起

蓝的成长记——追逐DBA(19):路上的插曲:触碰“框架”与“软件系统”

蓝的成长记——追逐DBA(20):何故缘起,建库护航

其它篇章:

足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观

足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈

足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!

足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比!

足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!

足球与oracle系列(6):伴随建库的亚洲杯——加油中国队

1 0
原创粉丝点击