数据清洗小记(12):姓与名的提取
来源:互联网 发布:2015 库里对火箭 数据 编辑:程序博客网 时间:2024/03/29 02:02
【背景】
由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。
【解决】
1、长度判读利用case、length函数;
2、截取函数利用substr函数。
【实验】
1、构造源端实验表
create table yuduan (english_name varchar2(100),chinese_name varchar2(100));
2、插入实验数据
insert into yuduan(english_name,chinese_name) values ('huanggai','黄盖');insert into yuduan(english_name,chinese_name) values ('zhugeliang','诸葛亮');insert into yuduan(english_name,chinese_name) values ('caocao','曹操');insert into yuduan(english_name,chinese_name) values ('suolanglaji','索朗拉吉');insert into yuduan(english_name,chinese_name) values ('ouyangzhenghua','欧阳正华');commit;
3、查询源端数据情况
select * from yuduan;
4、写查询语句进行测试,用于后续插入数据时使用
SELECT SYS_GUID() ID,--主键IDENGLISH_NAME ENGLISH_NAME,--英文名CHINESE_NAME CHINESE_NAME,--中文名CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)ELSE SUBSTR(T.CHINESE_NAME,1,2) END PASG_FIRSTNAME, --旅客姓CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)ELSE SUBSTR(T.CHINESE_NAME,3) END PASG_LASTNAME --旅客名FROM YUDUAN T;
5、模拟写插入目标端语句
INSERT /*+APPEND*/ INTO TB_PEOPLE NOLOGGINGSELECT SYS_GUID() ID,--主键IDENGLISH_NAME ENGLISH_NAME,--英文名CHINESE_NAME CHINESE_NAME,--中文名CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)ELSE SUBSTR(T.CHINESE_NAME,1,2) END PASG_FIRSTNAME, --旅客姓CASE WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)ELSE SUBSTR(T.CHINESE_NAME,3) END PASG_LASTNAME --旅客名FROM YUDUAN T;COMMIT;
6、删除测试表
drop table yuduan purge;
小知识,简而记之。
蓝的成长记系列:
原创作品,出自 “深蓝的blog” 博客
蓝的成长记——追逐DBA(1):奔波于路上,挺进山东
蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知
蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题
蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装
蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统
蓝的成长记——追逐DBA(6):做事与做人:小技术,大为人
蓝的成长记——追逐DBA(7):基础命令,地基之石
蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验
蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程
蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere
蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来
蓝的成长记——追逐DBA(12):七天七收获的SQL
蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机……”
蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署
蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折
蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了
蓝的成长记——追逐DBA(17):是分享,还是消费,在后IOE时代学会成长
蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起
蓝的成长记——追逐DBA(19):路上的插曲:触碰“框架”与“软件系统”
蓝的成长记——追逐DBA(20):何故缘起,建库护航
其它篇章:
足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观
足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈
足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!
足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比!
足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!
足球与oracle系列(6):伴随建库的亚洲杯——加油中国队
- 数据清洗小记(12):姓与名的提取
- 机器学习之数据清洗与特征提取
- 数据清洗小记(14):rtrim不被注意的用法
- Excel 姓名分割为 '姓' 与 '名'
- 用javascript将中文名字拆分为姓与名的jquery插件
- 数据清洗小记(6):“时间段”数据获取小心错误的习惯
- 从键盘输入一个人的姓和名,然后将姓和名的首字母变成大写字母
- 数据清洗的要素
- R的数据清洗
- 数据清洗小记(1):正确英文日期转换报“无效的月份”
- 数据清洗小记(5):主键类ID字段的生成
- 数据清洗小记(8):字符串转日期:时间戳引来的问题
- 数据清洗小记(13):CASE WHEN写条件时字段位置的注意
- 数据清洗与收集week1
- 数据清洗与收集week2
- 数据清洗与收集week3
- 数据清洗与收集week4
- 关于名和姓
- UltraEdit 插入当前日期时间: 按下 F7
- 文件下载之使用DownloadManager
- Linux Shell 编程语法
- 如何使用反射技术获取泛型类的真实类型?
- wpf下textbox绑定list<string>显示
- 数据清洗小记(12):姓与名的提取
- 使用volley踩到的一个坑
- 对于MyBatis的初解
- 修改Eclipse中web项目的访问路劲
- android 平板的action bar、status bar、navigation bar的高度
- 试用vSphere 6(四):配置数据中心(添加ESXi主机、新建数据中心\集群等)
- R语言基础指令和并行算法初识(上篇)
- edittext 自动跳转到下一个 返回上一个
- 一步步告诉你stm32开发环境搭建流程