数据清洗小记(12):姓与名的提取

【背景】

由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数、截取函数处理。

【解决】

1、长度判读利用case、length函数;

2、截取函数利用substr函数。

【实验】

1、构造源端实验表

create table yuduan
(
english_name varchar2(100),
chinese_name varchar2(100)
);

2、插入实验数据

insert into yuduan(english_name,chinese_name) values (‘huanggai‘,‘黄盖‘);
insert into yuduan(english_name,chinese_name) values (‘zhugeliang‘,‘诸葛亮‘);
insert into yuduan(english_name,chinese_name) values (‘caocao‘,‘曹操‘);
insert into yuduan(english_name,chinese_name) values (‘suolanglaji‘,‘索朗拉吉‘);
insert into yuduan(english_name,chinese_name) values (‘ouyangzhenghua‘,‘欧阳正华‘);
commit;

3、查询源端数据情况

select * from yuduan;

4、写查询语句进行测试,用于后续插入数据时使用

SELECT
SYS_GUID() ID,--主键ID
ENGLISH_NAME ENGLISH_NAME,--英文名
CHINESE_NAME CHINESE_NAME,--中文名
CASE
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)
ELSE SUBSTR(T.CHINESE_NAME,1,2)
END PASG_FIRSTNAME, --旅客姓
CASE
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)
ELSE SUBSTR(T.CHINESE_NAME,3)
END  PASG_LASTNAME --旅客名
FROM YUDUAN T;

5、模拟写插入目标端语句

INSERT /*+APPEND*/ INTO TB_PEOPLE NOLOGGING
SELECT
SYS_GUID() ID,--主键ID
ENGLISH_NAME ENGLISH_NAME,--英文名
CHINESE_NAME CHINESE_NAME,--中文名
CASE
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,1,1)
ELSE SUBSTR(T.CHINESE_NAME,1,2)
END PASG_FIRSTNAME, --旅客姓
CASE
WHEN LENGTH(T.CHINESE_NAME)<=3 THEN SUBSTR(T.CHINESE_NAME,2)
ELSE SUBSTR(T.CHINESE_NAME,3)
END  PASG_LASTNAME --旅客名
FROM YUDUAN T;
COMMIT;

6、删除测试表

drop table yuduan purge;

小知识,简而记之。

蓝的成长记系列:

原创作品,出自 “深蓝的blog” 博客

蓝的成长记——追逐DBA(1):奔波于路上,挺进山东

蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装

蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统

蓝的成长记——追逐DBA(6):做事与做人:小技术,大为人

蓝的成长记——追逐DBA(7):基础命令,地基之石

蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere

蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记——追逐DBA(12):七天七收获的SQL

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机……”

蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折

蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了

蓝的成长记——追逐DBA(17):是分享,还是消费,在后IOE时代学会成长

蓝的成长记——追逐DBA(18):小机上WAS集群故障,由一次更换IP引起

蓝的成长记——追逐DBA(19):路上的插曲:触碰“框架”与“软件系统”

蓝的成长记——追逐DBA(20):何故缘起,建库护航

其它篇章:

足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观

足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈

足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!

足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比!

足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!

足球与oracle系列(6):伴随建库的亚洲杯——加油中国队

时间: 2024-12-17 17:32:30

数据清洗小记(12):姓与名的提取的相关文章

数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)

[背景] 利用kettle工具,完成某表的增量工作. [解决] 利用模块完成即可,如下简图: [实验] 先手工准备一个实验环境: 准备基本完成如下效果: select t.*, t.rowid from EMP_ETL t select max(hiredate) maxsj from EMP_ETL 我们验证将2015年10月22日的数据插入目标表中. 创建目标表: create table EMP_ETL_1 as select * from EMP_ETL t where 1=2; 此时E

数据清洗小记:多用户调用同一个函数

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340515 [背景] 做数据抽取时,源端遇到多用户访问不同所属表情况,需要使用相同的函数时,在多用户下需要重新创建. [解决] 多用户下遇到使用相同函数的情况时,我们可以选择重新创建函数,但有时由于函数过多,执行起来不方便,每个用户都执行一次有时也不便于对于函数的管

从全域名中提取根域名

1.前言 最近因为工作需要判断一个域名是否备案,实际提取的域名就是HTTP报文中的Host的内容,而判断一个域名是否是根据根域名进行的.例如访问www.qq.com,提取Host的内容为www.qq.com,而判断这个域名是否备案,是通过qq.com进行,因此需要从Host内容中提取出根域名. 遇到的问题 1.顶级域名的种类存在以下不同情况,例如 www.google.com    www.google.com.cn 顶级域名分别是.com 和.com.cn提取顶级名分别为google.com

2.12根据扩展名切分文件名

---恢复内容开始--- 有一些脚本是依据文件名进行各种处理的,我们可能会需要在保留扩展名的同时修改文件名.转换文件格式(保留文件名的同时修改扩展名)或提取部分文件名.shell所具有的一些内建功能可以依据不同的情况来切分文件名. 1)借助%操作符可以轻松将名称部分从"名称.扩展名"这种格式中提取出来,如从simple.jpg中提取名称 file_jpg = "sample.jpg" name=$(file_jpg%.*) echo File name is :$n

数据清洗小记(2):全角数字转换半角数字

原创作品.出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 [背景] 在将某数字类型字段插入到目标端时,报错.提示类型不对,查看数据发现确实为number,但发现为"全角"数字. [解决] 利用函数,将"全角"转换成"半角",使用如:to_single_

数据清洗小记:字符串转日期:时间戳引来的问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46513787 [背景] 在进行数据抽取时,源端"时间意义"字段数据为"时间戳格式",而且字段类型为字符串类型.但是目标端要求,进入数据为date类型,需要清洗. [解决] 遇到这种问题,起初可能会比较棘手,但通过对"时

数据清洗小记:全角数字转换半角数字

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 [背景] 在将某数字类型字段插入到目标端时,报错,提示类型不正确,查看数据发现确实为number,但发现为"全角"数字. [解决] 利用函数,将"全角"转换成"半角",使用如:to_single

数据清洗小记:判断是否为数字函数

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340443 [背景] 在处理数据时,在向为number类型的字段插入数据的时候,出现大量中文或无意义英文,查看发现均为垃圾数据,需要清洗. [解决] 计划调用数字判断函数来完成判断,如果判断为数字类型的,存入数据,如果为非数字类型的,赋空值处理. 编写"判

数据清洗小记(15):DECODE利用sign函数做大小值判断

[背景] 对某业务数据处理时,需要判断两个数据字段的大小,保留较大的数据存入到指定字段下面.考虑使用decode函数和sign函数来实现这个目的. [解决] 1.decode(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) 2.sign()函数:根据某个值是0.正数.负数,分别返回0.1.-1 3.为获得两个字段的较大值或较小值: A>B, A-B>0, sign(A-B)=1, 获得大值即A, decode(sign(A-B),1,A,B) A<B, A-B<