数据清洗小记:“时间段”数据获取小心错误的习惯

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。

深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46453391

【背景】

某项目中,有查询时间段的业务需求,java代码类似如下:

<if test=”endDate!=null”>
and BANKJLSJ_BANKJLSJSSJ<![CDATA[<=]]>to_date( #{endDate},’yyyy-mm-dd’)
</if>
<if test=”startDate!=null”>
and BANKJLSJ_BANKJLSJSSJ<![CDATA[>=]]> to_date(#{startDate},’yyyy-mm-dd’)
</if>

项目建设中,开发人员发现查询时间段有漏数据的现象,当日期精确到年月日时数据是可以查看到的,但是如果时间是精确到时分秒类型的便会有数据被漏掉。

【解决】

这是学习开发人员的经验,将以上代码改变为如下:

<if test=”endDate!=null”>
and BANKJLSJ_BANKJLSJSSJ<![CDATA[<]]>to_date( #{endDate},’yyyy-mm-dd’)+1
</if>
<if test=”startDate!=null”>
and BANKJLSJ_BANKJLSJSSJ<![CDATA[>=]]> to_date(#{startDate},’yyyy-mm-dd’)
</if>

这样不仅能查询到如“2014-09-02”这样的数据,也可以查询到“2014-09-02 12:23:08”这样的数据。

【实验】

构造一个实验环境。

createtabletest
(
IDvarchar2(32) default sys_guid(),
BANKJLSJ_BANKJLSJSSJ date
);

插入两条实验数据。

insertintotest (BANKJLSJ_BANKJLSJSSJ) values(to_date(20150516,'yyyy-mm-dd'));
insertintotest (BANKJLSJ_BANKJLSJSSJ) values(to_date(20150516120214,'yyyy-mm-dd hh24:mi:ss'));
commit;

测试查询结果,步骤如下

先查询test表里的数据情况,如下:

情况一:使用上面最初的>=和<=的条件,查询20150516一天时间段的数据,返回一条数据结果,如下:

稍加修改,再来查询一下,20150516一天时间段内的数据,查询如下:

可以看到,第二次的查询结果才是正确的,而使用范围时学会使用“+1”的方式才是正确的,对于时间段统计的常规性用法不应想当然的用两个等于号划分上下限,而是应该用正确的区间进行查询。

小知识,简而记之。

*******************************************蓝的成长记系列_20150523*************************************

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/huangyanlong)。

蓝的成长记——追逐DBA(1):奔波于路上,挺进山东

蓝的成长记——追逐DBA(2):安装!安装!久违的记忆,引起我对DBA的重新认知

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记——追逐DBA(4):追忆少年情愁,再探oracle安装(Linux下10g、11g)

蓝的成长记——追逐DBA(5):不谈技术谈业务,恼人的应用系统

蓝的成长记——追逐DBA(6): 做事与做人:小技术,大为人

蓝的成长记——追逐DBA(7):基础命令,地基之石

蓝的成长记——追逐DBA(8):重拾SP报告,回忆oracle的STATSPACK实验

蓝的成长记——追逐DBA(9):国庆渐去,追逐DBA,新规划,新启程

蓝的成长记——追逐DBA(10):飞刀防身,熟络而非专长:摆弄中间件Websphere

蓝的成长记——追逐DBA(11):回家后的安逸,晕晕乎乎醒了过来

蓝的成长记——追逐DBA(12):七天七收获的SQL

蓝的成长记——追逐DBA(13):协调硬件厂商,六个故事:所见所感的“服务器、存储、交换机......”

蓝的成长记——追逐DBA(14):难忘的“云”端,起步的hadoop部署

蓝的成长记——追逐DBA(15):以为FTP很“简单”,谁成想一波三折

蓝的成长记——追逐DBA(16):DBA也喝酒,被捭阖了

******************************************************************************************************************

********************************************足球与oracle系列_20150528***********************************

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/huangyanlong)。

足球与oracle系列(1):32路诸侯点兵,oracle32进程联盟 之A组巴西SMON进程的大局观

足球与oracle系列(2):巴西揭幕战预演,oracle体系结构杂谈

足球与oracle系列(3):oracle进程排名,世界杯次回合即将战罢!

足球与oracle系列(4):从巴西惨败于德国,想到,差异的RAC拓扑对比! 

足球与oracle系列(5):fifa14游戏缺失的directX库类比于oracle的rpm包!

足球与oracle系列(6):伴随建库的亚洲杯——加油中国队

******************************************************************************************************************

时间: 2024-09-30 06:14:06

数据清洗小记:“时间段”数据获取小心错误的习惯的相关文章

PHP. 01. C/S架构、B/S架构、服务器类型、服务器软件、HTTP协议/服务器、数据库、服务器web开发、PHP简介/常见语法、PHPheader()、 PHP_POST/GET数据获取和错误处理

C/S架构 Client/Server 指客户端,服务器 架构的意思 优点:性能性高:可将一部分的计算工作放在客户端上,服务器只需处理出局即可   洁面炫酷,可使用更多系统提供的效果 缺点:更新软件需版本同步 不同设备访问:必须安装了客户端才能登陆 B/S架构 Browser /Server 指浏览器, 服务器.是WEB兴起后的一种结构 优点:更新简洁,对用户来说只需刷新浏览器即可   多设备同步:只要能够使用浏览器即可登录 缺点:性能较低:当时随着硬件性能的提升,这个差距在缩小   浏览器兼容

数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)

[背景] 利用kettle工具,完成某表的增量工作. [解决] 利用模块完成即可,如下简图: [实验] 先手工准备一个实验环境: 准备基本完成如下效果: select t.*, t.rowid from EMP_ETL t select max(hiredate) maxsj from EMP_ETL 我们验证将2015年10月22日的数据插入目标表中. 创建目标表: create table EMP_ETL_1 as select * from EMP_ETL t where 1=2; 此时E

数据清洗小记(2):全角数字转换半角数字

原创作品.出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 [背景] 在将某数字类型字段插入到目标端时,报错.提示类型不对,查看数据发现确实为number,但发现为"全角"数字. [解决] 利用函数,将"全角"转换成"半角",使用如:to_single_

数据清洗小记:字符串转日期:时间戳引来的问题

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46513787 [背景] 在进行数据抽取时,源端"时间意义"字段数据为"时间戳格式",而且字段类型为字符串类型.但是目标端要求,进入数据为date类型,需要清洗. [解决] 遇到这种问题,起初可能会比较棘手,但通过对"时

数据清洗小记:全角数字转换半角数字

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 [背景] 在将某数字类型字段插入到目标端时,报错,提示类型不正确,查看数据发现确实为number,但发现为"全角"数字. [解决] 利用函数,将"全角"转换成"半角",使用如:to_single

数据清洗小记:判断是否为数字函数

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340443 [背景] 在处理数据时,在向为number类型的字段插入数据的时候,出现大量中文或无意义英文,查看发现均为垃圾数据,需要清洗. [解决] 计划调用数字判断函数来完成判断,如果判断为数字类型的,存入数据,如果为非数字类型的,赋空值处理. 编写"判

数据清洗小记:多用户调用同一个函数

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340515 [背景] 做数据抽取时,源端遇到多用户访问不同所属表情况,需要使用相同的函数时,在多用户下需要重新创建. [解决] 多用户下遇到使用相同函数的情况时,我们可以选择重新创建函数,但有时由于函数过多,执行起来不方便,每个用户都执行一次有时也不便于对于函数的管

数据清洗小记(15):DECODE利用sign函数做大小值判断

[背景] 对某业务数据处理时,需要判断两个数据字段的大小,保留较大的数据存入到指定字段下面.考虑使用decode函数和sign函数来实现这个目的. [解决] 1.decode(条件,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) 2.sign()函数:根据某个值是0.正数.负数,分别返回0.1.-1 3.为获得两个字段的较大值或较小值: A>B, A-B>0, sign(A-B)=1, 获得大值即A, decode(sign(A-B),1,A,B) A<B, A-B<

数据清洗小记(12):姓与名的提取

[背景] 由源端抽取数据时,姓名中文为唯一字段,落地到目标端时,由于业务需要,需要有单独的姓氏字段和姓名字段,则需要利用长度判读函数.截取函数处理. [解决] 1.长度判读利用case.length函数: 2.截取函数利用substr函数. [实验] 1.构造源端实验表 create table yuduan ( english_name varchar2(100), chinese_name varchar2(100) ); 2.插入实验数据 insert into yuduan(englis