任何抛开业务谈大数据量的sql优化都是瞎扯

周三去某在线旅游公司面试。被问到了一个关于数据量大的优化问题。问题是：一个主外键关联表，主表有一百万数据，外键关联表有一千万的数据，要求做一个连接。

本人接触过单表数据量最大的就是将近两亿行历史数据（某运营商一业务一年数据）做查询，所有查询相关列必须做索引，而且还要保证不会出现全表扫描情况。也从来没有试过把这么多数据全部拿出来放内存中。只好回答说“再怎么做优化估计都不行，这数据量太大了，性能肯定吃不销。我只能告诉尽可能的添加过滤条件，不要一次用这么多的数据来做连接，能分批做就分批做吧”。

面试人员告诉我，比如说我们的机票业务，我们只把北上广热门城市的放在缓存中，实时刷新即可。其他的每次去查询数据库即可，不必一次把所有的数据全部连接出来放到内存中。

我只能呵呵了，没有业务让我去优化一个sql，这不是扯淡么。

关于这种大数据量优化问题，让我理解最深刻就是分表做法。因为我们公司有个业务需要实时上传数据，每天小百万数据，而且还要做查询。于是分表来做，每天生成一张表，然后把前一天的表添加索引，查询的时候可以根据日期来获取表名。尽量少查询当天数据，因为没有索引比较慢。添加索引的话因为实时插入数据，索引的维护代价比较大，所以选择第二天添加前一天表的索引。

时间： 2024-12-28 08:58:59

任何抛开业务谈大数据量的sql优化都是瞎扯的相关文章

大数据量表的优化查询

1:索引,我们最先想到的就是创建索引,创建索引可以成倍的提升查询的效率,节省时间.但是如果数据量太过于巨大的时候,这个时候单纯的创建索引是无济于事的,我们知道假如特别是在大数据量中统计查询,就拿1000W数据来说吧,如果使用count函数的话,最少要50-100秒以上,当然如果你的服务器配置够高,处理够快,或许会少很多但是一样会超过10秒. 单纯的建立索引是无济于事的.我们可以在创建索引的时候给索引加个属性,compress,这个属性可以将所创建的索引进行一个良好的归类,这样的话,查询速度会提升

sql大数据量查询的优化技巧

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from xuehi.com where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from xuehi.com where num=0 3.应尽量避免在 where 子句中使用

mysql大数据量之limit优化

背景:当数据库里面的数据达到几百万条上千万条的时候,如果要分页的时候(不过一般分页不会有这么多),如果业务要求这么做那我们需要如何解决呢?我用的本地一个自己生产的一张表有五百多万的表,来进行测试,表名为big_data;首先我们看如下几条sql语句:在这之前我们开启profiling来监测sql语句执行的情况.set profiling=1;1.查询从第10w条数据开始分页10条2.查询从第20w条数据分页10条3.查询从第30w条数据分页10条 3.查询从第300w条数据分页10条 3.查询从

Android, BaseAdapter 处理大数据量时的优化

Android优化最常见的就是ListView, Gallery, GridView, ViewPager 的大数据优化图片优化访问网络的优化优化的原则: 数据延迟加载分批加载本地缓存数据优化 1).复用contentview 2).创建static class ViewHolder 3).分批加载滑动监听或者按钮显示更多数据往下拖动显示图片优化 1).异步加载 2).

大数据量分页问题优化sql代码

以下分享一点我的经验一般刚开始学SQL语句的时候,会这样写代码如下: SELECT * FROM table ORDER BY id LIMIT 1000, 10; 但在数据达到百万级的时候,这样写会慢死代码如下: SELECT * FROM table ORDER BY id LIMIT 1000000, 10; 也许耗费几十秒网上很多优化的方法是这样的代码如下: SELECT * FROM table WHERE id >= (SELECT id FROM table LIMIT

POI读写大数据量EXCEL

大数据量的excel一般都是.xlsx格式的,网上使用POI读写的例子比较多,但是很少提到读写非常大数据量的excel的例子,POI官网上提到XSSF有三种读写excel,POI地址:http://poi.apache.org/spreadsheet/index.html.官网的图片: 可以看到有三种模式: 1.eventmodel方式,基于事件驱动,SAX的方式解析excel(.xlsx是基于OOXML的),CPU和内存消耗非常低,但是只能读不能写 2.usermodel,就是我们一般使用的方

大数据量业务订制和解决方案思考

大数据量的系统要经过对数据的用处分析和数据周期分析,以寻求更好的解决方案. 1:业务系统的基础数据,如人员基础信息(基础资料,权限等).数据可以KEEP在内存中.数据要分散存储.基础数据逻辑要简洁.使用增量更新.高峰期来临前提前更新基础数据 2:热数据处理此部分数据是各方面环境会频繁使用到的数据对这部分数据的存储,比如使用不一样的存储方式,比如建立高效的索引,使用SSD盘,或者使用mysql数据库存储 3:历史数据的迁移近期数据此类数据是需要最近频繁使用或者调用的数据,对OLTP系统而言

大数据量高并发的数据库优化

一.数据库结构的设计如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程. 所以在考虑整个系统的流程的时候,我们必须

大数据量下高并发同步的讲解

对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步 1.同步和异步的区别和联系所谓同步,可以理解为在执行完一个函数或方法之后,一直等待系统返回值或消息,这时程序是出于阻塞的,只有接收到返回的值或消息后才往下执行其它的命令. 异步,

猜你喜欢

bash的基础特性

1.命令别名(alias) 通过alias命令实现: (1) alias 显示当前shell进程所有可用的命令别名: ...

软件测试读书笔记

[美] Ron Paton著, 周予滨, 姚静译. 软件测试[M]. 北京:机械工业出版社, 2002. 这本书是一本软件测试入门级读本,书的写作风格是浅显易懂,且知识面覆盖广.该书内容分为六个部分, ...

[小明学Shader]14.热扭曲效果

1.代码 Shader "AAAA/HeatIsland" { Properties { _MainTex ("Base (RGB)", 2D) = " ...

Django_Mysql数据表_创建

class School(models.Model): class_teaher = models.OneToOneField('Teacher',unique=False) class Teache ...

python文件和元组

python文件操作相较于java,Python里的文件操作简单了很多 python 获取当前文件所在的文件夹: os.path.dirname(__file__) 写了一个工具类,用来在当前文件夹 ...

Distributed Cache Coherence at Scalable Requestor Filter Pipes that Accumulate Invalidation Acknowledgements from other Requestor Filter Pipes Using Ordering Messages from Central Snoop Tag

A multi-processor, multi-cache system has filter pipes that store entries for request messages sent ...

使用tomcat作为web应用容器时，启用新线程找不到Session的问题

今天做一个功能,为了快速响应前端,业务完成后,另起了一个线程做一些不影响业务的统计工作,然后立即将业务操作结果返回给前台. 结果在新线程里报空指针找不到request对象.检查了下,我们用的是stru ...

根据用户输入的数字,显示对应星期.

/** * 根据用户输入的数字,显示对应星期. * * 思路: * 1.本体符合查表的思想,可以设定一个方法,让用户传入一个整型数值,然后在表中查对应的星期几就可以了. * */ p ...

长通道”再掀高潮j

当地工作人员介绍,今年团洲万亩油菜花海最佳观赏时期为本月下旬至3月下旬.最佳赏花地点推荐去团胜村,千亩以上完全盛开的油菜花连成了片,是畅游花海最好的地点. 樱花树:个人及家庭888元/年.株单位268 ...

挨踢（IT）脱口秀低调上线

挨踢(IT)脱口秀全新内容扑面而来,内容不打草稿,以最真实的方式说给你听. 北漂.IT.生活.技术.娱乐.大实话.薪水跳槽等一网打尽.Are you ready? 如果你有好的内容或者愿意加入我们来展 ...

租淄足诅祝砖租淄足诅祝砖租淄足诅祝砖租淄足诅祝砖

http://www.xuanhutang.com/files/article/html/19/19010/2547348.html http://www.xuanhutang.com/files/a ...

如何利用 Bootstrap 进行快速 Web 开发

原文出处: IBM developerworks 了解如何使用 Bootstrap 快速开发网站和 Web 应用程序(包括移动友好型应用程序).Bootstrap 以 LESS 项目为基础,由 Twi ...

Codeforces Round #Pi (Div. 2)——map——Geometric Progression

Polycarp loves geometric progressions very much. Since he was only three years old, he loves only th ...

html5中的锚点特效

html5的强大让我感觉越发兴奋,今天在写一个js demo---网页定位导航特效的时候,在涉及到页面的快速定位的时候,我还以为要用很复杂的js实现,结果之后才发现,html5有一个很酷的效果,虽然这 ...

OpenCV+海康威视摄像头的实时读取

OpenCV+海康威视摄像头的实时读取环境硬件: PC:i7-4970 16GB内存摄像头型号:DS-2CD3310D-I(2.8mm) 软件: windows-x64.vs2012.openc ...

dorado单表查询

(冒号是参数声明,表示是一个参数) 单表的查询选dataset1后点“向导”按钮,点where标签,选一个字段右移过去....value填变量名如“:Employee_ID”必须带冒号 ,ok(向导完 ...

在Windows Phone项目中调用C语言DLL

在Windows Phone项目中调用C语言写的DLL 最近接到一个需求,需要在WP里调用一个C语言写的DLL,并且说Android和iOS都可以,问我WP是否可以这样? 我说我调研一下,就有了下面的 ...

【技术】高度不适应（内层对象高度发生变化时，外层对象的高度不能自动调节）

html部分: <div class="box2">上</div><div id="box"> <p>内容< ...

博客园新语言代码高亮以及OpenLiveWriter插件开发

参考: 新语言代码高亮及Windows Live Writer插件开发最近学习Swift,在博客上写笔记的时候一直觉得Swift代码的高亮不太令人满意,因为博客园的编辑器上传代码模板中没有包括Swi ...

scala快速学习笔记（二）：控制结构，类和对象

IV.控制结构 1.if/else 除基本用法外,if/else语句能用来赋值,进而代替?:运算符.这得益于在Scala中,每个语句块都有值,就是该语句块最后一个语句的值.请看下面的代码. def a ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.023 s.