《大型网站技术架构：核心原理与案例分析》读书笔记

由于网站的访问流量是缓慢增长的（PS除了垄断的12306），所以一般网站的架构也是不断的演化的，没有一开始就搞出个支持大并发的网站。无论从开发到发布的时间、消耗的资源上来看，或者是说从开发、维护的难度上看，或者从开发的防止“过度设计”的维度思考，绝大多数网站设计是一个演化的过程。这也是植根于需求的表现。
分析目前大型互联网可以从两个维度，用户需求、结构框架。当然是前者决定后者。从用户需求特点分析，大型网站要求高可用、高性能两个最“简单”的要求。从设计的角度讲还要满足可扩展（主要是业务上）、伸缩性（性能上）、安全性（开放导致很多攻击）。基于以上五个方面，在设计网站的架构，就形成了目前的模式，横向的实现逻辑分层、纵向的业务功能分割、分布式、集群、缓存、异步、冗余、自动化、安全设计等通用的模式与思想。
技术并不代表一切。很多情况下，理解业务才是最重要的，现在技术很开放，而且分享的人也很多，从社区上看技术大牛很多，但大家很少关心业务，可能是因为有共同语言的少。但是，如果不理解自己的业务可能会走很多弯路。为什么企业开发自己云上的应用的过程如此漫长？很多情况下不是缺少技术大牛，而是缺少懂技术的业务大牛。文中作者所举得12306例子是此问题很好的印证，一开始12306是一个时间点集中售所有车辆的票，结果可以想象，一秒内可能有上亿的访问。后来最大的改进可能不是技术上的，而是业务上的，有必要同一个时间卖所有的票么？最后业务模型是，一天内分了很多个时段卖票，业务上的负载均衡。论坛上还看过另外一种说法，对于这种稀缺资源，为了不失公正性，可以摇号。也是一种思路，但是在中国，什么的都有后门，到时候可能就不是技术上的问题了，人的猜疑心与不信任对此方案压力山大。
文中作者说明观点“山寨与创新的最大区别不在于抄袭，不在于模仿，而在于对于问题和需求是否真正理解与把握”的时候举了新浪微博中的例子，当大V发布微博的时候会存在大量的写数据库操作。为了避免数据库负担，可以只写并推送那些在线的用户的部分，而那写不在线的，等他们上线的时候会去主动查询。其实也是通过业务而改进设计，避免不必要操作节约资源的一个例子。
CPU变快不仅是因为核心多、频率高，更重要的一个原因是有缓存。这么看来，cpu设计与网站也有相同道理，核心多（分布式），多级缓存（对应网站的各种资源缓存），频率上CPU现代没有明显提高，与网站设计上没有一味的追求高性能机器一样。但从长远角度看，CPU频率主要是物理学制约，早晚会有突破。
缓存不仅能够提高速度，也能够避免后端的压力。缓存对于速度的提升是非常明显的，在目前的架构中很多地方用到缓存，从业务流程看，缓存有IE缓存、CND、反向代理、应用服务器本地缓存、分布式缓存最后实在没有了才去数据库，数据库本身也有缓存配置，如果数据库还没有命中，甚至到了操作系统层面也有很多缓存，内存中缓存着硬盘热信息，而硬盘也有自己的缓存。
缓存对读取速度有很大提升，在很多情况下对写操作性能也有很大提高，例如硬盘的缓存。但写操作在宕机和断电时缓存可能会导致数据的不一致，很多情况下比较麻烦。所以又有一种变通的做法，提高处理消息持久化的速度，怎么提高呢？来了消息顺序写磁盘，消息可能没有处理完成就直接返回给客户了，即时断电了我在处理我已经持久化了的消息，保证一致性。这也是消息队列的一个重要作用。
性能的几个指标
PV(page view)，一般会以日为单位计算

QPS（TPS）：每秒钟request/事务数量

并发数：系统同时处理的request/事务数

响应时间：一般取平均响应时间

上面四个关系QPS（TPS）= 并发数/平均响应时间

“淘宝的TPS和PV之间的关系通常为最高TPS：PV大约为 1 : 11*3600 （相当于按最高TPS访问11个小时，这个是商品详情的场景，不同的应用场景会有一些不同）”
“网站优化第一定利率——优先使用缓存优化性能。”
与读写锁一样，缓存也有一样限制，读的次数多于写的次数。因为一次写缓存的操作不仅仅是简单的写缓存，还要做持久化工作。一个读写为1:1的情景，写入缓存后，先把缓存置为无效（一致性要求较高），然后写入数据库，这个时候读操作发现缓存无效，在去读取数据库，这样缓存数据库命中率就很低，加上那些维护的复杂操作，反而可能会减少系统的性能。如果对一致性要求不高，这个时候很大概率读到的数据都是有延时的不正确的数据。
换一句话说，缓存主要是对“慢数据”。互联网中多数为这种情况，例如发表博客、商品更新。还有动环中的温湿度，缓存一份，一段时间同步下一就ok了。
缓存的作用是加快响应速度，不可以作为可靠的数据来源。所以对缓存的热备份，意义不大。
Hadoop为了实现文件磁盘的可靠性和速度，搞了自己的HDFS（可以理解为Hadoop File System）。一份数据，三个服务器存储，这样，有了RAID0的快速存储（应该是三倍的存储速度），也有了RAID1的可靠性（三份数据）。
书中的第四章主要是“高性能”，一方面是利用各种缓存，另一方面就是解决存储上的速度与可靠性。
Session服务器？
“CAP原则又称CAP定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼”百科上的解释，对于大型的系统，一般会弱化一致性从而实现更好的可用性与分区容错性，弱化并不是不保证，而是延迟的完成一致性的需求。
“关系数据库的热备份机制就是通常所说的Master-Slave同步机制，此机制不仅解决了数据库备份问题，还改善了数据库系统的性能，实践中，通常使用读写分离的方法访问Master与Slave，写操作只访问Master库，读操作只读取Slave库。”
第五章讲的主要是“高可用”，而实现高可用主要是负载均衡，数据库备份等基本方法，辅以运行监控手段。
第六章伸缩性，网站的演化分离过程可以分为三类，
第一类大的系统级别的分离，例如数据库系统，缓存系统，文件管理系统（静态资源），演化过程为：为单一服务器->数据库分离->缓存分离->静态资源分离。

第二类业务流程的抽象分离，从下到上的模块为：数据库->基础技术服务->可复用业务服务->具体的产品。PS，这里分离的最大好处不仅在于可以分布式，还有设计中的“复用”能够带来的好处。

第三类，业务层面的分离：订单、商品系统、用户信息等。（不能进行Join操作）

负载均衡问题可以通过Http重定向、DNS、反向代理、负载均衡服务器IP方式、数据链路层（直接修改IP头）方式解决，算法有轮询、加权轮询、随机、源地址散列（hash）、最少连接等方式。

伸缩性问题中，缓存的伸缩性设计与应用服务器的伸缩性设计不同，通常应用服务器的负载均衡会使用hash取余的算法实现，但是这种方法并不适合于缓存的。如采用取余算法，新增一个缓存服务器后，以前缓存在缓存服务器中的数据“命中率”会很低，这样在新增缓存服务器后由于命中不高会大大增加数据库的压力，甚至崩溃。例如以前有三个Node，为Node0、Node1、Node2，如果新增一个Node3，那么以前数据4对3取余在Node1中，但是增加后，4对4取余会在Node0中，这样，Node3的增加对其他Node中的命中会产生很大的影响，使命中率大大下降。对此问题，分布式缓存的额伸缩性中可以使用hash环的算法。

伸缩性问题在数据库上，可以分为关系数据库与NoSql数据库考虑，关系数据库可以使用Cobar访问代理，NoSql中HBase已经支持伸缩性。
第七章讲的是可扩展，目前主要有消息队列与分布式服务框架。webservice能够提供远程的服务，但无法满足大企业的需求，分布式的服务框架有Facebook的Thrift和阿里的Dubbo。
Spring Jetty JBoss Servlet Struts
wiki使用免费开源的软件实现如此高的访问量，很大程度上是业务上的简化，例如使用CDN并要求尽可能少的动态页面。有点类似价值工程，只实现最必要的功能。
磁盘也有竞争！这可以解释当进行大量IO操作的时候，为什么系统会卡顿的问题。如果进行一个大文件的读取，这时候可能会占用长时间的磁盘操作，而会影响到其他的业务。这也要求大文件与小文件需要分开放置，以免突然的大文件操作，打乱读取小文件的节奏。

时间： 2024-11-03 21:44:36

《大型网站技术架构：核心原理与案例分析》读书笔记的相关文章

码农的产品思维培养第一节（人人都是产品经理读书笔记）

在前段时间,密集的推出Android学习记录之后,我觉得接下来的Android开发进入了一个精进演变的过程,革命性的东西略缺.每日更新特别新的东西也违背认知规律.所以以后关于Android方面的知识,碰到什么,然后记录什么. 而今天,在前一篇日志里面,我描述了我为什么要去理解"产品经理",从这一节开始,我要实施我的计划.所以,和Android记录一样,我要记录这个过程.对自己是一个回归总结吸收的过程,同时也希望能够帮助到更多的朋友,如果你也心存学习进取之心,如果你也如我一般疑惑未解心不

人人都是产品经理读书笔记（四）

补充:

《启示录：打造用户喜爱的产品》—— 读书笔记

这是一本非常不错的书,即使你可能只是一名开发工程师,也会有意想不到的收获! 如果你是一名产品经理,那就更不能错过了!不要留下遗憾! 这真的是一本很好的书,读每一遍都会有不同的收获,绝对让你震撼!我是会再读一遍或者N多遍的, 而能把这些内容转应用到实际中的人才是真正的高手,细细体会,在工作中好像已经有人在用了!惊讶!得抓紧时间了! 通过这本书,你将会知道一个合格的产品经理应该做什么,怎么做本书主要讲解三个方面:人员.流程.产品人员:产品从开始到完成过程中所有的参与者流程:产品在开发过程中的所

产品经理学习笔记（二）------产品经理的工作职责（下）

二.产品经理的工作职责(下) 4.产品宣讲 ---宣讲对象:客服.市场.销售.运营.其他(开发进度到50%) ---宣讲目的:内部培训.获得认可 ---宣讲方式:内部推荐会(预测.演示.试用).注意控制(氛围.引导) ---宣讲目标:获得认可.帮助其他团队更好理解产品.协助其他团队更好开展工作 5.市场推广 ---对产品资料进行内容把关:网站.移动应用.印刷品等 ---主要针对:市场.公关.运营.销售 6.产品推出后的管理与迭代 ---运营数据的整理分析 ---深入一线体验产品 ---关注用户需

产品经理--读书静心的日子

入行教育,做教育产品工作,需要不断的进步. 一.了解产品开发.项目管理经验. 二.教育基础理论及相关知识. 小学阶段 (2016.2017不断的翻阅,有新的体会) 中学阶段(2018主攻方向)

谷歌和亚马逊如何做产品（读书笔记）

《产品经理》读书笔记

自从鼠标手犯病后,就刻意减少使用电脑的时间并且加强运动,目前已经完全康复,但是还是需要注意.因此更新博客的频率大大降低,但是也有时间多看看书,学习学习了! 最近看了<yes,产品经理>上下册,作者汤圆老马,文笔诙谐,把管理知识融入工作日常内容,浅显易懂,对于非管理专业的门外汉,还是不错的读物! 下面是摘抄的部分主要内容,个人认为比较有用的就记录下来. ------------------------------------------------ 制定产品价格策略的6步: 确定企业目标冲

产品经理的那些事第一章读书笔记

1.一个产品经理的信仰:好产品能改变世界. 2.为什么要做产品经理:因为热爱,改变世界的方法有很多,技术可以改变世界,好的产品也可以,当然还有其他,但我热爱产品,一件事只有热爱了,才能持续不断的去做好,所以我选择了产品经理这条路. 3.产品是什么:产品是用来解决某个问题的东西. 4.产品经理为何而设:想要更了解产品与它面临的竞争情况,最终目的是要满足顾客的需求. 5.产品经理概念的进化: 分析: 1)行业形态不同:成熟行业vs.新兴行业 ①传统行业概况:经过几十年乃至上百年的摸爬滚打,市场已经

【读书笔记】产品经理要做的事

文章链接:http://www.chanpin100.com/archives/44223 作为一个产品经理,不能只画图:产品经理更像是一个纽带,连接着各个环节,保持项目的正常运行. 在开始要做一个产品的时候,不能上来就画图,也不能告诉你需求就开始画图.应该先对需求进行筛选和挖掘:把伪需求去掉,挖掘出潜在需求. 1.分析产品的步骤:目标人群.使用场景.业务核心. 2.在团队中担任掌舵人,有目的的引导团队:激发团队灵感可以使用商业画布:客户分布.价值主张.渠道通路.客户关系.收入来源.核心资源.关

【读书笔记】神一样的产品经理（一）

第一篇产品经理 1.产品经理诞生的背景和价值 *很多入门级书里都会提到这一部分,本书讲了保洁诞生的第一个产品经理的故事. 2.很牛的产品经理(例子是乔布斯.郭靖) 1)几个重要特性:*影响力 *核心需求把控力 *创新力 *痴情力 2)产品经理的职责: *明确产品的目标用户群及其特征*获取.评估和管理用户需求*完成产品需求文档.产品原型和流程图*精通用户体验.交互设计和信息架构技能*项目管理.需求变更管理和需求验收*产品运营数据的分析和总结*提供运营.市场和销售等支撑 3)产品经理常犯的错误