大型分布式网站的技术需求

HBase是Apache Hadoop项目下的一个子项目,它以GoogleBigTabale为原型,设计实现了高可靠性、高可扩展性、实现读写的列存储数据库,他的本质实际上是一张稀疏的大表,用来存储粗粒度的结构化数据,并且能够通过简单地增加节点来实现系统的线性扩展。

HBase运行在分布式文件系统HDFS之上,利用它可以在廉价PC Server上搭建。HBase集群中通常包含两种角色,HMaster和HRegion server,当表随着记录条数的增加而不断变大后,将会分成一个个Region。每个Region可以由(startey,endkey)来表示,它包含一个startkey道endkey的半闭区间,一个HRegionServer可以管理多个Region,并由HMaster来负责HRegionServer的调度及集群状态的监管。由于Region可分散并由不同的HRegionServer来管理,因此,理论上再大的表都可以通过集群来管理。从感觉上来看,这个HBase数据库和MySql数据库中的分表有类似的功能,只不过这里天生支持将一个大表分割成更小的表。

对于MySQL来说,提高其性能的方法更多是通过分表或者分库的方法,对于一个很大的表来说,根据一定的规则将一个更加大的表来进行划分,划分最常见的算法就是HASH,通过对于某一个表的访问达到一定的上限,这样可以采用分库的方法。

对于MySql中的并发访问,可以考虑使用多个服务器,Master和Slava之间的数据同步,如果Master中变化,生成Binary log,然后slave通过Binary log 推导出SQL语句来更改本地的数据信息

一种新的存储方案,非关系型数据库,NoSQL HBase 和Redis

HBase有更好的伸缩能力,更适合于海量数据的存储和处理,并且HBase能够支持多个Region Server同时写入,并发写入性能十分出色。但HBase本身支持的查询维度有限,难以支持复杂的条件查询,如group by order by join等。这些特点使它的应用场景收到限制,对于Redis来说,它拥有更好的读写吞吐能力,能够支撑更高的并发数,而相较与其他的key-value类型的数据库,Redis能够提供更为丰富的数据类型支持,能更灵活地满足业务需求。

在一个大型分布式网站中所需要使用的技术,比如分布式缓存(memcache)、持久化存储(比如数据库,关系型数据库和非关系型数据库 同时对于关系型数据库中的优化,并发访问过高的处理等)、分布式消息系统(ACTIVEMQ等系统通信机制)、搜索引擎(垂直化搜索引擎),

除了这些还有很多其他的技术支撑,比如实时计算,离线计算,分布式文件系统,日志收集系统,监控系统,数据仓库,CDN系统,负载均衡系统,消息推送系统,自动化运维系统,当然还有很重要的安全问题。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-05 18:42:32

大型分布式网站的技术需求的相关文章

大型分布式网站架构技术总结

本文是学习大型分布式网站架构的技术总结.对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考.一部分为读书笔记,一部分是个人经验总结.对大型分布式网站架构有很好的参考价值. 本次分享大纲如下 大型网站的特点 大型网站架构目标 大型网站架构模式 高性能架构 高可用架构 可伸缩架构 可扩展架构 安全架构 敏捷架构 大型架构举例 一.大型网站的特点 用户多,分布广泛 大流量,高并发 海量数据,服务高可用 安全环境恶劣,易受网络攻击 功能多,变更快,频繁发布 从小到大

谈谈大型分布式网站架构技术总结

本文是学习大型分布式网站架构的技术总结.对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考 本文是学习大型分布式网站架构的技术总结.对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考.一部分为读书笔记,一部分是个人经验总结.对大型分布式网站架构有很好的参考价值.(如果感觉对大家有帮助,请帮忙点推荐,谢谢.本博客会逐步推出一系列的关于大型分布式网站架构,设计模式,架构模式方面的系列文章,交流群:466097527) 本次分

大型分布式网站术语分析

1. I/O优化 增加缓存,减少磁盘的访问次数. 优化磁盘的管理系统,设计最有的磁盘方式策略,以及磁盘的寻址策略,这是在底层操作系统层面考虑的. 设计合理的磁盘存储数据块,以及访问这些数据库的策略,这是在应用层面考虑的.例如,我们可以给存放的数据设计索引,通过寻址索引来加快和减少磁盘的访问量,还可以采用异步和非阻塞的方式加快磁盘的访问速度. 应用合理的RAID策略提升磁盘I/O. 2. Web前端调优 减少网络交互的次数(多次请求合并) 减少网络传输数据量的大小(压缩) 尽量减少编码(尽量提前将

大型分布式网站架构设计与实践

大型分布式网站架构设计与实践(一线工作经验总结,囊括大型分布式网站所需技术的全貌.架构设计的核心原理与典型案例.常见问题及解决方案,有细节.接地气/京东:大型分布式网站所需技术的全貌.架构设计的核心原理与典型案例.常见问题及解决方案) 陈康贤 著   ISBN 978-7-121-23885-7 2014年9月出版 定价:79.00元 460页 16开 编辑推荐 --作者一直奋战在阿里巴巴及淘宝网一线,书中所讲是其亲身经验的总结,显得更加实战和珍贵. --全面介绍大型分布式网站架构所涉及的技术细

《大型分布式网站架构设计与实践》

读后感 逐字逐句看完<大型分布式网站架构设计与实践>第2章,意犹未尽!如标题所言,这是一本“真材实料的分布式资料”,它与我看过的分布式书籍(如<大型网站系统与Java中间件实践>)不同,本书重技术兼并理论,给了新人入手的方向. 我最最感动的是书中介绍了很多分布式的“干货”:分布式缓存可以用memcache.数据库水平/垂直拆分技术.分布式存储可以HBase/Redis等.消息通道可以用ActiveMQ.搜索引擎Lucene/Solr等.当然每一种技术都不是一本书能说完的,作者至少给

大型分布式网站就应该这么设计

<大型分布式网站架构设计与实践>主要介绍了大型分布式网站架构所涉及的一些技术细节,包括SOA架构的实现.互联网安全架构.构建分布式网站所依赖的基础设施.系统稳定性保障和海量数据分析等内容:深入地讲述了大型分布式网站架构设计的核心原理,并通过一些架构设计的典型案例,帮助读者了解大型分布式网站设计的一些常见场景及遇到的问题. 作者结合自己在阿里巴巴及淘宝网的实际工作经历展开论述.本书既可供初学者学习,帮助读者了解大型分布式网站的架构,以及解决问题的思路和方法,也可供业界同行参考,给日常工作带来启发

大型分布式网站

负载均衡 (1)HTTP重定向负载均衡  当用户发来请求的时候,Web服务器通过修改HTTP响应头中的Location标记来返回一个新的url,然后浏览器再继续请求这个新url,实际上就是页面重定向.通过重定向,来达到“负载均衡”的目标.例如,我们在下载PHP源码包的时候,点击下载链接时,为了解决不同国家和地域下载速度的问题,它会返回一个离我们近的下载地址.重定向的HTTP返回码是302.  优点:比较简单.  缺点:浏览器需要两次请求服务器才能完成一次访问,性能较差.重定向服务自身的处理能力有

《大型分布式网站架构 设计与实践》 陈康贤 摘要

一.面向服务的体系架构 二.分布式系统基础设施 1 分布式缓存 memcache.分布式缓存 2 持久化存储 IOE ---> 开源软件+pc server的分布式架构 mysql的扩展.主从模式 hbase 列存储数据库 redis k-v数据库 3.消息系统 activeMQ 4.垂直化搜索引擎 lucene solr 三.安全架构 1 常见攻击手段 xss跨站脚本攻击 csrf跨站请求伪造 sql注入 文件上传漏洞 DDos分布式拒绝服务攻击 2 安全算法 摘要  md5 sha.十六进制

大型分布式网站架构设计与实践 笔记

一.分布式系统的基础设施 二.面向服务的架构 三.面向安全性的架构 四.面向稳定性的架构 1.在线日志分析