海量图片存储策略

一、常规图片存储策略

常规的一般400G下面的图片存储能够採用比較传统的分文件夹的形式

比如文件夹层级为  年份/行业属性/月份/日期/用户属性

有几个比較重要的原则就是

1、单个文件夹下的文件个数不要超过2000个,多了寻址较慢,你在linux下ls就能看到数量太多的时候的效果了

2、文件夹层级结构不要太深,这样server处理寻址较慢

二、海量图片存储策略

1、核心难点

(1)海量的意思就是图片的数量级别是上亿--光是我们建立索引就玩不转,没那么牛的库存储

(2)图片总大小是依照T计算的--单个节点肯定支持不了

(3)图片訪问非常easy有长尾效应--就是没有所谓的热点

2、解决方式

(1)、存储方案

採用分布式随即的方式将一些小文件存放到分布式集群环境中,用hash的方式来记录位置(通常是先hash,然后确认存储位置)。将位置直接作为文件名

计算哈希的常见方法: hash(key)%n  =》大致的物理位置

分布式存储常见方案:hdfs,tfs....

(2)、訪问方案(如果我们用apache)

硬訪问

直接让apache依据文件名称字找到指定文件存放位置,读取文件流

软訪问:

直接用apache的rewrite这个功能,将文件读取

时间: 2024-08-27 15:22:29

海量图片存储策略的相关文章

海量数据处理策略之一—Hash映射 + Hash_map统计 + 堆/快速/归并排序

时间:2014.05.21 地点:基地 说明:根据July的博客等整理,感谢July的无私奉献 心情:现在都好开心呀,想着要为以后的时光好好奋斗~ --------------------------------------------------------------------------------------- 一.问题描述 海量日志数据,提取出某日访问百度次数最多的那个IP. 思路:由于数据集很大,我们的策略是先用哈希映射将海量数据集映射为适当数量的非海量数据集,这个非海量数据集的大

海量图片存储--MogileFS分布式存储集群的实现

分布式存储 当下互联网飞速发展,海量并发所产生的数据量以几何方式增长,随着信息链接方式日益多样化,数据存储的结构也发生了变化,在这样的压力下我们不得不重新审视大量数据的存储所带来的挑战,比如:数据采集.数据存储.数据搜索.数据共享.数据传输.数据分析.数据可视化等一些列问题 传统存储在面对海量数据存储时已经力不从心,比如纵向扩展受阵列空间限制.横向扩展受交换设备限制.节点受文件系统限制 分布式存储的出现在在一定程度上缓解了这一问题 分布式存储基础介绍 (一)多线程与进程的执行模式 #互不通信的多

一种基于HBase韵海量图片存储技术

针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并.全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证. 随着互联网.云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控.电子商务.地理信息等,这些应用都需要对海量图片的存储和检索.由于图片大多是小文件(80%大小在数MB以内)

揭秘淘宝286亿海量图片存储与处理架构

8月27日下午,在IT168系统架构师大会存储与系统架构分论坛上,淘宝网技术委员会主席,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构.章文嵩博士的演讲日程包括了淘宝的整个系统架构.淘宝图片存储系统架构,淘宝网独立开发的TFS集群文件系统,前端CDN系统以及淘宝网在节能服务器方面的应用和探索. 本文侧重介绍淘宝网后台的图片存储系统架构.包括TFS集群文件系统,以及前端处理服务器架构. 解决海量并发小文件的系统噩梦 对于淘宝网这类型访问量极高的电子交易网站来说,对图片系统的要

海量图片存储,杉岩分布式对象存储轻松应对

当今世界,互联网.大数据应用迅猛发展,物联网.人工智能.云计算 技术日新月异,随之而来的是各种企业和个人应用持续不断地产生亿级甚至是百亿级的海量小文件.这些小文件的元数据管理.存储性能以及访问效率等问题因而成为学术界和工业界公认的难题. 例如,国内目前最大的电商网站淘宝存储的商品图片超过 200 亿张,这些文件的平均大小仅为 15KB 左右,国外著名的社交网站Facebook 存储的图片总量更是超过了600亿张:在线视频播放服务中,每个视频会被切片服务器分割成 1MB 左右的分片文件,一部动画电

LOSF 海量小文件问题综述

1.LOSF问题概述 在互联网(尤其是移动互联网).物联网.云计算.大数据等高速发展的大背景下,数据呈现爆炸式地增长.根据IDC的预测,到2020年产生的数据量 将达到40ZB,而之前2011年6月的预测是35ZB.然而,社会化网络.移动通信.网络视频音频.电子商务.传感器网络.科学实验等各种应用产生的数 据,不仅存储容量巨大,而且还具有数据类型繁多.数据大小变化大.流动快等显著特点,往往能够产生千万级.亿级甚至十亿.百亿级的海量小文件,而且更多地 是海量大小文件混合存储.由于在元数据管理.访问

网站性能优化:动态缩略图技术实现思路

在网站开发过程中,大家都是如何解决多尺寸图片缩略图问题的呢?犹为典型的是电商网站,据了解,淘宝的图片缩略图是直接存储多张缩略图的方式,以满足各种情况下使用,因为它有牛逼的开源+自主开发的海量图片存储架构作支撑.但是,我们在做网站时,并不可能直接搬牛逼的架构过来,就可以达到预期的效果,况且各种成本投入也是有限的.所以一般性能优化的原则大都是这样:先考虑软件的优化,再考虑硬件的升级,当然土豪客户则除外. 很多网站可能没有对图片进行缩略图处理,上传时图片可能几百KB,在页面也是直接加载几百KB的图片大

【转载】Instagram架构分析笔记

原文地址:http://chengxu.org/p/401.html Instagram 架构分析笔记 全部 技术博客 Instagram团队上个月才迎来第 7 名员工,是的,7个人的团队.作为 iPhone 上最火爆的图片类工具,instagram 用户数量已经超过 1400 万,图片数量超过 1.5 亿张.不得不说,这真他妈是个业界奇迹. 几天前,只有三个人的 Instagram 工程师团队发布了一篇文章:What Powers Instagram: Hundreds of Instance

Mogilefs分布式文件系统-Keepalived+Nginx双主模型实现图片分布式存储、访问

一.分布式文件系统: 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.计算机通过文件系统管理.存储数据,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小.容量增长速度.数据备份.数据安全等方面的表现都差强人意. 分布式文件系统可以有效解决数据的存储和管理难题:将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络.每个节点可以分布在