海量非结构化数据存储难题 ,杉岩数据对象存储完美解决

“过去几年,大数据产业更多关注的是如何处理海量、多源和异构的数据,但我们必须承认这些只是冰山一角。目前,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据。伴随非结构化数据呈现爆发之势,对象存储市场近两年保持强劲增长,IDC预计,软件定义存储(SDS)市场未来五年复合增长率将达到28.8%。”

传统IT架构渐成“过去式” 非结构化数据倒逼存储变革

今天,许多企业已经意识到,结构化数据仅仅是企业所拥有数据的一小部分。与业务信息系统中大量用于交易记录、流程控制和统计分析的结构化数据相比,非结构化数据具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得以产生和放大,并最终对企业业务和战略产生影响。
多年来,杉岩数据通过对金融、教育、医疗、制造等行业的百余家知名客户的IT信息化研究发现,非结构化数据的容量、文件的数量已经大大超越了传统NAS存储的处理能力,企业级存储从需求到产品形态的“自我变革”也变得更加急迫。
同时,IDC数据显示,到2020年,企业数据总体将达到44ZB,其中80%的数据将会是非结构化数据(图片、视频、归档以及企业级备份等数据),对象存储市场规模将达198亿美元,这也从侧面印证了杉岩对于对象存储未来发展的趋势判断。
在杉岩看来,软件定义存储将给金融、教育、医疗等传统行业的IT架构带来革命性改进,特别是对文件数量过多、非结构化数据归集检索调取效率低、传统架构无法按需弹性配置存储空间等问题将发生彻底改变。

在服务深圳某三甲医院的过程中,杉岩发现电子病历、临床影像文件(如CT 、X光、彩超、高精动态影像等)、非核心系统的数据归集、查询和调阅等问题成为传统架构面临的最大挑战。
比如,在进行影像数据调阅时,数据归档离线后,没有任何元数据的管理描述,凭文件系统的目录结构进行数据查找,非常费时费力。

当病历文件数量到达百万级近千万以后,存储性能会出现大幅下降;而医院服务器上的数据仍然是孤岛状态,服务器之间的存储资源和数据并没有实现共享。

当然,这些问题不止出现在医疗行业,在教育行业传统存储架构遭遇的问题也十分突出。杉岩在为某高校搭建对象存储架构时发现,大学各职能机构以及二级学院之间信息系统相对割裂,因此在系统安全性和可维护性方面十分困难。

而建筑学院、传媒学院、电影学院、服装学院等专业性学院会产生大量的非结构化数据作业,如CAD制图、影视作品、图片设计、服装样片等等,这些数据对存储空间的扩展性和存储安全性提出了更高的要求,既要能够满足在教学、科研等场景下数据存放的要求,同时还要满足作业提交、班级数据共享、科研数据分析调取等多元化需求。
此外,在银行、证券行业的日常业务中,客户证件、远程开户录像、合同扫描件、客服中心语音、企业相关电子文档资料等是最常见的非结构化数据。

这些文件平均大小从KB到MB甚至GB级别不等,近两年文件量呈现高速增长状态。从存储容量上看,这些小文件甚至占据了金融机构数据总容量的80%以上。

根据监管部门要求,银行、证券、保险等金融机构需实施专区“双录”,即对自有理财产品及代销产品的销售过程同步录音录像,“双录”规定的实施会带来海量非结构化数据。以上这些问题都让僵化的传统IT架构有一种深深的无力感。

对象存储走向舞台中央 杉岩重新定义企业存储新标准

随着传统IT架构的弊端日渐凸显,以杉岩为代表的一批创新型存储厂商开始重新定义企业级存储的标准。从2014年创立伊始,杉岩便早早瞄准对象存储市场并持续深耕。

经过四年的快速发展,杉岩目前在全国范围内拥有近百家合作伙伴,业务范围覆盖政府、金融、运营商、教育、医疗、电力和制造等十余个行业,用户数据量部署总和超过100PB。

其研发的杉岩海量对象存储(SandStone MOS)已成为海量非结构化数据存储的主流解决方案,其在广发证券档案中心、武汉大学智慧校园云存储平台的成功应用得到了行业用户的广泛好评。

对于海量数据的存储问题,杉岩海量对象存储(SandStone MOS)解决方案采用去中心化分布式架构,同时利用软件定义的方式实现了单一名字空间条件下数百PB级规模的容量扩展,业务可以随时随地访问而不受数据存储位置的限制。

在提升海量小文件访问性能方面,SandStone MOS利用哈希计算实现了数亿级文件的高效访问。针对文件检索困难,SandStone MOS支持标签功能,文件存储时会自动设置标签,从而更好地与业务结合,满足高效检索。
比如,在银行业务场景下,当业务人员想要提取相关视频音频文件时,可以根据文件标签进行检索调阅。

此外,SandStone MOS在易用性与可维护性方面也超越了同级别产品,其采用“x86通用服务器+存储软件”的分布式解耦架构,将底层存储空间与上层业务逻辑空间进行分离,软硬件的升级不会影响到整个系统的正常运行

即使系统有再多应用更新,也不会影响存储空间的使用。值得一提的是,SandStone MOS首创的分布式存储数据盘漫游功能,可以帮助企业用户渐进式的进行老旧硬件设备更换,不影响业务的正常运行

在对象存储领域的专注与持续创新,换来的是行业的高度认可。去年8月,杉岩数据成为首家通过Intel中国云计算创新中心测试并发布报告的软件定义存储厂商。

与此同时,杉岩数据作为国家信息化标准委员会云计算标准工作组成员单位及中国开源云联盟理事单位,先后参与了分布式存储国家标准的制定工作及Ceph行业白皮书的编写工作。

如今,对象存储正焕发出更大的生命力,一场存储革命也已开启。以杉岩数据为代表的创新型存储厂商,正通过不断深耕对象存储领域,帮助企业构建更加智慧的IT基础设施,推动传统存储朝着更高效、更集约、更易用的方向全面演进。

原文地址:https://blog.51cto.com/14636092/2467475

时间: 2024-10-17 16:58:06

海量非结构化数据存储难题 ,杉岩数据对象存储完美解决的相关文章

杉岩数据:对象存储是企业海量非结构化数据存储的最佳选择

海量数据的爆炸式增长,使存储技术近五年的发展速度远超过去n年的发展历程.C端用户一个明显的感觉就是:U盘存储容量从过去物以稀为贵的几十M迅速发展到今天几十G.甚至TB级,家用电脑硬盘容量更是TB级标配. 那么,企业级又迎来了怎样的变化? IDC数据显示,到2020年,企业数据总体将达到44ZB,其中80%的数据将会是非结构化数据(图片.视频.归档以及企业级备份等各种数据).显然,海量数据的产生正在促使企业级存储从需求到产品形态都发生了改变. "相对于NAS.SAN这种传统企业级存储解决方案,对象

海量图片存储,杉岩分布式对象存储轻松应对

当今世界,互联网.大数据应用迅猛发展,物联网.人工智能.云计算 技术日新月异,随之而来的是各种企业和个人应用持续不断地产生亿级甚至是百亿级的海量小文件.这些小文件的元数据管理.存储性能以及访问效率等问题因而成为学术界和工业界公认的难题. 例如,国内目前最大的电商网站淘宝存储的商品图片超过 200 亿张,这些文件的平均大小仅为 15KB 左右,国外著名的社交网站Facebook 存储的图片总量更是超过了600亿张:在线视频播放服务中,每个视频会被切片服务器分割成 1MB 左右的分片文件,一部动画电

国产化软件定义存储厂商杉岩数据获B轮投资,广发乾和领投

2019年4月22日 深圳市杉岩数据技术有限公司完成由广发乾和领投,深圳中小担集团发起和管理的深圳市人才创新创业三号基金(简称“人才三号基金”)跟投的B轮融资. 杉岩数据创始人兼CEO陈坚表示:“该轮资金将主要用于加大产品关键技术的研发投入,进一步提升新一代智能存储产品的智能化和自动化.依托国际化的技术创新优势和长期积累的研发实力,深入结合市场需求,以客户需求为导向,杉岩将与合作伙伴携手,通过创新的产品.解决方案及服务为各行各业的数字化转型提供大数据存储.管理.挖掘.分析和新一代人工智能应用的基

杉岩数据企业级私有云存储解决方案

虚拟化技术在企业私有云IT基础架构中仍然占据重要地位,同时,为了进一步提升应用效率,越来越多的生产环境也正在逐步变革,从以虚拟机为中心的架构向以容器和微服务为中心的云原生架构过渡,在这个过程中,存储如何有效支撑各种云主机应用与微服务应用,对于企业的私有云数据中心提出了新的挑战. 企业面临的问题 存储设施七国八制,硬件锁定缺少弹性 多种云平台对于存储的要求各不相同,块/文件/对象存储对应不同类型的应用,对外提供不同的服务接口,一种存储设备无法满足多种类型的云平台存储需求,而且传统存储在扩展性方面不

杉岩数据企业内容管理解决方案

随着人工智能.4G/5G技术发展,越来越多的企业利用照片.视频等方式取代现场业务办理,提升业务办理效率,同时通过这些方式记录业务处理过程,保证服务质量.而这些方式的应用,使得企业应用产生非结构化数据的来源变多,非结构化数据量也呈现爆发性增长,对这些数据的科学管理和有效开发成为企业正确决策.增强竞争力的关键. 杉岩企业内容管理解决方案,帮助企业客户实现跨业务系统的非结构化数据统一存储.统一管理和价值挖掘,提升企业业务管理水平. 客户需求 数据增长快导致管理复杂化 文件数量快速增长达到数亿级别,存储

MySQL 5.7:非结构化数据存储的新选择

本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL 5.7那样令我激动与期盼,10月MySQL 5.7 GA版本的发布,意味着MySQL数据库终于有能力在传统企业中向商业数据库发起挑战,开源的Linux操作系统干掉了封闭的Unix系统,MySQL会不会再一次逆袭商业产品?目前来看,或许很难,但是机会已经掌握在自己上手,后面的发展就看MySQL团队能

非结构化数据的存储与查询

当今信息化时代充斥着大量的数据.海量数据存储是一个必然的趋势.然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询.使得如今的 关系数据库存储带来了巨大的挑战.分布存储技术是云计算的基础,主要研究如何存储.组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性.容错性以及成本控制方面面临着更加严峻的挑战[1]. 对于大量的半结构化数据(semi-structure data)和非结构化数据,对其存储和并发计算以及扩展能力而设计出了

非结构化数据存储方案

ceph 官方网站:http://docs.ceph.org.cn/ 简单介绍: Ceph是一个开源的分布存储系统,同时提供对象存储.块存储和文件存储.linux内核2.6.34将ceph加入到内核中,红帽基于ceph出了redhat ceph storage. 支持TB级存储 支持高可用.容灾备份(当然了,这是存储的常见功能) 支持上百节点的负载均衡 系统架构: OpenStack Swift 官方网站:https://docs.openstack.org/swift/latest/ 简单介绍

数据无边界:非结构化数据在MaxCompute上的处理

这是DT(Data Technology)时代,每天有海量数据的加速产生,而每天产生的海量数据80%+是非结构化的,如何把握数据资源服务大众,激发生产力是每个互联网企业需要掌握的核心竞争力.我们的理想是MaxCompute在SQL线上实现与其它云数据(OSS, TableStore等) 的互联互通,用OSS(阿里云对外提供的海量.安全和高可靠的云存储服务)几种非结构化数据处理为范例,未来我们可以期待对各种非结构化数据的分布式处理成为可能,甚至开启气象数据.基因数据等多种大数据,建立与各种分布式系