中小企业的大数据技术路线选择

目前,大数据主要应用在互联网、电商领域,电信、电力行业也在逐步使用。对广大的中小企业来说,大数据也听得太多了。然而,大数据的技术门槛还是很高的。从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重。

笔者所在的公司,选择的是行业通用的Hadoop方案。历经一年之久,前后三拨人员,一个Demo版还没出来。大数据真的让人望眼欲穿啊。

对中小企业而言,要选择适合自己的大数据技术路线。跟着大公司,人云亦云,还真玩不起。那么,有没有适合中小企业的大数据方案呢?笔者用心收集了几个,供参考。

1、Cassandra+Presto

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon
Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩放性,被DiggTwitter等知名Web
2.0
网站所采纳,成为了一种流行的分布式结构化数据存储方案。

Cassandra主要特性:

  • 分布式
  • 基于column的结构化
  • 高伸展性

Cassandra提供了以下功能:

  • 模式灵活
  • 可扩展性
  • 多数据中心
  • 范围查询
  • 列表数据结构
  • 分布式写操作
  • 一致性Hash
  • GoSSIP协议简化集群管理
  • 实时更新
  • 高效的二级索引
  • 高效的数据压缩

Presto是一个用Java语言开发的、开源的“交互式”SQL查询引擎。它由Facebook构建,即Hive最初的创建者。Presto采用的方法类似于Impala,即提供交互式体验的同时依然使用已有的存储在Hadoop上的数据集。它也需要安装在许多“节点”上,类似于Impala。Presto提供了以下功能:

  • ANSI-SQL语法支持 (可能是ANSI-92)
  • JDBC 驱动
  • 一个用于从已有数据源中读取数据的“连接器”集合。连接器包括:HDFS、Hive和Cassandra
  • 与Hive metastore交互以实现模式共享

Presto/Cassandra的整合: Ad-hoc analysis over Cassandra data with Facebook Presto

http://blog.csdn.net/china_world/article/details/39966699

2、Trafodion:Transactional SQL on HBase

Trafodion是由惠普赞助的一个开源项目,培养在惠普实验室和HP-IT开发一个企业级的SQL上的HBase解决方案,针对大数据的事务或业务工作负载。
Trafodion是在Apache许可证授权,版本2.0。Trafodion建立在可扩展性,弹性和Hadoop的灵活性上。
Trafodion Hadoop的扩展提供保证事务的完整性,使各种新的大数据应用在Hadoop上运行。


Key Features of Trafodion

  • Full-functioned ANSI SQL language support
  • JDBC/ODBC connectivity for Linux/Windows clients
  • ACID distributed transaction protection across multiple statements, tables and rows
  • Performance improvements for OLTP workloads with compile-time and run-time optimizations
  • Support for large data sets using a parallel-aware query optimizer

Key Benefits of Trafodion

  • Reuse existing SQL skills and improve developer productivity
  • Distributed ACID transactions guarantee data consistency across multiple rows and tables
  • Interoperability with existing tools and applications
  • Hadoop and Linux distribution neutral
  • Easy to add to your existing Hadoop infrastructure
时间: 2024-08-27 02:09:45

中小企业的大数据技术路线选择的相关文章

中小企业的大数据技术路线选择(二)-Cassandra+Presto方案

中小企业的大数据技术路线选择(二)-Cassandra+Presto方案 我前面曾经写过:中小企业的大数据技术路线选择 和 低调.奢华.有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI . 最近用了两个月的时间终于把Cassandra+Presto+SpagoBI方案验证通过了.验证了Presto的JDBC Driver .Prestogres网关.SHIB三种方式. 一.Presto JDBC驱动方案 Presto JDBC驱动方案,Java动用客户端,如

大数据技术在跨境电商中的应用

1.大数据技术与跨境电子商务综述 (1)大数据技术.大数据量,是指数据量极大,不能使用传统的数据采集方法.传统的数据库.传统的研究方法对数据集进行分析.传统的数据分析往往采用样本,采用推理的方法,用常规的样本分析来推测总体数据,通过一小部分来看整个数据,延伸到普遍的意义.然而,大数据可以在他所记录的所有数据的基础上进行深入的分析,从而得出最真实的结论.大数据具有数据量大.处理速度快.数据类型多样.值密度低的特点. 大数据技术是指提取大数据价值的技术.它基于具体目标,通过数据收集,存储,筛选,算法

大数据技术学习路线,该怎么学?

如果你看完有信心能坚持学习的话,那就当下开始行动吧! 一.大数据技术基础 1.linux操作基础 linux系统简介与安装linux常用命令–文件操作linux常用命令–用户管理与权限linux常用命令–系统管理linux常用命令–免密登陆配置与网络管理linux上常用软件安装linux本地yum源配置及yum软件安装linux防火墙配置linux高级文本处理命令cut.sed.awklinux定时任务crontab2.shell编程 shell编程–基本语法shell编程–流程控制shell编

大数据技术学习路线,有信心能学好的朋友,就开始吧

如果你看完有信心能坚持学习的话,那就当下开始行动吧! 一.大数据技术基础 1.linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut.sed.awk linux定时任务crontab 2.shell编程 shell编程–基本语法 shell编程

大数据学习路线 让你精准掌握大数据技术学习

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要

大数据怎么学习?从零开始大数据学习路线

大数据.人工智能的崛起,都让很多人看到了信息技术的日新月异,也推动了更多传统型企业逐渐往互联网企业转型.如何更好的去分析客户群体,去抓住自己的客户所需,是离不开大数据的帮助的!为此,也有越来越多的企业看到大数据程序员岗位的重要性,不断的招兵买马,以求让自己的企业能够在这信息时代的竞争中立于不败之地!创一个小群,供大家学习交流聊天如果有对学大数据方面有什么疑惑问题的,或者有什么想说的想聊的大家可以一起交流学习一起进步呀.也希望大家对学大数据能够持之以恒大数据爱好群,如果你想要学好大数据最好加入一个

大数据为什么要选择Spark

大数据为什么要选择Spark Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析. Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级. Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀. 在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonwor

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都