大数据提取价值信息技术实现方案

大数据提取价值信息技术实现方案

分5步:

1、通过FTP采集文件

2、把文件入到HDFS系统

3、使用HIVE从HDFS中选择数据

4、使用DataStage或Infomatica把数据入库

5、入库到Sybase IQ数据库

注意事项:

1、不一定用ftp采集文件,反正只要把海量文件采集过来即可;

2、采集的源文件一定是海量的,可以文件数海量,也可以文件里的内容海量,要不然就不叫大数据了;

3、这里面主要用到了hadoop的hdfs,没有用到mapreduce;

4、mapreduce其实是hive帮你实现了;

5、使用hive是因为只要会sql的人都会使用hive,学习成本低,一般企业特别是老企业会sql的开发人员一大把;

6、DataStage是ibm的,觉得不好用,所以现在用Infomatica替换;

7、ibm的东西都是卖的很便宜,但维护费很贵,他不开源所以你不得不找他来帮忙维护,所以我一直很讨厌它;

8、ibm的东西不光维护贵,而且扩节点也不便宜,现在公司部分主机已转向HP;

9、不一定选择Sybase IQ,所以公司选择了也没啥大问题,查询的速度挺快,更新和插入暂时也不觉得很慢,它是基于列存储的而且价格比oracle便宜非常非常多。

应用场景:

比如你的网站有大量的用户搜索信息,可以把这信息文件入到hdfs,然后通过select出每个关键字的查找次数,终于把这个关键词和次数入库到IQ。那么,你直接看IQ,就可以知道最近大家搜索的最多最关注的是什么词语了。

2015.3.18

时间: 2024-11-03 17:44:06

大数据提取价值信息技术实现方案的相关文章

三类可以让大数据发挥价值的途径

近年来,大数据概念越来越热门,大数据日渐应用于生活中,部分企业把大数据提升到战略层面,而关于大数据的讨论也越来越热烈.而关于大数据工作的开展是技术驱动还是业务需求驱动的争论一直都有,其实这种争论没有太大意义,让大数据发挥出应有的价值才是目标所向. 如果非要说点什么,可以这样看:对于已经有明确商业价值模式的领域,技术驱动的成分更浓,比如搜索.互联网广告.推荐系统等;而对于商业价值模式模糊,甚至根本没有意识到有商业价值点的场景,业务需求驱动的模式就更有用武之地. 而且,有一点是可以达成共识的,你的大

大数据营销价值的十大来源 - 推酷

body { font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5; } html, body { } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bo

大数据的核心价值是什么?

下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值. "很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了."--马云卸任演讲 本文尝试从三大产业的角度将大数据的核心商业价值分类讨论. 首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值. 我们知道: 第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志, 第二次工业革命以石油为基础,内燃机和电信技术为标志, 第三次工业革命以核能基础,互联网技术为标志, 第四

什么是大数据的核心价值?

以下是一些长篇的讨论.这里我把大数据的核心价值理解为核心商业价值. "非常多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了. "--马云卸任演讲 本文尝试从三大产业的角度将大数据的核心商业价值分类讨论. 首先例举一些大数据的典型应用.然后解释大数据的定义,最后总结大数据的价值. 我们知道: 第一次工业革命以煤炭为基础.蒸汽机和印刷术为标志, 第二次工业革命以石油为基础,内燃机和电信技术为标志, 第三次工业革命以核能基础,互联网技术为标志,

大数据公司挖掘数据价值的49个典型案例!信息量很大

大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook

大数据公司挖掘数据价值的49个典型案例

对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本.力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: 一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn,到阿里.百度.腾讯,都因其拥有

上篇 | 大数据公司挖掘数据价值的49个典型案例(值得收藏)

导读:本文是近年来不同行业.不同领域的大数据公司的一些经典案例总结.尽管有些已经是几年前的案例,但其中的深层逻辑对于未来仍有启发. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率:二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率:三是以数据驱动的产品,在产品设计阶段,强调个性化:在产品运营阶段,则强调迭代式创新. 01 上篇:天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn

未来10年是大数据价值变现的阶段

“未来几年,所有的金融企业,包括现在的银行.券商.保险和所有在线上风起云涌做金融生意的运营商,争夺的就是一件事情——那就是国民财富账户.国民财富账户如今是通过什么样的渠道去会聚.去使用.去体验的呢?那就是指尖上的银行.TalkingData不仅拥有移动数据,同时我们跟线上.线下的大型金融企业.金融机构和金融运营商进行了很多深入的合作.我们举办这样一场发布会,就是想从TalkingData的角度,看一看今天在指尖上所有做金融相关业务的状态是什么样子.”TalkingData执行副总裁林逸飞在Tal

浅议大数据的分析价值

2015年,国务院颁布了大数据实施纲要通知<国务院关于印发促进大数据发展行动纲要的通知>,从国家层面上将大数据战略思想逐渐成型.随之,各行各业逐渐意识到海量数据的价值及重要性,分析数据并挖掘其潜在价值的需求不断加大.那么我们今天就来扒一扒:大数据能产生什么价值,值得我们去分析它? 一.什么是大数据 IDC以4V特征来定义大数据,即海量的数据规模(Volume).快速的数据流转和动态的数据体系(Velocity).多样的数据类型(Variety).巨大的数据价值(Value):Amazon的Jo