大数据技术词汇表

Anomaly:见异常值词条。

Apache Software Foundation(ASF):专门为支持开源软件项目而办的一个非盈利性组织。

ARPU(Average revenue per user):每个用户的平均收入。

Artificial neural network:人工神经网络,通常简称神经网络。

Avro:一个在Hadoop上的数据序列化系统,设计用于支持大批量数据交换应用。

贝叶斯分析方法(Bayesian Analysis):提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。

bounce rate:见跳出率词条。

B2C:英文Business-to-Consumer的缩写,其中文含义为企业对消费者。

CART:Classification and Regression Trees的英文首字母缩写,或者称分类与回归树,是一种决策树分类算法。

CBL(China Black List):中国垃圾邮件黑名单。

Cluster(类或簇的英文):是一个数据对象的集合。

Cookie: 指的是指网站为了辨别用户身份而储存在用户本地终端浏览器上的一类数据。

CRM(用户关系管理,Customer Relationship Management)指的是公司对客户和潜在客户的管理模式。

Direct Marketing:见直效行销词条。 Discriminant analysis:见判别分析词条。

DSS(Decision Support System):决策支持系统的缩写,是辅助决策者通过数据、模型和知识,进行半结构化或非结构化决策的计算机应用系统。

独立访客:指在一天之内(00:00-24:00)访问网站的上网电脑数量(以cookie为依据)。

EB:计算机存储单位,1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes(字节),或是2的60次方字节。

EDM(Email Direct Marketing):用电子邮件进行营销的方式。

EIS(Executive Information Systems的缩写,高级管理人员信息系统):为高级管理人员设计的系统,用于深层次管理数据分析和运营趋势分析等。

Entropy:见熵。

二跳率:当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”,而二跳量与浏览量的比值称为页面的二跳率。

ETL:(Extract Transform Load)的缩写,是指数据的提取、转换、加载。

分布式数据库(Distributed Database):用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。

关联规则(Association rules):是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。 根节点:决策树最上面的节点。在它上面没有其他节点,其他所有的属性都是它的后续节点。

购物篮分析(market basket analysis):就是关联规则算法。在市场上关联规则算法经常作为商品购物车的分析,所以在应用领域又被称为购物篮分析。

Granularity:见“粒度”。

HBase :一个在HDFS上搭建大规模结构化存储集群分布式存储系统,具有高可靠性、高性能、面向列,可伸缩特性。  HDFS:部署在廉价硬件上提供高吞吐量和高容错性的分布式文件系统,适合有超大数据集的应用程序。  Hive:基于Hadoop的数据仓库工具,可以将结构化的数据映射成数据表并提供类SQL数据库查询管理功能,适合于数据仓库的统计分析。

后验概率(Posterior Probability):当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,

修正后的概率称为后验概率。

回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。  计量经济学(Econometrics)是以经济学和数理统计学为方法论作为基础,对于经济问题试图用数量和经验两者进行综合的经济学分支。  基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。  交叉验证(Cross-validation):主要用于建模应用中,在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。

机器学习(Machine Learning):研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

监督式学习(Supervised learning):机器学习中的一类,可以由训练资料中学到或建立一个模式(函数),并依此模式推测新的样本归类或者属性。 聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

决策树(Decision Tree):一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,

故称决策树。

决策树剪枝(Decision tree pruning):由于在决策树生成过程中,会过度拟合训练数据,而且易受噪声数据的影响,所以剪枝操作是决策树生成过程中的一个重要步骤。  决策支持系统(decision support system):辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。

KDD(Knowledge discovery in database):泛指所有从源数据中发掘模式或联系的方法

k近邻(k nearest):一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大

多数属于某一个类别,则该样本也属于这个类别。

LAMP:Linux,Apache,MySQL和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。

landing page:见着陆页词条。

LBS(Location-based service)是与位置相关的软件服务的英文缩写,指的是一类利用和控制与位置及时间相关的计算机软件服务。  粒度(Granularity):指数据仓库的数据单位中保存数据的细化或综合程度的级别。

Lift:使用分类器相对于不使用分类器产生的正类的比例。  联机事务处理系统(OLTP):实时采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。

联机分析处理(OLAP):使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。  流量(traffic):是指网站的访问量,是用来描述访问一个网站或是网店的用户数量以及用户所浏览的网页数量等一系列指标,这些指标主要包括:独立访客数量(unique visitors)、 ·页面浏览数(page views)、每个访客的页面浏览数(Page Views per user)。

六度分隔理论(Six Degrees of Separation):是个假设,在人际关系脉络方面您可以通过不超出六位中间人直接与世上任意人认识。 LNMP:Linux,Nginx,MySQL和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。

Metadata:见元数据。

MapReduce:HDFS上处理大数据集的并行计算框架。

MongoDB: 是一个基于分布式文件存储的数据库。

Nginx:开源的高性能HTTP服务器。

Outlier: 见异常点词条。

PAM:见围绕中心点的划分聚类算法。

判别分析(Discriminant analysis):是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

PB:计算机存储单位,1 PB = 1,024 TB = 1,048,576 GB = 1,125,899,906,842,624 Bytes(字节),或是2的50次方字节。

PU学习:正例和无标记样本学习(Learning from Positive and Unlabeled examples)一般称为LPU或PU学习,是一种半监督学习方法。  Pig:在HDFS和MapReduce上处理大规模数据集的脚本语言,它提供更高层次的抽象并转化为优化处理的MapReduce运算。

频繁集(frequent itemset):是大于最小支持度的项目集。

强关联规则:如果某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence),则称它为强关联规则。 R语言:R是属于GNU系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的工具。

REST(Representational State Transfer,表现状态转移):是Roy Fielding博士在2000年他的博士论文中提出来的一种软件架构风格,在此风格中,每个资源是由全球唯一的URI来指定,

资源本身和其表现方式是完全独立的;当一个用户拿到资源的表现方式时,他有足够的信息可以修改或者删除服务器上相应的资源而且每条消息都包含了足够的信息可以描述消息的处理。  热图(heat map):热图或热力图是数据的一种二维呈现,其中的数值都用颜色表示。一个简单的热图提供信息的即时可见概况。

人工神经网络(Artificial Neural Networks):一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部

大量节点之间相互连接的关系,从而达到处理信息的目的。

人工智能(Artificial Intelligence):研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,

并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

3C产品:3C产品指的是通讯产品(Communication),消费类电子产品(Consumer Electronics)和电脑产品(Computer),三类产品的首字母都是C,所以称3C SEMMA是数据挖掘过程(Sample, Explore, Modify, Model,and Assess)的英文缩写,意思是抽样,检查,修改,设立模型和评估。  熵(entropy):指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵由鲁道夫·克劳修斯(Rudolf
Clausius)提出,并应用在热力学中。后来在,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入到信息论中来。 商业智能(Business Intelligence):采用数据库或数据仓库技术进行商业信息的收集,集成,分析和报告以帮助做决策的应用与实践系统。

时间序列(Time Series):是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列法是一种定量预测方法,亦称简单外延方法。

事务数据库(Transaction Database):由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标记,多个项目组成一个事务

数据结构(data structure):各种数据之间的逻辑关系,用来支持特定的数据处理功能,比如树、列表和链接表。

数据可视化(Data Visualization):关于数据的视觉表现形式的研究,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。  数据挖掘(Data Mining):从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。

数据可视化(Data Visualization):多维度数据通过图形的方式来做的展现  数据仓库:是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。  数据清洗(data cleaning):过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。 数据库(Database):是按照数据结构来组织、存储和管理数据的仓库。  属性(attribute):属性是实体的描述性性质或特征,具有数据类型、域、默认值三种性质。属性也往往用于对控件特性的描述。对于按钮控件的名称、显示的文字、背景色,背景图片等等。SNS:是社会化服务网络,Social
Services Networks的英文首字母缩写。

spatio-temporal data mining:时间和空间数据的挖掘。

Sqoop:一个用来将Hadoop和关系型数据库中的数据相互转移的工具。

索引(Index):在数据库中,用来对记录提供有效访问的标记。

特征选择(Feature Selection ) :是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。  统计学(statistics):是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。

跳出率(bounce rate)是互联网上的一个常用指标,指的是进入某一个网站之后不再继续浏览,而直接离开网站的访客比例。通常来说,跳出率越高,网站的粘性就越低。 Traffic:见流量词条。

UGC:User Generated Content的缩写,即用户生成内容。

Web log项(日志项):网络上的服务器记录所有访问该Web服务器的数据流的信息。

Web挖掘(Web Mining): Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、

计算机语言学、信息学等多个领域,是一项综合技术。

围绕中心点的划分聚类算法(PAM):通过反复地用非代表对象来代替代表对象,提高聚类的质量的算法。  唯一浏览量:是指网站来源是搜索引擎下的广告主网站的唯一浏览量,即在浏览量的基础上,不被记作重复的浏览量,刷新的浏览量不被记作唯一浏览量。

无监督学习(unsupervised learning):机器学习的一种,指从无标记的数据中找出隐藏结构信息的方法。

先验概率:见后验概率词条。

线性模型(linear model) :是一种分析模型,它假定考虑的各变化因素是线性的关系。

协作推荐:是利用用户访问行为的相似性来相互推荐用户可能感兴趣的资源。

文本挖掘(text mining):指从文本数据中抽取有价值的信息和知识的计算机处理技术。即从文本中进行数据挖掘。从这个意义上讲,文本挖掘是数据挖掘的一个分支,由机器学习、

数理统计、自然语言处理等多种学科交叉形成。

信息检索(Information Retrieval):指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。

信息增益(Information Gain)是衡量一个属性区分数据样本的能力。信息增益量越大,对信息分类的能力就越强。而用来计算信息增益的公式就需要用到熵(Entropy)。 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的

一种统计方法。

序列算法:在数据挖掘中的序列算法是对于一个序列(sequence)中的数据找出统计规律的算法。

异常点(Outlier): 在大规模数据集中,通常存在着不遵循数据模型的普遍行为的样本。这些样本和其他部分数据有很大不问或不一致,叫作异常点(Outlier),也有翻译成局外者的。 异常值(anomaly)的定义是基于某种度量而言,异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。

遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。  元数据(Metadata):是指描述数据仓库内数据的结构和建立方法的数据,是关于数据的数据, 是对数据的结构、内容、键码、索引等的一中描述。

ZB:计算机存储单位。1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes(字节) ,或者是2的70次方字节。

召回率(Recall Rate,也叫查全率):是检索出的相关文档数和文档库中所有的相关文档数的比率。

直效行销(Direct Marketing):又名零阶通路,是指制造商或零售商,直接将产品出售给消费者,使通路阶层降至零阶或一阶,减少中间费用,为消费者取得较低价格的销售方式。 知识工程(Knowledge Engineering):人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。

知识发现(KDD:Knowledge Discovery in Databases):从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。  支持度(support):描述关联规则的阈值,反映符合关联规则模式的任务相关的元组(或事务)所占的百分比。

支持向量机(Support Vector Machine,SVM):Corinna Cortes和Vapnik8等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,

并能够推广应用到函数拟合等其他机器学习问题中。

主成分分析(Principal Component Analysis,PCA): 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

转化率(Conversion Rate)指的是产生实际消费的用户和来到用户网页的总用户数量的比值,是将流量转化为实际的销售额的一种衡量方式。 置信度(Confidence):衡量关联规则的可信程度。

着陆页(landing page),指的是网站中的一个市场营销专用页面,通常是搜索引擎或是其他广告所指向的页面。

自助法(bootstrap):非参数统计中一种重要的估计统计量,采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本。  Zookeeper:一个针对大型分布式系统的可靠协调系统,提供功能包括:配置维护、名字服务、分布式同步、组服务等。

最大频繁项集(Maximal Frequent Itemsets,MFI):频繁地出现在数据集中的最大子集。

最大似然估计:是用来求一个样本集的相关概率函数的参数的一种统计方法。

时间: 2024-10-06 00:40:05

大数据技术词汇表的相关文章

大数据技术之MapReduce中多表合并案例

大数据技术之MapReduce中多表合并案例 1)需求: 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 商品信息表t_product pid pname 01 小米 02 华为 03 格力 商品数据pd.txt 01 小米 02 华为 03 格力 将商品信息表中数据根据商品pid合

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

大数据技术 vs 数据库一体机[转]

http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html 目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别.这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系数据库)技术对比如下: 硬件架构 从本质上来讲,两者的硬件架构基本相同,都是采用x86服务器集群的分布式并行模式来应对大规模的数据与计算.但是,数据库一体机的商家大都会对硬件体系进行面向产品化的.系

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

大数据学习路线图 让你精准掌握大数据技术学习?

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java

大数据学习路线 让你精准掌握大数据技术学习

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处

学习大数据技术,需要具备哪些【数学知识】?你了解了吗?

谈起大数据技术,很多人都觉得是高大上的一门技术,学起来应该是困难重重!其实对于大数据技术而言,难的不是大数据技术本身,而是需要太多的基础知识,比如说:数学知识.英语能力.编程基础等等. 数学,我们从小就开始学习,一直在跟各种数据打交道,各种公式等等,是大数据学习的必备技术之一. 英语,对于大数据技术文章,比较先进的还是外文比较多,需要一定的英语基础,当然了翻译软件是个好东西,但必要的英语能力也是必须的. 编程,这个就不用我多说了吧,计算机语言,你学不会,该如何向电脑发布指令! 好了,回归我们今天