大数据下的用户行为分析

    1. Consumer behaviour is the study of when,why,how and where people do or don’t buy a product。 
      用户行为一般指用户通过中间资源,购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。 
      用户行为记录一般可以表示一组属性的集合:{属性1,属性2,…,属性N}
    2. 用户行为分析主要是研究对象用户的行为。数据来源包括用户的日志信息、用户主体信息和外界环境信息。通过特定的工具对用户在互联网/移动互联网上的行为进行记录,记录的信息通常称为用户日志。 
      数据内容: 
      (1)网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息; 
      (2)搜索引擎日志:搜索引擎日志系统所记录的用户在搜索引擎上的相关行为信息; 
      (3)用户浏览日志:通过特定的工具和途径记录用户所记录的用户在该搜索引擎上的相关行为信息; 
      (4)用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等; 
      (5)外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等; 
      数据特点: 
      (1)大数据量/海量数据,big data; 
      (2)实时分析/准实时分析、离线分析; 
      (3)由于用户日志包含大量用户个人信息,为避免涉及过多的用户隐私,日志工具通常对用户个人信息进行加密,不涉及具体用户行为的细节内容,保护用户隐私; 
      (4)日志信息通常含有较多的噪音,因此,基于个人行为信息分析得到的结论常常存在着很大的不可靠性。
    3. 用户行为分析平台主要面临海量数据处理困难、分析模型算法复杂、建设和运营成本高昂等方面的技术难点和挑战。 
      海量数据处理困难: 
      (1)问题:面临TB甚至PB级的海量数据,传统关系数据库存储尚可,但对OLAP分析效仿低下; 
      (2)难点:如何可实现可扩展的数据存储、灵活快捷的数据访问? 
      (3)思路:利用Nosql数据库解决大数据存储,通过水平扩展读写负载提高访问性能; 
      分析模型算法复杂: 
      (1)问题:分析需要运用预警预测、聚类、协同过滤等数据挖掘算法,算法的编程复杂度和计算复杂度都非常大; 
      (2)难点:如何实现分析模型,并提供实时高速的复杂分析; 
      (3)思路:改造开源的数据挖掘模型库,并运用Hadoop等并行计算框架; 
      建设和运维成本高昂: 
      (1)问题:传统数据库和分析软件进行海量数据分析将导致天价的软件授权许可费用;外部数据分析服务同样价格昂贵,并且面临安全性和灵活性局限; 
      (2)难点:如何低成本高效率的建设和运维系统? 
      (3)思路:基于可靠的开源解决方案构建独立自主经济灵活的分析平台。
    4. Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从最初到现在,Hadoop系统在7年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。 
      核心组件: 
      (1)MapReduce: 
      · Hadoop的分析式并行处理框架; 
      · 实现对HDFS上海量数据的批量分析; 
      (2)HDFS: 
      · Hadoop的一个分布式文件系统; 
      · 高容错性,部署在低廉商业硬件; 
      · 提供高吞吐量,适合批量处理; 
      Hadoop是运行在大量通常计算单位上提供海量数据存储与并行计算的平台框架: 
      · 基于x86集群水平可扩展; 
      · 基于MapReduce的并行计算能力; 
      · 设计规模:PB级的数据量,数千台计算节点;
    5. Hadoop的优势: 
      (1)高可靠性: 
      · 按位存储和处理数据的能力值得信赖; 
      (2)高扩展性: 
      · 可以管理数以千计的存储和计算节点; 
      (3)高性能: 
      · 实现数千计算节点的并行计算; 
      (4)高容错性: 
      · 自动备份和自动失败任务重起; 
      Hadoop的不足: 
      (1)性能可优化: 
      · 与硬件的理论性能存在差距,具有优化空间; 
      (2)可扩展性和可靠性: 
      · 受单一Namenode,单一Jobtracker的设计严重制约,存在明显的单点故障源; 
      · 单一的Namenode的内容容量和性能有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统被限制在10-50PB,最多支持的文件数量大约为1.5亿; 
      (3)欠缺各种企业特性: 
      · 企业的个性化需求、定制化开发和可靠的运营维护服务; 
      企业版Hadoop改进主要方向: 
      (1)消除单点故障制约; 
      (2)改进MapReduce; 
      (3)完善数据管理和数据源整合; 
      (4)镜像、快照等容灾能力; 
      (5)可靠的服务支持;
    6. 数据挖掘算法的编程复杂度和计算复杂度都非常大,往往称为制约分析项目按期完成的瓶颈,精细化运营分析平台利用支持Hadoop并行计算框架的开源数据挖掘模型数据库Mahout,实现了数据挖掘算法的快速实施和高效表现。基于这些经验,未来我们将研究整合其他的开源算法库(如Weka和R等),以及商业算法库,以保证分析的精确性和性能。 
      利用Mahout的聚类和协同过滤算法库的实现价值评估分析和智能推荐引擎。
    7. 用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效能影响重大。利用研制管理决策支持系统的经验,我们可以提供灵活可制定的报表编制和数据展现方式,并建立了主动推送和移动跨平台访问结合的数据访问能力,提高分析材料的生成和呈现速度。

原文地址:https://www.cnblogs.com/rousson/p/9625533.html

时间: 2024-11-10 15:59:29

大数据下的用户行为分析的相关文章

大数据实战:用户流量分析系统

本文是结合hadoop中的mapreduce来对用户数据进行分析,统计用户的手机号码.上行流量.下行流量.总流量的信息,同时可以按照总流量大小对用户进行分组排序等.是一个非常简洁易用的hadoop项目,主要用户进一步加强对MapReduce的理解及实际应用.文末提供源数据采集文件和系统源码. 本案例非常适合hadoop初级人员学习以及想入门大数据.云计算.数据分析等领域的朋友进行学习. 一.待分析的数据源 以下是一个待分析的文本文件,里面有非常多的用户浏览信息,保扩用户手机号码,上网时间,机器序

大数据下的数据分析平台架构zz

转自http://www.cnblogs.com/end/archive/2012/02/05/2339152.html 随着互联网.移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”.多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Had

大数据时代的用户信息安全三原则

几年前,雷·库兹韦尔写过一本书叫做<奇点临近>.他说,人类文明经过这么多年发展,在本世纪的中叶会经过一个点,这个点,就是奇点.奇点是一个拐点,也就是说人类文明可能会进入一个分岔,可能会进入一个新的文明高度,也可能会急转直下,人类就此灭亡.所以奇点有双重的含义,有可能变得更好,也有可能变得更糟糕. 进入微软.亚马逊,谷歌等美国IT企业工作人才项目,起薪40万,百度搜索(MUMCS) 我认为随着大数据时代的到来,互联网也将走到一个奇点,而安全将决定互联网走过这个奇点之后,到底是向上走到一个新高度,

【CSWS2014 Summer School】大数据下的游戏营销模式革新-邓大付

大数据下的游戏营销模式革新 邓大付博士腾讯专家工程师 Bio:毕业于华中科技大学,现任腾讯IEG运营部数据中心技术副总监,负责腾讯游戏的数据挖掘相关工作,包括有用户画像,推荐系统,基础算法研究等.主要感兴趣的领域包括有分布式计算平台系统架构,机器学习算法等. =================================================== 这个讲座时间比较短,内容也比较少,不过还是让我开拓了眼界,比如TX游戏数据的规模.游戏服务器的规模以及游戏中一些算法.模型的应用. ==

大数据下的数据分析平台架构

时间:2011-08-15 14:59 作者:谢超 随着互联网.移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 谢超 Admaster数据挖掘总监,云计算实践者,10年数据仓库和数据挖掘咨询经验,现专注于分布式平台上的海量数据挖掘和机器学习. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”.多年来在严苛的业务需求和数据压

大数据下,24小时精准医疗或将在2020年实现?

日前,在2016英特尔生命科学信息技术论坛上,一款名为GTX One的生物计算加速平台现身,引发了业内对于精准医疗行业新的看法.这款GTX One加速系统,通过算法创新充分释放FPGA的计算能力,相当于将一台超级计算机压缩到一个小盒子里:一张FPGA加速卡就能达到60台高性能至强Xeon CPU服务器的计算性能,极大地缩短了生物信息数据的计算时间.事实上,通过生物数据与医疗行业结合,生物医疗行业正在经历高速发展.此次英特尔在京推出的“英特尔精准医疗伙伴计划(Intel BioIT Partner

大数据时代的全能日志分析专家--Splunk安装与实践

大数据时代的全能日志分析专家 --Splunk安装与实践 (  此文已刊发在<网络运维与管理>杂志  ) 0.背  景 随着大家对网络安全意识的提高,企业网管理人员,必须对IT基础设置进行监控及安全事件的管理,管理数据的数量和种类非常巨大,那么就需要有一款能否分析各种日志数据的工具,经过长期实践,为大家推荐Splunk这么一款全能型分析工具. 1.Splunk简介 Splunk是一款功能强大的.记录详细的日志分析软件,Splunk是基于原始日志数据(Raw data)内容建立索引,保存索引的同

大数据下一站:智慧医疗?

基于大数据技术,有朝一日,机器的诊疗准确率甚至可能超过人类历史上最有名的名医. 日前,美国最大的医疗保险公司 Wellpoint已经开始通过运用IBM的超级计算机“Watson”帮助医生来针对病人的病情进行诊断,服务7000万人.在癌症治疗领域,目前需要 一个月或更长时间才能制定出针对性的药物治疗方案,未来利用Watson的认知计算技术可以将周期缩短至一天,极大提高癌症患者的治愈率. “Watson在医疗.医药行业可以帮助肿瘤中心做几个复杂癌症疾病的诊断和数据分析:还能够帮助分析疾病风险,保证理

寻路大数据:海量数据与大规模分析

寻路大数据:海量数据与大规模分析(Google大数据专家力作超豪华译者|作序者真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参) [美]Michael Manoochehri(迈克尔.马诺切里)著   戴志伟等 译 ISBN 978-7-121-24472-8 2014年11月出版 定价:59.00元 244页 16开 编辑推荐 微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&CEO联合作序推荐 大数据包罗万象,谷歌大数据平台技术权威独具匠心,站