java处理大数据的一个优化解决方案

之前和大家提过我们公司现在在做一个手机应用商店的项目,之前测过平均每分钟有2000条请求,每秒就是50左右,现在肯定更多,数据量大的时候每秒有400~500条sql插入操作(记录用户行为,每个请求都会将信息写入log表),然后我们目前是还没有用hadoop之类的分布式,服务器好像内存是8G,CPU是16核的,这些差不多就是现在的情况,经常导致连接超时,之前也做过一些优化点击查看 大数据优化,今天又优化了下.之前是从配置和服务器层面,这次是代码层面.

上面我说过每条请求进来我们都会将用户信息插入到数据库,400个同时进来就同时有400条sql插入,一个插入占一个连接,这样很危险的,经常导致连接撑爆,所以我们在这个地方直接起了一个线程,把大量的需要插入的数据放入线程的List里面,然后在线程里面做批量插入操作,这样的情况就是数据量大的时候只用了一个Connection就可以将300
400条数据插入到数据库,节省了大量的连接资源啊!我这个项目除了插入log数据量大之外,还有个Push功能,push广告之类的时候,每秒有1000以上的请求进来,在插入log表的时候还会插入push表,你说这样多伤啊,所以push这块也做了这样的优化操作.

思路就是上面那样,优化的结果就是,想都不用想,妈妈再也不用担心应用连接数据库会超时了,除非网速坑爹.

希望以上思路和优化解决方案可以帮助到各位朋友,我们马上也会使用到hadoop,到时候再来和大家分享经验.下面我先给出部分实例代码

1.插入log的线程代码

packagecom.xxx.appstore.util;
 
importjava.sql.Connection;
importjava.sql.PreparedStatement;
importjava.util.ArrayList;
importjava.util.List;
 
importorg.slf4j.Logger;
importorg.slf4j.LoggerFactory;
 
importcom.xxx.appstore.Constants;
importcom.xxx.appstore.UserData;
importcom.xxx.common.util.db.DBUtil;
 
publicclass InsertLogThread extendsThread{
    privatestatic Logger logger = LoggerFactory.getLogger(InsertLogThread.class);
    privatestatic List<UserData> saveList =new ArrayList<UserData>();
    privatestatic List<UserData> actionList =new ArrayList<UserData>();
 
    public InsertLogThread(){             
    }
 
    publicvoid addUserData(UserData data){
            synchronized(saveList){
                   saveList.add(data);
 
                   saveList.notify();
            }
    }
 
    publicvoid run(){
            while(true){
                   while(saveList.size()> 0){
                           actionList.add(saveList.remove(0));
                           if(actionList.size()> 2000){
                                  break;
                           }
                   }
 
                   insertLog(actionList);
                   actionList.clear();
 
                   try{
                           synchronized(saveList){
                                  saveList.wait();
                           }
 
                   }catch(InterruptedException e){
                           e.printStackTrace();
                   }                      
            }
    }
 
 
    /**
     * 插入本次请求。
     * 
     */
    publicvoid insertLog(List<UserData> actionList){
            Connection con =null;
            PreparedStatement pst =null;
 
            String sql ="insert into tblLog(TId,UuId,Imsi,Brand,Model,Channel,Plat,AndroidVer,ScreenSize,Lang,AppStoreVer,Provider,ConnectionMode,GetLocType,LocStr,country,province,city,IpAddr,AccessType,CurrPage,ProPage,proContent,AppId,OtherParas,Created,"+
                          "phone,product,sdk,display,codename,tCardSize,RAM,cpuClockSpeed,source,smsCenter,enc,pVer,imei,pkg) values(?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,sysdate,"+
                           "?,?,?,?,?,?,?,?,?,?,?,?,?,?)";
            try{
                   con = DBUtil.getConnection(Constants.dbName);
 
                   long id = DBUtil.getNextSeq(con, "seq_tbllog_id");
                pst = con.prepareStatement(sql);
                for(int j =0; j < actionList.size(); j++){
                    UserData data = actionList.get(j);
                       pst.setLong(1, id);
                       pst.setString(2, data.aid);
                       pst.setString(3, data.imsi);
                       pst.setString(4, data.brand);
                       pst.setString(5, data.model);
                       pst.setString(6, data.key);
                       pst.setString(7, data.har);
                       pst.setString(8, data.release);
                       pst.setString(9, data.sc);
                       pst.setString(10, data.lang);
                       pst.setString(11, data.storeVer);
                       pst.setString(12, data.providerName);
                       pst.setString(13, data.netType);
                       pst.setString(14, null);
                       pst.setString(15, data.loc);
                       pst.setString(16, data.country);
                       pst.setString(17, data.province);
                       pst.setString(18, data.city);
                       pst.setString(19, data.ip);
                       pst.setString(20, getString(data.currentRequestType, 50));
                       pst.setString(21, getString(data.currentRequestContent, 50));
                       pst.setString(22, getString(data.lastRequestType, 50));
                       pst.setString(23, getString(data.lastRequestContent, 50));
                       pst.setString(24, data.appId);
                       pst.setString(25, getString(data.otherParams, 150));
                       pst.setString(26, data.phoneNum);
                       pst.setString(27, data.product);
                       pst.setString(28, data.sdk);
                       pst.setString(29, data.dis);
                       pst.setString(30, data.code);
                       pst.setString(31, data.tcard);
                       pst.setString(32, data.ram);
                       pst.setString(33, data.fre);
                       pst.setString(34, data.source);
                       pst.setString(35, data.smsCenter);
                       pst.setString(36, data.enc);
                       pst.setInt(37, data.pVer);
                       pst.setString(38, data.imei);
                       pst.setString(39, data.pkg);
 
                       pst.addBatch();
                }
              pst.executeBatch();
            }catch(Exception e){
                   logger.error("插入日志失败", e);
            }finally{
                   DBUtil.closePreparedStatement(pst);
                   DBUtil.closeConnection(con);
            }
    }
 
    publicString getString(String str, int length){
            if(str ==null){
                   return str;
            }
 
            while(str.getBytes().length> length){
                   str = str.substring(0, str.length()- 4);
            }
 
            return str;
    }
 
 
 
}

2.调用时候的代码,下面3句代码分别在不同的代码块,考虑到公司保密问题我就不把代码都拿出来了,只列出和本方案有关系的代码

publicstatic InsertLogThread thread =new InsertLogThread();//再某个相关类调用的最上面实例话这个线程
 
 
thread.start();//在某个初始化的地方启动线程
 
thread.addUserData(userData);//在需要做线程操作的地方写入此代码      userData可以是对象也可以是值,看你们需要

干货分享完毕,准备下班了.

作者:Darren中

原文地址:
http://www.darrenzhong.com/?p=1504

时间: 2024-07-28 18:01:42

java处理大数据的一个优化解决方案的相关文章

java+Mysql大数据的一些优化技巧

众所周知,java在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法; 例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶心,而且这些API在内存构造的对象大小将比数据原有的大小要大很多倍数,所以你不得不去拆分Excel,还好,POI开始意

Oracle大数据SQL语句优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描, 如: select id from t where num is null    可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则

毕业生、程序猿转岗该如何选择Java、大数据和VR?

许久不见的朋友请我吃饭,期间给我介绍他一个弟弟,说明年要毕业了,还不知道找啥工作,说有培训机构让他学VR.大数据什么的,不知道前景咋样,想咨询一下我.相信很多朋友面临毕业,都不知道该从事哪个行业,自己又有能力做哪些工作,很迷茫!他说你早九晚六,周末双休,工作轻松工资又不低,多好啊,能不能让弟弟也干你这行? 确实如他所说,笔者2008年毕业以后,从事软件行业至今9个年头了,算是对行业比较了解的. 你是否适合做程序猿? 程序猿的爱好 我们先来说一下程序猿的日常生活吧.一般软件公司的上班时间是早上9点

学编程,学java还是大数据、android?平均月薪23k以上告诉你方向

学编程,学java还是大数据.android?有不少同学在纠结中,最近有不少初学者来问到,学习大数据,学习spark,公司主要使用那些语言编写,每听到这一个问题,起码还是很不错的,证明你已经开始学习大数据了,并了解大数据Spark是可以使用多种语言来实现开发的,那就是Java.Scala.Python和R语言都可以使用,但R语言本人不常用. 学编程,学java还是大数据.android?平均月薪23k以上告诉你方向正常来讲学习大数据之前都要做到以下几点: 1.学习基础的编程语言(java,pyt

未来Java、大数据、Python哪个前景更好,薪资更高?

都知道现在最火爆的是人工智能.大数据.而人工智能和大数据主要用的语言就是Java和Python.今天我们就来分析一下,当前java,python和大数据,哪个就业前景更好?自己该学哪一个? Java和Python是编程语言,而大数据则是一系列技术的整合,所以应该分开来看,三者并不能直接进行对比. 三者实际的关系是目标和实现的包含关系.所以这个问题应该分别为 Java和Python哪个发展前景好?大数据的发展前景如何? Java发展前景 Java语言是一门面向对象编程语言,不仅吸收了C++语言的各

王家林最受欢迎的一站式云计算大数据和移动互联网解决方案课程 V3之Android架构设计和实现完整训练:HAL&amp;Framework&amp;Native Service&amp;Android Service&amp;Best Practice

如何理解Android架构设计的初心并开发出搭载Android系统并且具备深度定制和软硬整合能力特色产品,是本课程解决的问题. 课程以Android的五大核心:HAL.Binder.Native Service.Android Service(并以AMS和WMS为例).View System为主轴,一次性彻底掌握Android的精髓. 之所以是开发Android产品的必修课,缘起于: 1,  HAL是Android Framework&Application与底层硬件整合的关键技术和必修技术:

Java转职大数据人群常使用的二十多个大数据工具

最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具. 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据.根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任. 在许多情况下,使用SQL数据库用于存储/检索数据就足够了.但在另一些情况下,要么SQL数据库规模不够,要么还有更好的工具.这一切都取决于使用情况. 现在让我们来讨论一

java未来趋势 Java促进大数据的大发展

没有Java,甚至不会有大数据的大发展,Hadoop本身就是用Java编写的.当你需要在运行MapReduce的服务器集群上发布新功能时,你需 要进行动态的部署,而这正是Java所擅长的. 大数据领域支持Java的主流开源工具: 1. HDFS HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据 及存储了真实数据的DataNode(数据节点,可以有很多).HDFS针对海量数据所设计,所以相比传统文件系统在

大数据量数据库优化 - CodeMain - 博客园

一.数据库结构的设计 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程. 所以在考虑整个系统的流程的时候,我们必须