大数据算法

1.海量日志数据，提取出某日访问百度次数最多的那个IP。

　　首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到ip是32位的，最多有个2^32个ip。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，在找出每个小文件中出现频率最大的ip（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的ip中，找出那个频率最大的ip，即为所求。

算法思想：分而治之+Hash

1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；

2.按照IP地址的hash(ip)%1024（相同的ip一定会被分到同一个文件中）,把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；

3.对于每个小文件，可以构建一个ip为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个ip地址；

4.可以得到1024个小文件中的出现次数最多的ip，再依出现次数排序得到总体上出现次数最多的ip；

时间： 2024-09-29 10:29:45

大数据算法的相关文章

大数据算法摘录

大数据算法的摘抄预处理抽取清洗分析方法聚合: 聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别.属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低. 分类: 分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中. 回归分析: 回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系.它可以应用

大数据算法->推荐系统常用算法之基于内容的推荐系统算法

港真,自己一直非常希望做算法工程师,所以自己现在开始对现在常用的大数据算法进行不断地学习,今天了解到的算法,就是我们生活中无处不在的推荐系统算法. 其实,向别人推荐商品是一个很常见的现象,比如我用了一个好的商品,向朋友安利之类的.在以前广告系统不发达的时候,我们也是靠口口相传来进行商品的推广.那么为什么,现在推荐系统变的非常重要了呢?,在以前,我们的商品不像现在的物品一样琳琅满目,我们有时间,可以把商品都浏览一遍在进行选择,因为我们都想选择所有商品中最好的,而现在,由于资源的众多,我们不会用大把

SVM4TS （SVM for Time Series）企业级SVM大数据算法运算平台

SVM4TS(SVM for Time Series)是一款基于SVM的大数据运行平台,支持大数据训练.模型产生.模型实例化.模型发布与上线.目前,SVM4TS是最优秀的商业大数据算法运行平台之一.STV4TS具有如下优点:(1)STV4TS更适合针对时间序列的机器学习计算,包括连续时间序列(如传感器数据)以及离散时间序列(如股票数据):(2)SVM4TS提供了数据分析.模型产生.模型升级.模型上线的全套解决方案,使用相对容易:(3)算法表现好,其算法的综合测评在众多框架中均名列前茅:(4)价格

大数据算法(一)亚线性算法

来源:大数据算法王宏志一.概述大数据定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法. 大数据特点:4V 大数据算法可以不是: 精确算法内存算法串行算法仅在电子计算机上运行的算法大数据算法不仅是: 云计算 MapReduce 大数据分析和挖掘的算法难度: 访问全部数据时间过长读取部分数据亚线性算法数据难以放入内存将数据存储到磁盘上外存算法仅基于少量数据进行计算空间亚线性算法单个计算机难以保存全部数据并行处理并行算法计算

平安陆金所java 大数据算法 android开发

java工程师-互联网方向工作职责 1 参与产品需求分析.网站系统的设计方案: 2 参与.协助项目组长共同完成或带领项目小组承担任务的系统功能设计和数据库设计 3 独立完成个人承担模块或项目的开发和测试任职要求重点大学本科及以上学历,计算机相关专业优先有3年以上JAVA WEB开发工作经验:有高访问量,高负载网站系统开发经验者优先 1. 精通Java Core/数据结构及算法/J2EE/Struts2/WebWork 2/JSP/Servlet/Java TCP/IP Socket/Aj

[大数据算法] 当基本算法遇到大数据

大数据序列专题 1. 还有考虑海量数据处理的面试题如10亿个整数,1G内存,找中位数另外再网上搜类似博客 <十道海量数据处理与十个方法大总结>http://www.cnblogs.com/cobbliu/archive/2012/08/24/2654368.html 2. 以后在做任何题目的时候需要去想,如果数据量大了怎么办,内存受限怎么办,总结得来的东西才是最宝贵的,走马观花只会做无用功

大数据算法十大经典算法

一.C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它. 决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件. C4.5相比于ID3改进的地方有: 1.用信息增益率来选择属性. ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则), 也就是熵的变化

大数据算法题（一）

分类:海量数据处理面试题 1.海量日志数据,提取出某日访问百度次数最多的那个IP. 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到ip是32位的,最多有个2^32个ip.同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,在找出每个小文件中出现频率最大的ip(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率.然后再在这1000个最大的ip中,找出那个频率最大的ip,即为所求. 或者如下阐述: 算法思想:分而治之

天翼杯大数据算法应用大赛感想

竞赛过去很久了,早就想写写感想与经历,可是一直拖着没写.今天终于有时间了,就写写吧. 竞赛题目是视频网站推荐,根据前七周每天用户对10个视频网站的访问次数数据以及其他上网行为,预测用户第八周对10个视频网站的访问量. 咋一看这是个时间序列预测问题,是啊,给出前49天用户访问数据,让你预测未来七天用户访问数据.这确实应该是个时间序列预测问题. 但我用时间预测算法模型Holt-Winter(3次指数平滑), ARIMA跑结果的时候,结果却并不是很好. 我后来分析了下数据,统计了七周每一周七天内用户对

猜你喜欢

hdu-5703 Desert(水题)

题目链接: Desert Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) Pr ...

OC是动态运行时语言是什么意思？什么是动态识别，动态绑定？

动态: 主要是将数据类型的确定由编译时,推迟到了运行时. 这个问题其实浅涉及到两个概念,运行时和多态. 简单来说,运行时机制使我们直到运行时才去决定一个对象的类别,以及调用该类别对象指定方法. 现在, ...

51cto大数据培训路线

Java Java IO/NIO JVM原理与配置.调优 Socket 网络套接字技术 Java Collection java Reflection 多线程与并发编程设计模式 Collection ...

gjkahkjg计划的看见俺是个好科技的化工卡机都是高科技哈大使馆

http://www.zhafa-jy.com/sell/show-166058.html http://www.zhafa-jy.com/sell/show-166057.html http://w ...

[nio]dawn开发环境配置

为什么dawn需要特殊的开发配置? dawn使用的是kilim协程,在编码结束后需要进行代码织入.试想,如果每次写完程序,运行代码之前都手工运行一次织入程序,是多么蛋疼的一件事情.更糟糕的是,如果你没 ...

service.c

#include <stdio.h> #include <syspes.h> #include <sys/socket.h> #include <netine ...

流程任务-用户任务

user task 是最常用的任务,当流程到达用户任务时,用户任务将会被分配到特定用户或者用户组. 任务候选人是指有权限对该任务进行操作的潜在用户群体,这个群体有权限去处理或完成该任务. 任务受理人指 ...

别样的定位服务

说到位置跟踪技术或者说定位,大家都很容易想到GPS.但长时间开着GPS实在虐电池——一两个小时可能没有问题,但如果你要开着app作一天的位置追踪,那么即使带着移动电源也很快会被吸干.有需求自然就会有市 ...

系统磁盘空间/dev/xvda1占满原因分析

由于项目原因需要定期检查磁盘空间占用情况,常用检查命令如下: 1.查看磁盘空间大小 df -lh 2.查看对应文件大小 du --max-depth=1 -h / 于一日发现在使用Flume + Ka ...

java的抽象类

现实世界中,人们表征世界时,会把现实世界中的很多类具有相同特征的事物归为一个抽象类.比如水果是许多植物果实的总称,我们可以定义一个苹果类.定义一个西瓜类,可以实例化一个苹果对象,可以实例化一个西瓜对象 ...

2016 年沈阳网络赛---QSC and Master(区间DP)

题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=5900 Problem Description Every school has some legend ...

数据库存储系统应用，超市小票系统

create database chaoshixiaopiao4 go use chaoshixiaopiao4 go --创建供应商的表格 create table gongying ( gno i ...

[Hadoop in Action] 第1章 Hadoop简介

编写可扩展.分布式的数据密集型程序和基础知识理解Hadoop和MapReduce 编写和运行一个基本的MapReduce程序 1.什么是Hadoop Hadoop是一个开源的框架,可编写和运行分布式 ...

Flume结合Spark测试

近日,在测试Flume结合Kafka结合Spark Streaming的实验.今天把Flume与Spark的简单结合做出来了,这里记录一下,避免网友走弯路.有不周到的地方还希望路过的大神多多指教. 实 ...

计算Pan手势到指定点的角度

计算Pan手势到指定点的角度效果图: 源码: // // RootViewController.m // Circle // // Copyright (c) 2014年 Y.X. All righ ...

数据库中的数据类型

一.数字型整型 TINYINT 1字节 byte SMALLINT 2字节 short MEDIUMINT 3 ...

2014蓝桥杯决赛解题报告

1.猜灯谜题目: A村的元宵节灯会上有一迷题: 请猜谜 * 请猜谜 = 请边赏灯边猜小明想,一定是每个汉字代表一个数字,不同的汉字代表不同的数字. 请你用计算机按小明的思路算一下,然后提交“请猜谜 ...

程序员生存定律--表达背后的力量（1）

程序员生存定律这系列的目录在这里:程序员生存定律--目录喜欢从头瞄的,可以移步. ---------------------------------------------------------- ...

Center OS 7 安装 $$

资料来自网络,收集整理做个备忘 1. 安装Python # yum install python-setuptools && easy_install pip 2. 安装$$ # pi ...

第二章-第三题（四则元算需求文档编写、上传至GitHub与修改）-By郭青云

题目描述: 完成小组的“四则运算”项目的需求文档(使用Markdown写文档),尝试同组成员在各自PC上修改同一文档后,如何使用Git命令完成GitHub上的文档的更新,而不产生冲突.并验证GitHu ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.