关于海量数据常用的数据结构

数据结构	应用场景	示例
哈希表	要求所有键值对放入内存，查找可以在常数时间内完成。	l 提取某日志访问百度次数最多的IP l 统计不同电话号码的个数
堆	插入和调整需要O(logn)时间，n为堆元素的个数，而获取堆顶元素只需要常数时间。	l 求出海量数据前K大的数 l 求海量数据流的中位数
BitMap	通常记录整数出现的情况，用来快速查找、数字判重、删除元素等。	l 统计不同电话号码的个数 l 2.5亿个整数中查出不同重复的整数个数
双层桶	两次寻址方式以节省内存，通常用在求第K大、中位数和数字判重。	l 2.5亿整数找出中位数 l 海量数据的第K大的值
反向索引	通过单词-文档，属性-实体建索引，方便后序查找	l 基于关键词的搜索 l 搜索框输入的自动补全
外排	借用硬盘空间实现海量数据排序	l 1GB大小的文件，每行是一个词，内存1MB，返回频率最高的100的词
前缀树	为集合内所有单词建立前缀树	l 求出热门的查询字符串 l 求出重复率较高的词
MapReduce	分布式处理，将数据交给不同机器去处理，划分数据，然后规约结果	l 海量日志分析 l 数据挖掘 l 智能推荐系统

关于海量数据常用的数据结构

时间： 2024-12-29 11:17:13

关于海量数据常用的数据结构的相关文章

Python 常用查找数据结构及算法

一.基本概念二.无序表查找三.有序表查找 3.1 二分查找(Binary Search) 3.2 插值查找 3.3 斐波那契查找四.线性索引查找 4.1 稠密索引 4.2 分块索引 4.3 倒排索引五.二叉排序树六. 平衡二叉树七.多路查找树(B树) 7.1 2-3树 7.2 2-3-4树 7.3 B树 7.4 B+树八.散列表(哈希表) 8.1 散列函数的构造方法 8.2 处理散列冲突 8.3 散列表查找实现 8.4 散列表查找性能分析参考书目<大话数据结构> 一.基本概念

Unity3D中常用的数据结构总结与分析

Unity3D中常用的数据结构总结与分析 c#语言规范阅读目录 1.几种常见的数据结构 2.几种常见数据结构的使用情景来到周末,小匹夫终于有精力和时间来更新下博客了.前段时间小匹夫读过一份代码,对其中各种数据结构灵活的使用赞不绝口,同时也大大激发了小匹夫对各种数据结构进行梳理和总结的欲望.正好最近也拜读了若干大神的文章,觉得总结下常用的数据结构以供自己也能灵活的使用变得刻不容缓.那么还是从小匹夫的工作内容入手,就谈谈在平时使用U3D时经常用到的数据结构和各种数据结构的应用场景吧. 回到目录

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法

原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html 在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法.1.查看数据 head(dataframe) # 查看数据前10行tail(dataframe) # 查看数据后10行 2.合并数据(1)data.frame(x,y)x,y是dataframe或者一列数据,x和y的行数一样,该操作得到一个新的dataframe,该dat

游戏制作中的大宝剑---常用的数据结构与算法

前言时间流逝,物是人非,就好像涌动的河流,永无终焉,幼稚的心智将变得高尚,青年的爱慕将变得深刻,清澈之水折射着成长. ----------<塞尔塔传说> PS:为了方便大家阅读,个人认为比较重要的内容-------红色字体显示个人认为可以了解的内容-------紫色字体显示 --------------------------------------------------------------------------- ---------------------------------

一些常用的数据结构维护手法

这篇会理论上讲一讲常用的数据结构维护手法. 我是嘴巴选手我自豪! ①cdq分治现在我们有一些修改,有一些询问,修改之间独立. 我们考虑分治,对于左右两半分别分治,然后对于左边的修改计算对右边询问的贡献. 本身的复杂度是O(nlogn). ②整体二分现在我们有一些修改,有一些询问. 我们需要求出,在最少多少组修改之后满足题目条件.(或者可以转化成这样) 对于单组询问,我会二分!对于多组询问,真不巧,二分超时了... 我们考虑整体二分.整体二分的框架大概是这样: def 整体二分(el,er,q

Lua常用的数据结构表示

1.矩阵 Lua中有两种表示矩阵的方法,一是“数组的数组”.也就是说,table的每个元素是另一个table.例如,可以使用下面代码创建一个n行m列的矩阵:mt = {} -- create the matrixfor i=1,N do mt = {} -- create a new row for j=1,M do mt[j] = 0 endend由于Lua中table是对象,所以每一行我们必须显式地创建一个table,比起c或pascal,

Redis5种常用的数据结构

一.数据结构五种常用的数据结构:string.hash.list.set.zse,以及三种不常用的:hyperloglog.geospatial.streams. 二.常用数据结构的使用 1.String键字符串键的使用场景:如分布式锁.计数器.分布式全局序列ID 2.Hash键存在的最主要的意义就是:减少内存的占用,原因在于比如对key的过期时间的扫描,只需要扫描第一层key即可 Redis采用的数据分配方案是预分配16384个hash槽,Hash键可以理解成是通过用第一层

java中常用的数据结构--Collection接口及其子类

java中有几种常用的数据结构,主要分为Collection和map两个主要接口(接口只提供方法,并不提供实现),而程序中最终使用的数据结构是继承自这些接口的数据结构类. 一.集合和数组的区别二.Collection集合和Map集合三.Collection接口 1.定义 public interface Collection<E> extends Iterable<E> {} 它是一个接口,是高度抽象出来的集合,它包含了集合的基本操作:添加.删除.清空.遍历(读取).是否为空.

常用集合类数据结构(持续更新中)

零.约定 1. 如果没有特殊说明,均指jdk 6,7,8一样 2. 源码分析出来的,有错误,请务必告知,谢谢一.链表 1. ArrayList<>() a) 基本介绍 i. 动态数组的数据结构 ii.新增时,容量超过当前容量,会新new一个数组 iii. 随机查询忧,添加删除劣 b) 常用构造函数 i. ArrayList() jdk6初始化为容量10的数组 jdk7,8初始化为容量为0的数组(EMPTY_ELEMENTDATA) ii.