拼多多后台开发面试真题:如何用Redis统计独立用户访问量

众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer,当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过12个小时,也是相当辛苦的。废话不多说,今天我们来聊一聊拼多多的一道后台面试真题,是一道简单的架构类的题目:拼多多有数亿的用户,那么对于某个网页,怎么使用Redis来统计一个网站的用户访问数呢?

使用Hash

哈希是Redis的一种基础数据结构,Redis底层维护的是一个开散列,会把不同的key映射到哈希表上,如果是遇到关键字冲突,那么就会拉出一个链表出来。

当一个用户访问的时候,如果用户登陆过,那么我们就使用用户的id,如果用户没有登陆过,那么我们也能够前端页面随机生成一个key用来标识用户,当用户访问的时候,我们可以使用HSET命令,key可以选择URI与对应的日期进行拼凑,field可以使用用户的id或者随机标识,value可以简单设置为1。

当我们要统计某一个网站某一天的访问量的时候,就可以直接使用HLEN来得到最终的结果了。

优点:简单,容易实现,查询也是非常方便,数据准确性非常高。

缺点:占用内存过大,。随着key的增多,性能也会下降。小网站还行,拼多多这种数亿PV的网站肯定受不了使用Bitset

我们知道,对于一个32位的int,如果我们只用来记录id,那么只能够记录一个用户,但如果我们转成2进制,每位用来表示一个用户,那么我们就能够一口气表示32个用户,空间节省了32倍!对于有大量数据的场景,如果我们使用bitset,那么,可以节省非常多的内存。对于没有登陆的用户,我们也可以使用哈希算法,把对应的用户标识哈希成一个数字id。bitset非常的节省内存,假设有1亿个用户,也只需要100000000/8/1024/1024约等于12兆内存。

Redis已经为我们提供了SETBIT的方法,使用起来非常的方便,我们可以看看下面的例子,我们在item页面可以不停地使用SETBIT命令,设置用户已经访问了该页面,也可以使用GETBIT的方法查询某个用户是否访问。最后我们通过BITCOUNT可以统计该网页每天的访问数量。

优点占用内存更小,查询方便,可以指定查询某个用户,数据可能略有瑕疵,对于非登陆的用户,可能不同的key映射到同一个id,否则需要维护一个非登陆用户的映射,有额外的开销。

缺点如果用户非常的稀疏,那么占用的内存可能比方法一更大。使用概率算法

对于拼多多这种多个页面都可能非常多访问量的网站,如果所需要的数量不用那么准确,可以使用概率算法,事实上,我们对一个网站的UV的统计,1亿跟1亿零30万其实是差不多的。在Redis中,已经封装了HyperLogLog算法,他是一种基数评估算法。这种算法的特征,一般都是数据不存具体的值,而是存用来计算概率的一些相关数据。

当用户访问网站的时候,我们可以使用PFADD命令,设置对应的命令,最后我们只要通过PFCOUNT就能顺利计算出最终的结果,因为这个只是一个概率算法,所以可能存在0.81%的误差。

优点占用内存极小,对于一个key,只需要12kb。对于拼多多这种超多用户的特别适用。

缺点查询指定用户的时候,可能会出错,毕竟存的不是具体的数据。总数也存在一定的误差。

好了,上面就是常见的3种适用Redis统计网站用户访问数的方法了。今天的介绍我们就讲到这里,如果你有兴趣,欢迎关注我

BLOG地址:www.liangsonghua.me

关注微信公众号:松花皮蛋的黑板报,获取更多精彩!

公众号介绍:分享在京东工作的技术感悟,还有JAVA技术和业内最佳实践,大部分都是务实的、能看懂的、可复现的

原文地址:https://www.cnblogs.com/java-growing/p/www_liangsonghua_me_2.html

时间: 2024-08-13 00:15:17

拼多多后台开发面试真题:如何用Redis统计独立用户访问量的相关文章

拼多多面试真题:如何用 Redis 统计独立用户访问量!

阅读本文大概需要 2.8 分钟. 作者:沙茶敏碎碎念 众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作 3 年的开发,稍微优秀一点的,都给到 30K 的 Offer. 当然,拼多多加班也是出名的,一周上 6 天班是常态,每天工作时间基本都是超过 12 个小时,也是相当辛苦的. 废话不多说,今天我们来聊一聊拼多多的一道后台面试真题,是一道简单的架构类的题目: 拼多多有数亿的用户,那么对于某个网页,怎么使用 Redis 来统计一个网站的用户访问数呢? 使用 Hash 哈希是

WEB前端开发 辨析类 面试真题 大集锦

WEB前端开发 辨析类 面试真题 大集锦 HTML5学堂-码匠:面试里最常出现的问题句式大概就是"说说XXX和XXX的区别""谈谈XXX和XXX的不同"了吧~!一波波的辨析题正在袭来,快快开启防御,杀出重围,来一场绝地反击! 僵尸,啊,不对,辨析三连发! 扫描了众多的面试题,发现--额--各个技术之间的辨析真的是如僵尸一般,一波一波的~ 相信不少人都在面试当中遇到过各类的辨析题,面试的画风大概是这样的 -- 面试官:strong.em.b.i的区别是什么? 面试官:

【Linux】C++后台开发面试

本文将讲述(Linux)服务器后台开发岗位的要求,包含了大部分会遇到的面试题目.掌握文中提到的技术,也算少许入门水平了,此文既是面经,也是后台开发的入门手册.无论社招还是校招,都可作为一个参考. 本文内容收集自知乎和其他博客,在此整理成章. 校招:以C++基础为主,数据结构和常见算法(ACM经典题目)是必须掌握的. 技术类面试跟学校的经验 / 社团经验 / 学习成绩 挂钩不太高,当然不是说两者没关系.成绩好面试官可喜欢了,但成绩一般的同学不用灰心,入选初面的条件是简历上突出你的技术水平,不需要写

iOS开发面试高频题

iOS开发面试高频题,面试不再懵逼 目录 前端技术2016年5月4日 对于要面试iOS开发的同学,可能已经看了很多的面试题.但是网上很多的面试题有些很全,但是没有重点,有些又太少.今天小编给大家整理了一些比较重要和经常问的面试题,总共20个,半小时之内就可以看完. 1. Object-c的类可以多重继承么?可以实现多个接口么?Category是什么?重写一个类的方式用继承好还是分类好?为什么? 答: Object-c的类不可以多重继承;可以实现多个接口,通过实现多个接口可以完成C++的多重继承;

乾颐堂安德HCIE面试真题系列22(许WH)

HCIE面试真题,拿到考题顺序是这样的:1.EP端口在现网环境的应用 2.ospf建立邻居的条件 3.LAB中流量×××中的应用第二次面试时间8月9号上午10:45,当时进考场的时候我听刚出来的几个面试的考生说pim-sm的,心里还比较高兴,晚上刚撸过组播的很熟.然后进考场开始自我介绍,我说刚开始在甲方考官就说那刚好,你在EP的应用上说一说.第一题:EP在现网环境的应用按照题库我开始先说EP口的特点,当说到从EP口收到BPDU包后变为普通端口,然后给画图举例子,然后我把自己绕进去了,考官就让画两

微信后台开发面试

很荣幸能够得到这个机会面试微信企业号后台开发的职位,结果可能并不如人所愿,自己总结了一下,之前由于担心在数据结构方面的生疏,一直在准备这方面的资料和知识,忽略了自己本身的项目回顾总结,以至于在聊到自己所做的项目时思维比较混乱,导致了之后一连串的连锁反应. 先说说流程,因为是内推(这里很感谢陈总提供了这个机会),去到的时候直接给了一份测试题做,一共5个题目,在此罗列一下: 1.一组有序的序列存放在一个循环数组中,尽可能高效的找出最小值所在位置.(比如:数组是456123) 2.给一个数学算式,里面

Linux后台开发面试问题汇总

个人从事安全后台开发,当然是linux环境下的了.举几个常见的问题.1. 数据结构基础.比如实现一个最简单的哈希表.2. 操作系统基础.linux进程模型,堆/栈的区别,大概的位置,各往哪个方向生长,各类变量存储在哪些区域:更深一点可能会问动态库与静态库的区别,因为这个在生产环境中常见,动态库映射在进程模型的哪里.其他常见如僵尸进程.线程共享等问题.3. tcp/ip基础.比如常问三次握手,四次挥手,为什么要四次:time_wait状态相关问题:mtu分片问题.现在一般不会问tcp/ip头大小这

拼多多可信吗?真有亿万用户在用?Python分析50w数据,难以置信

一.缘起 二.我们获取了多少商品条目? 49.78万,大约50万条.这些数据全不全,肯定不全,但是基本上覆盖了拼多多的绝大部分在售商品,再退一步,数据的量级应该是没错的(数据获取). 进群:125240963   即可获取数十套PDF哦!要源码也可以私信 三.这些商品总共卖出了多少钱? 288亿是一个什么概念呢,我们搜索了京东财报的公开新闻: 京东2017年GMV接近1.3万亿 净利润50亿元 可以估计去年京东的月均GMV大概是1100亿,电商的GMV同比可达50%+增长,胡乱估计京东2018月

PHP开发工程师面试真题之Web网页设计(附参考答案)

今天有幸被召回母校给即将毕业的学弟学妹们讲我这两年的工作史,看了下母校没啥特别的变化,就是寝室都安了空调,学妹们都非常漂亮而已..好了不扯蛋了,说下今天的主题吧.这些天我在深度定制语法高亮功能的同时发现了博客园提供的一些有意思的函数,甚至有几个博客园都没用到,我也不知道怎么才能触发那些功能..打开这个js就可以看到很多好用的东西了,虽然写的不怎么样,但是至少有这些功能. ps: 推荐安装一个代码格式化的插件,否则一坨看着蛋疼.比如第一个就是 log,方便调试. http://www.qidian