数据结构与算法简记--实现一个短网址系统

实现一个短网址系统


短网址服务

  • 把一个长的网址转化成一个短的网址,访问这个短网址,就相当于访问原始的网址
  • 原始网址:https://github.com/wangzheng0822/ratelimiter4j
    短网址:http://t.cn/EtR9QEG
  • 上面第二个网址是通过新浪提供的短网址服务生成的
  • 核心功能:
    • 把原始的长网址转化成短网址
    • 当用户点击短网址的时候,短网址服务会将浏览器重定向为原始网址

如何通过哈希算法生成短网址?

  • 使用比较著名并且应用广泛的一个哈希算法:MurmurHash 算法
  • 提供了两种长度的哈希值,一种是 32bits,一种是 128bits。为了尽可能短,可以选择 32bits 的哈希值
  • 对于开头那个 GitHub 网址,经过 MurmurHash 计算后,得到的哈希值就是 181338494。
  • 再拼上短网址服务的域名,就变成了最终的短网址 http://t.cn/181338494(其中,http://t.cn 是短网址服务的域名)。
  • 如何让短网址更短

    • 将 10 进制的哈希值,转化成更高进制的哈希值,这样哈希值就变短了
    • 在网址 URL 中,常用的合法字符有 0~9、a~z、A~Z 这样 62 个字符。
    • 为了让哈希值表示起来尽可能短,将 10 进制的哈希值转化成 62 进制。具体的计算过程如下图。最终用 62 进制表示的短网址就是http://t.cn/cgSqq。
  • 如何解决哈希冲突问题
    • 给原始网址拼接一串特殊字符,比如“[DUPLICATED]”,然后跟再重新计算哈希值,两次哈希计算都冲突的概率,显然是非常低的。
    • 假设出现非常极端的情况,又发生冲突了,再换一个拼接字符串,比如“[OHMYGOD]”,再计算哈希值。
    • 然后把计算得到的哈希值,跟原始网址拼接了特殊字符串之后的文本,一并存储
    • 当用户访问短网址的时候,短网址服务先通过短网址,在数据库中查找到对应的原始网址。
    • 如果原始网址有拼接特殊字符(这个很容易通过字符串匹配算法找到),先将特殊字符去掉,然后再将不包含特殊字符的原始网址返回给浏览器。
  • 如何优化哈希算法生成短网址的性能
    • 首先可以给短网址字段添加 B+ 树索引
    • 其次减少sql语句执行次数来减少通讯次数:
      • 给数据库中的短网址字段,添加一个唯一索引(不止是索引,还要求表中不能有重复的数据)
      • 当有新的原始网址需要生成短网址的时候,并不会先拿生成的短网址,在数据库中查找判重,而是直接将生成的短网址与对应的原始网址,尝试存储到数据库中。
      • 如果数据库能够将数据正常写入,那说明并没有违反唯一索引,也就是说,这个新生成的短网址并没有冲突。
      • 在大部分情况下,我们把新生成的短网址和对应的原始网址,插入到数据库的时候,并不会出现冲突
      • 通过布隆过滤器减少SQL语句执行次数:
        • 把已经生成的短网址,构建成布隆过滤器。
        • 布隆过滤器是比较节省内存的一种存储结构,长度是 10 亿的布隆过滤器,也只需要 125MB 左右的内存空间。
        • 当有新的短网址生成的时候,先拿这个新生成的短网址,在布隆过滤器中查找。
        • 如果查找的结果是不存在,那就说明这个新生成的短网址并没有冲突。此时,只需要再执行写入短网址和对应原始网页的 SQL 语句就可以了。
        • 通过先查询布隆过滤器,总的 SQL 语句的执行次数减少了。

如何通过 ID 生成器生成短网址?

  • 维护一个 ID 自增生成器。它可以生成 1、2、3…这样自增的整数 ID。
  • 当短网址服务接收到一个原始网址转化成短网址的请求之后,它先从 ID 生成器中取一个号码,然后将其转化成 62 进制表示法,拼接到短网址服务的域名(比如http://t.cn/)后面,就形成了最终的短网址。
  • 最后,把生成的短网址和对应的原始网址存储到数据库中。
  • 几个细节问题:
    • 相同的原始网址可能会对应不同的短网址

      • 不处理:用户只关心短网址能否正确地跳转到原始网址,不关心短网址长什么样子。
      • 借助哈希算法生成短网址的处理思想:当要给一个原始网址生成短网址的时候,先拿原始网址在数据库中查找,如果数据库中存在,就取出对应的短网址,直接返回给用户
    • 如何实现高性能的 ID 生成器
      • 给 ID 生成器装多个前置发号器
      • 多个ID生成器

原文地址:https://www.cnblogs.com/wod-Y/p/12219180.html

时间: 2024-11-08 18:25:14

数据结构与算法简记--实现一个短网址系统的相关文章

URL短网址系统的算法设计及实践

在通常情况下,URL是由系统生成的,通常包括URI路径,多个查询参数,可以对参数进行加密和解密.当人们要分享某个URL,比如短信,邮件,社交媒体,这就需要短URL. 而短网址,顾名思义就是在长度上比较短的网址.简单来说就是帮您把冗长的URL地址缩短成8个字符以内的短网址. 你有没有遇到过短信字符过长本来一条信息搞定的事情需要发两条?你有没有遇到过填报系统里填写网址却因为字符限制无法完整提交?你有没有遇到过排版好的内容由于链接过长而完全打乱了美感? 这时候,你就需要用到短网址生成工具了. 如开发者

最近做了一个短网址服务 di81.com

最近做了一个短网址服务:   di81.com 项目中有一处需求,需要把长网址缩为短网址,把结果通过短信.微信等渠道推送给客户.刚开始直接使用网上现成的开放服务,然后在某个周末突然手痒想自己动手实现一个别具特色的长网址(文本)缩短服务. 由于以前做过socket服务,对数据包的封装排列还有些印象,因此,短网址服务我第一反应是先设计数据的存储格式,我这里没有采用数据库,而是使用2个文件来实现: Url.db存储用户提交的长网址文本,Url.idx  存储数据索引,记录每次提交数据的位置(Begin

数据结构与算法简记--剖析微服务接口鉴权限流背后的数据结构和算法

微服务鉴权限流剖析 微服务 把复杂的大应用,解耦拆分成几个小的应用. 有利于团队组织架构的拆分,毕竟团队越大协作的难度越大: 每个应用都可以独立运维,独立扩容,独立上线,各个应用之间互不影响. 有利就有弊: 大应用拆分成微服务之后,服务之间的调用关系变得更复杂,平台的整体复杂熵升高,出错的概率.debug 问题的难度都高了好几个数量级. 为了解决这些问题,服务治理便成了微服务的一个技术重点. 服务治理 简单点讲,就是管理微服务,保证平台整体正常.平稳地运行. 涉及的内容:鉴权.限流.降级.熔断.

数据结构与算法简记--redis常用数据类型对应的数据结构

Redis常用数据类型对应的数据结构 Redis数据库 Redis 是一种键值(Key-Value)数据库.相对于关系型数据库(比如 MySQL),也被叫作非关系型数据库. 常用的数据类型: 字符串.列表.字典.集合.有序集合. 列表(list) 支持存储一组数据.两种实现方法: 压缩列表(ziplist) 双向循环链表 压缩列表 数据量比较小的时候采用压缩列表的方式实现: 列表中保存的单个数据(有可能是字符串类型的)小于 64 字节: 列表中数据个数少于 512 个. 非基础数据结构,类似数组

数据结构与算法简记--贪心算法

贪心算法 贪心算法问题解决步骤 第一步,当我们看到这类问题的时候,首先要联想到贪心算法:针对一组数据,我们定义了限制值和期望值,希望从中选出几个数据,在满足限制值的情况下,期望值最大. 第二步,我们尝试看下这个问题是否可以用贪心算法解决:每次选择当前情况下,在对限制值同等贡献量的情况下,对期望值贡献最大的数据. 第三步,我们举几个例子看下贪心算法产生的结果是否是最优的. 贪心算法实战分析 分糖果:有 m 个糖果和 n 个孩子.要把糖果分给这些孩子吃,但是糖果少,孩子多(m<n),所以糖果只能分配

数据结构与算法简记--动态规划理论

动态规划理论 一个模型三个特征 多阶段决策最优解模型 最优子结构 最优子结构指的是,问题的最优解包含子问题的最优解.反过来说就是,我们可以通过子问题的最优解,推导出问题的最优解. 如果我们把最优子结构,对应到我们前面定义的动态规划问题模型上,那我们也可以理解为,后面阶段的状态可以通过前面阶段的状态推导出来. 无后效性 无后效性有两层含义,第一层含义是,在推导后面阶段的状态的时候,我们只关心前面阶段的状态值,不关心这个状态是怎么一步一步推导出来的. 第二层含义是,某阶段状态一旦确定,就不受之后阶段

数据结构与算法简记--字符串匹配KMP算法

KMP算法 比较难理解,准备有时间专门啃一下. 核心思想与BM算法一样:假设主串是 a,模式串是 b.在模式串与主串匹配的过程中,当遇到不可匹配的字符的时候,我们希望找到一些规律,可以将模式串往后多滑动几位,跳过那些肯定不会匹配的情况. 不同的是:在模式串和主串匹配的过程中,把不能匹配的那个字符仍然叫作坏字符,把已经匹配的那段字符串叫作好前缀. 关键找相等的最长匹配前缀和最长匹配后缀.有两种情况,(1)如果b[i-1]的最长前缀下一个字符与b[i]相等,则next[i]=next[i-1]+1.

数据结构与算法简记--多模式字符串匹配AC自动机

AC自动机 一样的不太好理解,有时间再啃 敏感词过滤 单模式字符串匹配算法:(BF,RK,BM,KMP)每次取敏感词字典中一个敏感语做为模式串在用户输入的主串中进行匹配,效率较低 多模式字符串匹配算法:(Trie树,AC自动机) Trie树:把用户输入的内容作为主串,从第一个字符(假设是字符 C)开始,在 Trie 树中匹配.当匹配到 Trie 树的叶子节点,或者中途遇到不匹配字符的时候,我们将主串的开始匹配位置后移一位,也就是从字符 C 的下一个字符开始,重新在 Trie 树中匹配. Trie

数据结构与算法简记:AVL树

前面记录了二叉查找树,它在搜索方面的效率显而易见,可它也存在某种缺陷,假设我们连续插入较小或较大的数据,那么二叉查找树将会逐渐退变为一个线性结构,从而搜索就变为了线性查找,效率将会大打折扣.所以,我们需要一棵这样的树,它在插入新节点后,能够重新调整自己的结构,使左右恢复平衡.AVL树就符合这个条件. AVL树是最先发明的自平衡二叉查找树,其得名于它的发明者 G.M. Adelson-Velsky 和 E.M. Landis,他们在 1962 年的论文 "An algorithm for the