从全域名中提取根域名

1、前言

　　最近因为工作需要判断一个域名是否备案，实际提取的域名就是HTTP报文中的Host的内容，而判断一个域名是否是根据根域名进行的。例如访问www.qq.com,提取Host的内容为www.qq.com，而判断这个域名是否备案，是通过qq.com进行，因此需要从Host内容中提取出根域名。

遇到的问题

1、顶级域名的种类存在以下不同情况，例如 www.google.com www.google.com.cn 顶级域名分别是.com 和.com.cn提取顶级名分别为google.com goolge.com.cn

2、Host的长度不一，例如 api.best.com upload.api.best.com 提取的根域名都为best.com

解决思路：

　　由于程序是用C语言实现，所以就写一个C语言的lib库了。首先顶级域名是公开的，可以参考维基百科https://zh.wikipedia.org/wiki/%E4%BA%92%E8%81%94%E7%BD%91%E9%A1%B6%E7%BA%A7%E5%9F%9F%E5%88%97%E8%A1%A8 使用hash表将顶级域名存储起来，方便后面查找顶级域名在O（1）时间内找出来。

解析Host，例如 api.upload.qq.com 大概的思路如下：

1、先计算出域名中每个点(.)在字符串中的位置

2、然后根据Host中点个个数提取出顶级域名，判断顶级域名是否在hash表

3、找到顶级域名后，再提取顶级域名的根域名，组合起来就组成了最终的结果

实现代码放在了github上：https://github.com/FatAnker/domain_parser

测试结果如下图所示：

时间： 2024-12-25 13:57:23

从全域名中提取根域名的相关文章

PHP根据URL提取根域名

<?php #使用示例 echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n"; echo getBaseDomain('http://51.ca/index.php')->domain;echo "\n"; echo getBaseDomain('http://blog.ab.cc.win.aisa.hk/index.php')->domain;e

JSFinder：一个在js文件中提取URL和子域名的脚本

JSFinder介绍 JSFinder是一款用作快速在网站的js文件中提取URL,子域名的脚本工具. 支持用法简单爬取深度爬取批量指定URL/指定JS 其他参数以往我们子域名多数使用爆破或DNS中获得,这个脚本从JS文件中匹配出子域也算是添砖加瓦. 简单爬取示例子域名清单 https://github.com/Threezh1/JSFinder 点个赞 (0) 原文地址:https://www.cnblogs.com/nul1/p/11140910.html

Knative 实战：如何在 Knative 中配置自定义域名及路由规则

作者 |?元毅?阿里云智能事业群高级开发工程师当前 Knative 中默认支持是基于域名的转发,可以通过域名模板配置后缀,但目前对于用户来说并不能指定全域名设置.另外一个问题就是基于 Path 和 Header 转发的能力,很多情况下我们使用相同的域名,不同服务通过访问路径进行区分. 针对上述这两个问题,我们在阿里云 Knative 中提供了这样的能力,用户可以通过控制台配置自定义域名,并基于 Path 和 Header 进行路由转发设置.如图所示: 自定义域名登录阿里云容器服务控制台,进入

使用 Nginx 实现 301 跳转至 https 的根域名

基于 SEO 和安全性的考量,需要进行 301 跳转,以下使用 Nginx 作通用处理实现结果需要将以下地址都统一跳转到 https 的根域名 https://chanvinxiao.com http://chanvinxiao.com (不带 www 的 http) http://www.chanvinxiao.com (带 www 的 http) https://www.chanvinxiao.com (带 www 的 https) 301 与 302 的区别 301 是永久重定向,30

Linux shell中提取文件名和目录名的一些方法

很多时候在使用Linux的shell时,我们都需要对文件名或目录名进行处理,通常的操作是由路径中提取出文件名,从路径中提取出目录名,提取文件后缀名等等.例如,从路径/dir1/dir2/file.txt中提取也文件名file.txt,提取出目录/dir1/dir2,提取出文件后缀txt等. 下面介绍两种常用的方法来进行相关的操作. 一.使用${} 1.${var##*/} 该命令的作用是去掉变量var从左边算起的最后一个'/'字符及其左边的内容,返回从左边算起的最后一个'/'(不含该字符)的右边

Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块.在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接.图像和Cookie等.同时还会介绍如何规范HTML文件的格式标签

Spring MVC返回json视图时，如何将对象直接序列化成不带变量名做为根节点

Spring MVC返回json视图时,如何将对象直接序列化成不带变量名做为根节点的 json 报文问题问题描述起来比较拗口,其实就是用Spring MVC时,如何将对象映射成 json 报文时不把对象作为json的根节点.即使用@ResponseBody的效果. 比如,默认情况下,使用ModelAndView的addObject(key,object)或者ModelMap的addAttribute(key,object)保存完Java对象,然后交给Srping的视图解析器解析成json时,

从MP3中提取歌曲信息

一首MP3歌曲除了音乐信息外,还包含了如歌名.演唱者等信息,当我们用winamp软件听音乐时,播放清单就自动将这些信息读出来.大部分人都喜欢从网上下载音乐,但下载下来的MP3文件名都是文件上传系统自动取名的,和歌曲本身根本不相符,所以,给用户带来了很大的麻烦.但是,懒人有懒人的做法,我们何不自己写一个程序,将歌曲信息自动读出来并为MP3文件自动更名呢? 下面我就以C#为工具,把开发过程写出来. 一首MP3的额外信息存放在文件的最后面,共占128个字节,其中包括以下的内容(我们定义一个结构说明):

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块.在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接.图像和Cookie等.同时还会介绍如何规范HTML文件的格式标签

猜你喜欢

丹弗机场问题分析

1980年丹佛机场已经是迫切的需要重建了.3年后才成为板上钉钉的事情:经过一年制定计划,而这个计划在3年后才出台总体规划,又经过5年的资金调动,才得以动工. 从需要建设机场到动工花了13年的时间,这 ...

PHP代码为什么不能直接保存HTML文件——>PHP生成静态页面教程

1.服务器会根据文件的后缀名去进行解析,如果是HTML文件则服务器不会进行语法解析,而是直接输出到浏览器. 2.如果一个页面中全部都是HTML代码而没有需要解析的PHP语法,则没有必要保存为PHP文件 ...

Java -- JDBC 学习--处理Blob

Oracle LOB LOB,即Large Objects(大对象),是用来存储大量的二进制和文本数据的一种数据类型(一个LOB字段可存储可多达4GB的数据).LOB 分为两种类型:内部LOB和外部L ...

20150328--Dede+条件选取-01

目录一.内容回顾 1 1.主要的表 1 2.使用 cms系统完成项目的流程 1 3.标签 1 4.模板与静态页面的关系 1 二.完成如下数据的取出 3 三.完成评分值排序, 6 四.输出电影的子栏目 ...

关于Java文件删除的操作

在调用Java删除文件时,我们常常会调用file.delete();,但其实这个delete只能删除单个文件还有空文件夹,但是如果文件夹不是空,这个方法就无法删除文件了. 所以要删除有内容的文件夹,就 ...

蓝懿教育练习日

今天是练习日,复习了前几天讲的知识. 可能是自己理解能力和记忆力都比较差,学习的东西很难及时掌握,需要花费时间去多练习,思考,才能理解多一些,进而考虑如何运用. 现在还是打基础的时间,上课认真听讲,尽 ...

项目管理-整理中

要有一套好用的项目管理工具包括wiki,在项目管理过程中各种任务状态的控制.任务看板等停不应该这样写,当前的思维知道写的是什么,不出一个月就不知道自己在说什么了参考这个(产品委员会提案模板-初稿 ...

被误解的18个用户体验原理

1,用户在网页上会认真阅读内容不准确. 用户在阅读网页内容时,快速浏览居多,只有在用户对内容非常感兴趣的时候,才会逐字阅读:好的网页设计是能帮助用户更方便快速浏览网页内容的. Yoyo:现在是信息爆 ...

采用Visual Studio 2017编译c程序教程

第一步打开Visual Studio 2017 第二步按Ctrl+Shift+N打开项目或者依次点击文件-新建-项目左边选中Win32右边选中第一项,下面是文件位置和文件名称设置好后确定点击下一 ...

一、SpringMVC 概述

SpringMVC为展现层提供的基于MVC设计理念的优秀的WEB框架,是目前主流的MVC框架之一.Spring 3.0之后,超越Struts2成为最优秀的MVC框架. SpringMVC通过一套MVC ...

Android中使用ListView实现分页刷新（线程休眠模拟）

当要显示的数据过多时,为了更好的提升用户感知,在很多APP中都会使用分页刷新显示,比如浏览新闻,向下滑动到当前ListView的最后一条信息(item)时,会提示刷新加载,然后加载更新后的内容.此过程 ...

【HDOJ2196】Computer（树的直径，树形DP）

题意:给定一棵N个点树,询问这个树里面每个点到树上其他点的最大距离. n<=10000 思路:设f[u,1],f[u,2]为以U为根向下的最长与次长,g[u,1],g[u,2]为从哪个儿子转移来 ...

centos7精简版（minimal）killall: command not found

centos7精简版(minimal)运行killall命令提示 command not found 是由于没有安装psmisc所致 Psmisc软件包包含三个帮助管理/proc目录的程序. 安装下列 ...

【BZOJ3996】【TJOI2015】线性代数最小割

链接: #include <stdio.h> int main() { puts("转载请注明出处[vmurder]谢谢"); puts("网址:blog.c ...

云计算设计模式（十六）——优先级队列模式

优先发送到服务,以便具有较高优先级的请求被接收和高于一个较低优先级的更快速地处理请求.这种模式是在应用程序是有用的,它提供不同的服务级别保证或者针对独立客户. 背景和问题应用程序可以委托给其他服务的 ...

HDU ACM 4508 湫湫系列故事——减肥记I

分析:简单的完全背包(因为每种食物可以不止取一个). #include<iostream> using namespace std; int dp[100005]; int v[102], ...

Spring Batch 如何健壮可重启可追溯 SKIP/RETRY/RESTART策略的应用

前提:你已经有了一定的Spring基础你已经可以跑动一个简单的Spring batch 的实例参考:http://www.cnblogs.com/gulvzhe/archive/2011/10/2 ...

送给在PHP道路上迷茫的你

第一次听说PHP是一次同学聚会上,来自于化工学院的我,只在大一的基础课上学过一点C语言,倒是听到这个新名词却各位感兴趣,回去搜查一番资料了解到,php到底是什么.当时刚好工作不是太顺利,便决定开始自学 ...

PE512

题意 $$f(n) = \sum_{i=1}^n {\phi (n^i)} (mod \ n+1)$$ $$g(n) = \sum_{i=1}^n {f(i)}$$ Find $g(5 \times ...

【架构】分布式系统雪崩效应处理方案

分布式系统雪崩效应处理方案异步雪崩_百度搜索如何应对并发(2) - 请求合并及异步处理防雪崩利器:熔断器 Hystrix 的原理与使用 - 编程随笔 - SegmentFault 两种常见雪崩 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.