python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址

一、服务器环境介绍:

服务器硬件:4核4g内存
服务器系统:centos6.9 x86_64位最小化安装

二、环境安装

参考地址:https://github.com/lionsoul2014/ip2region
直接下载包到服务器上的/root目录下
wget https://github.com/lionsoul2014/ip2region/archive/master.zip
unzip解压
unzip master.zip
到此准备工作基本完成

以下都是github.com官网上的说明,我这边复制在自己的博文里了

  1. 99.9%准确率,定时更新:
    数据聚合了一些知名ip到地名查询提供商的数据,这些是他们官方的的准确率,经测试着实比纯真啥的准确多了。
    每次聚合一下数据需要1-2天,会不定时更新。
  2. 标准化的数据格式:
    每条ip数据段都固定了格式:城市Id|国家|区域|省份|城市|ISP

只有中国的数据精确到了城市,其他国家只能定位到国家,后前的选项全部是0,已经包含了全部你能查到的大大小小的国家。 (请忽略前面的城市Id,个人项目需求)

  1. 体积小:
    生成的数据库文件ip2region.db只有1.5M(1.2版本前是3.5M)
  2. 多查询客户端的支持,0.0x毫秒级别的查询
    已经集成的客户端有:java, C#, php, c, python,nodejs,php扩展(支持linux, php5, php7版本已支持),golang。

提供了两种查询算法,响应时间如下:
客户端/binary算法/b-tree算法/Memory算法:
c#/0.x毫秒/0.x毫秒/0.x毫秒
java/0.x毫秒/0.x毫秒/0.1x毫秒 (使用RandomAccessFile)
php/0.x毫秒/0.1x毫秒/0.1x毫秒
c/0.0x毫秒/0.0x毫秒/0.00x毫秒(b-tree算法基本稳定在0.02x毫秒级别)
python/0.x毫秒/0.1x毫秒/未知
任何客户端b-tree都比binary算法快,当然Memory算法固然是最快的!

maven仓库地址:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>ip2region</artifactId>
    <version>1.4</version>
</dependency>
nuget安装命令

Install-Package IP2Region

5. 测试程序:
c#:

cd IP2Region_ConsoleTest
dotnet run
example result:
请输入IP地址:
36.149.160.55
java:

cd binding/java
ant all
java -jar ip2region-{version}.jar ./data/ip2region.db
php:

php binding/php/testSearcher.php ./data/ip2region.db
c:

cd binding/c/
gcc -g -O2 testSearcher.c ip2region.c
./a.out ../../data/ip2region.db
python:

python binding/python/testSearcher.py ./data/ip2region.db
均会看到如下界面:

initializing  B-tree ...
+----------------------------------+
| ip2region test script            |
| Author: [email protected]  |
| Type ‘quit‘ to exit program      |
+----------------------------------+
p2region>> 101.105.35.57
2163|中国|华南|广东省|深圳市|鹏博士 in 0.02295 millseconds
输入ip地址开始测试,第一次会稍微有点慢,在运行命令后面接入binary,memory来尝试其他算法,建议使用b-tree算法,速度和并发需求的可以使用memory算法。

具体集成请参考不同客户端的测试源码。

6.如何生成ip2region.db文件
从ip2region 1.2.2版本开始里面提交了一个dbMaker-{version}.jar的可以执行jar文件,用它来完成这个工作:

1, 确保你安装好了java环境(不玩Java的童鞋就自己谷歌找找拉,临时用一用,几分钟的事情)
2, cd到ip2region的根目录,然后运行如下命令:
java -jar dbMaker-{version}.jar -src 文本数据文件 -region 地域csv文件 [-dst 生成的ip2region.db文件的目录]

#文本数据文件:db文件的原始文本数据文件路径,自带的ip2region.db文件就是/data/ip.merge.txt生成而来的,你可以换成自己的或者更改/data/ip.merge.txt重新生成
#地域csv文件:该文件目的是方便配置ip2region进行数据关系的存储,得到的数据包含一个city_id,这个直接使用/data/origin/global_region.csv文件即可
#ip2region.db文件的目录:是可选参数,没有指定的话会在当前目录生成一份./data/ip2region.db文件
3, 获取生成的ip2region.db文件覆盖原来的ip2region.db文件即可
4, 默认的ip2region.db文件生成命令:
cd ip2region项目根目录
java -jar dbMaker-1.2.2.jar -src ./data/ip.merge.txt -region ./data/global_region.csv
#会看到一大片的输出

三、演示

以下是我采用的php和Python语言进行的实际测试演示:
php演示测试:

[[email protected] ~]# cd /root/ip2region-master
[[email protected] ip2region-master]# ls
binding  CHANGES.md  data  dbMaker-1.2.2.jar  LICENSE.md  README.md
[[email protected] ip2region-master]# cd binding/
[[email protected] binding]# ls
c  c#  c_mmap  golang  java  nodejs  php  php_extension  python  python3
[[email protected] binding]# cd php
[[email protected] php]# ls
Ip2Region.class.php  testSeacher.php
[[email protected] php]# php testSeacher.php /opt/ip2region-master/data/ip2region.db
initializing  B-tree ...
+----------------------------------+
| ip2region test script            |
| Author: [email protected]  |
| Type ‘quit‘ to exit program      |
+----------------------------------+
ip2region>> 211.144.7.32
0|中国|0|北京|北京|联通 in 2.38013 millseconds
ip2region>> 124.207.48.234
0|中国|0|北京|北京|鹏博士 in 0.12134 millseconds
ip2region>> 

Python演示:

[[email protected] python3]# python3 testSearcher.py /opt/ip2region-master/data/ip2region.db
initializing b-tree...
+----------------------------------+
| ip2region test program           |
| Author: [email protected] |
| Type ‘quit‘ or ‘exit‘ to exit program      |
+----------------------------------+
ip2region>> 66.249.82.86
0|台湾|0|台湾|0|0 in 1.554199 millseconds
ip2region>> 101.108.251.187
0|泰国|0|曼谷|曼谷|TOT in 0.149414 millseconds
ip2region>> 

四、实际应用:

采用python脚本,来查询一个存有1017万个不同IP的文本文件中的ip归属地
以下结合原作者的testSearcher.py Python脚本,来获取这存有1017万个不同IP的归属地址。此Python脚本简单修改如下:

[[email protected] python3]# cat /root/ip2region-master/binding/python3/searcher.py
#-*- coding:utf-8 -*-
"""
" ip2region python seacher client module
"
" Autho: koma<[email protected]>
" Date : 2015-11-06
"""
import struct, sys, os, time
from ip2Region import Ip2Region

def testSearch():
    """
    " ip2region test function
    """
    llen = len(sys.argv)

    if llen < 3:
        print ("Usage: python testSearcher.py [ip2region db file] [alrogrithm]")
        print ("Algorithm: binary or b-tree")
        return 0

    dbFile    = sys.argv[1]
    method    = 1
    algorithm = "b-tree"
    search_file = sys.argv[2]

    if (not os.path.isfile(dbFile)) or (not os.path.exists(dbFile)):
        print ("[Error]: Specified db file is not exists.")
        return 0
    if (not os.path.isfile(search_file)) or (not os.path.exists(search_file)):
        print("查询文件不存在")
        return 0

    if llen > 3:
        algorithm = sys.argv[3]
        if algorithm == "binary":
            method = 2
        elif algorithm == "memory":
            method = 3

    searcher = Ip2Region(dbFile);
    with open(search_file,"rt") as f:
        for line in f:
            line = line.strip()
            #print(line)
            if line == "":
                print("[Error]: Invalid ip address.")
                continue

            if line == "quit" or line == "exit":
                print("[Info]: Thanks for your use, Bye.")
                break

            if not searcher.isip(line):
                print("[Error]: Invalid ip address.")
                continue

            #sTime = time.time() * 1000
            if method == 1:
                data = searcher.btreeSearch(line)
            elif method == 2:
                data = searcher.binarySearch(line)
            else:
                data = searcher.memorySearch(line)
            #eTime = time.time() * 1000

            if isinstance(data, dict):
                #print("%s in %f millseconds" % (data["city_id"], data["region"].decode(‘utf-8‘), eTime - sTime))
                #print( "%s" % (data["region"].decode(‘utf-8‘)))
                print("%s|%s" % (line, data["region"].decode(‘utf-8‘)))
            else:
                print("[Error]: ", data)
    searcher.close()

if __name__ == "__main__":
    testSearch()

测试如下:

[[email protected] python3]# cd /root/ip2region-master
[[email protected] ip2region-master]# time python3 ./binding/python3/searcher.py ./data/ip2region.db  /root/unip_guishu >/opt/ipdizhi.txt
real    15m54.394s
user    14m47.138s
sys 0m56.876s
[[email protected] ip2region-master]# tail -10 /opt/ipdizhi.txt
99.97.22.46|美国|0|0|0|美国电话电报
99.97.26.40|美国|0|0|0|美国电话电报
99.97.29.64|美国|0|0|0|美国电话电报
99.97.30.121|美国|0|0|0|美国电话电报
99.98.238.52|美国|0|南卡罗来纳|0|美国电话电报
99.98.254.160|美国|0|加利福尼亚|0|美国电话电报
99.99.218.167|美国|0|德克萨斯|休斯顿|美国电话电报
99.99.232.239|美国|0|德克萨斯|0|美国电话电报
99.99.37.198|美国|0|加利福尼亚|0|美国电话电报
99.99.55.172|美国|0|俄亥俄|0|美国电话电报

总结:当然这个查询的时间和服务器的硬件有很大的关系,后来我在一台CPU为16核心的上测试,查询结果可以达到秒级10万不同ip的归属地查询结果

原文地址:http://blog.51cto.com/wujianwei/2123493

时间: 2024-07-30 03:15:17

python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址的相关文章

利用淘宝IP库分析web日志来源分布

web访问日志中含有来访IP,通过IP查看归属地,最后统计访问的区域分布,可细化到省.市 淘宝接口地址:http://ip.taobao.com/service/getIpInfo.php?ip=14.215.177.38,后面的IP按需修改 例如要查看14.215.177.38这个地址的相关信息,返回的信息如下: {"code":0,"data": {"country":"\u4e2d\u56fd", "count

阿里云新功能:EIP高精度实时互联网流量秒级监控

大家好,很高兴向大家介绍一下高精度秒级监控 很高兴的告诉大家,阿里云弹性公网IP即日起支持高精度秒级监控了.而令人激动的是,这可能是史上最好用的实时业务流量监控功能,没有之一. 众所周知,弹性公网IP(EIP)承载了海量的互联网BGP流量,这些流量实时性要求很高,对公网带宽的质量要求也很高.如果公网带宽跑满未及时扩容,很容易出现业务流量限速丢包,进而引发客户端访问质量恶化的和用户体验的直线下降. 对于极度关注和珍视用户体验的互联网内容提供方,是十分在意互联网流量的实时监控的.如果业务流量超过预设

百亿级数据10万字段属性的秒级检索解决方案以及实现

课程下载地址: https://pan.baidu.com/s/1zr5riwZtdRgnVQRetQnG7A 提取码: 5xg8 平台型创业型公司,会有多个品类,像生活信息服务类网站的有:58同城,赶集网等等,他们的类别非常多,每个垂直领域都会分为很多类别,每 个类别下又分很多子类别,每个类别或者子类别的属性都不一样,像这么庞大的数据,字段属性可以达到10万级别,同时数据量可以达到百亿级别 ,很多异构数据的存储需求.基于这么庞大的数据,我们需要达到秒级查询. 那么我们该怎么设计呢?本课程讲手把

python爬虫抓取站长之家IP库,仅供练习用!

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

qqzeng-ip.dat IP库读取python版

qqzeng-ip.dat是一个特殊格式的dat文件,可以快速的查找IP对应的地理位置信息.据作者测试的结果来看,是100万ip查找速度0.5秒. 当然这和语言有非常大的关系,python的循环性能一直是为人所诟病的.目前python版本测试的结果是10万IP的查找速度是3.X秒左右,还算够用,毕竟真实情况下的30秒~5分钟内的日志不太可能出现一批数据中的不重复IP超过10万个. 作者提供了解析dat的java/c/php脚本,但没有提供python版本的.所以我就写了一个,以供需要用pytho

使用新浪IP库获取IP详细地址

<?php class Tool{ /** * 获取IP的归属地( 新浪IP库 ) * * @param $ip String IP地址:112.65.102.16 * @return Array */ static public function getIpCity($ip) { $ip = preg_replace("/\s/","",preg_replace("/\r\n/","",$ip)); $link = &

通过纯真IP库,查询出IP地址的归属地

原文:通过纯真IP库,查询出IP地址的归属地 源代码下载地址:http://www.zuidaima.com/share/1550463698422784.htm 项目的编码要设置为utf-8,否则有乱码

Python笔记四之操作文件

一.字符串方法补充(join.split) join方法: # join方法,连接字符串 1.把一个list变成了字符串 2.通过某个字符把list里面的元素连接起来 # 3.只要是可以循环的都可以连接起来 l=['a','b','c'] sl=str(l) #sl="['a','b','c']" str()把对象转换成一个字符串,整个list变成一个字符串,包含中括号 print(l,type(l)) print(sl,type(sl)) res=''.join(l)#以空连接起来,

Python的常用库

读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都应该有它. Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的.用过它之后你就不会再想用别的同类库了. wxPython.Python的一个GUI(图形用户界面)工具.我主要用它替代tkinter.你一定会爱上它的. Pillow.它是PIL(Python图形库)的一个友好分支.对于用