使用Python和Perl绘制北京跑步地图

当你在一个城市,穿越大街小巷,跑步跑了几千公里之后,一个显而易见的想法是,我到底和之前比快了多少,跑量有何变化,如果能把在这个城市的所有路线全部画出来,会是怎样的景象呢?

1.数据来源:益动GPS

文章代码比较多,为了不吊人胃口,先看看最终效果:

首先需要有原始数据信息,手机上众多跑步软件提供了详细的记录,但它们共同的问题是不允许自由导入导出(可能是为了用户粘性吧)。因此有一块智能运动手表应该是不二之选。我的是Garmin Fenix3,推荐一下:

益动GPS算是业界良心了,能够同步咕咚,Garmin手表,悦跑圈的数据,因此我将其作为一个入口,抓取所有的GPS数据。

至于如何同步,可参考网站上的相关介绍,下面是我登录该网站后的截图:

http://edooon.com/user/5699607196/record/15414378

随便点进去以后,就可以看到导出路线的按钮:

无比坑爹的是,它不提供批量导出的按钮,几百条记录,依次导出都累死了。于是考虑用代码来编辑吧。

2. 获取益动网站上的数据

登录之后,可以看出它是动态加载,当滚轮滚到最下时,自动加载后面的内容。本来是应该嗅探和分析http请求的,后来懒惰了。当拖到底,全部加载完毕后,保存了当前的html文件。

接下来就是解析这个Html,基本上是通过XPath的来做的。有经验的同学看了下图就都明白了:

图中高亮的部分,就是要下载gpx文件的实际地址。我们将其保存在urllist中。同时,元数据被保存在json文件里。

folder = u‘D:/buptzym的同步盘/百度云/我的文档/数据分析/datasets/rungps/‘;
cookie=‘JSESSIONID=69DF607B71B1F14AFEC090F520B14B55; logincookie=5699607196$6098898D08E533587E82B33DD9D02196; persistent_cookie=5699607196$42C885AD38F59DCA407E09C95BE1A60B; uname_forloginform="[email protected]"; __utma=54733311.82935663.1447906150.1447937410.1456907433.7; __utmb=54733311.5.10.1456907433; __utmc=54733311; __utmz=54733311.1456907433.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; cookie_site=auto‘
userid=‘5699607196‘;
f = codecs.open(folder + ‘desert.htm‘, ‘r‘, ‘utf-8‘);
html = f.read();
f.close();
root = etree.HTML(html)
tree = etree.ElementTree(root);

listnode=tree.xpath(‘//*[@id="feedList"]‘);
numre=re.compile(u‘骑行|跑步|公里|,|耗时|消耗|大卡‘);
urllists=[]
records=[];
for child in listnode[0].iterchildren():
    record={};
    temp=child.xpath(‘div[2]/div[1]/a[2]‘)
    if len(temp)==0:
        continue;
    source= temp[0].attrib[‘href‘];
    record[‘id‘]=source.split(‘/‘)[-1];
    info=temp[0].text;
    numinfo= numre.split(info);
    if len(numinfo)<6:
        continue;
    record[‘type‘]= info[0:2];
    record[‘distance‘]= numinfo[1];
    record[‘hot‘]=numinfo[6];
    urllists.append(‘http://edooon.com/user/%s/record/export?type=gpx&id=%s‘ % (userid, record[‘id‘]));

值得注意的是,因为下载时需要cookie,因此读者需要将自己在益动GPS的userid和登录的cookie都替换掉。

接下来就是下载的过程,获取导出数据按钮的URL的XPath,构造一个带cookie的请求,然后保存文件即可,非常容易。

opener = urllib.request.build_opener()
opener.addheaders.append((‘Cookie‘, cookie));
path=‘//*[@id="exportList"]/li[1]/a‘;
for everyURL in urllists:
    id = everyURL.split(‘=‘)[-1];
    print(id);
    url=‘http://edooon.com/user/%s/record/%s‘ % (userid, id);
    f = opener.open(url);
    html = f.read();
    f.close();
    root = etree.HTML(html)
    tree = etree.ElementTree(root);
    fs = str(tree.xpath(path)[0]);
    if fs is None:
        continue;
    furl = ‘http://edooon.com/user/%s/record/%s‘ % (userid, fs);
    f = opener.open(furl);
    html = f.read();
    f.close();
    filename=folder+‘id‘+‘.gpx‘;
    xmlfile = codecs.open(filename, ‘wb‘);
    xmlfile.write(html);
    xmlfile.close();

之后,我们便保存了大约300多个gpx文件

3. 解析gpx数据

所谓gpx数据,是一种通用规范的GPS数据格式,详细的资料可自行搜索。

我们需要使用python的gpx解析器, gpxpy是个好选择,使用

pip3 install gpxpy 即可安装。

gpxpy提供了丰富的接口,当然为了统计,我们只需要提取一部分数据:

def readgpx(x):

    file= open(dir+x+‘.gpx‘,‘r‘)
    txt=file.read()
    gpx=gpxpy.parse(txt)
    mv=gpx.get_moving_data()
    dat= {‘移动时间‘:mv.moving_time,‘静止时间‘:mv.stopped_time,‘移动距离‘:mv.moving_distance,‘暂停距离‘:mv.stopped_distance,‘最大速度‘:mv.max_speed};
    dat[‘总时间‘]=(gpx.get_duration())
    dat[‘id‘]=str(x)
    updown=gpx.get_uphill_downhill()
    dat[‘上山‘]=(updown.uphill);
    dat[‘下山‘]=(updown.downhill)
    timebound=gpx.get_time_bounds();
    dat[‘开始时间‘]=(timebound.start_time)
    dat[‘结束时间‘]=(timebound.end_time)
    p=gpx.get_points_data()[0]
    dat[‘lat‘]=p.point.latitude
    dat[‘lng‘]=p.point.longitude
    file.close()
    return dat

readgpx函数会读取文件名x,并将一个字典返回。并得到类似下面的一张表:

因为我们只需要绘制北京的区域,因此需要一个坐标表达式筛掉北京之外的地区。筛选代码使用了pandas,在附件里有更详细的代码。

exceptids=详细[(详细.lng<116.1)|(详细.lng>116.7)|(详细.lat<39.9)|(详细.lat>40.1)].id

def filtercity(r):
    sp=r.split(‘/‘)[-1].split(‘.‘)
    if sp[1]!=‘gpx‘:
        return False;
    if sp[0] in exceptids.values:
        return False;
    return True;
bjids= [r for r in gpxs if filtercity(r)]

这样,我们就将所有在北京完成的运动数据筛选了出来。

4.绘制GPS数据

反复造轮子是不好玩的,绘制gpx已经有比较强大的库,地址在http://avtanski.net/projects/gps/

很不幸,这个库使用Perl作为开发语言,并使用了GD作为视觉渲染库。我花费了大量的时间,在安装GD上面。

Ubuntu默认安装Perl, GD是需要libgd的,libgd却在官网上极难下载,下载后却又发现版本不对,这让我在国外互联网上遨游了好几个小时,都要死掉了。。。到最后,我才发现,安装libgd库只要下面这一步就可以了:

apt-get install libgd-gd2-perl

我觉得这就是apt-get方式坑爹的地方,apt get gd 或者libgd根本找不到,如果不去查,谁知道这么写啊! 至于Perl的CPan管理工具,哎,不说了都是泪。

接下来下载gd 2.56,算是非常新的版本。找了各种中文版的安装步骤,发现都有问题。这种事情,最好的办法还是看README.MD啊!

解压之后,perl ./Makefile.PL

之后make

make install

然后就可以了。。。。。。

这份gpx绘制库是这么介绍自己的:

This folder contains several Perl scripts for processing and plotting
GPS track data in .GPX format.
它的readme有不少使用上的说明,当然我们不废话,把所有的gpx数据拷贝到sample_gpx文件夹下,然后华丽丽的运行
./runme.sh
如果没有问题的话,应该是下面这样:
我假设各位读者对bash都已经很熟悉了,修改runme.sh文件,可查看更多的选项。
最后得到的结果如下图:
 

当时看到这个结果,我都惊呆了!这是自己跑了2000公里左右的结果,北京三环内(主要集中在长安街以北)主要的道路都跑遍了。尤其北三环和北土城路(10号线北段)被我各种虐。每一段白线都是一段故事,每一个点都是我的一个脚印啊!

5.总结

这文章写得显然不够详细,远远没有hand by hand。而且并没有提供更多的数据分析(显然这些工作我都做了)不过相信跑步的程序员一定都很厉害,我这就权作抛砖引玉了。

其实完全可以做成一个web服务,跑友们上传自己的跑步软件的id,就可以自动渲染出各种漂亮的跑步路径和分析图,应该会很有意义吧!

这件事情花费了我七八个小时,简直吐血,大量的时间用在了如何安装GD上,而不是下载数据上。教训告诉我,一定要读安装包里自带的说明文档,因为库和库之间的版本不同,因此可能造成版本地狱,到时候新版本卸载不了,老版本没法用的时候可别说我没提醒啊!

值得一提的是,益动gps下载的gpx文件不带换行符,这导致gpx_disualization库无法解析它(这货正则表达式写错了),我懒得再去动perl正则,于是通过替换增加了换行符。

GD还需要libpng等一众perl库,在附件里都有提供下载。

附件是GD库和爬取所有gpx数据的python3代码。

时间: 2024-10-11 13:00:02

使用Python和Perl绘制北京跑步地图的相关文章

Notepad++直接运行Python、Perl、C等

运行(F5),输入命令并保存 cmd /k python "$(FULL_CURRENT_PATH)" & ECHO. & PAUSE & EXIT /k 后面跟cmd中类似的命令,可以是python.perl等(已经配置了环境变量,否则需要些完整路径,如:C:\Python34\python.exe) $(FULL_CURRENT_PATH) Notepad++的宏定义,含义是当前文件的完整路径 ECHO. (或ECHO\) 打印换行 EXIT是退出 CMD.

广义mandelbrot集,使用python的matplotlib绘制,支持放大缩小

迭代公式的指数,使用的1+5j,这是个复数,所以是广义mandelbrot集,大家可以自行修改指数,得到其他图形.各种库安装不全的,自行想办法,可以在这个网站找到几乎所有的python库 http://www.lfd.uci.edu/~gohlke/pythonlibs/#matplotlib #encoding=utf-8 import numpy as np import pylab as pl import time from matplotlib import cm from math

Python 与 Perl的优缺点

一:Python 与 Perl对比 (1)设计一个语言的初始目的决定了该语言将会内建什么功能: perl初始是Larry为了格式化处理文本而创建的,所以内建了正则 :python内建一个复数型别,猜测Guido最初一定是为了数值计算而创建了python.因此perl擅长文字处理,python擅长数值处理. (2)应用领域和需求不一样: Perl 设 计之初就是为了方便编写复杂高效的系统脚本,它也是应该最为广泛的脚本编程语言.它在编程方面相当于瑞士军刀,对字符.文本文件处理能力很强,以前要求 sh

Makefile中怎样调用python和perl文件为自己提供须要的数据

Makefile中怎样调用python和perl文件为自己提供须要的数据,利用print函数对外输出数据 实例代码例如以下 perl.pl #!/usr/bin/perl print("hello, perl") python.py #!/usr/bin/env python print("hello, python") Makefile .PHONY:all PARAM1 := $(shell ./perl.pl) PARAM2 := $(shell ./pyth

JSP,PHP,Python,Ruby,Perl概要及各自特点

JSP,PHP,Python,Ruby,Perl概要及各自特点 博客分类: JSP PHP Python Ruby Perl概要及各自特点 javascript 互联网技术日新月异,编程的语言层出不穷,原本稍微平静了几年的网络编程技术又不断出现新的东西,涤荡着整个网络世界,ruby,Python等技术使我 们原本比较老板的编程理念和概念产生了混淆和动荡.他们有什么区别和联系?怎么定义这些新生的事物?抹去额头因为生疏而津津的汗滴,从头Google一下 吧.                     

Makefile中如何调用python和perl文件为自己提供需要的数据

Makefile中如何调用python和perl文件为自己提供需要的数据,利用print函数对外输出数据 实例代码如下 perl.pl #!/usr/bin/perl print("hello, perl") python.py #!/usr/bin/env python print("hello, python") Makefile .PHONY:all PARAM1 := $(shell ./perl.pl) PARAM2 := $(shell ./python

Python使用plotly绘制数据图表的方法

转载:http://www.jb51.net/article/118936.htm 本篇文章主要介绍了Python使用plotly绘制数据图表的方法,实例分析了plotly绘制的技巧. 导语:使用 python-plotly 模块来进行压测数据的绘制,并且生成静态 html 页面结果展示. 不少小伙伴在开发过程中都有对模块进行压测的经历,压测结束后大家往往喜欢使用Excel处理压测数据并绘制数据可视化视图,但这样不能很方便的使用web页面进行数据展示.本文将介绍使用python-plotly模块

0 python和perl区别

help(dit.keys) ---使用帮助,查看字典类型中keys函数的说明 关于print python --- 字符串后面可以不用加\n 自动换行 per --- 不会自动换行,需加上\n 关于执行SQL语句. python与perl相同 使用变量来接收时,它是个二维数组, 每一条查询结果,即为一个一维数组, 每个字段,即为一维数组中的元素 ## 注意: 如果python执行SQL返回一行数据,则它为一维数组,返回多行数据,则为二维数组 python与perl区别在于: python使用f

qml 绘制高精地图之怀疑人生的加载速度

绘制高精地图时需要gps的经纬度坐标,之前的实现方式是QGeocoordinate类的经纬度变量通过json的方式在qml中使用. 以画线为例,使用方式是这样哒. 1 for(var i in vehicleMapProcess.laneMedian){ // 道路条数 2 var newMapLaneMedian = Qt.createQmlObject('import QtLocation 5.9;import QtPositioning 5.5; // 这里只画中线 3 MapPolyli