人地关系第一期挖掘结果校验报告与工作规划

这是15年初,在高德负责数据挖掘团队所做的人地挖掘的一份报告,后续经过几版的迭代,应该是累计国内最全的家和公司位置挖掘,已经应用在多个产品线上。过一段时间分享下具体的实现方法。

1. 摘要

人地关系的家和公司挖掘,经过三轮迭代,融合了AMap和开放平台用户数据,挖掘出来3.32亿名用户的常驻地,家和公司(截至2015-05-01)。其中针对amap日活用户而言,家的总体覆盖率达到77.32%,公司的总体覆盖率达到80.17%。
我们采用了两份不同样本集来对挖掘结果校验,交通订阅样本共计5269条,家准确率为89.31%,公司准确率79.18%。公司同事反馈样本共计90条,家和公司的准确率均为94.44%。目前挖掘结果基本达到年前所设定的准确率80%,覆盖率50%的目标,可以投入使用。
通过追踪样本集,目前存在IOS平台准确率和覆盖率都偏低,公司准确率相对偏低两个问题,会通过进一步升级挖掘算法,以及推进开放平台的IOS SDK日志升级和融合,甚至未来考虑融合UC或者手淘IOS平台定位日志,来解决这些问题。

2. 数据集

2.1 挖掘数据源

人地关系挖掘数据来源包括Amap的AOS层所有日志,以及开放平台定位SDK日志。通过数据融合、预处理,每日处理日志条数约计50~60亿条。
由于开放平台REST 服务日志,缺乏包括用户标识号(idfa),定位经纬度等重要信息,未能参与挖掘计算。未来融入该部分日志,能够一定程度上补充目前iOS平台用户位置不足。五月中旬,我们会发起开放平台的日志规范讨论,希望能够推动开放平台SDK和服务端能够带回更多关键字段数据。

2.2 校验样本集

路况订阅样本为了尽量保证交通订阅的起始地和目的地与用户真实的家和公司一致,对交通订阅数据采用了以下两条规则,筛选出准确度较高的数据集,共计5269条。(采用了强筛选规则)1)只选择订阅两条路线的用户,并筛选出起点为“家”、终点为“公司”的订阅数据2)起点落在编码为3011的楼块中,终点落在非3011的其他居民地及设施中。
用户反馈样本通过提供可视化网站的形式,收集了高德地图内部员工90条家和公司的反馈信息。

3. 校验方法

3.1 坐标系

校验样本集的数据都是采用的火星坐标系(GCJ-02),挖掘结果是采用的标准GPS坐标,采用WGS84坐标系。两者均未指定椭球体。GCJ-02本质加密是超越二项式,无法反解,只能二分法逼近。在本次校验中,采用通用的二分法逼近算法,经过验证显示,GCJ02到WGS84的坐标转换的误差不超过3m。在此应用场景上使用,坐标转换所损失的精度处于容忍范围内。因此,样本集和挖掘结果的距离量测,是在WGS84坐标系下计算。

3.2 大地距离

本次校验采用大地距离(球面距离),采用Vincenty算法。通过计算挖掘结果和样本集的WGS84坐标系下的大地距离。在路况订阅样本下,由于路况订阅数据,用户在选择家或者公司操作,一般都是选小区的POI,和用户实际所在楼块本身有一定距离,我们采用计算两者距离<1000m,则判定为准确。在用户反馈样本下,公司内部用户精确地将自己的家和公司位置定位到自己所在的楼上,我们采用计算两者距离<50m,则判定为准确。

4. 校验结果与结论

4.1 路况订阅样本

总体:家 准确率为89.13%,公司 准确率为79.18%。家 覆盖率为77.32%,公司的覆盖率为80.17%。
分平台:iOS : 家 准确率 86.96%,公司 准确率 68.89%。家 覆盖率 31.39%,公司 覆盖率 27.43%。Android:家 准确率 89.96%, 公司 准确率 79.18%。家 覆盖率 80.61%, 公司 覆盖率 81.55%。

可以看到iOS平台的准确率和覆盖率都相对偏低,公司的准确率相对偏低。通过对具体Case(大约100个)追踪,总结原因如下:
一. AMap数据覆盖不足。AMap使用场景更多倾向未知地点,使用频率偏低。由于开放平台iOS相关SDK并没有带回idfa,用户经纬度等数据。改进:(1) 协调开放平台iOS SDK PM和REST 服务RD,带回目前日志所缺失参数。(2) 希望PM能够协调UC,支付宝,手淘等集团内部的头部BU,授权融合使用iOS平台用户定位数据。期望收益:iOS准确率整体提升到80%以上,覆盖率整体提升到50%以上。
二. 公司语义更广泛。我们通过跟踪具体的Case,发现大量和汽车相关的职业的用户(如出租车司机,专车司机)并不存在传统含义的公司,并没有固定的办公地址。公司的挖掘相对家的语义更加广泛,涉及到不同社会阶层,公司的意义不甚一致(学生,自由工作者等),导致了公司挖掘准确率相对较低。改进:(1) 进行新一轮算法迭代,提升公司的语义判断准确率。(2) 融合其他数据维度来增强公司语义判断准确率。期望收益: 公司准确率整体提升到和家持平,即90%左右。

4.2 用户反馈样本

总体:家和公司准确率均为94.44%。由于样本集比较小,就不分平台分析,直接针对错误的Case进行分析。一. 两个iOS用户家和公司挖掘都出错。都是属于挖掘得分较低的用户,也就是说数据覆盖不足,但是算法本身参数也需要进行一定调整。改进:调整算法参数,观察不同参数的挖掘结果。期望收益:准确率会有一定提升,但是覆盖率会相应下降。具体的比例很难预估。
二. 剩余主要是家或者公司挖掘出错。属于更新时间较早,也就是说搬家或者换公司,没被探测出来。目前采用的选择算法倾向于惰性,时间参数的衰减较慢,搬家或者换公司一般要一到两个月才能更新位置。改进: 调整目前惰性算法,加大时间衰减权重。期望收益:能更快探测到用户新家或公司,但是有可能带来准确率的下降。

5. 总结

综上所述,目前家和公司第一期的挖掘已经按时符合质量产出,下一期需要融合更多数据,进一步升级挖掘算法。从数据层面,保证挖掘的准确率和覆盖率。下一步的工作,包括提供家和公司的数据服务,进一步深化人地关系的挖掘。主要包括,用户常去区域,用户轨迹等挖掘。同时,我们会启动ID Mapping 和 用户标签体系的构建,最终都采用标准的REST 服务提供,预期ID Mapping 会在六月中旬提供服务。用户标签体系则是长期工作,会在五月底提供部分标签的数据服务。

时间: 2024-10-17 10:26:48

人地关系第一期挖掘结果校验报告与工作规划的相关文章

【九章算法免费讲座第一期】转专业找CS工作的“打狗棒法”

讲座时间: 美西时间6月5日18:30-20:00(周五) 北京时间6月6日09:30-11:00(周六a.m) 讲座安排: 免费在线直播讲座 报名网址: http://t.cn/R2XgMSH,或猛戳"阅读原文". 谁来讲 嘉宾-黄蓉老师.半年时间内自学计算机,并成功找到工作.收获北美顶尖IT企业offer 数10+.目前已面试超过50人,拥有丰富的面试和面官经验. 讲什么 转专业找CS工作怎么办? 个人经历跟CS毫不相关,如何包装简历? 怎样在最短的时间掌握找工作需要的知识? 如何

(转)2016年第一期云评测报告

我们在说起云服务的时候,厂商传递给我们的信息总是非常简单:打消所有的顾虑,我们会帮你处理所有的事情. 但是云服务真的能让你省心吗? 也许可以,但是还有一个更严峻的问题:当你面对众多云服务厂商,不懂套路的你如何选择?牵涉指标太多,专业的云性能指标也不那么易懂,到底哪款适合你? 没有关系这都不再是问题,继2015年<中国公有云用户体验报告>后,听云又一重磅报告<2016第一期云评测报告>正式发布.此次报告是听云iDaaS中心利用自主研发的听云Network产品,从模拟真实用户的角度对不

豪斯课堂K先生全套教程淘宝设计美工第一期+第四期教程(无水印)

第一期课程包括 <配色如此简单> <配色的流程><对称之美>第二期课程包括 <字体的气质及组合><平衡及构图形式><信息的筛选与图片的额跳率> 第三期课程包括 <做简单的设计><图片的跳跃率><主体与层级的关系> 下载地址:http://www.fu83.cn/thread-284-1-1.html

《信息检索》第一期期末考试

爱课程网携手云课堂打造的顶尖高校在线学习平台 我的云课堂 爱课程网 中国大学MOOC 课程 学校 你好,imoocRen 搜索 信息检索 黄如花 公告 评分标准 课件 测验与作业 考试 讨论区 分享到 帮助中心 <信息检索>第一期期末考试  返回考试列表 本次得分为:28.00/30.00, 本次测试的提交时间为:2014-12-04. 1 ()是高校或科研机构的毕业生为获取学位而撰写的. (单选2分) 得分/总分 A. 学位论文  2.00 /2.00 B. 科技报告 C. 政府出版物

蓝鲸安全CTF打卡题——第一期隐写术

前言 渣渣一枚,萌新一个,会划水,会喊六六 上一篇文章:蓝鲸安全CTF打卡题--第一期密码学 个人博客:https://www.cnblogs.com/lxz-1263030049/ 本文首发先知社区:蓝鲸安全CTF打卡题--第一期隐写术 i春秋:蓝鲸安全CTF打卡题--第一期隐写术 再过几天就是中秋节了,我打算尽自己最大的能力把蓝鲸安全平台上面的打卡题目的writeup整理出来. 有什么错误的地方 希望各位大佬指正(谢谢Orz) 一:雨中龙猫 知识点 图片源码隐写.base64编码 解题思路

2015-7,第一期培训跟进表

第一件事:请务必收藏本网页 培训地点:福州三中,图书馆楼,5层 培训守则: 1.学员每次培训,均需携带如下物品:水笔.荧光记号笔.纸质的笔记本.第一期培训教材. 2.不迟到,不早退,定位就座,严肃学习纪律,严禁携带零食进入机房. 3.认真做好课前预习.课堂笔记.和课后复习作业的工作. 4.所有的培训通知,以本页面的内容为准.请在每次出门上课前2小时,检查本页面,以获得最新的通知.请收藏本页面. (如果有临时性变动或调整,我不会一一打电话通知各位.) 凡是有问题要提问的同学,请先仔细阅读:<如何提

2016-7,第一期培训,教学跟进表

第一件事:请务必收藏本网页 培训地点:福州三中,图书馆楼,5层            教师联系方式(QQ & EMAIL):  [email protected] 培训守则: 1.学员每次培训,均需携带如下物品:水笔.荧光记号笔.纸质的笔记本.第一期培训教材,有<一本通>的也带来. 2.不迟到,不早退,定位就座,严肃学习纪律,严禁携带零食进入机房. 3.认真做好课前预习.课堂笔记.和课后复习作业的工作. 4.所有的培训通知,以本页面的内容为准.请在每次出门上课前2小时,检查本页面,以获

我是小白我怕谁【第一期】隐藏欺骗

我是小白我怕谁——目的:只是为了让不能快乐的人们笑笑罢了,不是病毒专栏哦~纯粹的用C#编的各种小软件罢了,这个过程中重点是思想,如果你们有什么好的思路可以跟我说哦,被我采纳后就会给你源码哦~ 你若有好的想法你便说出,我若认可便赏你源码! [正文] 愚人节快到了,以前都是把桌面截个图然后设为壁纸,再把图标给删了,让用户以为中病毒了,这么滴整人也未免太累了吧... 于是呢,我就搞了个小软件来实现类似的功能,当然了,我不能这么邪恶,也就打开后 鼠标左右切换,再模拟出一个透明的全屏的窗体咯,用户单击就没

软件学院创新计划第一期技术夏令营开始啦!

2014年“创新计划”基地改革后第一期暑期技术夏令营来啦!!经历改革后的“创新计划”不仅拥有大量用来实践训练的项目资源,而且聚集了软件学院大量活跃的技术力量(原AiCre+Sigma+ChasingDream成员),在暑期夏令营的这三十天里,你可以和我们的队员一起研究自己热爱的技术,可以和志同道合的人做一直想要做的产品,还能在最后的产品竞赛中与其它技术达人进行切磋,相信你最终收获的不仅仅会是技术上的飞跃,在这个过程中还能结交到未来一起披荆斩棘的小伙伴,在夏令营表现出色的同学在获得物质奖励(这是一