初九·
题图:Personal computer motherboard
作者 | 谭珍 编辑 | GeoTalks
POI是英文“Point of Interest”的缩写,中文可译为“兴趣点”。在互联网地图标注中,一个POI可以是一个酒店、一个学校、一个银行、一个车站、一个超市,等等。
上一篇文章吸引了不少同行前来关注,十分感谢大家的肯定。我也仔细分析了新朋友们的信息,发现大部分新粉都是偏技术的,这让我比较意外,因为我只是从业多年的产品汪。这一篇主要分享如何将各路数据为我所用,行文中会更注重分享我的产品思路,以及运用思路创造出的成果。
本篇提纲
1.为什么要做且要做好POI?
2.POI要做成什么样子?
3.如何做出想要的POI?
为什么要做且要做好POI?
因为POI是一切活动的基石。
送快递时,快递小哥要寻找xx路xx号xx小区xx号楼,这到底在哪个旮旯?
订酒店时,得知道酒店叫什么名字在什么位置,有没有团购和优惠,预约电话是多少?
叫滴滴时,欸开到东门比开到西门便宜五块钱呢!师傅去东门!
以上例子不胜枚举,大写加粗的内容,都是POI。没有POI,基于地点的事情就没办法发生,LBS就不能玩了。所以必须要做POI,还必须要做好,否则以上行为都不能愉快的进行。
POI要做成什么样子?
POI的样子就是POI的字段属性,POI要有哪些属性,这个问题不能归一化回答,它与业务密切相关,业务就是用户需求,所以这个问题等于:用户需要什么样的POI?由于这一系列文章聚焦在地图标注,各家地图标注的POI主要字段是大同小异的,所以下文主要讲:地图标注用户需要什么样的POI?
随着互联网的发展,移动互联网的崛起,LBS/O2O的爆发,用户的需求也在不断进化:
- 以前,地图标注是拿来寻址的,搜一下要去面试的公司办公地点在哪里,坐车要怎么换乘;
- 现在,地图标注是拿来生活的,去哪里吃饭,招牌菜是什么,人均多少,是打车还是地铁。
综上可以提炼出,POI包含两层信息:
- 基础信息:名称,地址,空间位置,电话,类型,关系。
- 详情信息:评分评级,价格,营业范围,营业时间,评论,图片,优惠/团购。
2011年左右,百度地图标注的POI大约20个字段;2014年,字段已经丰富到100多个。这些字段是怎么建设出来的,又是怎么持续保持更新的,下文重点讲。
如何做出想要的POI?
建设POI的全流程:数据源接入——数据处理——判重整合——上线应用——数据更新。相信大家能从字面上理解每个环节在做什么,就不逐一赘述,主要讲讲每个环节里需要注意的。
- 数据源接入
前一篇文章(互联网地图标注数据的基本知识)已经讲过数据源类型,图商数据准但是少,UGC数据少但是时效性高,网络挖掘数据获取成本低但加工成本高……每个数据源都有自己的特征,抓住其特征扬长避短,是接入数据源时最重要的事情。
- 数据处理
拿到数据之后要进行归一化处理,主要有两个:①信息校验;②字段补全。
①信息校验
对涉及军事或黄赌毒反等敏感POI进行过滤,对重点数据进行保护,各个字段质检互相校验(地址文本 vs 经纬度 vs 所属省市区县 vs 电话区号 vs 邮政编码等),刨除嫌疑数据;
②字段补全
这里主要是指通过GeoCoding/ReverseGeo等方式给POI补充更精准的空间坐标或者更完整的地址文本,同时还会进行分类&Tag的计算,重要性赋值,可信度赋值等工作。
- 判重整合
判重整合包含两个大工程:
① 判重:判断N个POI是不是同一个POI;
② 整合:将判为相同的M个POI整合出一个POI。
判重是全流程中复杂系数最高的环节,跟我team搭档做这一块的研发包含百度的多位T8/博士等,但判重准确率也不能做到99%。
要把这里写到细致入微,可能会成为一本大作,就不展开细说了。
举个例子方便大家理解:
各个数据源合到一起之后,数据库中有N条数据,分别叫做:北京大学,燕京大学,北大,北大西门,北京大学(西门),北大西一门,北大西门烤翅。程序要基于文本相似度,范围控制,类别比较等等信息,准确识别出哪些和哪些是同一个POI,难度系数极大,最终结果很容易张冠李戴,到线上就会表现为北京大学的详情里展示着北大西门烤翅的团购信息。
整合相对容易,主要考量名称的文本丰富度,地址完整度,坐标/来源的可信度等等。
- 上线应用
POI的上线应用方式主要有:检索,导航,底图,公交等。在应用中会积累POI的热度信息(检索次数,点击次数等),会作为特征值指导后续的数据更新。
- 数据更新
将前文每个环节再走一遍,即为更新。
不同数据源的更新周期和更新方式都不太一样,需要因地制宜。
更新是保证数据活性的重要甚至是唯一手段,如何设计更新策略才能快速的进行地图标注POI的更新,考量的是PM对每个数据源每类POI特征的深刻理解。以前我分析过,餐饮类POI每个季度的更新比例是17%,说明对点评的餐饮类POI要加快更新频率。
2014年前后,是百度地图标注POI极为辉煌的一个阶段,我们将数据覆盖率做到了难以置信的97%,准确率做到了史无前例的98%,行业内无人可比肩。而这耀眼成功的背后,是一个高效团队在疯狂的努力,这些人,是最聪明最勤奋最可爱的人!
写在最后的私心
写这一系列文章,也是有些私心的:希望大家能发自内心的珍惜当下享受到的每一种服务。
做这么多年基础服务(POI/详情/检索),越发深刻的理解『理所当然』这个词。
太多人都觉得看视频就应该是流畅的,地铁就该是不出故障的,电灯就该是一直亮着的,检索就该是召回排序都合理的,POI就该是搜得到还位置准的。
可是,哪里来的这些『理所当然』?!从一根根网线的排布,到一台台设备的维护,以及电路工人一步步的巡线,检索策略的一点点迭代,POI的一次次更新,这都是辛勤劳作的成果,是智慧和汗水的结晶。
请珍惜。
如何把自己的门店或公司标注到地图里面。其实很简单:
1、先准备好门店或公司的门脸照片、名称及地址信息
2、然后使用微信扫描下面的二维码,按照要求提交资料
3、提交资料后,客服会联系您进行数据审核,最快2小时内上线