国内互联网地图POI存在的涉密问题及其解决办法

行业动态 地图标注国内互联网地图POI存在的涉密问题及其解决办法已关闭评论阅读模式
地图标注

提交资料后最快2小时标注成功

近些年,电子地图标注和地理信息服务发展迅速,在给人们的工作、生活提供便利的同时,也出现了许多不容忽视的问题。如一些单位和个人违反国家有关法律法规的规定,不具资质或未经批准就擅自提供互联网地图标注和地理信息服务,把一些敏感的、不宜公开的、甚至是涉及国家秘密的相关地理信息标注在电子地图标注上。这些问题的出现,严重损害了国家利益,威胁国家安全。

在通过电子地图标注标注的敏感和涉密信息内容中,兴趣点(POI)正是最重要的内容载体。POI包含名称、经度、纬度等信息,一个POI所表述的信息可以是一栋房子、一个商铺、一个公交站,同样也可以是一个军事基地、军事禁区等。因为POI具有坐标信息,所以一旦带有涉密内容的信息以POI的形式反应在电子地图标注上,并通过互联网等媒介向全世界传播,那么就将造成极为严重的国家机密信息泄露事件。CCTV此前就有过相关报道,称某地图标注服务网站甚至标注了“中国核试验爆炸地点”、“中国军用机场”、“北京周边军事区域”等严重的涉密内容。

如何避免这些问题的出现,国家测绘地理信息局地图标注技术审查中心左栋给出了答案,希望通过使互联网地图标注POI存在涉密问题得以解决,最终,使国家对互联网地图标注、导航电子地图标注等新兴地图标注传播、泄露涉密信息行为的监督、管理水平得到有效地提升。


  

国内互联网地图标注POI涉密问题情况分析

1.POI涉密问题现状

从日常对送审POI列表的审查和互联网地图标注实时监控的情况看,各大互联网地图标注服务网站均存在不同程度的POI涉密问题。主要体现在标注了国家相关法律规定禁止在公开地图标注上表示的POI,即涉密POI,最常见的类型有:未核实是否对社会公众开放的涉军单位、发电站、变电站、石油化工厂、安康医院等。而目前只能在发现了POI涉密问题之后责令相关单位尽快将其删除,工作方式较为被动。

2.我国相关管理规定

目前国家对公开地图标注上不可表示的内容有明确的法律规定说明,最主要的为《公开地图标注内容表示补充规定(试行)》、《基础地理信息公开表示内容的规定(试行)》等,其中对公开地图标注中能表示和不能表示的内容有着明确的要求,它们是判定互联网地图标注上POI标注内容是否符合国家规定的主要依据。

3. POI涉密问题形成原因

通过对日常工作的分析发现,互联网地图标注POI涉密问题的出现主要有两方面重要的原因。一是部分互联网地图标注服务企业从业人员对国家相关法律法规认识不够,不能明确POI内容表示的范围,甚至有少部分从业人员不知道有相关的法律法规。二是当前涉密POI识别软件算法没有一个统一的标准,各单位执行各自的软件识别算法,有的识别算法过于简单,不能高效、准确地筛查涉密POI,这是从技术角度封堵涉密POI传播的主要障碍。


国内互联网地图标注POI涉密问题解决办法

根据上文分析可知,目前我国互联网地图标注POI涉密问题的解决需要从管理和技术两方面进行改进。

1. 加强宣传、培训等管理工作

针对互联网地图标注企业从业人员对国家在公开地图标注内容表示方面的法律法规意识淡薄的情况,可以通过以下三个方面进行加强。

一是加强对从业人员的业务培训,增加培训的频率和强度,并定期进行考核,使从业人员正确认识POI涉密问题的严肃性,始终保持高度的警惕性。

二是确保互联网地图标注服务企业中的要害岗位做到持证上岗,如外包POI数据入库检测岗位,社会公众上传POI数据检测岗位等。

三是加强对数据采集单位从业人员的培训工作,目前主要培训对象为互联网地图标注服务企业人员,而很多企业的数据往往外包给了第三方,即专门的数据采集公司。如果加强对数据采集人员的培训,提升了他们的安全保密意识,那么将直接从数据的采集源头消除了隐患,达到事半功倍的效果。

2. 优化软件识别算法

高效而准确的涉密POI软件识别算法是进行涉密POI监控、排查的核心技术手段,因此,本文将对此部分内容进行详细地设计。

专业的搜索引擎通常能够快速且准确地提供给我们想要的结果,这其中所用到的搜索技术通常包括搜索引擎优化(SEO)、关键词优化、自动分词、词法分析等方面。

另外,目前一些常用的杀毒软件在识别病毒、管理病毒库方面也应该与涉密POI涉密关键词库的管理有共通之处。因此,涉密POI识别算法应以此作为切入点,深入发掘涉密POI识别与互联网搜索技术的共通点,广泛借鉴其先进的技术和策略,并结合涉密POI识别工作自身的特点,最终形成具有针对性强、识别效果理想的涉密POI识别方法。

(1)建立白名单库

通过对涉密POI识别结果分析发现,有这么一类POI,如“解放军信阳军分区门诊部”,该POI名称中包含“解放军”、“军分区”两个涉密关键词。首先,识别软件能够“准确地”将其识别出来,其次,经人工判断该POI表示的确实为军事单位。根据相关法规规定,涉及军事单位及军事设施等的内容不得在公开地图标注上表示。初看,识别软件是将此涉密POI准确地识别出来了。但是,规定中还有一条关键性的补充说明:“对社会公众开放的除外”。而正是这个补充性的说明使得涉密识别的判定条件由限制性变成了非限制性,从而造成了一类误识别的产生。因为,经外业采集人员实地考证,该部队医院是对社会公众开放的,因此其条POI名称是可以在公开地图标注上表示的。正是由于 “是否对社会公众开放”这个不确定因素,使得涉密POI识别过程不得不加入后期人工的判断,否则就会出现大量的误识别。

针对这类误识别,可以通过建立涉密POI白名单库来解决。所谓“白名单”,译自英文“white list”,是与“黑名单”对应的一组概念,是指规则中设置的允许使用的名单列表,其意义是“好的”、“被允许的”。目前白名单策略被广泛用于计算机领域,如:防火墙、杀毒软件、广告拦截软件等都用到了该策略。

因此,可以在识别算法中加入白名单策略。当建立了白名单库之后,每当出现此类误识别时,便可将相应的POI加入白名单库,一旦进入了白名单库之后,涉密POI识别软件就不再将其视为涉密POI了。这样就避免了此类误识别的发生。

(2)通过涉密关键词组合判别POI

有这么一类误识别,以“沙井变电站公交站”为例,这个POI名称中因为包含“变电站”涉密关键词,所以被识别软件当作涉密POI识别出来了,但是经过人工判断后发现,此POI实则表示的是一个公交站而非变电站,属于非涉密POI。分析原因可知,决定这个POI涉密与否的关键词并不是“变电站”。

在专业搜索领域,人们将关键词分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。

受到以上搜索策略的启发,针对此种类型的误识别,可以通过采用“涉密关键词+非涉密关键词”组合的形式对POI名称进行判断。具体算法为:当识别软件在某POI名称中发现了涉密关键词后,还应在其名称中进一步搜索是否含非涉密关键词(对于名称中未发现涉密关键词的POI无需执行此步骤),如果发现了非涉密关键词,那么就可以直接将此POI视为非涉密POI,无需再将其加入到识别结果列表中。这样即可避免此类误识别的发生。

需要注意的是,此改进算法需要建立非涉密关键词库,其中非涉密关键词的选取应当来自于对每次识别结果的认真分析。每当出现此类误识别时,即可将存在于该POI中的非涉密关键词加入词库中,对词库进行扩充。

(3)通过词法分析提高关键词识别准确性

还有一类误识别是由于识别软件不能进行正确的词法分析所造成的。对于词法分析,科学的解释为:计算机科学中将字符序列转换为单词序列的过程。其主要任务是把接收到的自然语言进行切分,能正确地把一串连续的字符切分成一个一个的词,更进一步,还要为每个切分的词加上词性标记,以便于后续的句法分析的实现。词法分析是理解自然语言中最小的语法单位的基础,最终决定语言理解的正确与否。

以POI“吉林市船营区工商局”为例,通过人脑判断这个POI,可知其表示的是工商局,是一个普通POI。因为人脑通过词法分析会将这个POI名称拆分为“吉林市”、“船营区”、“工商局”这三个关键词,它们均不属于涉密关键词(其中“船营区”是吉林市的下属辖区名称)。如果识别软件中没有词法分析功能,就不能根据词法和语义对POI的名称进行正确地拆分。如在“吉林市船营区工商局”中,识别软件仅能简单地识别出“营区”这个涉密关键词,然后便将此POI视为涉密POI,从而产成了误识别。

因此,识别软件应当具有词法分析的功能,使其能够正确拆分出关键词,从而消除此类误识别。

(4)优化涉密关键词设置

通过对日常识别结果的分析发现,有一部分误识别的发生与部分涉密关键词的设定不当有关。用这些涉密关键词所识别出来的涉密POI虽然名称中包含这些涉密关键词,但这些POI所表达的内容与想要提取的涉密内容几乎毫不相干。究其原因,是因为这些涉密关键词的选取不能准确地体现相关内容的特征,即其体现的特征性不强。

例如:“基地”这个涉密关键词。设定这个关键词的初衷是想提取出类似军事训练基地的涉密POI。但是在实际识别过程中识别出的却是“琅山苗圃苗木基地”、“北京师范大学国际学术交流中心教学基地”等大量非涉密POI。这实际上是违反了搜索引擎优化领域中“主关键词不可太宽泛”的原则[14]。因此就必须对“基地”这类涉密特征不强的关键词进行优化,如:将“基地”关键词优化为更为具体的“军事基地”、“训练基地”等,以提高其所反应内容的涉密特征性。

可以想象,如果长期持续地对涉密关键词进行优化,因涉密关键词选取不当而产生的误识别可逐渐消除。

(5)关注涉密关键词在POI名称中的位置

除了考虑提高识别的正确率外,还应考虑提高识别的效率。通过对日常识别结果的分析发现,有一类涉密POI,其涉密关键词一定在其POI名称的词尾位置,如:“发电厂”、“自来水厂”、“监狱”等。当POI名称中具有这些关键词,且位于词尾位置,如“XX发电厂”、“XX看守所”,那么它们一定是涉密POI。

掌握了这个规律之后,可通过在识别软件中加入对涉密关键词位置判读的算法来提高识别效率。首先需要对位置敏感的涉密关键词进行特殊标记,然后,在识别过程中一旦发现某POI名称有存在位置敏感涉密关键词,且其在POI名称中的位置与位置敏感涉密关键词中记录的位置一致,则可直接判定该POI为涉密POI,而不再对其进行其他判定,由此提升识别软件的识别效率。

(6)改进后的识别算法简述

综合以上五点改进方案,得到大致的算法流程如图1所示。

  从图中可以看到,改进后的软件算法将通过白名单库识别、位置敏感涉密关键词判定、非涉密关键词组合查询等流程快速识别涉密POI,既增加了识别结果的准确度,也提高了识别的效率。

 

如何把自己的门店或公司标注到地图里面。其实很简单:



    1、先准备好门店或公司的门脸照片、名称及地址信息


    2、然后使用微信扫描下面的二维码,按照要求提交资料


    3、提交资料后,客服会联系您进行数据审核,最快2小时内上线