AI干货丨明朝万达中文地址信息智能治理实践 - 公司新闻

公司新闻

当前位置：首页 > 新闻中心 > 公司新闻 > AI干货丨明朝万达中文地址信息智能治理实践返回》

AI干货丨明朝万达中文地址信息智能治理实践

发布时间：2020-07-21 打印字号：大中小

大数据时代背景下，数据的价值越来越受到社会各界的重视，各类基于大量数据的信息处理平台不断涌现，而如何实现对信息系统中数据规范化管理及使用，成为摆在众人面前重要的问题。

信息系统，是指由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。简单地说，信息系统就是输入数据信息，通过加工处理产生信息的系统。

尽管信息系统根据具体搭建目的不同，需要收录、使用的数据也不尽相同，但诸多系统都面临一个共同的问题：平台数据来源多样，格式混乱，阻碍数据进一步使用。

因此，信息治理首先需要解决的就是数据不规范。今日，明朝万达数据专家将以“基于字典树的中文地址信息治理”为例，为您解读数据处理的具体措施。

字典树（单词查找树）应用背景

目前，信息系统中会记录多种地址字段，包括单位地址、收件地址、寄件地址、住所地址等。字段中又包含区域信息（省、市、区/县）和详细信息（街道、街道号/小区名称、楼号、楼层、房间号等）。以上地址信息可用于信息关联、信息统计、信息分类等，具有很大的利用价值。

但是由于地址信息的来源存在多样性、不可控性，导致大量的地址数据不规范，对系统合理充分利用形成了一定的阻碍。因此：

对地址信息进行标准化处理来提高地址信息的利用率，成为信息系统很重要的一项功能。

实现目标

01 区域信息治理

在地址信息中，提取或者还原省、市、区/县信息

02 详细信息治理

在地址信息中，提取区域信息以外的数据，并按照详细规范进行数据格式化输出。

处理过程

步骤一：使用最新的民政部行政区划代码，构建两棵字典树

※ 绿色代表叶子节点，叶子节点存储完整的区域信息。

举例：在完整字典树中北辰区节点存储：天津，天津市，北辰区；在缩略字典树中西安节点存储：陕西省，西安市&吉林省，辽源市，西安区&黑龙江省，牡丹江市，西安区。

步骤二：区域信息计算

※ 将地址信息在完整字典树中从前向后进行扫描。

如果命中完整字典树某一个分支，设置阈值1.0, 读取保存的省市区县信息；

※ 接着在缩略字典树中进行扫描。

设置阈值为0.8，由于大部分地区会以某些城市名称作为街道命名，故程序在处理过程中，向后探先探一位，如果包含“街”，“道”，“路”，“乡”，“镇”，“弄”，“坊”等，则将前面命中的一个分支作为详细信息处理。如果包含“东”，“南”，“西”，“北”，“中”，“一”，“二”，“三”，“四”，“五”等，再向后探一位，如果包含“街”，“道”，“路”，“乡”，“镇”，“弄”，“坊”等也作为详细信息处理。

※ 然后对各个省市县信息进行阈值的累加。

※ 最后和完整字典树扫描的结果进行相加，然后就会得出最终的区域信息。

举例：处理地址信息，西安雁塔区科技7路4号

根据权值计算，最终陕西省：权值1.8，故省部分取陕西省，结合陕西省确定西安市，最后根据西安市确定雁塔区，故最后区域信息为：陕西省，西安市，雁塔区。

步骤三：详细信息处理

※ 对详细信息进行格式化处理。

使用xx街（路/道/弄等）xx号/小区xx楼xx单元/xx楼xx室，这样的格式对详细信息进行格式化。

以上，便是基于字典树的中文地址信息治理方式。

信息系统所收录的地址信息经过字典树处理后，利用程度得到进一步提高，同时提高了系统运作能力，促进集约化管理。

-----

作为中国新一代信息安全技术企业，明朝万达专注数据安全、公共安全、云安全、大数据安全等服务，客户覆盖金融、政府、公安、电信运营商等诸多领域，其中在金融领域数据安全的市场占有率超80%。

明朝万达始终将技术创新作为企业的立足之本，截至2020年6月，公司已申请 300余项发明技术专利，累计授权专利 近100项，多项技术填补了国内空白并达到世界先进水平。

上一篇明朝万达丨《数据安全法》：缘起、发展和未来（上）

下一篇提升数据安全交换能力丨明朝万达两项专利获批

分享到：