数据猿|#榜样的力量#中诚信征信新冠肺炎全国疫情感染场所实时查询平台( 二 )


8)新增场所NEW标识提示
9)覆盖场所数、浏览人次数、数据更新时间展示
10)疫情场所数据及疫情汇总数据说明
实施过程疫情感染场所实时查询平台(ncps)的技术架构设计采用微服务、大数据分析、AI语义识别等技术 , 采用松耦合的方式 , 整体可划分为客户层、应用层、数据处理层、基础层、数据存储层6层结构 , 前端可视化采用vue、高德地图开放平台提供的相关技术 , 实现了毫秒级响应、可高并发访问、数据精确的预期设计 。
ncps系统架构图
数据猿|#榜样的力量#中诚信征信新冠肺炎全国疫情感染场所实时查询平台
文章图片
客户层:包括疫情感染场所实时查询平台(ncps)在客户端访问的h5浏览器设备、引流方系统集成环境及第三方api调用客户端 。
应用层:gateway作为疫情感染场所实时查询平台(ncps)的最外层级 , 它提供了最基本的路由功能 , 作为所有api访问的入口 , 同时也提供了请求的安全检测、参数校验及灰度发布等功能;ncps平台数据采集服务 , 包含人工数据录入平台、数据上报服务及网络数据采集平台三种采集方式的服务模式;ncps应用服务作为h5统浏览器请求、引流方请求及第三方api请求的核心api输出服务 。
数据处理层:对应用层三种采集方式采集的数据进行提取分析、转换去重等处理 , 最终存储到数据层中 , 供ncps应用服务使用 。
基础层:作为ncps微服务系统的基础层级 , 包含Hadoop集群环境、实时消息服务、系统安全稳定的监控服务及微服务的配置中心等 。
数据层:ncps平台中的采集原始数据、核心分析结果数据、系统配置数据、用户访问数据、缓存数据、为其它系统提供的疫情图数据等数据的存储层级 。 数据库采用了mysql、redis、hbase、hdfs文件存储、noe4j等 。
(一)数据采集
疫情感染场所实时查询平台(ncps)采取了三种数据采集方式 , 其中以公司内部人工采集为主 , 采集团队每天将相关疫情数据通过后台管理系统录入 。 考虑到疫情数据采集的工作量及可能出现的数据遗漏 , 平台也采用了用户填报及网络数据采集的方式 , 尽可能将数据完善 。
其中 , 用户在使用疫情感染场所实时查询平台时 , 可通过平台提供的“提供线索”这个功能 , 将遗漏的信息提交给后端 。 另外 , 平台也定时对全国各地卫健委提供的网站或者微信小程序进行数据抓取 , 将关键数据存储到数据库中 。
ncps人工采集录入平台
数据猿|#榜样的力量#中诚信征信新冠肺炎全国疫情感染场所实时查询平台
文章图片
ncpsh5端用户上报界面
数据猿|#榜样的力量#中诚信征信新冠肺炎全国疫情感染场所实时查询平台
文章图片
(二)数据分析
平台通过cetl组件 , 将三种方式采集的数据进行数据抽取、数据分析、转换去重、加载等操作 , 具体流程如下:
ncpsh5数据处理流程
数据猿|#榜样的力量#中诚信征信新冠肺炎全国疫情感染场所实时查询平台
文章图片
数据抽取:通过数据抽取处理器 , 分别将存储于不同数据库的人工采集数据、上报数据及网络采集数据抽取到数据存储容器中 , 等待进行数据分析 。
数据提取分析:从数据存储容器中获取到不同类型数据 , 对于上报数据和网络采取数据 , 需要进行数据校验和NER数据分析 , NER数据分析主要提取符合疫情信息的字段 , 如患者逗留场所、逗留时间、地址等信息 , 将其结构化 , 对于人工采集的结构化数据仅做数据校验处理 , 最终将符合条件的数据进行筛选并存放回数据存储容器 , 等待下一步处理 。
数据转换去重:从数据存储容器中获取已经进行过检测和筛选的数据 , 对每条数据地址进行坐标转换及地址规范化等操作 , 最后对所有数据进行去重处理 , 处理后的数据再次存储到cetl数据存储容器 。