随着信息技术飞速发展,信息系统得到广泛和深入的应用,信息化建设加速发展,国家以及各行业、企业步入大数据时代。而数据作为信息化建设的核心,支撑业务的正常运作,重要性愈加凸显,对企业业务影响力越来越大的同时,所面临的的安全威胁和挑战也越来越多。
数据安全能力建设已成为国家以及各行业、企业的工作重点。其中,数据采集作为数据生命周期安全管理的第一阶段,对实现数据安全管理起到重要作用。
数据采集作为数据安全建设的第一步,需将分布在各业务系统中的用户行为数据、业务支撑数据、安全事件等数据信息进行采集、存储,为后续的数据审计、分析、挖掘以及安全运营等提供数据支撑。因此,构建以大数据技术为基础的数据采集系统势在必行,成为各企业的共同选择。
明朝万达自主研发的数据采集分析系统通过采集探针、采集代理在信息系统上集中采集分析系统运行的日志、状态、安全事件、业务系统数据、用户操作行为等各类信息,经过提取、转换、清洗、比对、丰富、去重等规范化处理后,以统一格式的日志形式进行集中存储和管理。
数据采集资源层为服务器设备、操作系统、数据库以及企业内部各类应用服务。采集层通过探针以及代理技术对数据进行采集,并通过相应的协议解析技术对数据进行初步加工,并将数据转移日志缓冲区域进行数据标准化处理。通过ETL等操作,对数据进行清洗、加工、补齐,最终形成标准、完整及人工可理解、解读的数据。
数据采集资源层为服务器设备、操作系统、数据库以及企业内部各类应用服务。采集层通过探针以及代理技术对数据进行采集,并通过相应的协议解析技术对数据进行初步加工,并将数据转移日志缓冲区域进行数据标准化处理。通过ETL等操作,对数据进行清洗、加工、补齐,最终形成标准、完整及人工可理解、解读的数据。
1、数据源支持应用系统、网络、协议、数据库(结构化以及非结构化类型数据库)、脚本、文件等,并支持从数据队列等大数据组件中进行数据采集。
2、采集探针以及采集代理连接对应的数据源,依据数据源种类不同下发对应的采集策略,例如文件通配符、JDBC、协议采集等。采集探针支持多平台,且支持不同CPU架构上运行,并且控制采集探针运行期间的资源占用。同时系统支持对采集探针的状态进行监控管理,可感知采集速率、采集总数及发送总数。
3、采集的数据进入数据缓冲区,对数据进行预处理,同时减少海量日志对系统的冲击。数据解析规则支持样本解析,并结合元数据管理以及数据校验规则对数据进行过滤、清洗、封装、转换、映射以及转义。针对数据含义不完整的场景,可选对数据通过数据埋点、基础信息补全、关联字段等进行补全,为后续的业务处理提供支撑。
4、经过完整处理后的数据进入数据存储层的日志仓库。
大数据业务展开依赖海量数据的存储能力,因此数据存储层应具备如下能力:
· 专业级数据索引引擎:海量数据的快速检索,用于支持各类分析引擎。
· 分布式数据存储:高并发,高可用,易扩展。
数据存储层满足以上能力后为服务层以及引用层提供数据支持,满足后续的检索、审计、分析等业务场景。
随着企业信息化发展,对信息系统的服务质量有较高的要求,尤其在企业内部业务系统逐渐增加,系统间的复杂程度也随之增加。面对每天产生的海量数据,企业需要建设完备的数据采集、处理系统,实现数据的可视化,并满足合规审计要求。
通过数据采集分析系统,管理员可监测企业内部系统的运行情况,及时发现系统异常事件,通过事后分析和丰富的报表系统,可以方便、高效地对信息系统进行有针对性的安全审计。遇到特殊安全事件和系统故障,数据采集分析系统可以帮助管理员进行故障快速定位,并提供客观依据进行追查和恢复。