随着数字中国建设进程推进以及国家有关大数据战略文件的颁布,数据上升到前所未有的战略高度,越来越受到全社会的关注和重视。近年来,大数据在民生服务、经济决策、风险控制、绩效考核等多方面深入应用,通过将累积的数据转换为有用的信息知识,以此作为重要参考对生产制造、市场分析、科学探索等进行决策,现已取得了诸多成果。
利用数据挖掘工具实现数据到有用信息和知识的转化是大数据应用中重要的一步,对此,明朝万达研制了一套便捷高效的数据挖掘工具通用模型,可帮助金融、公安、政府、等行业实现对数据的加工、处理、分析、建模,利用数据引导业务决策,实现价值闭环,让数据驱动生产力,全面释放数据价值。
该模型页面设计以用户体验和用户目标为导向,采用极简风格的流式建模,可快速实现各种类型的数据挖掘应用,为个人、团队和企业所做的决策提供支撑依据。
· 提供了丰富的数据预处理操作,支持图形化建模,支持多种高效的算子组件。
· 提供关于日常数据挖掘处理的通用算子包括:输入输出、数据处理、集合操作、关联分析、统计分析5大类;
· 提供数据挖掘算子20多种,如:输入源、输出源、过滤、排序、字段显示、去重、别名、类型转换、列运算、字符串函数、数据量、字符串替换、字段拆分、字段映射、日期格式化、交集、并集、差集、左关联、右关联、内关联、单列统计、排名统计、分组统计、窗口函数等;
· 支持根据需要进行灵活扩展,如:数据分析图表函数、数据治理分析手段等。
△ 数据挖掘建模流程示意图
该工具主要用于数据挖掘建模,用户可以在没有任何编程基础的情况下,通过页面拖拽的方式进行操作,将各种数据通过输入、数据处理、输出等环节通过流程化的方式进行连接,使用户可以理解数据,并设计具有特色的业务数据挖掘模型和可重用组件,以达到数据分析的目的。
产品亮点
1、支持丰富的数据源,可以对多种数据库来源数据进行数据挖掘分析,包括但不限于Mysql、Oracle、GreenPlum、PostgreSQL等关系型数据库。
2、具有丰富的通用数据处理算子,目前已有算子如:过滤、排序、去重、交集、并集等20多种,后续根据业务需要可进行动态扩展和自定义。
3、支持灵活的数据输出入库策略,可直接将挖掘的数据集导入到指定库表,并且支持多种入库策略,如:增量写入、覆盖写入、忽略写入等,可根据需要进行灵活扩展。
4、数据挖掘计算速度快,底层采用Spark计算引擎,并结合Spark-SQL模块对数据进行挖掘分析。
5、支持超大量数据挖掘分析,结合Spark分布式集群,充分发挥机器性能,提高数据挖掘处理效率。
6、用户界面操作简单,易学易用,通过页面拖拽就可以进行数据挖掘和分析。
7、应用场景广,该工具可用于在银行、金融、证券、教育、公安等行业的数据挖掘分析工作。
应用场景示例
01信用贷款分析评估
需求分析
目前我国信用贷款品类多样,其中个人信用贷款与传统抵押贷款相比风险较大,对借款人的经济效益水平,如个人发展情况、社会地位、经济收入等有较高的要求。因此,如何针对借款人进行有效的信用贷款分析评估就成为各商业银行开展业务的重点。数据挖掘工具的出现为风险评估提供了一种良好的定量分析方法。
挖掘过程
通过数据挖掘模型挖掘信用贷款用户的风险评估过程示例如下图(仅供参考)。
△ 信用贷风险用户评估
适用场景/行业
适用于保险、银行、政府企业,需要对用户群体进行风险评估的企业等。
02客户营销精准定位
需求分析
随着经济的发展,国民理财意识的增强,银行理财新产品层出不穷,各银行业务逐渐向以客户、数据、信息为中心的经营和服务模式转变。当前背景下,银行关注如何利用数据挖掘技术从海量银行用户数据中挖掘出潜在客户,实现针对性的理财产品推荐。
挖掘过程
通过数据挖掘模型挖掘银行不同年龄段的潜在客户示例如下图(仅供参考)。
△ 潜力客户分析
适用场景/行业
银行、证券公司等针对特定的产品营销,需要快速寻找潜在的客户群体的企业。