悦数图数据库

首页>博客>应用场景>泰康在线:知识图谱在互联网保险的业务实践

泰康在线:知识图谱在互联网保险的业务实践

业务挑战:海量关联关系的存储和计算性能遇到瓶颈

泰康在线作为一家互联网保险公司,拥有过亿的海量客户群体。对这些客户进行精准营销,或者是保险业务里的风险控制,就需要对客户之间的关联关系、客户与特征标签的关系,进行高效的管理和计算处理。在技术方面也存在类似的事物间关联关系管理的诉求。比如数据治理,泰康需要建立多个系统间的数据血缘关系。应用系统监控也同样需要管理服务器、应用、接口间的相互关联关系。

传统的关系型数据库,在管理深度关联关系方面,存在明显的性能问题。而图数据库在这方面具有天然的优势,能够非常方便地存储实体间的关联关系,并可以进行灵活的扩展。特别是分布式图数据库,能够有效处理海量的关联关系的存储甚至是计算问题。

选择 悦数图数据库:搭建泰康在线图计算平台

为了应对不同的业务场景,泰康建立了初步的图计算平台:数据通过 Canal、Kafka、Flink 等组件处理后,进入存储层。存储层由多种存储引擎组成,核心组件是「悦数图数据库」。对外提供的服务方式,有 API 接口和图计算框架 Flink Gelly,分别应用于实时交互和图计算场景。

泰康在线x悦数图数据库-架构图

在实际应用之前,泰康也对悦数图数据库进行了一系列的技术调研。其中包括针对理赔业务数据进行了数据导入、多跳查询的实际测试。

测试数据为 7,000 万理赔数据,包含约 1.5 亿节点、2.1 亿边。按照当时使用的版本情况,实测数据导入速度:点导入速度约 75 万/秒,边导入速度约 62 万/秒。

经过多次测试和数据库选型,泰康最终选择了「悦数图数据库」。悦数根据图数据的特点对数据存储模型、点边分布、执行引擎进行了全新设计,对图的多跳遍历进行了深度优化,能够满足平台的选型要求。

应用场景:

应用场景1:理赔反欺诈

泰康在线x悦数图数据库-应用场景

这是基于客户关联关系构建的知识图谱,已经应用于理赔反欺诈场景。通过建立客户与赔案、证件号、手机号、邮箱的知识图谱,我们就可以通过 Flink Gelly 对其进行连通子图的计算,获取有关联关系的理赔客户群。基于不同的业务筛选条件,来发现可疑的理赔欺诈团伙。

应用场景2:数据血缘关系

泰康在线x悦数图数据库-应用场景

泰康在线x悦数图数据库-应用场景

泰康在线x悦数图数据库-应用场景

上图展示了泰康在系统间的数据血缘关系方面的应用。图示的是电子保单的数据流转链路、产品工厂和核心系统跟电子保单之间的数据关联关系。因为电子保单的数据,来自多个系统,调用关系复杂。通过图谱来展示这些关联关系,可以更方便地定位电子保单错误信息的数据来源,提高开发人员的联调效率。

应用场景 3:应用监控

泰康在线x悦数图数据库-应用场景

泰康在线x悦数图数据库-应用场景

这是基于悦数的图数据库产品建立的应用服务器、接口之间的关联图谱。基于这些关联关系,泰康构建自己的应用监控系统。有了这些关联关系做基础就可以很方便、直观地管理我们的应用系统,监控相关的异常告警,并在故障根因分析方面提供便利。

使用收益:大数据管理性能和稳定性大幅度提升

由于业务量和用户量的增长,泰康保险对技术和安全都有较高要求。保险业务系统包括保单存储、收付数据存储、理赔/批改/保全业务开展、监管报送等等,都需要稳定的技术底座能持续、低成本、高质量地支撑业务发展,提供需求分析和系统架构能力。

通过采用悦数图数据库作为图技术底座,泰康在线实现了深度关联关系查询性能和稳定性的大幅度提升。另外,图数据库的模型与人脑思考方式接近,能把事物之间的联系自然地关联出来,可以更自然地建模、更灵活地扩展,帮助多个业务建立起立体的知识结构——「终于可以不用再看几十页的文档,就能把多场景、多维度的数据以立体的方式组织起来了」。