当前位置:首页 > 创业圈 > 案例 > 正文

企业知识图谱落地案例分享

来源:柯基数据 发布时间: 2020-03-06 11:03:10 编辑:夕歌

导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文通过分享企业知识图谱落地案例,以通俗易懂的方式来讲解知识图谱是如何帮助企业快速解决问题的。

从一开始的Google搜索,到现在的聊天机器人、大数据风控、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文通过分享企业知识图谱落地案例,以通俗易懂的方式来讲解知识图谱是如何帮助企业快速解决问题的。

1

什么是知识图谱?

知识图谱,如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。

这样,2019新型冠状病毒感染肺炎的相关知识就以结构化的形式记录下来。

数据角度:是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是”实体-属性-关系”,构成网状的知识结构,融合碎片化的信息,建立领域知识模型,挖掘复杂的关联关系和传递影响,辅助智能决策

技术角度:是一套工程技术,包括知识抽取、知识表示、知识存储、知识推理、知识检索、知识问答等一系列技术

(营养健康知识图谱)

2

知识抽取

知识抽取是实现自动化构建大规模知识图谱的重要技术,其目的在于从不同来源、不同结构的数据中进行知识提取并存入知识图谱中。

知识抽取的概念最早在 20 世纪 70 年代后期出现于 NLP 研究领域,是指自动化地从文本中发现和抽取相关信息,并将多个文本碎片中的信息进行合并,将非结构化数据转换为结构化数据。(如图1)

(图1)

知识抽取子任务(如图2):

1、命名实体识别: 发现实体名称,并将其进行分类

2、实体关系抽取:识别抽取实体及实体之间的关系

(图2)

知识图谱的数据抽取包括面向结构化数据的知识抽取、面向半结构化数据的知识抽取、面向非结构化数据的知识抽取。(如图3)

(图3)

面向结构化数据的知识抽,垂直领域的知识往往来源于支撑企业内部系统的关系数据库。

面向半结构化数据的知识抽取,是从百科数据中抽取知识。

面向非结构化数据的知识抽取,是从文本中抽取实体信息元素,包括人名、组织机构名、地理位置、时间、日期、 字符值和金额值等。

3

新冠肺炎知识图谱

智能防控解决方案

2020年,一场猝不及防的新冠肺炎病毒疫情袭来。

对于疫情防控来说,面对传播速度如此快速的病毒,“早发现、早隔离”是最简单有效的疫情防控手段。而知识图谱技术可以在疫情期间,帮助各企事业单位有效的做好疫情防控工作。

案例背景:

对于疫情防控来说,尤其是像新冠病毒这样新发病毒,疫情传播速度快,“早发现、早隔离”是最简单有效的疫情防控手段。理论上来讲,只要找到确诊病例和该病例接触的所有人员,并对他们采取合理的治疗和隔离措施,就能阻断疫情扩散,最终随着所有病人治愈或者死亡,疫情就可以结束。但是现实情况是,病毒有潜伏期,在确诊之前病人因为正常的工作生活需求,会接触大量的人,这其中除了家人、同事、朋友等熟人之外,也会通过乘坐公共交通工具、购物、游玩等和陌生人产生交集,加大了病毒传播的风险,而被感染的人又会在确诊前有可能传染给更多人,“人传人”的扩散很容易让感染人数呈指数级增长。因此快速准确的找到确诊病例的密切接触人员,圈定可能的扩散群体和小区,对这些人群和小区采取必要的隔离消毒措施是关键。

但是从国家和地方政府的角度,既要打赢疫情阻击战,也要考虑对经济发展、百姓就业的冲击程度,这也是在疫情还没有结束的情况下各地也开始积极复工的原因,经济行为需要人的活动,人的活动是疫情传播的前提,两个相互制约因素的平衡,让各级部门的疫情防控工作更加依赖科学的决策和有力的执行。国家在疫情防控方面也提出了要充分利用大数据、人工智能技术,加强疫情溯源和监测。在人工智能技术中,知识图谱作为认知智能的关键技术可以发现数据中的关联关系并构建网络,基于图结构进行分析计算的特长,为疫情防控的政府、疾控中心提供防控措施的分析提供辅助。

应用场景:

通过病人的LBS数据,同时结合政府调研的病例的家庭数据、外出、乘车、购物等数据,以确诊病例为中心,结合疑似病例数据,辅助防疫人员

1、快速筛查可能的直接和间接接触人群列表,通过电话机器人进行自动确认,分级隔离

2、查找患者传播链,找到超级传播者进行重点关注

(疫情防控知识图谱实现精准防控业务架构)

基于知识图谱的分析:

利用知识图谱认知智能技术实现疫情精准防控,提高疫情防控的及时有效性,降低疫情对经济、生活的影响。

1. 超级传播者识别:按照世卫组织标准,将病毒传染给十人以上的病人是超级传播者,早期发现、及时诊断和严格管理超级传播者对于传染病的防控非常重要,所以这个分析将有助于疾病防控人员及早发现并处理。

2. 确诊病例之间传播特征分析:通过知识图谱直观展示确诊病例之间的接触关系,例如同住(多为家人或者酒店)、同行(公共交通工具)、购物(购物场所)、游玩(公园等游乐场所)、就医(医院)等。方便流行病学调查人员研判疫情传播途径、传播能力,为疫情的隔离措施、公众防护提供指导。

3. 确诊病例传播方向冲突检测:在确诊病例中,传播途径只能是从一个病例传给另一个病例,不存在一个病例从两个病例传入的情况,即如果图谱中发现一个病人有两个及两个以上入度,即可认为这个确诊病例图谱中该病人的相关传播时序有错误,可以提醒流行病学调查人员进行补充调查,直到图谱中不存在冲突的错误为止。

4. 疫情传播的本地扩散分析:在疫情传播中,可以把传播超过2度(例如由病例1传给病例2,由病例2传给病例3,由病例3传给病例4,则传播为3度)的情况突出显示出来,因为传播链条长,显示本地的疫情防控措施薄弱,需要本地防控部门及早发现问题,堵住漏洞。(早发现、早隔离)

5. 隔离人群和区域分析:以确诊病例为中心,可以把所有接触的人进行划分,1度的密切接触人,密切接触人的2度接触人,以及其它更多度的接触人,可以根据疫情防控的需要对不同级别的人群采取不同的隔离措施,同时对于确认病例及1、2度接触人所在的小区进行不同等级的消毒、防护措施。有助于精准施策,降低疫情防控对老百姓生活的影响。

基于知识图谱的智能问答:

柯基数据联合中国疾控中心的权威专家们联合开发了新冠肺炎智能问答小助手。

为了提供准确可靠的智能问答服务,我们的技术人员根据一些行业相关知识进行了初步语料训练。同时确定了可靠的新冠肺炎防控的知识来源,主要是中国疾控中心官网、中国疾控中心公众号、健康中国公众号、公众防护指南、官方的诊疗方案等专业机构的权威发布渠道。对这些来源的知识基于专家认可的知识分类和模型,对内容进行切分,同时借助标注以及分类,形成便于运维的标准问答对,以及知识来源的原始文章访问或者附件形式。经过初步的知识覆盖以后,进行模型训练和测试,根据测试结果进行调优、语料扩充、同义词补充、缩写的覆盖、标注知识的完善等。经过多轮训练以后,达到满意测试准确率以后,实现发布上线。

问答系统前端通过H5页面接入到中国疾控慢病中心的公众号,提供肺炎疫情问答的服务,可以方便向普通人群、患者、医生各类用户提供服务。

对上线后问答系统的运行情况进行监控,收集所有问答过程数据,对于用户反馈不满意以及系统无法给出答案的提问情况重点关注,通过不断补充知识内容、优化问题答案查找,提升系统提供的问答准确度。

(新冠肺炎智能问答小助手业务架构)

(新冠肺炎智能问答小助手界面)

4

基于知识图谱的智能客服机器人

南京柯基数据科技有限公司是一家致力于通过知识图谱技术构建大数据关联挖掘平台,已帮助赛诺菲、勃林格、九阳等数十家医药大健康企业打通内部数据孤岛,接入海量公开非结构化数据,建立关联知识库,将数据的价值最大化。

其中九阳集团,通过一段时间对知识图谱平台的应用,已从企业自身内部使用,逐渐变为商用。

(九阳健康管家界面)

(健康管家知识图谱)

面向用户的九阳产品知识图谱,支持了智能客服机器人全年无休,秒级精准应答,还支持了人工坐席服务效率提升数倍,有效帮助九阳客服部门减员增效,提升用户满意度。
未来,九阳产品知识服务中台,还将扩展产品食谱,产品短视频等内容服务,更好的服务于用户,同时助力市场导购,电商客服等一线销售岗位提高服务效率,提升成交转化率。

(基于知识图谱的智能客服)

5

结语

知识图谱是一个既充满挑战而且非常有趣的领域。只要有正确的应用场景,对于知识图谱所能发挥的价值还是可以期待的。我相信在未来不到2,3年时间里,知识图谱技术会普及到各个领域当中。