知识图谱

知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将解决哪些其他技术无法解决的问题呢?它又面临着哪些新的挑战?

知识图谱的发展脉络

作为人工智能的一个重要研究领域,其研究和发展可以追溯到第一个人工智能浪潮。1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL,并随后在第五届国际人工智能会议上正式提出知识工程的概念,目标是将知识融入计算机系统用以解决只有领域专家才能解决的复杂问题。1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念,核心理念是用知识表示互联网,建立常识知识,但一直苦于规模小、应用场景不清楚而发展缓慢,因此,2012 年以前,学术界和工业界普遍认为知识图谱技术处于初级发展阶段。

直到 2012 年,这一状况才有了改变。这一年,谷歌发布了 570 亿实体的大规模知识图谱,其宣传语是“Things, not Strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物,多组研究者也曾独立地提出过相似的理论。“Things, not Strings”理论脱胎于众多著名认知心理学家提出的 Semantic Networks 理论,最为著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符号主义的思潮中,许多早期知识图谱将关系局限为几种特殊的基本关系,如“拥有属性”、“导致”、“属于”等,并定义一系列在图谱上推理的规则,期望通过逻辑推理实现智能。

然而,早期知识图谱的思路遇到了许多实际的困难,比如结构化知识信息的大量缺失,推理规则的无法穷举问题等。当然,这些问题也并非来自知识图谱,而是符号主义本身的特性。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示是长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

2012 年发布的谷歌知识图谱将常识知识图谱构建应用于实际系统(Freebase 是谷歌知识图谱的前身,它整合了包括许多私人维基在内的大量网络资源,后来被谷歌收购)。自谷歌第一版知识图谱推出以来,它在学术界和工业界掀起了一股热潮,随之而来的是各类知识图谱如雨后春笋般涌现。

DBpedia,它从维基百科中抽取结构化知识在进行本体的构建,通过结构化,用户可以使用 SPARQL 语言进行查询;

YAGO 也是开源知识图谱,被应用于 IBM Waston 问答系统;

NELL 则是卡耐基梅隆大学 Tom Mitchell 教授带领开展的知识自动学习—NELL 项目开启了一个机器学习实现知识图谱构建的浪潮,目标是持续不断地从网络上获取资源并进行事实发现、规则总结等,里面涉及到命名实体识别、同名消岐、规则归纳等关键技术;

ArnetMiner 是面向清华大学知识工程实验室构建的面向科技领域的知识图谱,项目实现了高精度学者画像、同名消歧、智能推荐、趋势分析等关键技术。该工作获得了 ACM SIGKDD 的 Test-of-Time Award(时间检验论文奖),这也是华人团队首次在该领域获得此国际奖项。

知识图谱的下一步是认知图谱

深度学习时代的知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,在知识图谱上“推理”也转入黑盒模型预测的范式。Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入 知识图谱 的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体、关系、尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。

知识图谱的一个重要特点就是可解释性和发现新知识的能力,这是目前深度学习方法很难做到的。知识图谱把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,类似于人脑的功能。比如评审专家的推荐,使用深度学习的方法进行训练,专家的查找过程是个黑盒操作,无法追溯推荐的理由。使用知识图谱建立的高精度的专家画像,及专家关系网络能够为专家推荐提供可解释性,比如评审专家的学科相似度、评审人和专家的关系等等。

但知识图谱同样存在不足。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

近年得益于自然语言处理的极大进步,BERT 等预训练模型带来的文本理解和检索能力使得我们可以在原始文本上进行理解和推理,例如 Chen 等人的 DrQA 就是使用神经网络直接从文本中抽取问题答案,掀起开放领域问题的新热潮。另一方面,我们必须保持知识图谱的图结构带来的可解释性和精准稳定的推理能力。例如,知识图谱很难构建百分百正确的、超大规模的知识图谱,因此,针对这些不足,认知图谱应运而生。

本质上,认知图谱的改进思路是减少图谱构建时的信息损失,将信息处理压力转移给检索和自然语言理解算法,同时保留图结构进行可解释关系推理。认知图谱主要有三方面创新,分别对应人类认知智能的三个方面:

1.(长期记忆)直接存储带索引的文本数据,使用信息检索算法代替知识图谱的显式边来访问相关知识;

2.(系统一推理)图谱依据查询动态、多步构建,实体节点通过相关实体识别模型产生;

3.(系统二推理)图中节点产生的同时拥有上下文信息的隐表示,可通过图神经网络等模型进行可解释的关系推理。

事实上,认知图谱正是由人类认知过程所启发,“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。在认知学里,著名的“双过程理论(dual process theory)”认为,人的认知分为两个系统,系统一(System 1)是基于直觉的、无知觉的思考系统,其运作依赖于经验和关联;而系统二(System 2)则是人类特有的逻辑推理能力,此系统利用工作记忆(working memory)中的知识进行慢速但是可靠的逻辑推理,系统二是显式的,需要意识控制的,是人类高级智能的体现。

认知图谱首先由清华大学和阿里巴巴在 2018 年的中国计算机大会上提出,后来 Ding 等人将其应用于多跳开领域阅读理解问答中。传统方法中,开领域问答往往依靠大规模的知识图谱,而阅读理解问答一般面向单段,此时阅读理解的 NLP 模型,例如 BERT,可以直接处理。然而,这样的方法在多跳(推理)问答中存在“短视检索”的问题,即在几跳(几步推理)的文本和问题回答中,真正的答案可能和问题相关性较低,很难被直接检索到,这导致了效果不佳。认知图谱问答提出一种新颖的迭代 框架:算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。

基于认知图谱技术,北京智谱华章科技有限公司(以下简称:智谱.AI)还研发了支持知识推理的科技情报挖掘系统。团队将认知图谱技术作为知识图谱的补齐任务,针对由现实世界中的实体和关系组成的知识图谱,提出了 CogKR 框架,基于认知科学中的双过程理论,通过构建认知图来完成在已知头实体和关系类型情况下推理尾实体的任务。比起基于嵌入的方法,该方法多跳推理的能力更强,并且具有更好的可解释性。比起过去的基于路径的多跳推理方法,该方法能够利用更加复杂的子图结构进行推理,而不会局限在单条路径,因此有更好的准确性。

数据和算法在知识图谱中扮演的角色?

在知识图谱中,数据扮演着底部基石的作用。据智谱.AI 的创始人唐杰教授介绍,知识图谱是源于数据的,是从数据中抽取结构化信息,数据的好坏直接关系到知识图谱构建的效率和质量。比如从结构化的数据中构建知识图谱会比从非结构化的数据中构建效率和准确率要高,数据越复杂,噪音越大,构建成本也就越高。智谱.AI 的“智慧人才”项目包含了大量科研人才、政府工作数据集,这些数据通过多个渠道来获取,包括通过和相关机构合作或购买版权的形式获取的内部数据,如 Digital Science、中国工程院等等;其次是通过爬虫的形式获取网络中的开放数据,比如国家和地方政府的网站,学者个人主页等等;此外智谱.AI 还使用了信息抽取的方法从论文、专利等科研文献中抽取相关的内容。这些不同数据源的异构数据在获取以后会通过数据融合算法进行融合与关联,为知识图谱构建提供基础。

知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,因此算法,尤其是深度学习算法在知识图谱中占据着举足轻重的地位。例如,Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入知识图谱的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体,关系,尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。然而,简单用词向量表示实体本身,忽略了他们的独特的符号特征:例如美国网红“James Charles”和 20 世纪著名时尚设计师“Charles James”的词向量平均结果相同,可是其知识图谱上的相关属性必然有很大差别。后来更多的目光转向大型知识图谱自身的嵌入训练,其中最为优雅有效的开创性工作是 Bordes 等人的 TransE。算法的目的是为知识图谱中每个关系或实体学习一个 d 维向量表示,对于知识图谱中任意的三元组事实 (h,r,t),算法要求它们的向量表示满足 h+r≈t。

针对知识建模,智谱.AI 也提出了一整套知识图谱构建的流程和算法:首先,是提出多维关系依赖的概率图标注模型,可以描述实例间的序列依赖关系,以及实例间层次依赖和二维依赖关系,将语义标注错误率降低 40-56%;针对开放互联网数据噪音大、冗余的特点,提出一阶逻辑概率因子图模型,提高了标注准确率,这个模型也获得了 ICDM 的竞赛冠军。其次,是提出多策略动态选择的语义集成方法 RiMOM,根据不同集成任务动态选择集成策略,实现全局集成风险最小化;提出基于随机场的概率实体排歧模型,根据对象表示的语义聚集性及其之间的拓扑关系提升了排歧性能。6 年获得国际语义集成 OAEI 评测的第一名。

值得一提的是,唐杰教授的团队还从理论上证明已有的多种网络表示学习方法(DeepWalk、LINE 等)都可以归一化到矩阵分解理论框架下,提出了网络表示学习的新思路。基于该理论,提出一种全新的基于矩阵分解的知识网络表示学习算法 NetMF,在多个公开数据集上,算法明显优于已有方法。此外,智谱.AI 也将该方法应用异构知识融合,利用链接相似度对跨语言知识图谱进行统一建模。

工业级知识图谱的技术难点和未来应用场景

目前,知识图谱在工业界的应用已经非常广泛,半自动化的知识图谱构建方法目前也已经基本达到了实际应用的水平。工业级的知识图谱要能够满足具体的业务需求,那么,在具体的落地应用中,又面临着哪些技术难点?

对此问题,唐杰教授表示,工业级知识图谱的应用,难点首先是知识的精准抽取与融合,多源异构数据的融合在实际应用场景中要复杂得多,而且数据质量也很难保证。可以根据各应用领域的特征有针对性的建立抽取及融合模型,也可以结合一些预训练模型进行分析。

其次是需要一个更加高效和友好的交互系统,辅助知识图谱的构建和校验,比如结合主动学习、对抗学习及小样本学习等方法,尽量减少人工的干预;利用日常工作中使用的系统,隐式的收集标注知识等等。在应用方面,目前知识推理的研究还是一个重要的难点,为此,智谱.AI 也探索了使用双系统理论进行认知推理,此外结合图神经网络及认知符号的推理方法也是一个很好的研究思路。

唐杰教授认为,目前知识图谱的应用主要还是集中在文本分析方面,将文本数据扩展到图像、语音等不同模态,多模态知识图谱的表示、获取和推理是目前值得关注的方向,学术界和工业界也都有了一些探索性的研究。尽管存在诸多技术难点,但随着深度学习的发展和算法的不断迭代,知识图谱已普遍应用在了知识融合、语义搜索和推荐、问答和对话系统中,未来将会在决策推理、深度关联挖掘等场景中发挥重要作用。

智谱.AI 首席顾问兼战略规划院名誉院长张钹院士,曾经指出知识图谱与公司的未来发展的关系:公司要办好的前提首先是发展方向正确,要将知识驱动与模型驱动相结合,走第三代人工智能之路。其次,要找到知识真正的应用场景。知识就是力量,我们要做知识的生产者,知识图谱与知识库就是财富的转换源泉。因为智谱.AI 是依托清华大学计算机系在知识图谱和智能计算方面的长期积累,是通过学校技术成果转化、在知识智能方向创立的第一家公司。张钹院士曾表示,在科技成果转化出来的公司中,最看重智谱.AI,也寄语智谱.AI:技术成果转化具有重要意义。但作为公司,还有很长的路要走,希望智谱.AI 能够像在学校里面做研究一样专注把每件事做好,创造真正的价值。

知识图谱的构建已走到下半场

从知识图谱的构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建是早期知识图谱构建的主要方法,手工构建的优点首先是准确率较高,其次是人类便于理解,缺点是效率低、成本高,构建出的图谱规模有限。

自动或半自动的构建方法,可以不同程度的提高构建效率,降低成本,目前很多方法已经能够实现亿级知识图谱的构建,这也得益于结构化和半结构化数据的积累。半自动化的知识图谱构建方法在将来一段时间内仍然会是主流,尤其对医疗、安全和金融等领域,数据质量要求较高,需要通过人工审核保证准确性。

在唐杰教授看来,认为知识图谱的构建研究已经走到下半场,知识图谱的应用还没有走到下半场,比如知识推理。目前已经有相当规模的工业级知识图谱已经落地,尤其是在金融、电商、医疗、社交、文娱、教育等领域。比如企查查、天眼查等企业知识图谱、Facebook、腾讯等社交知识图谱、美团的美食知识图谱等。

智谱.AI 也在科技情报领域构建了亿级科技知识图谱,包括技术、学者、论文、机构等实体、关系及属性信息,通过网络挖掘算法实现专家人才发现、技术洞察与趋势分析等应用。此外,公司还和阿里合作构建了千亿级的电商知识图谱,目前也已经应用于手机淘宝的推荐,将知识图谱自动构建准确率从 55% 提升到 88%,全面支撑手机淘宝搜索和推荐。

对这篇文章有什么看法?欢迎在下方评论区各抒己见。

发表评论

电子邮件地址不会被公开。 必填项已用*标注