夸克

更精准、更专业,夸克智能问答系统的构架与实践

夸克是阿里巴巴旗下智能搜索 APP。聚焦智能化信息服务,夸克以智能、高效的搜索体验和创新的功能场景,打造智能化内容 + 服务的分发平台,目前已服务千万级用户。技术研发层面,夸克算法技术团队持续升级智能问答体系,面向未来探索下一代智能搜索。

  背 景

  问答系统 (Question Answer System, QA) 是信息检索的一种高级形式,对用户提出的问题,能直接返回准确、精炼、完整的答案满足用户需求。近年来,随着人工智能技术的飞速发展,问答系统已经成为倍受关注的研究方向。夸克智能问答结合了近两年前沿的预训练模型和深度语义匹配技术,为用户提供专业、精准的通用问答服务,本文重点介绍构建该系统时的一些实践经验,希望对问答系统建设者有一定的借鉴意义。

  整体架构

  夸克智能问答系统利用知识库、专家问答数据、UGC 问答数据、自然网页等多种不同来源、不同质量的数据,使用机器阅读理解技术、问题重述等自然语言生成技术、基础相关性特征等多种基础技术能力,建立了问题意图识别、语义检索、答案抽取、答案校验融合等算法模块,最终通过知识问答、精选问答、智能摘要等多种形式为用户提供更专业、精准的通用问答服务。

  问答模块

  针对不同的数据源特点和用户多样的检索需求,夸克智能问答系统设计了知识问答、精选问答、智能摘要等多个问答模块,结合信息抽取、深度语义匹配、答案抽取等诸多算法,将优质的答案以更好的形式直达给用户。

  知识问答

  知识问答是基于结构化知识的问答模块。理解用户的需求、实现真正的语义理解需要知识,从下图例子可以看到,如果没有知识库的数据支撑,很容易误抽取出错误的答案“张牧之”或者“张麻子”,相反如果结合知识库数据,不难得到正确答案“姜文”。

  知识的获取是构建知识问答模块不可或缺的环节,夸克探索了一种半自动化、自底向上的大规模知识库构建方式,大大降低了知识库的构建成本,整体知识库构建流程如下图所示:

  有了通用领域的大规模知识库,知识问答系统通过 Query 结构化、知识查询、知识推理等技术从海量知识数据中获取专业的知识作为答案,精准满足用户需求。例如用户在搜索框里搜索“朱棣皇位传给谁”、“词人李清照南宋还是北宋的”,返回如下图所示的结果:

  精选问答

  精选问答是基于专家问答数据库的模块。为了给用户提供更多权威、专业的优质的内容,结合用户兴趣点分析,我们和行业专家、优质自媒体等内容生产方定向生产、建设了大批优质、权威的专家问答数据库,包含文字、图片、视频、音频等多源富媒体形式,覆盖医疗、健康、法律、美食、生活指南等多个行业。基于以上大规模的高质量 Pair,线上通过 Query&Question 的深度语义匹配技术从候选问答 Pair 中获取优质的内容作为答案直接返回给用户,为用户提供精选答案体验。

  智能摘要

  智能摘要是从自然结果中在线获取用户所需答案的模块。知识问答、精选问答只能覆盖中高频的查询,无法应对大量长尾问答需求,而全网搜索结果中存在大量适合作为答案的优质网页数据,智能摘要模块结合了意图分析、网页质量判别、深度语义匹配、机器阅读理解等多种技术,在线、实时地从检索的 Top 网页中抽取出适合作为答案的文本内容返回给用户。结合开放域、多粒度的答案抽取能力,系统拥有了短答案前置、观点判断、智能飘红等丰富展现样式,进一步提升用户体验。

  总结及展望

  夸克智能问答系统目前已经在为夸克搜索、UC 浏览器、天猫精灵等海量用户提供专业、精准的通用问答服务。展望未来,我们期待技术驱动业务,为用户提供更大的价值,并持续在以下技术方向发力:

  进一步提升模型的鲁棒性:基于 BERT 等预训练模型技术虽然表现出非常好的性能,展现了强大的语义编码能力,但从预测结果上看,模型对一些文本的线索信息具有强大的记忆能力,存在对某些模式显著的过拟合问题,对于存在误导的对抗性样本表现非常脆弱,鲁棒性待进一步的提升。

  大规模知识体系的进一步结合:在很多情况下,只有具备了一定程度的知识,模型才有可能对字面上的含义做出更深一层次的理解。在机器阅读理解等模型中如何更进一步融入领域知识、常识信息,在更好的理解语言的同时使模型具有更好的可控性和可解释性具有较高的价值。

  从智能问答走向智能对话:在智能问答系统的基础上,更进一步结合客观知识和上下文信息,实现更自然、更智能的人机对话。

  多模态数据源的进一步融合:随着互联网的持续发展,用户对于智能问答系统在信息的模态、直观性和丰富性上提出了更高的要求。如何进一步在交互形式、语义理解能力、数据处理流程等环节进一步优化智能体验,更好地满足多媒体形式下的用户需求值得深入研究。

  你对这篇人工智能文章有什么看法呢?欢迎在下方评论区各抒己见。

发表评论

电子邮件地址不会被公开。 必填项已用*标注