巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

12-06 IT文章

雷锋网 AI 科技评论按：阅读理解是近两年自然语言处理领域的热点之一，受到学术界和工业界的广泛关注。所谓机器阅读理解，是指让机器通过阅读文本，回答内容相关的问题，其中涉及到的理解、推理、摘要等复杂技术，对机器而言颇具挑战。

近日，在雷锋网 AI 研习社公开课上，追一科技语义算法研究员巨颖作为 CMRC2018 中文机器阅读理解比赛的冠军团队成员之一，将为大家剖析机器阅读理解的关键知识点，并结合追一的实践经验，分享如何从数据、模型、训练角度提升模型性能，探讨 AI 时代阅读理解技术的产品化落地：？=aitechtalkjuying

分享嘉宾：

巨颖，追一科技语义算法研究员，清华大学硕士。主要负责阅读理解相关项目，为追一 AIForce、坐席助手等产品提供技术支持，在阅读理解、文本分类、信息抽取等方面有深入的研究和丰富的应用经验。

分享主题：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地

分享提纲：

何谓阅读理解：常用数据集和基础架构

阅读理解的模型性能提升：从数据、模型、训练等角度

阅读理解的产品化落地

雷锋网 AI 研习社将其分享内容整理如下：

今天的分享主题是阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地，分享提纲包括：

第一，介绍相关背景知识：常用数据集和基础架构；

第二，我们本次从 CMRC2018 中文机器阅读理解比赛的获奖经验入手，介绍如何从数据、模型、训练等角度来阅读理解的模型性能；

第三，结合我在工作实践中的经验和体验来谈一谈阅读理解产品化落地的方向。

何谓阅读理解：常用数据集和基础架构

这部分主要介绍几个数据集和经典模模型。

数据集分为四个类别：

第一种是完形填空式；

第二种是多选式；

第三种是原文中的片段；

第四种是答案由人类总结而来。

每一种数据集我都会以一个案例来进行讲解：

完形填空式

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

多选式

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

原文中的片段

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

答案由人类总结而来

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

（关于四种数据集的案例讲解，请回看视频 00：02 ： 45 处，？=aitechtalkjuying）

接下来讲一些阅读理解的经典 Model，主要包括：

Allen AI 提出的 BIDAF

微软提出的 R-NET

Google 提出的 QANet

最近刷榜的 GPT & BERT

进入 Model 讲解之前，我们先思考一个问题：机器如何进行阅读理解？我们人类一般会先通读文章和问题，再带着问题重新阅读文章，并定位答案的区间，进而找到正确的结果，机器阅读也是一样：

第一步，将词汇向量化；

第二步：相当于阅读文章和阅读问题；

第三步：会采用 Attention 的机制来实现，将文章和问题的信息进行融合。

现在进入到 Model 介绍：

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期

（关于这四个 Model 的具体讲解，请回看视频 00：13 ： 15 处，？=aitechtalkjuying）

阅读理解的模型性能提升：从数据、模型、训练等角度

接下来我们从 CMRC2018 中文机器阅读理解这个比赛入手，介绍我们如何从数据、模型、训练等角度来阅读理解的模型性能。

CMRC 由中国中文信息协会举办，中文全称为机器阅读理解大赛，它的整个数据构造都跟 SQuAD 非常类似，只是换成了中文维基百科，它也是一个抽取式的阅读理解，一个问题对应一篇文章，问题数为 1.9 万个，训练集大概是 1 万条，验证集大概是 3 千条，测试集大概是 5 千条，答案一定是文章中的一部分，评测指标是 EM & F1。

下面是 CMRC 的一个例子：

巨颖：阅读理解进阶三部曲——关键知识、模型性能提升、产品化落地 | 猿桌会第 61 期