成败与未来走向,10年生物医学文本挖掘界竞赛梳理
发布时间: 2020-11-18
作者:林檎

图片出处:unsplash
BioNLP 是 NLP 与生物医学交叉而来的一个方向。
随着起源于 1994 年的蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction, CASP) 在生物信息学研究中大获成功,文本挖掘研究社区正在持续推进着这个方向的研究。
一篇名为《Community challenges in biomedical text mining over 10 years: success, failure and the future》的论文,则很好地梳理了 2002 年~2014 年期间,不同社区组织的 BioNLP 挑战评估及任务,并总结了任务数据的影响和局限以及未来的趋势。
BioNLP 的下一个 10 年,正是在这些过往序章之上所展开。

如何举办一次 BioNLP 任务 / 竞赛的流程图。
应对生物医学文献爆炸式增长的挑战
每一天生物医学期刊上发表的文章都超过 3000 篇。
生物医学文献规模巨大,增长迅速,使文献检索和信息获取成为一项艰巨的任务。在处理日益可用的电子医疗 / 保健记录时,临床领域的保健专业人员面临着类似的信息爆炸和过载问题。
由于学术出版物和临床记录主要是用文本编写的,NLP 在生物医学研究中变得越来越重要,因为它可以通过从免费文本中提取关键信息并将其转化为结构化知识以供人类理解,从而大大促进研究生产力。

数据通道技术是基于 NLP 技术和通道化(channeled)数据的应用。
自 1990 年代末以来,NLP 与生物医学之间的跨学科合作社区变得更加普遍,形成了一个新的研究领域,称为生物医学自然语言处理 (BioNLP) 或文本挖掘,其目标是为各种生物医学应用开发 NLP 方法。
如图所示,文本挖掘开发人员首先使用信息检索 (IE) 技术,如文档分类和文档 / 密码检索来选择相关文档。选择过程称为文章分类,然后再将信息提取技术 (例如事件提取或实体相关提取),以识别可能代表目标信息焦点的文本段。这个信息焦点可能是 实体 - 实体相互作用 ,如药物 - 药物相互作用 和蛋白质 - 蛋白质相互作用 ; 实体 - 实体关系,如蛋白质 - 残基关联、基因关系或临床记录中的时间关联;特定生物实体的功能或关联的参考声明或实验方法,如基因功能标注; 生物过程,如磷酸化以及 参与功能实现的生物实体,如基因事件 (gene event) 提取等。
而 NLP 技术的加入不但能使得生命科学领域的科学家从繁重的手动选择、查阅文本工作中解放出来,从生物医学文献和临床记录中提取或提取的信息,也具有广泛的现实世界应用。例如可用于协助数据库管理、建立语义网络、帮助开发交互式系统、开发计算机辅助治疗工具等等。
2018 年,deepmind 向 CASP 提交了预测蛋白质结构的 AI AlphaFold,并成功夺冠。
1994 年的第一届 CASP 蛋白质结构预测大赛是一个重要的开始,在那之后大量的 BioNLP 共享任务 / 挑战 / 竞赛开始涌现。研究团队收集了 2002 年~2014 年期间的主要 BioNLP 任务,并根据原始数据类别将 2002 年~2014 年期间的 BioNLP 任务简单分为两类:一类任务倾向于在处理生物医学文献中的信息,而另一些则关注医疗记录。


按 NLP 领域分类的竞赛子任务和赛道。
2002 年~2014 年期间的 BioNLP 任务一览
1、KDD Cup、 TREC Genomics/Chemical 和 CoNLL
早期的挑战,如 KDD 杯和 TREC Genomics,大多关注在文档检索或文档分类任务上。例如,2002 年的 KDD 杯中的苍蝇遗传学任务,要求参与者确定一篇文章是否符合苍蝇基因表达的标准。
TREC ad hoc 2003 年要求对基因功能文献进行文档检索(即选择出讨论基因功能的文档)。之后的 2003、2004 年,则关注与基因或其他生物实体有关的文献。TREC 也尝试了基因功能(GeneRIFs)相关的文段 / 表述提取。2006 年和 2007 年,TREC Genomics 进一步将搜索主题限定为自然语言问题(2007 年基于生物实体的问题),通过 NLP 解决生物学家在问答(QA)范例中的相关任务。延续之前在文档检索方面的努力,TREC 于 2009 年至 2011 年又新组织了一个化学轨道,以帮助解决现实中化学工业会面临的的文件检索需求。
对于文本分类,CoNLL 将其 2010 年的共同任务确定为识别生物医学文献中的不确定句子和定位句子中的对冲线索,因为生物医学出版物中常见的否定和推测可能对文本挖掘结果产生直接影响。
2、BioCreative, JNLPBA 和 CALBC
2004 年,BioCreative 和 JNLPBA 开始关注免费文本中检测生物实体的需求。具体来说,BioCreative I 中的 Gene Mention(GM)任务旨在检测基因名称,而 JNLPBA 中的生物实体任务则涉及多种实体类型,包括 DNA、RNA 和细胞类型。
生物命名实体识别(NER)是必不可少的,因为它是许多高水平 NLP 任务的基础模块之一,如蛋白质 - 蛋白质相互作用或基因调控(GR)提取。继 GM 任务之后,BioCreative I ,BioCreative II 和 BioCreative III 中的基因标准化(GN)任务被引入,其中自
动定位的基因名称被进一步映射到某些标准词典 / 数据库中的唯一标识符,例如 EntrezGene。除了基因和蛋白质,最近的 BioCreative 任务也关注如化学品和疾病这样的关键生物实体的自动检测。
CALBC 是另一个面向 NER 的挑战,目标是生成一个带有注释生物实体的大型共享语料库。

按时间顺序排列的 BioNLP 任务。
3、BioNLP-ST
与 BioCreative 和其他 IE 任务相比,BioNLP-ST 在如何与参与实体一起表示生物事件 / 过程具有独特的语义,并致力于事件 / 关系提取。
2009 年、2011 年 和 2013 年的 BioNLP-ST GENIA(GE)任务,要求提取基因相关事件,如调节、表达和转录,并将它们与相应的事件参与者、定位或 位点联系起来。
BioNLP-ST 2011 Bacteria 任务和 2013 Bacteria Biotope 任务旨在检测细菌的栖息地,而 BioNLP-ST 2011 Infectious Diseases 任务和 2013 年癌症遗传学(CG)任务则分别关注生物分子传染病和癌症遗传学的机制。
BioNLP-ST 还涵盖了比较高级别的人物,如 BioNLP-ST 2013 中的 Pathway Curation 任务这样高层次和共引用冲突解决(即 BioNLP-ST 2011 中的共引用(CO 参考)和名称别名(BioNLP-ST 2011 中的 REN 任务)这类基础任务。虽然一些任务是基础任务,但共同引用和别名问题对事件提取系统的性能施加了一个上限。
4、TAC Biomed Summ
2014 年,TAC BiomedSumm 赛道要求参与者利用引用特定论文(“citances”)的引用句子集进行综述(summarization),这是 BioNLP 研究中的一个重要问题。具体而言,该赛道包括识别反映参考文章的英文内容文本段,将这些内容进行分类,然后根据社区对其引文的讨论,为参考论文生成摘要。
5、i2b2, TREC Medical/CDS
Informatics for Integrating Biology and the Bedside(i2b2)于 2006 年发起了第一个以临床为导向的挑战任务。i2b2 早期的重点是 “去标识”,该任务与 NER 相似。之所以有该任务是因为医疗场景中,在分发处理数据之前需要将敏感的私人健康信息 / 临床记录脱敏。
同样是在 2006 年,i2b2 发布根据文献(如临床记录)确定吸烟状况的文本分类任务。2008 年,i2b2 发布根据文献(如临床记录)预测肥胖及其并发症的任务,2011 年发布句子层面(来自自杀笔记)识别情绪的任务, 2014 年根据文献(如临床记录)层面预测心脏病风险。
i2b2 也对提及检测和概念识别有兴趣,但几乎不涉及生物实体。相反,i2b2 在 2009 年和 2010 年任务中根据临床记录涉及临床概念,例如医学问题、测试、治疗、药物和剂量,以及 2012 年的时间相关表达: 2010 年,通过判断性信息(例如,是否存在医疗问题)对已识别的实体进行分析, 2012 年涉及了与时间相关的表达(例如手术前的剂量)。
另一方面,近年来 TREC 的重点从生物医学文献转向临床记录。TREC Medical 于 2011 年和 2012 年被引入,旨在确定符合特定 “纳入标准”(例如性别,年龄组,治疗和疾病)的队列,用于临床研究、临床试验或流行病学研究。
2014 年,TREC CDS 调查了用于临床决策支持的医疗案例检索 NLP 技术。
6、ShARe/CLEF eHealth and SemEval
除了 i2b2 和 TREC Medical / CDS ,2013 年还试行了一项名为 ShARe / CLEF eHealth 的新赛事。
它涉及三个单独的任务:(a) 临床注释和规范化中关于疾病名称的传统 NER;(b) 将临床文档中的缩略词和缩写映射到 UMLSCUIs;(c) 检索相关文档,以解决患者在阅读出院摘要时可能遇到的问题。
2014 年,SemEval 的任务 7 重复了疾病 NER 和 ShARe / CLEF eHealth 2013 的常规任务,而 ShARe / CLEF eHealth 2014 启动了一系列不同的任务:(a)健康数据交互式搜索系统;(b)疾病模板 / 属性填充;(c)ad hoc 医疗记录检索,其中任务(c)是首次尝试处理多种语言。

在上图中,研究团队通过 NLP 研究中的目标问题对表一中的挑战赛道进行分类。底部是 IR(ad hoc 检索、段落检索和文本分类)到 NER(提及检测,归一化和共引用),到 IE ,最终到 QA 和总结。
挑战与展望
尽管上述的这些主要由社区推动的任务和竞赛挑战推动了领域的发展,但研究团队指出,还存在以下三个方面的局限性:
首先,由于采用开放式评估(任务必须明确定义并具有 “适当” 难度级别),最终的任务总是被简化或从现实问题中抽象而来。
例如,基于访问受限制和处理全文的困难,一些 BioNLP 挑战任务共同的简化步骤是使用摘要,尽管个别研究人员、数据索引者和组织人经常阅读全文 。其他例子包括在 QA 或 IR 任务中,使用适度数量的人为和结构良好的有限类型问题,而在现实中,信息搜索者通常会提出复杂且开放式的自然语言问题,这些问题往往是形式错误和不合语法的 。
其次,方法可能没有足够的参与度和创新。参与不足可能是由于任务本身(太困难或没有吸引力)或由于其他竞争任务在同一时间推出。近年来,不少任务的发布都会有所重叠。因此,一些任务的参与程度很低(不到 5 个团队)。此外,当一个任务被分解成多个子任务时,较少的团队可以系统地完成这个总任务。
例如,在 BioNLP-ST2009 中,有 24 个团队参与 GE 子任务 - 1, 却只有两个团队完成了所有三个子任务。
在技术进步方面,挑战任务旨在通过开发新的和不同的技术来激发研究界取得进步。然而,当一种现有方法被发现是有效和有竞争力的,参与者整体的解决方法往往就会缺乏多样性。
例如,在 2006 年 i2b2 挑战中,吸烟状态检测任务的前 12 个系统中,9 个使用支持向量机,最终 F 值并没有统计学上的显着性
差异。
最后,挑战任务与实际使用之间存在差距。例如,之前的 BioCreative Gene Normalization 挑战表明,在全文而非摘要上测试时,任务的性能会显著下降。最后,许多参与此类挑战的参与者,只是在期刊上发布了结果,却难以继续将他们的方法推向现实应用。
即便存在上述几大局限,对于该领域未来的走向,研究团队依然强调,鉴于 BioNLP 迄今取得的成绩,竞赛和任务仍将继续在其中发挥关键作用。其中的一些基本任务可能还会继续,但以解决生物医学研究和医疗保健中的不同用户需求的新任务,也将十分值得期待。
BioNLP 任务将继续推动成功的技术 / 方法转化为实际应用。为了实现这一目标,除了传统的系统精度评估外,系统可扩展性和互操作性评估还应成为未来挑战评估的重要因素。
另一种趋势可能是,在资源总是有限的限定条件下,与其各自分散发布不同的任务,不如搭建一个更加协同、更加高效、更加的经济的框架,同时惠及参与者和组织者。正式的任务评估已经在一定程度上展现了实用性,但是协同性的竞赛可能是共同解决单个队伍无法解决的现实世界问题的重要途径。
Refrence:
[1]#