一种基于自监督学习任务的小样本手绘草图及甲骨文理解及数据增广方法

发布时间: 2022-01-20

基本信息

合作方式：技术转让

成果类型：发明专利

行业领域：

高端装备制造产业,制造业

成果介绍

技术背景：随着触屏设备的普及，比如平板电脑和手机等，每个人都可以容易地进行手绘草图的绘制。目前，关于如何自动化地理解手绘草图的研究集中在 2D 的像素图片以及有监督学习上，并且这些有监督的学习模型往往聚焦在一个具体的任务上，比如分类，检索等。而这样的方法并不具备直接迁移到其他任务上的能力，所以这种方法泛用能力较差。而且，对于大量的数据进行标注费时费力，人力和时间成本高昂。目前，在自然语言处理领域，有相当一部分自监督学习模型显示出了对于各种自然语言任务的优越性，比如 BERT 模型，GPT 模型以及 XLNet 模型等。这些模型都采取了利用背景数据预测未知数据的自监督学习任务。因而，本项目首先提出一种基于自监督学习任务的手绘草图理解深度学习方法 Sketch-BERT（如图 1 所示），提出了新的手绘草图格式塔任务，即旨在预测未知的连续坐标数据以及离散数据的自监督学习任务，并且根据这一自监督学习任务以及基于双向编码表示和自注意力机制的深度神经网络模型提出了基于自监督学习的手绘草图理解模型。在自监督学习模型之外，该模型还可自然地迁移到各种有关手绘草图的下游任务上，比如手绘草图分类和检索任务。相比于之前的模型和方法，本模型的效果更好，所需要的监督数据更少，泛化性更强，不仅可以使用大量未标注数据进行学习还可以提升下游任务的表现。在此基础上，由于甲骨文作为象形文字和手绘草图具有诸多相似之处，且存在数量众多的尚未释读的甲骨文（已发掘的 4500 多个单字中只有约 2000 个被成功释读），这些未标注的数据只能诉诸自监督学习，故可以借助上述手绘草图理解模型 Sketch-BERT。和其他古文字识别一样，甲骨文识别同样面临着数据不足和不平衡的问题，此前的甲骨文分类研究多着眼于样本数较大的类别的识别问题，而针对某些样本数极其有限的甲骨文的识别天然地属于小样本学习任务。此外，对于甲骨文识别任务，获取大量标注数据并不现实，无法满足标准小样本识别任务对大量有标注的源数据的需求。因而，本项目借助上文提及的基于自监督学习任务的手绘草图理解深度学习方法 Sketch-BERT，进而提出了一种在只有大量无标注源数据和小样本有标注数据的情况下通过自监督学习以及抹除-预测的格式塔任务生成大量与原图相似且多样的高质量增广样本从而应用于甲骨文识别任务中的数据增广模型——Orc-Bert Augmento（r 如图 2 所示）。由于利用序列化算法将位图格式的甲骨文数据序列化为点-笔划组成的序列，因此考虑到了甲骨文的本身的笔画顺序和大致形状并通过点序列的形式更加贴切地将甲骨文描述出来。同时，由于该基于自监督学习任务的手绘草图理解深度学习方法可提取到草图或甲骨文的深度特征，因此能够捕捉到汉字或甲骨文的基本形状信息和语义信息，并且避免了传统小样本学习中需要大量有标注源数据的缺点，从而保证了模型高效性的同时降低了数据收集成本。Orc-Bert Augmentor 生成的增广数据进行甲骨文识别具有较好的鲁棒性、较高的精确度、较强的泛化能力，并能显著提高小样本甲骨文识别的结果。

成果亮点

团队介绍

成果资料

科创中国

友情链接

国际技术贸易

海外专利信息资源系统

省级中心站