成果介绍
获取多个视频及其对应的多条描述性文本;将描述性文本输入跨模态检索模型中扩展文本,以及为视频生成相应字幕;对字幕、扩展文本和描述性文本进行编码,获取编码后的描述性文本编码特征与字幕和扩展文本编码的相似度,根据相似度结果获取增强文本,将增强文本与伪配对视频进行跨模态检索模型的训练,获得最终的跨模态检索模型,并进行检索。
成果亮点
将真实场景与描述性文本关联起来,从而扩展文本中的实体信息,提高视频文本之间的相关性,促使模型理解常识性信息,减少增强文本与视频不匹配对检索性能的影响,提高检索效果。
团队介绍
领先博士刘立波:宁夏大学教授,宁夏科技领军人才,博士,博士后,博士生导师;研究方向涉及智能信息处理,计算机视觉、图像处理与模式识别,数据库技术及应用等领域;刘进锋:宁夏大学教授,博士、硕士生导师;主要从事智能信息处理领域研究,重点关注可解释机器学习方向。张鹏:宁夏大学副教授,博士,硕士生导师;研究方向涉及智能信息处理,媒体分析与理解,云计算与物联网的应用研究领域;邓箴:宁夏大学准聘副教授,宁夏科技托举工程人才,博士,硕士生导师;研究方向涉及深度学习、图形图像处理、多模态表征以及智能信息处理等领域;焦小刚,宁夏大学副教授,博士,研究方向涉及智能调度、优化算法和强化学习等领域。
成果资料