基于指令引导GPT的文本检索视频方法、系统和设备

获取多个视频及其对应的多条描述性文本；将描述性文本输入跨模态检索模型中扩展文本，以及为视频生成相应字幕；对字幕、扩展文本和描述性文本进行编码，获取编码后的描述性文本编码特征与字幕和扩展文本编码的相似度，根据相似度结果获取增强文本，将增强文本与伪配对视频进行跨模态检索模型的训练，获得最终的跨模态检索模型，并进行检索。

将真实场景与描述性文本关联起来，从而扩展文本中的实体信息，提高视频文本之间的相关性，促使模型理解常识性信息，减少增强文本与视频不匹配对检索性能的影响，提高检索效果。

领先博士刘立波：宁夏大学教授，宁夏科技领军人才，博士，博士后，博士生导师；研究方向涉及智能信息处理，计算机视觉、图像处理与模式识别，数据库技术及应用等领域；刘进锋：宁夏大学教授，博士、硕士生导师；主要从事智能信息处理领域研究，重点关注可解释机器学习方向。张鹏：宁夏大学副教授，博士，硕士生导师；研究方向涉及智能信息处理，媒体分析与理解，云计算与物联网的应用研究领域；邓箴：宁夏大学准聘副教授，宁夏科技托举工程人才，博士，硕士生导师；研究方向涉及深度学习、图形图像处理、多模态表征以及智能信息处理等领域；焦小刚，宁夏大学副教授，博士，研究方向涉及智能调度、优化算法和强化学习等领域。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站