TF116 | 多模态大模型技术进展及应用

发布时间: 2023-10-31

8月10日,CCF TF第116期“多模态大模型技术进展及应用”邀请了来自中国科学院自动化研究所、字节跳动、百度的专家,深入探讨了多模态大模型的技术进展及产业应用。

CCF TF第116期“多模态大模型技术进展及应用”由CCF TF算法与AI SIG策划呈现,邀请到中科院自动化所副研究员郭龙腾、字节跳动AI-LAB算法工程师曾妍、百度杰出架构师肖欣延三位资深专家,回顾多模态大模型的历史,介绍其发展现状和丰富的产业应用,探讨所面临的挑战并展望未来发展前景。 

本次活动由CCF TF算法与AI SIG主席何中军主持。


《多模态预训模型的技术回顾与展望》

图片

郭龙腾的报告分析了多模态预训练模型的研究背景与必要性,回顾当前多模态预训练模型的研究进展,并介绍多模态大模型的架构设计、学习优化、下游应用,以及最新前沿研究方向如多模态大语言模型、多模态具身智能等。此外,他还介绍了自动化所研发的全模态的认知大模型“紫东太初”,融合了音视频、图片、文本,实现多种模态的融合理解和生成,最后分析多模态预训练模型所面临的在数据、模型、训练等方面的技术挑战。X


《多模态技术与应用》

图片

曾妍详细介绍了多模态预训练技术(涵盖图像/视频和文本)方面的近期工作,包括多粒度视觉语言预训练方法X-VLM、多语言多模态预训练CCLM,以及其在字节跳动产品上的应用,如图片描述、视频审核、电商客服等。最后,她介绍了最新研发的多模态大语言模型Lynx,通过多阶段训练使用不同的训练数据来提升模型的综合能力。


《多模态内容生成技术与应用》

图片

肖欣延介绍了百度在多模态内容生成方面的技术和应用,重点介绍从自然语言到视觉内容的生成。他首先回顾了近年来的技术进展,结合场景需求介绍了自研的文生图大模型ERNIE-ViLG,以及基于此技术的文生图产品“文心一格”;然后介绍了基于多模态大模型的视频创作系统TTV(Text-To-Video),通过文案理解与生成、素材分析与处理、素材扩充与编排等可以快速地根据用户需求生成视频;最后介绍了广泛应用,AIGC正在大幅提升内容创作的效率和质量,助力想象力涌现,基于大模型创造出独特的AI作品。

本次活动三位嘉宾的报告内容干货满满、精彩纷呈。提问互动环节,线上参会观众积极参与,提出了“通过文本提示来生成图文并茂的文案,可以怎么来训练模型?”“多模态模型训练的数据量和计算资源开销与耗时情况?”等问题,三位讲者从自己分享的内容角度切入,耐心解答、互动。

大模型技术日新月异,希望本次分享与交流能够给大家带来启发和思考,促进技术的发展。


稿件来源:中国计算机学会

封面/图片来源:中国计算机学会

摄影:中国计算机学会

编辑:金仁政

监制:窦路婷