面向推理的深度模型量化压缩优化技术研究

行业领域

电子信息技术

需求背景

近年来，深度学习模型在CV、NLP等领域实现了广泛应用。然而，庞大的参数规模带来的计算开销、内存需求，使得其在计算能力受限平台的部署中遇到了巨大的困难与挑战。因此，如何在不影响深度学习模型性能的情况下进行模型压缩与加速，成为了行业研究热点。

需解决的主要技术难题

优化压缩技术可以减小深度学习模型对于计算时间和存储空间的消耗，减少内存占用。一个神经网络中不同层对量化的敏感度是不一样的，因此应对不同层使用不同的bit-width，然而为每层找寻最优的bit-width是一个组合优化问题，其搜索空间是随着层数的增加指数增加的。在一个训练好的网络基础上，如何找到最优的量化参数是需要解决的关键问题之一；同时，对于量化目标对象，其分布影响着量化的效果，如何让量化目标对象的分布变得更适合量化是需要解决的另一关键问题。

期望实现的主要技术目标

1、模型压缩优化的量化尺度分析，探索合适的量化参数方法，包括基于统计近似的方法、基于优化的方法和基于可微分的方法，形成三种量化参数方法的分析报告；

2、混合精度量化方案设计，项目需要将推断中的浮点数运算量化为整数运算，最终将权重和激活函数量化为8-bit整数，只有一小部分参数（偏差向量）为32-bit整数，并在训练过程中引入伪量化的操作，用于模拟量化过程带来的误差，以使权值、激活值的分布更加均匀，方差更小。

需求解析

解析单位：江苏省苏州市 解析时间：2023-10-17

刘全

苏州大学

教授

综合评价

采用本压缩转换框架，所有的操作都可以在一个用户交互界面上进行，通过在该用户交互界面根据需要的指标修改各种参数，从而对目标模型的压缩方式和程度进行修改；用户可以在用户交互界面上启动深度学习目标检测模型的训练，也可以在训练结束后在用户交互界面上显示深度学习目标检测模型训练的进度；训练结束后，在用户交互界面上显示训练的效果，并可以导出压缩前的深度学习目标检测模型和压缩重新排序后的深度学习目标检测模型；如想观看压缩前后所述模型的识别能力变化，也可以通过点击所述用户交互界面上的各个功能按钮，进行模型对比测试，能方便进行观察对比；通过将深度学习目标检测模型进行压缩，并将其转换为适合硬件系统进行读取的格式；在尽量减少降低检测准确率的情况下，节约了存储空间，提高了运算速度，充分利用了硬件的资源。

更多

科创中国

科创中国

友情链接

海外专利信息资源系统 企业技术创新力在线自测系统

省级中心站

科创中国

科创中国

友情链接

海外专利信息资源系统 企业技术创新力在线自测系统

省级中心站

海外专利信息资源系统企业技术创新力在线自测系统