[神经网络的压缩]


随着深度学习技术的快速迭代,神经网络的参数量从早期AlexNet的6000万增长到如今千亿级大模型,性能飙升的背后,是对算力、内存、功耗的极高要求,这也成为AI模型从云端走向终端、从实验室走向产业落地的核心瓶颈。神经网络压缩技术正是为了解决这一矛盾诞生的,它通过一系列算法优化,在尽可能保留模型精度的前提下,降低模型的参数量、计算量和运行延迟,让高性能AI模型能在手机、车载芯片、物联网设备等资源受限的平台上稳定运行。

目前主流的神经网络压缩技术可以分为五大类,各自适配不同的落地场景:
第一类是剪枝技术,核心思路是“去掉冗余参数”。早在上世纪90年代,扬·勒丘恩提出的“最优脑损伤”方法就是剪枝的雏形,它会评估每个权重对模型精度的贡献,删掉贡献极低的权重,相当于给模型“剪枝”。如今剪枝技术分为两类:非结构化剪枝可以精准删掉单个冗余权重,精度保留效果更好,但需要硬件支持稀疏计算才能发挥效率优势;结构化剪枝则直接删掉整个卷积通道、注意力头甚至完整网络层,压缩后的模型和普通模型结构一致,不需要特殊硬件支持,是工业界更常用的方案。
第二类是量化技术,是当前落地最广泛的压缩方法。常规神经网络的权重用32位浮点数存储,量化技术会把它转换为16位、8位甚至更低位数的整数表示,最高可以把模型体积压缩到原来的1/32,同时大幅降低计算功耗和延迟。目前量化分为两种路线:训练后量化不需要重新训练模型,只需要用少量校准数据调整量化参数,操作简单适合快速落地;量化感知训练则在模型训练过程中就模拟低位计算的噪声,让模型提前适应量化带来的误差,精度损失几乎可以忽略,现在端侧部署的大模型普遍采用4位量化感知训练方案,7B参数的大模型只需要3.5G左右的存储空间,普通旗舰手机的NPU就能流畅运行。
第三类是知识蒸馏,由深度学习先驱辛顿在2015年提出,核心思路是“让小模型学大模型的经验”。它把参数量大、性能强的模型称为“教师模型”,把需要压缩的小模型称为“学生模型”,训练时不让学生只学习标注的硬标签,而是学习教师模型输出的概率分布(软标签),这些软标签包含了不同类别之间的关联信息,能让小模型在参数量仅为教师模型几十分之一的前提下,性能接近教师模型的水平。如今知识蒸馏已经广泛应用在大模型压缩场景,比如把70B参数的通用大模型蒸馏成7B参数的端侧模型,性能可以保留原模型的85%以上。
第四类是低秩分解与参数高效适配,核心思路是“用小矩阵代替大矩阵”。神经网络的权重矩阵大多存在冗余性,可以通过矩阵分解把一个m×n的大权重矩阵拆成两个m×k和k×n的小矩阵,其中k远小于m和n,参数量可以降低一个数量级。近年来大火的低秩适配技术(LoRA)就是基于这一思路,在大模型微调时只更新新增的低秩矩阵,微调成本仅为全参数微调的1%,同时压缩了微调后模型的存储体积,已经成为大模型定制化落地的标配技术。
第五类是轻量化架构设计,从模型设计的源头就实现“天生轻量化”。比如针对移动端设计的MobileNet采用深度可分离卷积,把传统卷积的计算量降低了8-9倍;Transformer架构的优化则诞生了LiteTransformer、MobileViT等轻量化模型,在手机上就能实现实时的图像分类、自然语言理解任务。近年来爆火的小参数大模型,比如参数只有1.8B的Phi-2、7B的通义千问2,都是通过优化训练数据、架构设计,实现了小参数模型接近十倍参数规模大模型的性能,是压缩技术与模型训练技术结合的典型成果。

神经网络压缩技术已经成为AI产业落地的核心支撑,在多个场景实现了规模化应用:在消费电子领域,旗舰手机搭载的端侧AI助手、AI修图、实时字幕等功能,都是依靠压缩后的大模型实现,所有计算都在本地完成,既降低了延迟又保护了用户隐私;在自动驾驶领域,车载感知模型经过压缩后,运行延迟从数百毫秒降到10毫秒以内,满足了自动驾驶的实时性要求;在物联网领域,智能门锁、智能手表上的人脸识别、语音唤醒功能,都是把MB级的小模型压缩到几十KB,在算力极低的嵌入式芯片上就能运行。

当前神经网络压缩技术仍然面临不少挑战:超低位量化(2位及以下)的精度损失问题还未完全解决,多模态大模型的跨模态压缩难度远高于单模态模型,不同硬件平台的压缩适配成本仍然较高。未来随着自动化压缩工具的成熟,结合神经架构搜索(NAS)技术,将可以针对具体场景和硬件自动生成最优的压缩模型,进一步降低AI落地的门槛;而针对大模型的专用压缩技术的突破,也将让千亿级大模型有望走进端侧设备,推动AI应用进入更加普惠的新阶段。

本文由AI大模型(Doubao-Seed-1.6)结合行业知识与创新视角深度思考后创作。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注