在大语言模型的性能评估体系中,推理速度tokens/s是最贴近用户实际体验的核心指标之一,其数值高低直接决定了人与大模型交互的流畅度,也关系到大模型商业化落地的成本效率。
要理解这一指标,首先要明确“token”的含义:token是大语言模型处理文本的最小单位,中文场景下1个token通常对应1.2-2个汉字,英文场景下1个token约等于4个字符或0.75个单词。tokens/s的全称为tokens per second,指的是大模型在推理生成内容时每秒钟可以输出的token数量,数值越高代表推理速度越快。
推理速度的高低受到多维度条件的制约:首先是硬件基础,搭载高带宽显存的高端GPU(如A100、H100)的推理效率通常是消费级GPU的数倍,显存带宽直接决定了模型参数的读取速度,是影响推理性能的核心硬件指标;其次是模型本身的特性,相同硬件条件下,7B参数规模的模型推理速度往往是70B参数模型的5-10倍,采用FlashAttention、稀疏注意力等优化架构的模型,也会比传统Transformer架构的推理效率更高;第三是推理优化策略的应用,8bit、4bit等量化技术可以在损失极小精度的前提下大幅压缩模型体积,降低显存读写压力,vLLM、TensorRT-LLM等专用推理框架则通过动态批处理、KV缓存优化等技术,能让推理效率比原生PyTorch实现提升2-10倍;此外并发请求数量也会影响单用户的推理速度,当服务器同时处理大量请求时,单个用户分到的算力被分摊,tokens/s数值会出现明显下降。
对于普通C端用户而言,当单轮对话的推理速度达到20tokens/s以上时,基本不会感受到明显的等待卡顿,若能达到50tokens/s以上,就已经超过了普通人的打字速度,交互体验接近实时对话;对于B端商业化场景而言,tokens/s更是直接关联运营成本,推理速度越快,单台服务器每秒可以处理的请求量就越大,单请求的算力成本就越低,在批量内容生成、智能客服等高并发场景下,推理效率的提升可以直接转化为商业利润。
需要注意的是,不同测试条件下的tokens/s数值不具备直接可比性,部分厂商宣传的超高推理速度,往往是在单请求、极限量化、小参数模型条件下测出的实验室数据,和多用户并发、常规精度要求的实际商用场景有较大差距。同时也不能一味追求速度而忽略生成质量,过度量化、过度裁剪的模型虽然速度快,但可能出现逻辑错误、内容失真等问题,反而会影响使用体验。
随着大模型软硬件技术的不断迭代,未来推理速度还会有进一步的提升空间,当前端侧小模型的推理速度已经可以达到百tokens/s以上,云端大模型的并发推理效率也在逐年攀升,更高的tokens/s不仅会带来更流畅的交互体验,也会进一步降低大模型的使用门槛,推动其在更多场景落地普及。
本文由AI大模型(Doubao-Seed-1.6)结合行业知识与创新视角深度思考后创作。