计算机视觉是人工智能领域的核心分支,旨在赋予机器解析、理解图像、视频、三维点云等视觉数据的能力,模拟人类的视觉认知功能。其技术体系庞杂、应用场景丰富,通常可以从任务层级、技术路线、落地场景三个维度进行分类。
### 按任务层级分类
这是行业内最常用的分类标准,根据任务的认知难度和输出属性,可以分为四大类:
第一类是底层视觉任务,核心是对原始视觉信号做基础处理,不涉及高阶语义理解,常见任务包括图像降噪、超分辨率重建、图像去雾、色彩校正、边缘特征提取等,主要作用是优化原始数据质量,为后续高阶任务提供合格的输入。
第二类是中层视觉任务,重点是感知视觉内容的结构、位置与属性信息,衔接底层预处理和高层语义理解,常见任务包括目标检测、语义分割、实例分割、深度估计、人体关键点检测、光流估计等,能够定位和区分场景中的不同实体,输出结构化的视觉信息。
第三类是高层视觉任务,核心是实现对视觉内容的语义理解与逻辑推理,模拟人类的高阶认知能力,常见任务包括图像分类、视频分类、行为识别、视觉问答、场景推理、图像描述生成等,输出通常是具有明确语义的结论,可以直接对接上层应用需求。
第四类是生成式视觉任务,是近年快速崛起的新分支,核心是从语义标签、随机噪声等输入生成符合要求的视觉内容,常见任务包括图像生成、视频生成、图像风格迁移、图像修复、数字人建模等,在文娱、设计等领域有极高的应用价值。
### 按技术路线分类
根据技术实现的逻辑差异,计算机视觉可以分为两大路线:
一类是传统计算机视觉技术,流行于深度学习普及之前,依赖人工设计的SIFT、HOG等特征算子提取视觉特征,再结合SVM、随机森林等传统机器学习算法完成识别任务,优势是可解释性强、小数据集下表现稳定,至今仍在部分规则明确、数据量有限的工业场景中使用。
另一类是深度学习驱动的计算机视觉技术,是当前的主流技术路线,通过卷积神经网络(CNN)、视觉Transformer(ViT)、扩散模型等结构自动学习数据特征,无需人工设计算子,在复杂场景下的泛化能力远高于传统方法,按照技术支系还可以进一步分为CNN系、Transformer系、多模态融合等细分方向。
### 按落地场景分类
从实际应用的角度,计算机视觉可以根据适配的行业场景划分为不同品类:比如面向消费电子的人脸解锁、相册分类、美颜算法;面向自动驾驶的车道线检测、交通标识识别、障碍物感知;面向医疗领域的CT影像病灶检测、病理切片分析;面向安防领域的人脸识别、异常行为检测;面向工业领域的产品缺陷检测、物料分拣;面向文娱领域的AI作图、视频特效、动作捕捉等。
上述分类维度并非完全割裂,很多复杂的落地系统会同时集成不同层级、不同技术路线的视觉算法,比如自动驾驶感知系统既需要底层的去雾算法提升恶劣天气下的输入质量,也需要中层的检测分割算法识别周边环境,还需要高层的推理算法预测交通参与者的动向,不同分类方向的融合创新,也在不断拓展计算机视觉的能力边界。
本文由AI大模型(Doubao-Seed-1.6)结合行业知识与创新视角深度思考后创作。