如果说算法是人工智能的“大脑”,算力是人工智能的“骨骼”,那么数据就是支撑人工智能运行迭代的“血液”与“粮食”。从早期的机器学习模型到如今风靡全球的大语言模型、多模态生成式AI,每一次技术跃迁的背后,都离不开数据规模的扩张、质量的提升与治理体系的完善。
人工智能的本质是从海量数据中提炼规律、复刻认知,最终实现推理、决策、生成等能力。传统监督学习时代,标注数据的数量和精度直接决定了图像识别、语音翻译等模型的效果上限;到了预训练大模型阶段,万亿级别的公开文本、图像、音频、视频数据成为模型涌现出通识能力、创作能力、逻辑推理能力的核心基础——OpenAI的GPT系列模型、谷歌的Gemini多模态模型,其能力迭代的核心支撑之一,就是持续扩容的高质量训练数据集。
目前人工智能训练所用的数据可分为多个维度:按结构可分为存储在数据库中的结构化数据(如交易表单、统计表格),以及文本、图片、音视频等非结构化数据,后者占当前AI训练数据总量的80%以上;按标注状态可分为经过人工打标、指向明确的标注数据,和未经加工的无标注数据,前者多用于模型微调与垂域训练,后者则是大模型预训练阶段的主要数据来源。
随着AI产业的高速发展,数据领域的诸多矛盾也逐渐凸显。首先是质量参差不齐的问题,“垃圾进、垃圾出”是AI训练的铁律,若训练数据夹杂错误信息、偏见内容,最终的模型输出也会出现事实偏差、群体歧视等问题,此前部分招聘AI自动过滤女性简历、人脸识别对深肤色人群准确率偏低的案例,根源都在于训练数据的缺陷。其次是版权与授权争议,当前多数生成式AI的训练数据都来自公开网络,大量文字、美术作品、音视频内容未经创作者授权就被用于训练,由此引发的诉讼在全球范围内层出不穷,已经成为制约AI产业合规发展的核心障碍。第三是隐私泄露风险,若训练数据中包含未脱敏的个人信息、商业机密,很可能在模型交互过程中被诱导泄露,对用户权益造成侵害。此外,头部企业凭借场景优势积累了大量独家数据,中小团队难以获取同等规模的高质量数据集,数据垄断也在一定程度上限制了AI行业的创新活力。
要破解AI数据领域的诸多难题,全行业正在探索多维度的解决方案。在合规层面,数据确权、利益分配机制正在逐步完善,部分国家已经出台规则,要求AI训练方使用授权数据,并对创作者进行合理补偿;隐私计算、联邦学习等技术的普及,也能实现“数据可用不可见”,在不触碰原始数据的前提下完成模型训练,兼顾隐私保护与数据价值释放。在供给层面,合成数据正在成为新的发展趋势,通过AI生成符合标注要求、无版权争议的训练数据,既能够补足特定场景的数据缺口,也能从源头规避版权风险。在公共服务层面,各地政府也在推动公共数据集的开放共享,面向科研机构、中小团队开放非敏感的公共领域数据,降低AI研发的准入门槛。
纵观人工智能的发展历程,数据的重要性从来没有被如此凸显。作为AI产业的核心生产要素,只有建立起合规、高效、公平的数据治理与流通体系,才能为人工智能的持续创新筑牢底座,最终实现技术价值的最大化释放。
本文由AI大模型(Doubao-Seed-1.6)结合行业知识与创新视角深度思考后创作。