算法、算力、数据是人工智能发展的三个基本要素,三者的持续演进升级推动人工智能的迭代发展。其中,高质量数据是训练高效人工智能模型的关键。当前,除了公开渠道数据外,还有大量的私有化数据的价值亟待开发。
为促进数据要素规模化流通共享使用,加快构建以数据为关键要素的数字经济,2024年年底国家数据局印发《可信数据空间发展行动计划(2024—2028 年)》,并指出数据空间的“价值共创、资源交互、可信管控”是释放数据价值的关键能力。
数据产业发展具有多重优势的贵州,不仅是“中国数谷”核心承载地,诞生了国家首个大数据综合试验区;全省数字经济增速连续9年位居全国前列;更在“东数西算”战略中成为西部算力枢纽的核心高地,全省算力规模已超过55Eflops。随着前不久国家数据局正式批复同意贵州建设数据要素综合试验区,贵州将持续在推动数据基础制度体系建设、培育数据要素市场等方面发挥示范引领作用。
通用语料资源即将耗尽,行业高质量数据亟需挖掘
大模型的精准预测能力与泛化能力,离不开海量、多样且标注准确的高质量数据集。以DeepSeek V3、GPT-4o等主流基座模型为例,其训练阶段均采用了经过严格清洗、加工和标注的约15万亿token。
随着大模型训练数据量呈指数级增长,支撑AI发展的互联网通用语料资源正面临枯竭风险。而针对多模态行业知识类、思维链等数据的开发与合成,将在人工智能纵深发展中起到关键作用。
DeepSeek R1等大模型的开源,使人工智能应用的门槛进一步降低。在行业数字化、智能化发展客观需求的牵引下,基于特定场景的行业应用开发正成为人工智能价值落地的必然路径。
“人工智能+”已经连续两年写入政府工作报告。我国的工业门类全,应用场景多,制造业、医疗、金融等领域积累了大量的高价值数据,但当前80%以上的工业数据为“暗数据”。若激活沉睡的暗数据用于大模型的开发和行业应用,将为我国人工智能产业发展提供广阔的增长空间,这也是我国在全球AI竞争中的独特优势所在。
高质量数据供给,仍有三大难题待解
挖掘行业数据已成为共识,但这些数据分散在多元主体且类型复杂,导致数据存在AI不可见、不可信、不可用痛点。
首先,数据对AI不可见。由于行业数据通常存在跨主体数据壁垒,组织间或系统间数据割裂,AI模型无法获取完整数据视图、数据目录、数据标注。多云架构下存储协议、计算框架、权限管理存在技术鸿沟,导致访问权限分散、数据格式差异、链路接口无统一标准。而大量的政府、企业、金融核心数据资产,因安全合规要求,难以被大模型实时低成本地发现,碎片化的数据输入会引发模型偏见与低效、模型决策可信度下降等,导致AI模型陷入“不可见性陷阱”。
其次,数据对AI不可信。即便数据可见,但由于多方协作对数据安全要求高,会存在技术信任鸿沟,无法进行有效协同;同时黑箱模型难以满足金融、医疗等强监管场景需求,模型可解释性缺失。公共数据则涉及到多方主体,数据产权不明确,追溯能力有限,会影响确权的实施与落地。而且数据供给和消费主体间也面临身份信任壁垒,如供数方担心数据外漏、模型厂商担心模型资产安全、用户担心个人隐私泄露等。更重要的是,由于缺少数字护照、可信机密沙箱等技术及硬件层级安全管控,难以实现AI数据集全生命周期身份认证。
最后,数据对AI不可用。即使找到可信的数据,但大模型语料也可能会因“数据分散、质量参差不齐、多样性不足、过拟合风险”等,存在数据对AI不可用困境。比如文本、视频、图片等格式差异大,若缺少统一元数据管理与跨模态对齐技术,这些语料就无法实现AI融合使用。同时,如果语料过老、语料配比不均衡,语料与理解有偏差,可能会生成大量重复回答,不仅耽误大模型训练,且会浪费算力。
业界首提可信AI数据空间,为数据要素与大模型融合创新提供新范式
面向数据与AI产业协同发展新周期,可信数据空间与大模型的融合是AI进化的核心命题。在大数据产业具有先发优势的贵州,从体系、理念和技术入手,摸索将“数”“模”协同创新。4月8日,贵州省大数据发展管理局与华为云作为主要发起单位,在会上联合中国信通院及相关企业启动“可信AI数据空间”创新探索。希望通过可信AI数据空间实现“泛在入湖、数据可信、AI可用”,提升AI数据集高质量供给,推动“人工智能+”行动赋能千行万业。
可信AI数据空间创新探索正式启动
可信AI数据空间将围绕多主体身份互信、数据确权、高质量AI数据集开发利用、模型合规训练与推理等关键问题,开展“1+1+2”三大创新,即构筑“合规治理、价值共创”的治理新体系、引领“一湖一链三引擎”平台新架构、攻关“数字护照、机密沙箱”两项核心技术。
接下来,双方将通过组织工作会议、专题研讨会、技术沙龙等形式,促进各方在技术创新过程中的深度对接,并开展相关技术、服务、管理等方面的标准化工作,包括制定相关标准、建立评估体系、推广最佳实践等。
同期,华为云融合技术创新能力与行业场景积累,推出以华为云Stack为核心的可信数智空间解决方案。该方案具备“供得出,流得动,用得好,保安全”的四大创新能力,将为可信AI数据空间创新探索提供技术保障。
华为云Stack可信数智空间解决方案正式发布
国家数据局将2025年明确为数据工作的改革攻坚年,“可信AI数据空间”创新探索为“数据要素×人工智能”协同创新提供了一种新范式,也为全国数据要素价值释放与数字经济高质量发展树立了可复制的创新标杆。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。