
图片来源:库帕斯
2025年,世界范围内人工智能已经开始深度赋能实体经济,全球制造业格局也正加快重塑。当前,以大模型为代表的人工智能技术正引发全球产业变革浪潮。未来,大模型发展的趋势是什么?语料数据发展趋势如何?“行业垂类大模型,显然是未来的主要赛道。随着多模态大模型的到来,我们现在的数据构建也变得更加多元化。”上海市政协委员、上海库帕思科技有限公司首席执行官黄海清表示,“高质量的数据集不仅是推动大模型发展的基石,也能改善它的应用效果。”
大模型三要素的内在关系是:算法是大模型的“大脑”,算力是“心脏”,而语料数据则是“血液”。在大模型的训练过程中,数据经过训练后变得越来越整洁,有利于促进大模型的健康发展。
“人工智能语料数据的发展,正从过去以结构化数据为主,转向注重非结构化和半结构化数据的治理与应用。”黄海清表示,当前,已进入人工智能三要素协同发展的“DATA for AI”时期。未来,大模型的智能水平将取决于高质量数据集,我们将迎来“数行天下”的时代,并最终走向“AI for DATA”的新阶段。
“基于语料数据的趋势研判,我们认为高质量数据集的构建,不仅仅是一个简单的定义逻辑,更是一个从‘定义’到‘方法’到‘行业实践’的体系化建构。”黄海清表示,未来语料数据发展将从WEB向学术密集型转变,从二维平面迈向立体高维,从关注规模的预训练转向聚焦质量的后训练,从通用语料到通专结合的场景适配,从原生语料到合成语料。
“大模型行业垂类成为‘主战场’,语料需分层整合通用数据集、行业数据集、企业数据集及应用数据集,数据越用越精,合成数据技术及向量数据库等前沿研发将愈发重要。”黄海清认为,如今大模型的训练需要依赖大量高质量的行业数据集,未来大模型主要依赖后训练,包括推理、思维链和强化学习评测,数据策略从“先多再好”变为“要好再多”。
责任编辑:丁元圆
输入搜索词