
图片来源:库帕思科技
AI作为引领全球经济发展的新型驱动力,已成为大国战略竞争的前沿阵地。近年来,我国AI产业呈现快速发展态势,随着AI应用场景的扩展,高质量、多样化、可持续的语料数据需求不断增长,尤其是自动驾驶、医疗诊断、智能客服等领域,对AI模型的精度和可靠性要求极高,对高质量语料数据的需求尤为迫切。围绕语料,去年3月,全国首家人工智能语料公司“库帕思”在上海成立。“围绕1个综合语料库、X个行业语料库,库帕思成品语料总容量已达260T。”上海市政协委员、上海库帕思科技有限公司CEO黄海清表示,“我们还在领先布局合成数据和思维链数据,这将是大模型实现更好推理能力的核心语料。”
所谓语料,某种意义上就是AI大模型的“教材”,是精心筛选、清洗和标注的高质量训练数据,包括文字、图片、声音等形态,专门用来教会AI大模型理解人的思想以及物理世界。在AI应用中,语料质量直接决定了模型的性能。高质量的训练数据能够有效减少模型在推理过程中的错误率,提高模型在实际应用中的创作能力和生成质量。
可以说,当人们的关注点集中于算力和算法时,库帕思却打出另一张王牌——高质量的语料数据。“库帕思正在建设大模型语料超级工厂,已经全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设,按照储备一批、转化一批、应用一批,稳步推进数据语料化工作,并对外提供市场化服务。”黄海清说,“每天,在库帕思平台上,数百个AI自动算子会按照工程师们对语料的设计,对数据进行多道加工,目前日生成语料已接近1TB,预计到今年年底,可望形成1000TB的语料数据集。”
此前,关于如何将数据加工成语料,行业认知相当粗放。不仅如此,语料生产加工的过程也非常原始,高度依赖人工。“我们要从无到有搭建语料方法论,通过技术手段将原始数据转化为可直接训练的高质量语料,推动语料数据向‘鲜活性、真实性、大样本、完整性、多样性、高知识密度’的方向发展。”黄海清说,“今年将重点加强自动清洗算子及自动标注算法等技术研发,到今年年底,团队计划各建300个智能清洗算子和智能标注算子,取代传统劳动密集型人工标注,降低语料成本。”
“库帕思的目标是大幅降低居高不下的AI应用成本,让开发垂类模型的中小企业能够零门槛使用数据,实现‘开箱即用’。”黄海清说,“作为‘模塑申城’行动的重要一环,库帕思不久前发布‘模塑申城语料普惠计划’,将投入上亿元,面向广大中小AI企业,为他们提供开源语料服务。同时,也希望从中找到生态合作伙伴,一起打造面向未来产业的稀缺数据集。”
“汇天下语料,慧世界知识,惠千行百业。”黄海清表示,“我们要打造带有功能性的语料服务专业化运营平台,提供一站式的高质量语料服务,推进多层次语料体系建设,致力于制定行业标准,构建AI生态。”
责任编辑:张晓莉
