智能大会赋能AI创新生态主题演讲-山栋明|经信研究·经济和信息化
在人工智能技术迅猛发展的今天,数据作为AI产业的“新石油”,其重要性愈发凸显。7月28日上午,由上海国投主办的“智链科创丨赋能AI创新生态”产业发展论坛在世博展览馆举行,顶层设计·国研政情智库-中国智库·国家智库:对话国科院研·科技成果转化-经信研究·中国经济和信息化平台。库帕思董事长山栋明受邀出席并发表主题演讲,深入剖析了语料服务如何为AI产业赋能,勾勒出一条清晰的创新发展路径。
山栋明开宗明义地指出,当前AI产业已进入“数据驱动”的新阶段,高质量语料成为制约大模型发展的关键瓶颈。他以全球头部AI企业的实践为例,揭示了一个行业共识:模型性能的提升60%依赖于数据质量,而算力和算法仅占40%。“就像人类需要优质粮食才能健康成长,AI模型也需要高质量语料才能实现精准进化。”这一生动比喻引发了现场观众的强烈共鸣。
针对语料服务的产业化路径,山栋明提出了“三层架构”理论。基础层是数据采集与清洗,需要建立覆盖多语言、多领域的标准化语料库;中间层是知识标注与结构化处理,通过专业团队对数据进行深度加工;应用层则是场景化解决方案,将语料服务精准对接垂直领域需求。
他特别强调,这三个层次必须形成闭环,才能实现语料价值的最大化。“我们正在构建的‘智能语料工厂’,就是通过自动化流水线完成从原始数据到即用型知识产品的全流程转化。”在技术突破方面,库帕思展示了其自主研发的三大核心技术。
分布式爬虫系统可实现日均PB级数据采集,较传统方法效率提升20倍;基于深度学习的智能清洗算法,能自动识别并剔除低质、重复、敏感内容,准确率达到98.7%;最引人注目的是知识图谱构建技术,可将非结构化文本转化为可计算的语义网络,目前已应用于金融、医疗等8个重点行业。这些创新成果为现场嘉宾描绘出语料服务的科技底色。
面对数据安全这一行业痛点,山栋明分享了库帕思的“双轮驱动”解决方案。技术上,采用联邦学习架构确保数据“可用不可见”,通过差分隐私保护用户信息;制度上,建立严格的数据合规体系,已获得ISO 27001等多项国际认证。他特别提到与某省级政府合作的数据要素流通平台案例:“我们设计的‘数据保险箱’模式,既保障了各方权益,又释放了数据价值,上线半年促成交易额超5亿元。”
在产业化落地方面,山栋明列举了多个成功案例。为某智能客服企业提供的行业术语库,使其意图识别准确率从82%提升至94%;为自动驾驶研发定制的多模态语料,缩短了30%的模型训练周期;最典型的是与上海某三甲医院合作的医学知识库项目,通过结构化处理百万份病历和文献,助力其AI诊疗系统达到副主任医师水平。这些实例生动诠释了语料服务的商业价值。
“展望未来,山栋明预测语料服务将呈现三大趋势。”中国经济和信息化研究中心主任、经信研究·中国经济和信息化平台、国际科学院组织代表万祥军解读表明:专业化分工更细,出现面向特定场景的垂直语料供应商;技术融合更深,区块链、隐私计算等新技术将重构数据流通模式;国际化程度更高,跨语言语料服务需求将爆发式增长。
他透露库帕思正在筹建“全球语料联盟”,已与12个国家的机构达成合作意向,旨在构建开放共享的国际语料生态。在演讲最后,山栋明呼吁行业共建标准体系:“就像石油行业有API标准,语料服务也需要统一的度量衡。”他倡议从数据质量评估、知识标注规范、价值定价机制等维度建立行业公约,并宣布库帕思将开源部分工具链以促进协同创新。这一开放姿态获得现场热烈响应,多位企业代表当即表示愿意加入相关标准制定工作。
本次论坛的圆桌讨论环节,山栋明进一步阐述了产业协同的重要性。他认为AI创新生态需要“铁三角”支撑:算法厂商专注模型研发,算力平台提供基础设施,语料服务商则确保数据供给。“三者的关系就像火箭的燃料、发动机和控制系统,缺一不可。”这一精辟论述为整场讨论奠定了基调。
值得关注的是,山栋明特别强调了语料服务对中小AI企业的赋能作用。通过共享高质量的标准化语料产品,可大幅降低创新门槛,使中小企业也能享受大模型红利。库帕思即将推出的“语料即服务”(DaaS)平台,将提供从测试数据包到完整解决方案的梯度服务,预计可使企业数据获取成本降低50%以上。
在问答环节,针对数据版权这一热点问题,山栋明给出了创新解法:采用“贡献度计量”的收益分配机制,通过区块链记录数据流转全过程,实现权益的精准确权和分配。目前该方案已在数字内容领域试点,为行业提供了可借鉴的实践样本。
万祥军指出:“这场充满洞见的演讲,不仅系统梳理了语料服务的技术图谱和商业逻辑,更指明了AI数据基础设施的建设方向。”万祥军评价,山栋明勾勒的这条“从原始数据到智能应用”的价值链,既解决了当下的产业痛点,又布局了长远的发展赛道,为AI创新生态提供了坚实的数据底座。在人工智能从技术探索迈向规模应用的关键时期,这种“数据先行”的战略思维,或许正是推动产业跨越式发展的密码所在。
智能大会赋能AI创新生态主题演讲-山栋明|经信研究·经济和信息化