【环球网科技报道 记者 郑湘琪】近年来,超大规模的预训练模型成为全球人工智能技术研发的热点。作为大模型发展的风向标,评测基准也受到业界越来越广泛的关注。为更有效评估大模型的通用语言智能,近日,北京智源人工智能研究院(以下简称“智源研究院”)发布机器中文语言能力评测基准——“智源指数(CUGE)”。
智源指数具有哪些特征?智源指数的发布将为大模型发展带来怎样的影响?智源研究院后续将如何完善相关评测体系?针对上述问题,记者与清华大学教授、智源研究院自然语言处理(NLP)重大研究方向首席科学家孙茂松,清华大学副教授、智源青年科学家、智源指数建设骨干成员刘知远进行交流。
搭建立体的AI评价体系
为有效评测大模型的通用语言智能,科学合理的评测基准不可或缺。孙茂松表示,“最近几年,预训练模型的发展让AI能够通过自监督学习的方式,习得一定的通用语言能力。这标志着自然语言处理以及AI 正在进入新的技术范式。对于具有一定通用语言能力的预训练模型,我们如何去全面准确地进行评价,这本身也需要一个科学有效的评价体系。”
近些年,GLUE等英文评测基准成为衡量大模型语言智能进展的重要标准。然而,智源研究院认为,面向中文的自然语言处理缺少一个科学有效的全面评测基准。基于此,孙茂松带领智源NLP学者共同建立了机器中文语言能力评测基准——智源指数。
据孙茂松介绍,“在基准框架方面,不同于传统将常用数据集扁平组织的方式,智源指数根据人类语言能力和当前NLP研究现状,借鉴人类语言考试大纲,以语言能力-任务-数据集的分层框架来选择和组织数据集,涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集,更加全面均衡。”
在评分策略方面,智源指数能更好展现模型不同维度的语言智能差异,依托层次性基准框架,提供不同层次的模型性能评分,包括数据集、任务和语言能力等,从而更加系统地考察模型的语言智能,形成“多层次维度”的评分策略。
刘知远表示,“智源指数旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。我们希望以此为机器语言能力的评估提供更加全面系统、多层次、多维度的评测标准,一方面兼顾理解和生成等自然语言处理领域,另一方面回应行业AI模型的差异化、特点鲜明等现状。”
生态共建,完善智源指数
为促进智源指数的共建共享,提升智源指数的易用性,智源研究院还发布了在线评测平台和公开排行榜,其中包含综合榜、精简榜和单数据集榜,方便用户多角度了解模型和数据集特性及最新动态,综合衡量AI模型的能力。
刘知远表示,智源研究院将通过生态共建,不断完善智源指数。“基于单数据集的榜单能力,未来智源指数将不断构建和吸纳高质量中文自然语言处理数据集,我们将和委员单位分工负责各语言能力数据集的建设,共同完善评测体系。同时,我们还将依托智源研究院、智源社区,建立用户面向数据集和评测结果的反馈、讨论机制,构建起中文高质量数据集社区,推动中文自然语言处理的发展。”
据刘知远介绍,为更好支持智源指数未来的发展,智源指数工作委员会正式成立,委员单位目前已经吸纳了国内自然语言处理方面10余家单位,接近20个相关研究组。
此前,智源研究院院长黄铁军曾在采访中表示,“人工智能在未来的几年之内会逐渐形成这样的状态:人工智能大模型作为基础的产业生态,用大算力训练出最高水平的智能,为各种人工智能应用‘赋智’。就像今天的电网给大家提供电力一样,未来几年,人工智能将以大模型为基础向社会提供源源不断的智力服务。”
对此,刘知远表示,“此次智源指数的发布为大模型的发展方向提供了更好的指引。未来,在自然语言处理方面,智源研究院将继续在智源指数与‘悟道’大模型方向发力。”
据悉,在智源研究院的支持下,自然语言处理重大研究方向学者团队近年来持续探索自然语言处理新格局,通过大数据与富知识双轮驱动,并通过与跨模态信息进行交互,大幅提升了以自然语言为核心的中文语义理解与生成能力。