
随着日新月异的技术进步,人工智能大语言模型(LLMs)为广大用户带来了新奇的使用体验和工作便利。然而,用户也会经常困惑于不同大模型的使用体验,并亟待一个用户视角的、系统的大模型测评。根据这一现实需求,港大经管学院蒋镇辉教授领导的人工智能大模型评测团队于今年1月发布《中文语境下的人工智能通用大语言模型评测报告》 ,并公布了中文语境大模型排行榜。
在中文语境工作的基础上,评测团队将研究视野扩展至英文语境,致力于从用户视角出发,全面评估国内外主流大模型在英文语言和文化情景中处理多种复杂语言任务和应对敏感话题的能力,并生成相应的大模型排行榜。在本次评测中,项目组构建了全新的英文测试集,并在中文报告涵盖的14个大模型的基础上增加了几款国际主流的通用大模型,包括由Google开发的Gemini、Meta开发的Llama 2 70B(此前中文语境评测使用的是经过中文增强的小参数版本),以及Anthropic开发的Claude 2。
报告主要内容
英文语境下的人工智能大语言模型评价体系延续了先前报告中的三大关键能力方向:自然语言能力、专业学科能力以及安全与责任。其中,每个能力方向被进一步划分为两个难度水平和细分为多个子任务,形成了一个全面的评测框架。简单级别包括基础语言能力测试、中学难度学科测试与一般攻击测试,困难级别包括进阶语言能力测试、大学难度学科测试与指令攻击测试。这些测试旨在全方位评估模型处理从简单到复杂的各种任务和问题的能力。
英文语境下的大模型评测体系经过对16个不同大模型的测试与评估,报告依据自然语言能力和安全与责任方面的人类裁判打分,以及专业学科测试中的正确率进行综合加权,得出了这些模型在英文语境中的综合能力排名。
排行榜地址:https://hkubs.hku.hk/aimodelrankings/en为了更直观地比较各大模型的综合能力和在被测大模型中的相对位置,评测团队根据模型的综合得分划分出五个能力层级。
英文语境下的大模型能力分级GPT 4-turbo凭藉领先的自然语言和专业学科能力取得了整体优势,成为唯一综合得分超过80分的大模型,处于领先者地位。
Gemini Pro、Llama 2、GPT 4、文心一言4、Claude 2 等五款大模型的综合得分集中于73到78之间,表现较为接近,位列第二梯队。作为Google推出的全新大模型,Gemini Pro综合排名第二,且在各项能力上都排在前三位,表现均衡。Llama 2和GPT 4作为较为成熟的英文大模型,在英文评测中也展现出了卓越的性能。其中,Llama 2表现出所有大模型中最优秀的安全与责任能力,而GPT 4在自然语言和专业学科能力上表现优秀,在安全与责任方面则稍逊一筹。国产大模型文心一言4.0以出色的表现位列总榜第五,不仅在国产模型中排名最高,而且在整体排名中超越了Claude 2和GPT 3.5-turbo这两个已投入商用的英文原生大模型,展现了其优越的综合能力及对英文环境的良好适应性。
GPT 3.5-turbo、商汤日日新和通义千问2,位列第三梯队。GPT 3.5-turbo作为GPT系列的前代模型,在所有大模型中仍排名中上,尤其是在自然语言能力上位列第四。商汤日日新和通义千问2的表现也值得关注:它们的综合得分仅略逊于GPT 3.5-turbo,且在三个能力方向上展现出了较为均衡的实力。以上各大模型的综合得分处于16个大模型的平均分(66.25分)之上。
MiniMax、讯飞星火3.0、智谱清言、百川大模型和360智脑的综合得分虽未能达到平均水平,但差距较小。值得一提的是,这些大模型在部分任务上表现出了较高的水平,比如MiniMax在学科能力上表现较好,而智谱清言和百川大模型的安全与责任评分则与部分平均分以上大模型相当。
悟道·天鹰和 Bloomz 的综合能力表现平平,在各能力方向上都有很大的提升空间。
总的来说,本次评测包含的7个国外大模型受认可度都比较高,且开发语言均为英语,相比之下,评测包含的国产大模型在英文语境下的综合表现处于稍微劣势的位置。但文心一言4.0、通义千问2和商汤日日新等代表性国产大模型在英文语境下表现仍然较为出色,在广泛的英文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性,展现出了较大的潜力与一定的国际竞争力。
关于更多评估方法的细节与结果,请参见报告文档。
来源:香港大学经管学院