近日,依托2024年世界人工智能大会发布的中国电信AI模型评测联创基地,中国电信研究院携手上海人工智能实验室、清华大学等产学研机构发布了全面覆盖“能力—任务—性能—安全”四级的“天罡”大模型评测指标体系,并基于该体系首次发布了“天罡”通用大模型评测榜单。该榜单重点围绕大模型的能力和安全指标进行评估。模型能力评估涵盖知识百科、语言理解、认知推理、模型幻觉、智能体等多个维度;安全评估重点考察大模型输出生成内容,涵盖意识形态、安全隐私、伦理道德、安全对抗攻击等维度,其中与国家主流价值观和网络信息安全要求的相符度为重要评估因素。
当前,人工智能技术的迅速发展赋能大模型强大的生成能力和表示泛化能力。随着开源大模型与闭源大模型的不断迭代发展,如何有效评估模型能力,并构建一套标准化、系统化、自动化的评测体系,成为全行业亟待解决的问题。
本次测评通过全面评测维度、权威评测题库、动态抽题、多裁判模型判别和人工审核等机制对国内外主流通用大模型开展了评测,评测对象包括国际头部闭源OpenAI的GPT-4系列、Google的Gemini系列、Anthropic的Claude系列、国内主流的闭源模型以及国内外主流的开源模型,评测结果展示了当前开源/闭源通用大模型整体能力分布和差距,为大模型持续创新发展和赋能行业场景应用提供重要参考。
此次“天罡”通用大模型评测结果揭示了国内外通用大模型的三大能力发展趋势。一是GPT-4o在语言理解、认知推理、智能体等方面表现出色,其凭借强大的综合能力领跑全行业,与此同时国内头部大模型豆包、智谱清言在中文场景已达到GPT-4o的90%分位水平,表现突出;二是开源整体落后于闭源,但开闭源差距逐渐缩小,当下千亿级参数规模开源大模型能力已逼近业内主流闭源大模型,其中国内开源大模型Qwen2系列能力表现尤其突出;三是国外领先的开源大模型Llama3系列模型在中文场景下模型能力表现较弱。
随着中国电信AI模型评测联创基地和“天罡”评测体系的发布,中国电信研究院将进一步和产学研机构协同合作,通过评测对国内外通用大模型技术能力进行全面对标、对大模型产业趋势进行深入分析,以评测促创新、促发展、促安全。