阿里Qwen-2登全球开源大模型榜首

 全球着名开源平台Hugging Face联合创办人Clem透露,阿里巴巴最新开源的Qwen2-72B指令微调版本,在开源模型排行榜上荣登榜首。

  综合媒体27日报导,Clem表示,为打造一个公正且准确的开源大模型排名,他与团队利用300块英伟达H100高性能硬件,对全球100多个主流开源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等严格的基准测试集上进行了全面深入的评估。

  对于重新评估的原因,Clem表示,许多开发者过于追求排行榜的名次,导致在模型训练过程中过度依赖评估集数据,过去的评估标准对于模型而言也显得过于简单。因此,本次评估提高难度标准,以检验这些模型在更难挑战下的真实表现。

  评估结果,阿里巴巴开源的Qwen2-72B模型脱颖而出,成新行业领军者。排行榜显示,Meta开源的Llama-3-70B指令微调版本排名第二,阿里巴巴的Qwen2-72B基础版本排名第三,Mistralai的Mixtral-8x22B指令微调版本排名第四,微软最新开源的小参数模型Phi-3-Medium-4K 14B排名第五。

  零一万物最新开源的Yi-1.5-34B-Chat版本则排在第六。此外,大模型平台Cohere开源带RAG功能的Command R+ 104B排名第七,曾经排名第一的英伟达开源的Smaug-72B-v0.1,在新的排行榜中位列第八名。第九名和第十名,则是阿里巴巴之前开源的Qwen1.5基础和Chat版本。