10月17日志者获悉插菊花综合网,司南 OpenCompass大讲话模子评测榜9月榜单公布,阿里通义千问开源模子Qwen2.5-72B-Instruct 打败Claude 3.5、GPT-4o等闭源模子,成为该评测榜首个开源模子冠军。据了解,9月底通义千问开源模子Qwen系列的生息模子数目初度迥殊Llama,成为天下最大的开源模子群。
司南 OpenCompass 是由上海东说念主工智能试验室研发的大模子评测体系平台,OpenAI、阿里巴巴、智谱AI、Meta、零一万物等百余个最主流的大模子均已加入评测,是最具国外影响力的中国巨擘第三方评测榜单。司南 OpenCompass 自建评测榜单每月一更,从讲话、推理、学问、代码、数学、提醒扈从、智能体等七大才智维度、十余项细分任务,对近期主流模子进行全面评测分析。
在2024年9月的司南 OpenCompass 榜单中,开源的Qwen2.5-72B以70.3分夺冠,初度迥殊Claude 3.5和GPT-4o等顶尖闭源模子。Qwen2.5-72B-Instruct在这次榜单的多项才智测评中均名列三甲。在代码才智方面,Qwen2.5-72B-Instruct以74.2分夺冠,不仅能准确完成代码编写,还能详备阐明代码的功能和逻辑;在数学才智方面,Claude 3.5得分72.1,GPT-4o得分70.6,远不足Qwen2.5-72B-Instruct获取的77分收货。
司南 OpenCompass 评价称,Qwen2.5的登顶,标记着开源社区在模子界限取得快速阐扬,以 Qwen 2.5等为代表的国产主流厂商模子,在阅历最新一轮时期迭代后,其性能有了显赫普及,与国外顶尖模子之间的差距正在快速削弱,展现了国产模子的渊博竞争力。
早在9月底,Qwen2.5-72B-Instruct就冲进Chatbot Arena大模子盲测榜单前十,是前十中独一的中国大模子。Qwen系列开原模子涵盖多尺寸的大讲话模子、多模态模子、数学模子和代码模子,真是悉数尺寸的模子皆终显豁同等范围的最好性能。搁置9月底,天下培植者基于Qwen系列二次培植的生息模子数目也已冲破7.43万,迥殊Llama的7.28万,成为天下最大的开源模子群。
雷峰网