通义千问开源千亿级参数模型, 性能媲美 Llama3

2024/4/28 14:37:40 来源：之家网站作者：- 责编：-

评论：

4 月 28 日消息，通义千问开源 1100 亿参数模型 Qwen1.5-110B，成为全系列首个千亿级参数开源模型，并在多项基准测评中都创下可与 Llama3-70B 媲美的成绩。目前 Qwen1.5 系列已累计开源 10 款大模型，通义千问开源模型下载量超过 700 万。

通义千问 1100 亿参数模型延续了 Qwen1.5 系列的 Transformer 解码器架构，采用了分组查询注意力方法（GQA），使得模型在推理时更加高效。110B 模型支持 32K 上下文长度，具备优秀的多语言能力，支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。

Qwen1.5-110B 在 MMLU、TheoremQA、GPQA 等多个基准测评中展现出卓越性能，基础能力可与 Meta 刚刚发布的 Llama-3-70B 模型相媲美，相比通义千问 720 亿参数开源模型也有明显提升。研发团队指出，Qwen1.5-110B 的预训练方法与同系列其他模型并无明显差异，性能提升主要来自于参数规模的扩增。

研发团队还在 MT-Bench 和 AlpacaEval 2.0 两个测评集上对 1100 亿参数模型的 Chat 版本作了评估，通义千问 110B 比通义千问 72B 的效果有显著提升。

今年 2 月初，通义千问团队推出最新开源模型系列 Qwen1.5，随后在不到 3 个月的时间连续开出 8 款大语言模型，模型参数规模涵盖 5 亿、18 亿、40 亿、70 亿、140 亿、320 亿、720 亿、1100 亿；Qwen1.5 系列还推出了一款基于 LLM 开发的代码模型 CodeQwen1.5-7B 和一款混合专家模型 Qwen1.5-MoE-A2.7B，均在开源社区收获热烈反响。

开发者可在魔搭社区 ModelScope 和 HuggingFace 等开源社区下载使用 Qwen1.5-110B。据悉，目前通义千问开源模型下载量超过 700 万，是最受开发者欢迎的开源大模型之一。

通义大模型的落地应用也开启了加速度，近期，新东方、同程旅行、长安汽车、西部机场集团、亲宝宝等多家企业宣布接入通义大模型。通义大模型开始“上天入地”支持千行百业，比如，中国科学院国家天文台人工智能组基于通义千问开源模型开发了新一代天文大模型“星语 3.0”，大模型首次应用于天文观测领域；陕煤建新煤矿等十余座矿山推出由通义大模型支持的新型矿山重大风险识别处置系统，这是大模型在矿山场景的首次规模化落地。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

通义千问开源千亿级参数模型, 性能媲美 Llama3

相关文章