Investing.com — 阿里巴巴集团控股有限公司 ADR (NYSE:BABA) 周二推出了其新一代大语言模型系列千问3(Qwen3),扩展了其AI产品线,涵盖多种规模和架构的模型。此次发布包括八个开放权重模型,其中六个为密集型模型,两个为混合专家模型(MoE),参数规模从6亿到2350亿不等。
旗舰模型Qwen3-235B-A22B在与领先模型如DeepSeek-R1、Grok-3和Gemini-2.5-Pro相比时,在编程、数学和通用任务的基准测试中展现了竞争力。较小的模型如Qwen3-30B-A3B也超越了更多参数的模型,表明其在结构和训练方面取得了效率提升。
所有模型(包括预训练和后训练变体)都可通过Hugging Face、ModelScope和Kaggle公开访问。对于部署,阿里巴巴推荐使用SGLang和vLLM,而本地用户可以使用LMStudio、llama.cpp和KTransformers等工具运行Qwen3。
Qwen3提供可扩展和自适应性能,让用户能够根据精确度和资源成本的平衡来调整计算推理预算。这种灵活性旨在满足开发者将AI集成到消费者或企业级工作流程中日益多样化的需求。
这些模型支持119种语言和方言,是其前身千问2.5覆盖范围的三倍。这种广泛的多语言能力使千问3有望在全球市场获得采用,包括语言多样性丰富的新兴地区。
千问3模型在编码和代理功能方面取得了进步,并通过模型条件提示(MCP)的深度集成得到增强。这些改进支持复杂应用,如自主代理和更高精度的开发者工具。
该系列模型训练了36万亿个标记,包括来自STEM、推理、书籍和合成数据集的高质量来源。数据升级为语言理解、编程能力和长上下文记忆带来了显著提升。
千问3采用了架构和训练创新,如MoE模型的qk层归一化和全局批次负载平衡。这导致了更大的训练稳定性和各种规模模型的一致性能提升。
其三阶段预训练方法分别针对语言理解、推理和长上下文处理,标记序列扩展至32,000。这种模块化策略增强了千问3处理复杂多轮交互和更大文档的能力。
通过针对每种模型类型的缩放法则优化超参数,千问3代表了阿里巴巴迄今为止最精心设计和技术全面的发布。行业观察人士表示,其开放权重策略和多语言覆盖范围可能使其成为全球AI竞赛中的重要竞争者。
本文由人工智能协助翻译。更多信息,请参见我们的使用条款。