tradingkey.logo

阿里巴巴推出千问3,挑战行业领导者

Investing.com2025年4月28日 22:12

Investing.com — 阿里巴巴集团控股有限公司 ADR (NYSE:BABA) 周二推出了其新一代大语言模型系列千问3(Qwen3),扩展了其AI产品线,涵盖多种规模和架构的模型。此次发布包括八个开放权重模型,其中六个为密集型模型,两个为混合专家模型(MoE),参数规模从6亿到2350亿不等。

旗舰模型Qwen3-235B-A22B在与领先模型如DeepSeek-R1、Grok-3和Gemini-2.5-Pro相比时,在编程、数学和通用任务的基准测试中展现了竞争力。较小的模型如Qwen3-30B-A3B也超越了更多参数的模型,表明其在结构和训练方面取得了效率提升。

所有模型(包括预训练和后训练变体)都可通过Hugging Face、ModelScope和Kaggle公开访问。对于部署,阿里巴巴推荐使用SGLang和vLLM,而本地用户可以使用LMStudio、llama.cpp和KTransformers等工具运行Qwen3。

Qwen3提供可扩展和自适应性能,让用户能够根据精确度和资源成本的平衡来调整计算推理预算。这种灵活性旨在满足开发者将AI集成到消费者或企业级工作流程中日益多样化的需求。

这些模型支持119种语言和方言,是其前身千问2.5覆盖范围的三倍。这种广泛的多语言能力使千问3有望在全球市场获得采用,包括语言多样性丰富的新兴地区。

千问3模型在编码和代理功能方面取得了进步,并通过模型条件提示(MCP)的深度集成得到增强。这些改进支持复杂应用,如自主代理和更高精度的开发者工具。

该系列模型训练了36万亿个标记,包括来自STEM、推理、书籍和合成数据集的高质量来源。数据升级为语言理解、编程能力和长上下文记忆带来了显著提升。

千问3采用了架构和训练创新,如MoE模型的qk层归一化和全局批次负载平衡。这导致了更大的训练稳定性和各种规模模型的一致性能提升。

其三阶段预训练方法分别针对语言理解、推理和长上下文处理,标记序列扩展至32,000。这种模块化策略增强了千问3处理复杂多轮交互和更大文档的能力。

通过针对每种模型类型的缩放法则优化超参数,千问3代表了阿里巴巴迄今为止最精心设计和技术全面的发布。行业观察人士表示,其开放权重策略和多语言覆盖范围可能使其成为全球AI竞赛中的重要竞争者。

本文由人工智能协助翻译。更多信息,请参见我们的使用条款。

免责声明:本网站提供的信息仅供教育和参考之用,不应视为财务或投资建议。

相关文章

tradingkey.logo
tradingkey.logo
日内数据由路孚特(Refinitiv)提供,并受使用条款约束。历史及当前收盘数据均由路孚特提供。所有报价均以当地交易所时间为准。美股报价的实时最后成交数据仅反映通过纳斯达克报告的交易。日内数据延迟至少15分钟或遵循交易所要求。
* 参考、分析和交易策略由第三方提供商Trading Central提供,观点基于分析师的独立评估和判断,未考虑投资者的投资目标和财务状况。
风险提示:我们的网站和移动应用程序仅提供关于某些投资产品的一般信息。Finsights 不提供财务建议或对任何投资产品的推荐,且提供此类信息不应被解释为 Finsights 提供财务建议或推荐。
投资产品存在重大投资风险,包括可能损失投资的本金,且可能并不适合所有人。投资产品的过去表现并不代表其未来表现。
Finsights 可能允许第三方广告商或关联公司在我们的网站或移动应用程序的任何部分放置或投放广告,并可能根据您与广告的互动情况获得报酬。
© 版权所有: FINSIGHTS MEDIA PTE. LTD. 版权所有