英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

从某种程度来说,MoE模型的走红,恰恰是这一战略思路的呈现。AI行业对算力、性能等问题的探讨,在假设和求证中,MoE模型为人工智能找到了一条更为清晰的发展之路。

英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

文 | 智能相对论

作者 | 陈泊丞

在过去的一年多时间内,英伟达破天荒地完成了市值的“三级跳”。

一年前,英伟达的市值并尚不足1万亿美元,位居谷歌母公司Alphabet、亚马逊、苹果和微软等科技巨头之后。

时至今日,英伟达市值突破3万亿美元,超越苹果,仅次于微软。

这样的成就归功于英伟达在AI芯片领域的显著优势。随着生成式AI进入规模化爆发阶段,算力需求愈发膨胀,由此英伟达的AI芯片便成了市场的“香饽饽”。

然而,市场对算力的需求远超大众的想象,英伟达的高端芯片也是一卡难求,在这个节点上AI行业不得不在其他层面上寻求破局算力荒的新解法。

如今,在算法架构上,MoE混合专家模型凭借其在算力效率上的显著优势持续走红,成为越来越多AI厂商共同探索的新方向。

那么,MoE模型的走红,是否真的能为AI行业破解算力荒?

MoE模型剑指算力效率:优化算法,压榨性能

区别于稠密(Dense)模型,MoE模型采用采用稀疏激活机制,在处理任务的过程中往往可以根据不同的任务需求,只需要激活一部分专家网络即可,而非激活全部参数,从而很好地提高了计算效率,更高效地利用计算资源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在总参数量为143亿的情况下,每次推理只激活27亿参数。类似的,DeepSeek-MoE 16B的总参数量为164亿,但每次推理只激活约28亿的参数等等。

以上这种设计,就有效平衡了模型的性能与计算资源的使用效率。

因此,尽管MoE模型通常拥有更多的参数,但由于其稀疏性,训练开销可以显著降低。又比如,在实践中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,训练成本显著降低了75%。

再以浪潮信息的源2.0-M32开源MoE模型来说,我们发现,源2.0-M32在2颗CPU,80GB内存的单台服务器上即可部署高性能推理服务,而Llama3-70B则需要在4颗80G显存的GPU服务器上才能完成部署和运行。

通过这样的对比,就可以发现,凭借MoE模型在算力效率上的显著优势便能在AI基础设施层面减少投入,缓解对高端GPU芯片的过度依赖。根据推算性能测试,如今源2.0-M32的单Token推理算力需求是Llama3-70B的1/19。

之所以能达到这样的效果,是因为MoE模型通过将模型划分为多个小型的专家网络,而这种划分允许模型在保持性能的同时,减少所需的存储空间和内存带宽。由于在训练过程中模型大小的减少,MoE模型需要的计算资源也随之减少,这意味着相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的训练时间完成训练。

可以说,MoE模型本质上是一种高效的Scaling技术,在允许参数规模拓展的过程中也为算力投入提供了一个较好的解决方案,让大模型在保证规模和精度的同时具备了加速落地的可能。

更少的算力是否意味着性能打折?

尽管MoE模型可以用较少的算力去进行训练,但这并不意味着其性能会大打折扣。

在实践中,MoE模型通过细粒度专家的设计、非从头训练的初始化方法和带有共享及路由专家的路由机制等技术创新,使模型在保持较小参数量的同时,能够激活并利用更加精细的计算资源。这也就使得MoE模型在保持高性能的同时,有效降低了计算资源消耗。

简单对比一下MoE模型和Dense模型的计算性能,源2.0-M32在支持BF16精度的2颗CPU服务器上,约20小时就能完成1万条样本的全量微调。而在同样的CPU服务器上,Llama3-70B完成全量微调则是需要约16天的时间。

由此来说,MoE模型在计算性能上并没有因为算力的问题而大打折扣,反而还提升了不少。同样的算力支持,MoE模型可以产出更智能的应用和实现更高效的性能。

这样的结果涉及MoE模型多种算法的创新和优化。MoE模型通过引入专家网络(Expert Networks)和门控机制(Gating Mechanism)实现了模型的稀疏化和模块化,但是模型的性能问题依旧还没有得到很好的解决和优化。

随后,行业继续从不同的角度对MoE模型的性能提升进行探索。其中,QLoRA微调技术是针对预训练模型的,通过对专家网络的参数进行低秩分解,将高维参数矩阵分解为低秩矩阵的乘积。然后对这些低秩矩阵和量化参数进行微调,而不是整个专家网络参数,进一步提升模型的性能。

同时,微软又提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE,其通过深度优化MoE在并行训练中的通信,减少通信开销,并实现高效的模型并行。此外,DeepSpeed-MoE还提出了基于微调的专家排序机制,可以根据训练过程中专家的损失动态调整输入样本到专家的分配,提升效果。

总的来说,针对MoE模型的性能问题,业内一直在致力于创新和探索新的算法和技术来进行提升和优化。目前,MoE所展现出了巨大的性能潜力,并不输Dense模型。

写在最后

现阶段,算力吃紧是不争的事实,日趋激烈的算力需求促使了英伟达的“超神”故事。但是,AI大模型厂商们也并非坐以待毙,针对算法架构层面的创新和优化持续涌现,MoE模型的走红正预示着AI行业进入了算法+基础设施两手抓的阶段。

可以预见的是,MoE模型的持续迭代在解决AI算力荒的同时也在跨越式地提升AI模型的性能,把人工智能带入一个全新的发展阶段。胡适曾提到一种经典的战略思想:大胆假设,小心求证。

从某种程度来说,MoE模型的走红,恰恰是这一战略思路的呈现。AI行业对算力、性能等问题的探讨,在假设和求证中,MoE模型为人工智能找到了一条更为清晰的发展之路。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

该文观点仅代表作者本人,企服科学平台仅提供信息存储空间服务。

(0)
上一篇 2024年6月27日 下午2:08
下一篇 2024年6月28日 上午10:29

相关推荐

  • 斯沃特:让值得信赖成为最亮眼的名片

    对于制造业来说,Oracle NetSuite不仅可以帮助企业串连内外部系统、提高数据可信赖度,推动企业数智转型;也可以帮助企业实现业务增长、员工生产力优化、生产效率提升等,加速制造业数字化进程。

    2024年11月21日
  • 软件行业的未来:拥抱变革,把握机遇

    随着数字化转型的浪潮席卷全球,软件行业正处于一个前所未有的变革期。2024年,我们见证了技术革新和市场需求的双重驱动,为软件行业带来了新的增长点和挑战。本文将探讨软件行业面临的主要趋势,以及个人和企业如何把握这些机遇,实现可持续发展。

    2024年4月18日
  • 金蝶发布AI管理助手 重构苍穹AI平台

    当前,金蝶正全面发力人工智能,“Allin AI”,推动“订阅优先、AI优先”战略加速落地。未来,金蝶将与更多关注新兴技术的企业、政府机构,以及锐意创新的开发者们携手同行,共创企业管理智能化的新时代。

    2024年5月15日
  • 数智引领,浙里有为 华为致力谱写数字浙江新篇章

    数字经济已经成为推动浙江经济高质量发展的核心驱动力,2025年浙江数字经济仍继续保持稳中有进、整体向好态势。为了持续助力数字浙江、创新浙江建设,华为也将坚持立足浙江、发展浙江,并通过不断强化自身核心竞争力,为各行各业的数智化转型提供全面、深入的数字化解决方案,共同谱写中国式现代化浙江新篇章。

    2025年1月6日
  • AI大模型市场巨震,亚马逊云科技Amazon Nova横空出世!

    前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。

    2024年12月5日
  • 第三届全球数贸会圆满闭幕!人工智能展区三大关键词透视AI未来!

    今年的数贸会,与往年最大的不同之处,毫无疑问是人工智能展区首次设立的机器人专区,不仅有代表机器人顶尖技术的人形机器人展示多模态交互能力,观众还能看到从机器人研发、关键零部件生产到整机制造的完整机器人产业生态。

    2024年9月29日
  • “人工智能+”赋能制造业,华为如何助燃新质生产力?

    如今,人工智能技术正在给制造业带来前所未有的变革,从产品设计到工艺设计,从生产线优化到质量管控,从设备管理到供应链管理,人工智能正在重塑制造业的未来,全面激发新质生产力。为了进一步加速人工智能在制造业的场景化应用,华为也将基于自身技术创新能力和行业经验积累,不断深化与产学研伙伴的合作,共同深耕制造,让智造生根。

    2024年5月25日
  • 西雅图销售科技巨头Outreach前CEO再创业:聚焦 AI Agent 商业化

    曼尼·梅迪纳创立新公司 Paid,致力于为人工智能开发者构建商业基础设施,已获得超千万美元融资。

    2025年4月8日
  • 30亿,我把公司卖给黄仁勋

    英伟达又出手了。

    2025年7月10日
  • 晋升业内新宠儿,MoE模型给了AI行业两条关键出路

    MoE模型的本质在于为AI行业的发展提供了两条思路,一是解决应用上的性能问题,让AI有了更强大的解题思路。二是解决算力上的欠缺问题,让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿,也是水到渠成的事情。

    2024年7月13日

发表回复

登录后才能评论
分享本页
返回顶部