大模型“卷”出天际，AI推理能否轻盈飞翔？

2024-06-14 来源：网络阅读：1940

近一个月以来，业界最热闹的事件莫过于大模型集体降价。在你方唱罢我登场的一番操作之后，大模型的使用门槛向“免费”逐渐靠拢，AI应用大爆发的时间窗越来越近。

当基础设施朝着普惠化不断迈进，精彩纷呈的应用才会持续涌现——这一幕在移动互联网崛起时曾上演过，AI新时代也很可能依循类似的演进轨迹，“推理”将替代“训练”成为舞台上真正的主角。

640.webp.jpg

根据权威研究机构的测算，到2028年人工智能的推理负载占比有望达到85%，考虑到云端和边缘侧巨大的推理需求，未来推理芯片的预期市场规模将是训练芯片的4～6倍。

事实上，在AI的全生命周期中，训练与推理是相互依存的两个重要组成部分。前者将海量数据输入模型，通过高强度的处理使模型识别复杂的数据模式；后者则基于训练好的模型，实时处理输入的数据，在更贴近数据的位置执行特定任务。

显而易见，AI训练与推理因各自定位不同，对算力底座的需求存在显著差异。AI训练需要大规模算力的支撑，通常优先使用并行能力更强的GPU或专用的AI加速器；而AI推理往往只需较小的算力，更强调持续运算与低延迟，兼具高性能、低能耗、高性价比等多重优势的CPU备受青睐。

当AI推理的占比日益上升之时，CPU“凤舞九天”的日子还会远吗？实际情况没有想象中那么简单，能带着用户一起轻盈飞翔的CPU可谓凤毛麟角，第四代AMD EPYC处理器的路径探索值得借鉴。

AI推理的痛点及对CPU的期望

值得关注的是，AI推理出现的时间较早，其范畴不仅涉及近两年火爆的大模型，还包括计算机视觉、推荐系统等已被各个行业广泛使用的AI模型。

以计算机视觉模型与推荐系统的协同运作为例：在制造业，计算机视觉模型能监控从食品到印刷电路板等制成品的质量，若把遥测数据输入推荐引擎，更可提出主动维护建议；在金融服务业，由AI推荐系统驱动的异常检测可有效阻止信用卡欺诈，而计算机视觉模型则能监控包括客户支票在内的可疑文件。

640.webp (1).jpg

毋庸置疑，由于AI推理扮演的主要角色是对已训练模型的决策或识别，擅长处理复杂逻辑和控制流任务的CPU能够应对诸多场景的一般性问题。但AI推理所处的环境也在发生剧烈变化，CPU在实践中面临多维度的新挑战。

从落地应用的角度看，AI推理的身影会出现在零售店、行驶中的汽车、工厂车间、医院放射科等纷繁复杂的场景，这意味着其经常在不同的软硬件平台上运行，并腾挪于云端与边缘侧——这对CPU在各类设备上的通用性提出更高要求，且期望其在性能、功耗、成本等核心指标之间达成动态平衡。

更为重要的是，伴随深度学习模型复杂度的不断提升以及参数量的几何级数增长，AI推理任务可能涉及大量矩阵运算和向量运算，并要频繁访问模型参数和中间数据，这需要CPU具备高性能、大缓存、高IO带宽等综合优势，只靠省钱的低配版即可吸引客户的时代已一去不返。

第四代AMD EPYC为AI推理插上腾飞的翅膀

不难看出，AI推理正处于全面跃迁的关键节点，以CPU为核心的算力底座亟待升级。每一个痛点都蕴藏着机遇，需要智勇双全的探路者点石成金。

作为拥有高性能GPU、CPU及各种平台解决方案的行业领头羊，AMD深谙AI全生命周期的演进规律，其基于EPYC CPU构建的算力基础设施已成为最受客户青睐的AI推理平台，第四代AMD EPYC更为AI推理插上腾飞的翅膀。

640.webp (2).jpg

战地摄影师罗伯特·卡帕曾说，“如果你拍得不够好，是因为你离得不够近。”这个观点在AI推理领域同样适用——由于AI推理通常在靠近数据的位置进行，搭载AMD EPYC CPU的服务器也部署于此，随时准备执行任务。无论是金融、制造、消费等传统行业，还是医疗、零售等新兴领域，AMD EPYC驱动的服务器都能为客户的AI推理保驾护航。

位置上离客户近还不足够，走进他们的心里更难能可贵。其中一个重要途径，就是最大限度降低客户AI部署、开发和应用门槛——AMD EPYC采用各个行业用户最驾轻就熟的x86架构指令集，相当于赢在了起跑线上。

从某种意义上讲，第四代AMD EPYC的脱颖而出让AI推理迈上更高的台阶。与上一代处理器相比，全新的Zen 4架构使每时钟周期执行指令总数增加约14%，更高的频率促进性能大幅提升，显著拉高了AI推理适应各种工作负载的天花板。

针对AI推理在高并发、低延迟场景的迫切需求，第四代AMD EPYC的核心与线程数量猛增50%以上，并支持同步多线程，无需GPU加速就能进行更多并行推理操作，即使处理上万个源的数据推理需求也应付裕如。

尤值一提的是，为帮助AI推理应对矩阵和向量计算的挑战，第四代AMD EPYC具备灵活高效的AVX-512扩展指令集，支持BF16数据类型以提高吞吐量，规避了INT8数据的量化风险，且双周期、256位流水线设计有助于提高AI推理的运行效率。

Phoronix通过使用TensorFlow210和BF16数据类型运行Res-Net-50模型，验证了AVX-512对AI推理的独特价值：在同一台服务器上开启和关闭AVX -512指令的场景下，发现开启AVX -512时，性能提高了1.73倍，且对时钟频率的影响很小，每瓦每秒处理的图像数几乎翻倍，这在人脸识别等热门应用中将起到不可替代的作用。

其实，AI推理的“野心”不局限于轻量级或通用型场景，要想在高性能计算、科学计算等金字塔尖上施展拳脚，显然离不开算力底座的进一步升级。第四代AMD EPYC拥有更强大的内存与I/O，引入DDR5内存并支持多达12个通道，特别是在9084X系列中采用3D V-Cache技术，三级缓存容量高达1.1GB，能满足高负载及缓存敏感型场景的极致要求。

如果说CPU性能的全方位增强为AI推理的起飞提供了充足的动力，那么能耗和成本的降低则为AI推理的轻盈飞翔创造了必要条件。第四代AMD EPYC的能效水平处于业界领先地位，96核心的热设计功耗只需360W；同时，各个系列处理器的性价比颇具竞争优势，为AI推理的普惠化奠定了坚实基础。

AI推理的终极目标比远方更远

近一段时间，人工智能领域的多位大咖纷纷表示看好AI推理的发展前景，更有研究机构做出这样的预测：AI推理对算力的总需求将会远超AI训练，可能是5倍、10倍，甚至更高。

640.webp (3).jpg

既然想象空间已彻底打开，快马加鞭就是大家的共同选择。在备受瞩目的Computex 2024上，AMD预览了将于今年下半年发布、具有领先性能和效率的第五代AMD EPYC 服务器处理器，比第四代产品又向前迈出一大步：Zen5架构的指令集带宽增加2倍以上，缓存之间的数据带宽也提升2倍，每时钟周期指令集平均提高16%，部分项目的擢升幅度逾20%。

尽管第五代AMD EPYC不是为AI推理量身定制的处理器，其应用场景非常广阔，但其每一项指标的提升又必然为AI推理的进化添薪加柴。从未来5到10年的视角看，人工智能的落地进程将渐入佳境，AI推理任重而道远，属于新一代CPU的华彩乐章值得期待。

内容转载自：IT创事记

大模型“卷”出天际，AI推理能否轻盈飞翔？

延伸 · 阅读