版权归原作者所有,如有侵权,请联系我们

拯救被“算力墙”撞晕的AI:一场模型与芯片的浪漫双向奔赴

张天缘的科普号
原创
账号主要进行学科方向的通识科普。
收藏

在人工智能震撼世界的今天,无论是能生成电影级视频的Sora,还是通晓天文地理的ChatGPT,它们背后都站着一个体型庞大的“数字巨人”——大模型。我们惊叹于这些巨人日益增长的智慧,却往往忽略了喂养它们有多么艰难。

在过去很长一段时间里,计算机行业遵循着一种看似合理的默契:芯片工程师在物理极限的边缘试探,努力把晶体管做得更小、更多,造出性能更强的通用处理器;而AI研究员则在算法的海洋里遨游,设计出越来越复杂精妙的神经网络模型,然后把这些模型扔给芯片去跑。大家各司其职,井水不犯河水。

这种模式在AI发展的初期运作良好。那时模型还不大,摩尔定律带来的性能红利足以覆盖算法增长的需求。但近几年,情况发生了剧变。AI大模型的参数量正以每年十倍甚至百倍的速度膨胀,对算力的胃口大得惊人。当研究人员试图把拥有万亿参数的庞然大物塞进现有的硬件时,他们痛苦地发现,芯片跑不动了。

这不仅仅是因为计算核心不够快,更致命的问题在于“存储墙”。在传统的计算架构中,数据需要在存储器和计算单元之间来回搬运。面对大模型海量的数据吞吐需求,连接两者的带宽通道变得拥挤不堪。计算单元往往在大部分时间里都在空转,等待数据送达。这就像给一辆法拉利配了一个自行车的油箱管路,空有一身本事却使不出力气。

面对算力和功耗的双重撞墙,业界终于意识到,继续让软件和硬件“半分家”是行不通的。一场深刻的变革正在发生:AI算法模型和底层AI芯片不再是甲方乙方的关系,而是开始了紧密的协同设计,进入了互相适配、互相迁就的“蜜月期”。

协同设计并不是一个全新的概念,但在AI时代,它被赋予了新的紧迫性。它的核心逻辑是打破软硬件之间的界限,让懂算法的人去参与定义芯片架构,让懂芯片的人去指导模型设计。

在这种新趋势下,AI模型开始变得“更有自知之明”。研究人员不再盲目追求理论上最完美的模型结构,而是在设计之初就充分考虑目标硬件的“脾气”。例如,利用“硬件感知的神经架构搜索”技术,可以让AI自己去寻找一个既能完成任务,又能在特定的手机或服务器芯片上跑得最快、最省电的模型结构。

模型甚至愿意为了硬件而“瘦身”。传统的科学计算通常需要极高精度的数字格式,比如32位浮点数,以确保准确性。但科学家发现,AI神经网络具有很强的鲁棒性,对精度并不那么敏感。于是,一种称为“量化”的技术大行其道。通过协同设计,模型被训练为可以使用8位甚至更低精度的数字进行运算,而芯片则专门为这些低精度运算设计加速电路。这不仅使得计算速度成倍提升,更关键的是,它极大地减少了数据搬运量,缓解了存储墙危机。

另一边,芯片架构也开始为了适应主流模型而发生蜕变。如果当下最火的模型结构是Transformer,那么新一代的AI芯片就会专门优化针对Transformer核心计算机制的数据通路。英伟达等芯片巨头在最新的GPU架构中引入专门针对大模型训练推理的低精度计算引擎,正是这种思路的体现。芯片不再试图做面面俱到的通才,而是致力于成为处理特定AI负载的专才。

这种软硬件的双向奔赴,正在重塑整个AI产业的技术栈。从谷歌为其TensorFlow框架量身定制TPU芯片,到苹果在自家A系列芯片中深度集成专门服务于iOS系统AI功能的神经网络引擎,协同设计已经成为提升AI体验的关键路径。

在未来,随着摩尔定律的物理脚步进一步放缓,单纯依靠堆砌晶体管来提升算力将变得越来越昂贵和困难。而模型与芯片的深度协同,这种从系统层面榨取性能的智慧,将成为推动人工智能继续向前奔跑的强劲引擎。毕竟,只有当最好的软件遇上最懂它的硬件,智能的火花才能真正燎原。

内容来自:张天缘的科普号

评论
白国华机关工委
少傅级
随着摩尔定律的物理脚步进一步放缓,单纯依靠堆砌晶体管来提升算力将变得越来越昂贵和困难。而模型与芯片的深度协同,这种从系统层面榨取性能的智慧,将成为推动人工智能继续向前奔跑的强劲引擎。
2025-12-01