3nm赛道,芯片破解挤满了ASIC芯片
市场关注的两家ASIC企业都发布了自家的财报。
博通2025财年第一季度财报显示,营收149.16亿美元,同比增长25%,净利润55.03亿美元,同比增长315%。其中,第一季度与AI有关的收入同比增长77%至41亿美元。
Marvell预计第一财季销售额约为18.8亿美元,芯片破解同比增长27%。其中,AI业务收入达7亿美元左右,主要是亚马逊等客户定制ASIC等产品需求增长的带动。
01ASIC,越发丰富
今年以来,大模型的更迭越发的激烈。DeepSeek研究团队再放大招,公开NSA算法。同日,马斯克发布Grok 3模型,号称拳打DeepSeek脚踢OpenAI。
DeepSeep之风正盛,将全球科技产业的重心从训练推向推理阶段。由于DeepSeek是MOE模型,能够实现更低的激活比。算力、内存、互联原有平衡发生剧变,新算力架构机会再次进入同一起跑线。
这种条件下,定制化芯片ASIC似乎越来越适合AI时代。
ASIC芯片的主要根据运算类型分为了TPU、DPU和NPU芯片,分别对应了不同的基础计算功能,也有不同的优势。
TPU
先来看TPU。TPU的核心是矩阵乘法单元,它采用脉动阵列架构,芯片破解这意味着数据以类似心脏跳动的方式在芯片内流动。这种架构允许高度并行的乘法和加法操作,使得TPU能够在每个时钟周期内处理大量的矩阵运算。
如果把TPU比作一个工厂,这个工厂的任务是把两堆数字(矩阵)相乘。每个工人(脉动阵列的小格子)只需要做简单的乘法和加法,然后把结果传给下一个工人。这样,整个工厂就能高效地完成任务,而且速度比普通的工厂(比如CPU或GPU)快很多。
TPU的优势是能够高效处理大规模矩阵运算,支持神经网络的训练和推理任务。所以,更加适合用在数据中心的AI训练和推理任务,如自然语言处理、计算机视觉和语音识别。
DPU
其次来看DPU。DPU能够处理大量的网络数据包,包括接收、分类、转发和过滤等。它通过硬件加速引擎(如网络处理引擎)来加速网络操作,减少CPU在网络处理上的负载。
DPU就像是一个快递中心,它负责接收包裹(数据),快速分拣,然后把包裹送到正确的地方。它有自己的小助手(加速器),这些小助手很擅长处理特定的任务,比如快速识别包裹的地址或者检查包裹是否完好。这样,DPU就能让整个快递系统(数据中心)运行得更高效。
DPU的优势是可以卸载CPU的部分任务,减少CPU的负担。优化了数据传输路径,从而提高系统的整体效率。所以,它的应用场景是数据中心的网络加速、存储管理、安全处理等。
NPU
再来看NPU。NPU是专门为神经网络计算设计的芯片,采用“数据驱动并行计算”的架构。它能够高效执行大规模矩阵运算,特别是卷积神经网络(CNN)中的卷积操作。
如果把NPU比作一个厨房,这个厨房有很多厨师(计算单元),芯片破解每个厨师都能同时做自己的菜(处理数据)。比如,一个厨师负责切菜,一个厨师负责炒菜,另一个厨师负责摆盘。这样,整个厨房就能同时处理很多道菜,效率非常高。NPU就是这样,通过并行处理,让神经网络的计算变得更快。
NPU的优势就是执行AI任务时功耗较低,适合边缘设备。并且,专为神经网络设计,适合处理深度学习任务。所以,NPU的应用场景是人脸识别、语音识别、自动驾驶、智能相机等需要进行深度学习任务的领域。
简而言之,TPU适合深度学习、DPU适合数据中心的数据管理、NPU通过并行计算快速完成神经网络任务,适合各种AI应用。