首頁 突破AI芯片散热需求与可靠性试验难关

突破AI芯片散热需求与可靠性试验难关

首頁 突破AI芯片散热需求与可靠性试验难关

突破AI芯片散热需求与可靠性试验难关

by ruby

AI

不想被大AI时代抛在后头?AI芯片散热如何解? 确保芯片质量与可靠性是关键 。

AI芯片演进与挑战

高功耗AI,考验热消散与热平衡能力

异质整合封装,使热消散路径复杂化

低功耗AI芯片需兼顾效能,电压控制增测试复杂度

1. 高功耗AI,考验热消散与热平衡能力

云端AI芯片肩负深度学习任务,单颗芯片耗电量甚至超过200W,伴随产生的高热使芯片老化速度加剧。因此,一年必须连续工作365天的云端运算AI芯片,对老化产生的可靠性问题更需审慎评估

可靠性测试原理必须抽样(sampling)一定数量的芯片做实验,来预估整个母体的生命周期与故障机率。通常抽样的数量为77颗,当77颗数百瓦的芯片,一起在一台可靠性系统设备做1000小时的可靠性测试时,上万瓦的功率热能,将严格考验可靠性测试系统的热消散与热平衡能力。

唯有精准的热消散与热平衡能力,才能让每一颗芯片在执行各种不同运算模式时,芯片都能维持稳定的Junction温度(Tj)(PN接面温度),如此才能够准确预估IC的生命周期。因此,高效能云端AI芯片所产能的热能,该如何消散与控制,将是IC可靠性实验设计面临的一大挑战

2. 异质整合封装,使热消散路径复杂化

此外,AI芯片使用异质整合(heterogeneous integration)先进封装。为了加快不同芯片间的传输带宽,不同工艺的异质芯片被整合在一个封装内,这些芯片可以并排或堆栈起来这将大幅度提升异质芯片间的数据传递效率,并降低耗电量。

但是,这种复杂的异质封装堆栈架构,热产生与热消散路径亦随之复杂,例如较大功耗芯片不一定位在封装中心位置,各个芯片厚度亦可能不尽相同,这将使得芯片产生的热消散与热感测方式不同于传统封装,如何在可靠性测试时正确量测与监控芯片温度变得更具挑战

3. 低功耗AI芯片需兼顾效能,电压控制增加可靠性测试复杂度

低功耗的终端AI芯片(End Device AI),面临的是另一层面的电压控制议题。终端AI芯片包含了ASIC、SoC,它们主要用于终端设备的运算,常见的装置有手机智能助理、无人机、ADAS (先进驾驶辅助系统)等等。由于这些装置都是依赖电池供电,因此要同时具备高效能、低功耗的特质,如何降低功耗,就成为这类芯片最大设计难题。

为了降低功耗,除了采用低工作电压设计之外,多工作电压与多闸极电压的设计也十分常见。,但对于可靠性测试来说就会产生两个难题:

  • 多组工作电压,就代表多组系统电源同时测试,也就意味着增加测试复杂度,同时也挑战可靠性性测试设备,能承受的电源数目极限。
  • 当工作电压降低,搭配高电流经过电路板走线时,容易在电路板上发生IR drop与Ripple等问题,会进一步造成硬件设计与测试上的困难。

因此规划一个符合终端AI芯片需求的高温工作寿命(High Temperature Operating Life,简称HTOL)可靠性测试环境,从设备选择、PCB电路板仿真与制作,各种细节与设计上的考虑,皆必须较一般逻辑IC更为严谨。

综上所述,如何面对热消散与热平衡能力、异质整合的热消散路径复杂化,以及测试系统的电压极限,是在进行可靠性设计验证时,必须克服的关键。

如何克服AI芯片可靠性挑战

  • 1. 利用液态冷却系统,稳定控制高功耗AI芯片产生的热能

    在HPC、服务器所用的云端AI芯片,因为长时间高效运算导致高功耗、高发热,传统空气冷却已经无法有效散热。特别是,当对如此高功耗的IC进行高温可靠性测试时,测试系统必须具备更快速的散热能力。

    近年来液态冷却系统,也就是俗称的「水冷散热」,被看好将会成为云端AI芯片的主流散热方案。

    宜特可靠性验证实验室,进行试验时,也是利用更高效的液态冷却控制调节系统(Liquid cooling system),搭配客制化液态循环socket(图二),此系统利用液态热交换速率优于气态的特性,以及实时监控芯片温度与调节液态流速等方法,稳定控制超高功耗AI芯片产生的热能,成功收集可靠性实验数据。

    图二:液态冷却系统(Liquid cooling socket)(原图来源: Enplas)

  • 2. 热二极管监控电路,监控IC本体温度

    云端AI芯片的超高功耗,在进行可靠性测试时,容易因芯片本体温度波动太快,导致无法及时消散热能,造成产品非预期性故障,例如热失控(Thermal Runaway)。因此,当IC内建热二极管(thermal diode)部件时,宜特可靠性系统与可靠性测试板设计,可以客制化热二极管(thermal diode)监控电路,来监控IC 内部温度,将可监测到最实时与准确的接面(junction)温度(图三)。

    图三:IC热二极管(thermal diode)监控电路图例(图片来源:宜特科技)

    此作法反应速度快,搭配前面提到的高效液态冷却控制调节系统,更适合超高功耗AI芯片快速温度变化,藉以提供实时热消散动作。此外热二极管(thermal diode)监控电路,可针对3D封装的多晶体(multi-chip)结构下,独立量测出各个芯片的温度,以达到更精确的可靠性数据收集。

  • 3. 客制化治具,贴合高低不同的裸晶(die)

    AI异质整合芯片,里头的裸晶(die)高低不同,因此,在可靠性验证测试的治具准备,必须依照不同的芯片,客制化IC socket(测试座)和散热系统(heat sink)和热感测部件(sensor),才能够紧密贴合高低不同的裸晶(die),藉此增加热消散能力,温度量测与监控才能更准确(图四)。

    图四:客制化IC测试socket(图片来源:宜特科技)

  • 4. 测试电路板超前仿真,免去生产组装后效能不符

    前文提及,由于AI芯片采用多组系统电源需求,容易因为电压降低或噪声问题,造成可靠性试验设计的复杂度与困难度。为了解决这类问题,宜特跳脱传统电路板设计思维,采用新的Burn in module设计。将电路板从原本的一板测试数颗芯片,微缩至仅测试单颗芯片。搭配目前许多布线(layout)辅助设计工具,即可在可靠性电路板设计初期,经由软件分析仿真,改善工作电压与讯号源IR drop与电源层阻抗等问题,避免测试电路板于生产组装完成后,才面临效能不符问题。

宜特可靠性验证实验室从早期面对一般消费型芯片、车用芯片、5G芯片,到现今的AI芯片,已累积相当多的实战经验,可解决AI芯片可靠性试验设计时面临到的超高功率、超低电压,以及异质整合等问题,可以提供您精确的温度电压等可靠性测试数据,提升AI芯片的可靠性。

深入阅读