AI芯片可靠性挑战如何突破

发布日期：2024/6/18 AI芯片可靠性挑战
发布单位：iST宜特

不想被大AI时代抛在后头？确保芯片质量与可靠性是关键。而AI芯片面临的三大挑战：超高功耗、超低电压、异质整合，你知道该怎么迎战吗？ AI芯片可靠性挑战

AI芯片可靠性挑战

OpenAI与Google日前于最新发表会中，揭晓了旗舰模型「GPT-4o」与「Project Astra」。当用户与其对话时，不但可相互传输文字、图像和音频，甚至另一端的机器人还可以透过手机屏幕，描述出用户身处的环境，并从使用者的口吻中，判断出使用者的情绪，聊到开心之处甚至还会大笑和歌唱，沟通上完全就跟真人如出一辙。

AI人工智能技术是透过仿真人脑的类神经网络，经过深度学习，取得对象特征参数，产生仿真人脑的判断能力。这看似艰深的AI技术，早已走进大众的日常生活，从生成式内容、自动驾驶、智能家居到医疗保健，从金融到制造业，应用广泛且深具潜力。可以预见，AI技术将继续引领创新，成为推动产业发展的重要引擎。

除了算法与大数据的演进与支持之外，硬件方面，AI芯片依不同的应用领域，不断往高效能、高带宽或低耗电等特性演进（表一）。然而这些特点，不仅会影响AI芯片的效能与寿命，甚至，也造成AI芯片可靠性试验设计手法、设备等，面临极大挑战。宜特可靠性验证实验室，为您归纳出AI芯片最常见的三大挑战与解决办法，本期宜特小学堂，将会逐一说明。

表一：AI 芯片应用种类

AI芯片可靠性挑战除了算法与大数据的演进与支持之外，硬件方面，AI芯片依不同的应用领域，不断往高效能、高带宽或低耗电等特性演进（表一）。然而这些特点，不仅会影响AI芯片的效能与寿命，甚至，也造成AI芯片可靠性试验设计手法、设备等，面临极大挑战。宜特可靠性验证实验室，为您归纳出AI芯片最常见的三大挑战与解决办法，本期宜特小学堂，将会逐一说明。

(表格来源：宜特科技）

一、AI芯片最常见的三大挑战

（一）云端AI芯片的超高功耗挑战：热消散与热平衡能力

数据中心的云端AI芯片，肩负人工智能的深度学习任务，必须提高效能运算，也因此将耗费大量电能，其单一颗芯片耗电量甚至超过200W（瓦），伴随产生的高热，将使得芯片老化速度加剧。

因此，一年必须连续工作365天的云端运算AI芯片，对老化产生的可靠性问题更需审慎评估。

可靠性测试原理必须抽样（sampling）一定数量的IC做实验，来预估整个母体的生命周期与故障机率。通常抽样的数量为77颗，当77颗数百瓦的芯片，一起在一台可靠性系统设备做1000小时的可靠性测试时，上万瓦的功率热能，将严格考验可靠性测试系统的热消散与热平衡能力。

唯有精准的热消散与热平衡能力，才能让每一颗芯片在执行各种不同运算模式时，芯片都能维持稳定的Junction温度（Tj）（PN接面温度），如此才能够准确预估IC的生命周期。因此，高效能云端AI芯片所产能的热能，该如何消散与控制，将是IC可靠性实验设计面临的一大挑战。

（二）终端AI芯片的超低电压挑战：多组系统电源需求，挑战可靠性测试极限与硬件解决方案

终端AI芯片除了需要高运算效能之外，还必须具备低耗电特性，以满足其应用环境的需求。例如，行动装置、物联网（IoT）装置、无人机、电动车自驾辅助等，皆仰赖电池供电，因此低功耗设计至关重要。

随着半导体工艺不断进步，相同逻辑闸数下的动态电流越来越省电。然而，尺寸微缩的物理特性效应，却导致晶体管静态漏电流增加。摩尔定律指出，每两年晶体管面积可缩减一半，但这并无法让芯片的功耗密度减半，相同面积的芯片将会消耗比以往更大的电流。

为了降低功耗，除了采用低工作电压设计之外，多工作电压与多闸极电压的设计也十分常见。然而，对于可靠性测试系统而言，动辄10组以上的系统电源需求，将挑战可靠性设备电源数目的极限。

同时，1V或甚至低于1V的主电源（core power）低工作电压，将使得IC电源的余裕度（power margin）缩小，电路板上的电压降（power IR drop）或者电源涟波（power ripple），更容易造成IC可靠性测试出错。电压降不仅发生在主电源，因为主电源的降低，部分逻辑闸讯号源（Pattern）电压准位，也需要同步降低，这进一步造成硬件设计与测试上的困难，在在考验着可靠性测试系统能力与硬件设计。因此规划一个符合终端AI芯片需求的高温工作寿命（High Temperature Operating Life，简称HTOL）可靠性测试环境，从设备选择、PCB电路板仿真与制作，各种细节与设计上的考虑，皆必须较一般逻辑IC更为严谨。

（三）异质整合挑战：热消散路径复杂化

异质整合（heterogeneous integration）是AI芯片中的一项重要技术。为了加快不同芯片间的传输带宽，不同工艺的异质芯片被整合在一个封装内，常见的有高带宽内存（High Bandwidth Memory，简称HBM）、传感器（sensor）、微机电系统（Micro-Electro-Mechanical Systems，简称MEMS）和天线（antenna）等。经由硅通孔（Through-Silicon Via，简称TSV）、重分布层（Redistribution Layer，简称RDL）、凸块（bump）和中介层（interposer）等工艺手法，这些芯片可以并排或堆栈起来（如图一所示）。这将大幅度提升异质芯片间的数据传递效率，并降低耗电量。

但是，这种复杂的异质封装堆栈架构，热产生与热消散路径亦随之复杂，例如较大功耗芯片不一定位在封装中心位置，各个芯片厚度亦可能不尽相同，这将使得芯片产生的热消散与热感测方式不同于传统封装，如何在可靠性测试时正确量测与监控芯片温度变得更具挑战。

图一：异质整合芯片（图片来源：宜特科技）

综上所述，如何面对热消散与热平衡能力、测试系统的电压极限，以及异质整合的热消散路径复杂化，是在进行可靠性设计验证时，必须克服的关键。对此，宜特可靠性验证实验室提出如下建议。
二、如何克服AI芯片的可靠性挑战

（一）利用液态冷却系统，稳定控制高功耗AI芯片产生的热能

散热设计功率（Thermal Design Power，简称TDP），是CPU芯片对主板「散热能力」的要求规格。目前桌面计算机CPU的TDP规格最高在150瓦（W）左右，电竞玩家为了维持CPU长时间高效高频工作，往往升级主板、散热片、风扇等等配件，使得升级后的系统散热能力高于TDP要求，让CPU能长时间高频工作，而不会发生过热降频，甚至休眠等问题。

但是服务器及HPC等云端AI芯片，当前TDP规格已达200W以上超高发热功耗。而芯片因封装结构与材料等因素，已难以使用空气对流当散热媒介，将芯片junction温度控制在目标值。

尤其是在可靠性测试中，要求的目标温度高达125°C，这远远高于桌面计算机的70°C。通常在125°C时，芯片的功耗墙已经处于解锁状态，因此稍有不慎就可能导致芯片因高温而烧毁。因此，当对如此高功耗的IC进行高温可靠性测试时，测试系统必须具备更快速的散热能力。

宜特可靠性验证实验室的解法是，利用更高效的液态冷却控制调节系统（Liquid cooling system），搭配客制化液态循环socket（图二），此系统利用液态热交换速率优于气态的特性，以及实时监控芯片温度与调节液态流速等方法，稳定控制超高功耗AI芯片产生的热能，成功收集可靠性实验数据。

图二：液态冷却系统（Liquid cooling socket）（原图来源: Enplas）

（二）热二极管监控电路，监控IC本体温度

云端AI芯片的超高功耗，在进行可靠性测试时，容易因芯片本体温度波动太快，导致无法及时消散热能，造成产品非预期性故障，例如热失控（Thermal Runaway）。因此，当IC内建热二极管（thermal diode）组件时，宜特可靠性系统与可靠性测试板设计，可以客制化热二极管（thermal diode）监控电路，来监控IC 内部温度，将可监测到最实时与准确的接面（junction）温度（图三）。

此作法反应速度快，搭配前面提到的高效液态冷却控制调节系统，更适合超高功耗AI芯片快速温度变化，藉以提供实时热消散动作。此外热二极管（thermal diode）监控电路，可针对3D封装的多晶体（multi-chip）结构下，独立量测出各个芯片的温度，以达到更精确的可靠性数据收集。

图三：IC热二极管（thermal diode）监控电路图例（图片来源：宜特科技）

（三）客制化治具，贴合高低不同的裸晶（die）

AI异质整合芯片，里头的裸晶（die）高低不同，因此，在可靠性验证测试的治具准备，必须依照不同的芯片，客制化IC socket（测试座）和散热系统（heat sink）和热感测组件（sensor），才能够紧密贴合高低不同的裸晶（die），藉此增加热消散能力，温度量测与监控才能更准确（图四）。

图四：客制化IC测试socket（图片来源：宜特科技）

（四）测试电路板超前仿真，免去生产组装后效能不符

AI芯片采用先进工艺，超低的工作电压已来到1V以下。然而，当高电流经过电路板走线时，容易在电路板上产生由低到高的压降（DC IR drop）（图五），IR drop将压低原本已超低的工作电压，容易使得AI芯片因电源电压余裕度（Power voltage margin）不足而失效。

此外，当IC power抽载大电流时，也会产生各种频率的SSN（Simultaneous Switching Noise）。

而电路板的电源层阻抗（Power plane impedance），在各种不同抽载频率下，因本身布线（layout）因素可能反映出高低不一的阻抗（impedance）值（图六），当阻抗值在某个频率下超越目标值时，就会造成严重噪声（Power AC noise）与涟波（Power ripple），也会使得AI芯片因电源噪声余裕度（Power noise margin）不足而失效。

另外，在传统的电路板设计中，由于在同一电路板上放置多颗芯片，每颗芯片的布线（layout）难以完全一致，导致芯片间测试电性存在差异，亦提高了设计与测试的困难度。

为了解决此问题，宜特可靠性实验室跳脱传统电路板设计思维，采用新的BI模块（Burn in module）设计理念，将电路板从原本的一板测试数颗芯片，微缩至仅测试单颗芯片。搭配目前许多布线（layout）辅助设计工具，即可在可靠性电路板设计初期，经由软件分析仿真，调整电源走线长短宽窄、灌孔点大小与数目、解偶合（decoupling）电容值与放置位置等，改善工作电压与讯号源IR drop与电源层阻抗等问题，避免测试电路板于生产组装完成后，才面临效能不符问题。此外，电路板设计微缩至单颗芯片，在测试老化实验时，能协助客户以个别待测物（Devices Under Test, 简称DUT）取得更多的实验参数，同时能针对各芯片的晶体管静态漏电流的不同，分别进行测试参数设定，进一步提升AI芯片的测试质量。

图五：IR drop的仿真测试（图片来源：宜特科技）

图六：电源层阻抗的仿真测试（图片来源：宜特科技）
三、AI芯片可靠性解决方案速查表

统整以上问题和解法，宜特可靠性验证实验室从多年经验中，为您制作一张图表（表二），让您快速了解AI芯片面对不同可靠性挑战时的解决方案。

表二：三大类AI芯片可靠性设计验证速查表

(表格来源：宜特科技）

宜特可靠性验证实验室从早期面对一般消费型芯片、车用芯片、5G芯片，到现今的AI芯片，已累积相当多的实战经验，可解决AI芯片可靠性试验设计时面临到的超高功率、超低电压，以及异质整合等问题，可以提供您精确的温度电压等可靠性测试数据，提升AI芯片的可靠性。

本文与各位长久以来支持宜特的您，分享验证经验，若您还有进一步的问题，请洽+886-3-579-9909分机6428徐先生 Email： web_cre @istgroup.com。

AI芯片设计面临的三大可靠性挑战如何突破

AI芯片设计面临的三大可靠性挑战如何突破

不想被大AI时代抛在后头？确保芯片质量与可靠性是关键。而AI芯片面临的三大挑战：超高功耗、超低电压、异质整合，你知道该怎么迎战吗？ AI芯片可靠性挑战