近年来,晶体管的尺寸正在急剧减小,互连的尺寸也同步缩小。如今,传统的铜(Cu)互连面临着的重大障碍,因为它们的电导率随着尺寸的减小而降低,这也加剧了信号延迟和能量消耗。因此,研究者们正在探索可替代的材料,如半金属和2D材料,作为潜在的Cu替代品。在本文中,我们通过实验表明,在薄尺寸下,CoPt可以提供比Cu更好的电阻率,并提出了将具有CoPt涂层的混合多晶硅用于标准电池中的局部布线以实现紧凑性。我们评估了DRAM/eDRAM的性能增益,以及使用CoPt薄膜的混合多晶硅的D触发器(DFF)的面积与性能的权衡。使用所提出的混合互连,我们获得了高达3倍的延迟减少和15.6%的单元面积减少。我们还研究了使用NbAs的系统级互连设计,NbAs是一种具有纳米级高电子迁移率的拓扑半金属,并证明了其在电阻率、传播延迟和转换速率方面优于Cu。我们的模拟表明,NbAs可以将传播延迟减少35.88%。我们进一步评估了高速缓冲存储器中基于NbAs的互连的潜在系统级性能增益,并观察到每周期指令(IPC)提高了23.8%。
介绍
传统的互连和过孔技术正面临扩展性挑战,并对诸如静态RAM(SRAM)之类的密度关键电路组件以及诸如字线驱动器和感测放大器之类的外围设备构成限制。其中一些挑战如下:
局部互连:较低级别金属(如M0-2)的高电阻率限制了它们的缩放,从而限制了标准单元面积和SRAM位单元大小与技术节点的缩放。扩大金属间距以容纳更多轨道会带来制造后短路的风险。因此,晶体管缩放的好处被较差的互连可扩展性所掩盖。高电阻率还将较低级别金属的使用限制在非常短的距离内。对于中间金属,例如M3-5,这些挑战略有缓解;然而,封装更多的磁道以确保将全局信号(例如,功率、时钟和杂项DC信号)可靠地传送到较低的金属仍然是一个挑战,。
全局互连:承载全局信号的高级金属具有高电容性,因为它们的尺寸消耗开关功率,并且需要缓冲器来提高信号强度。需要技术来缩放它们的尺寸或探索替代的信令技术来控制开关功率和延迟。
过孔和接触电阻:包括与衬底接触的较低级别过孔由于面积较小而具有高电阻。放置多个过孔会对密度敏感元件(例如SRAM)产生负面影响。增加过孔尺寸可能由于更紧密的过孔到过孔间隔而导致制造后缺陷。低电阻率/无耗散材料对于消除上述瓶颈至关重要。
拓扑半金属,如WSM,由于其具有非常规的电阻率缩放和尺寸减小,因此作为互连具有很大的前景。因此,我们评估了Weyl半金属(WSMs)作为全局和局部互连应用的独特性能,以解决上述一些挑战。我们在下面提供关于Weyl半金属的背景。
Weyl半金属:最近研究者们发现了一种新的物质拓扑相——Weyl半金属(WSMs)。WSM表现出由线性带色散和简并(Weyl)节点控制的电子结构,这种结构带来奇异的物理现象,如手性异常。在WSMs中,导带和价带在Weyl节点接触,形成准粒子,这些准粒子以Weyl费米子的形式出现,并具有明确的手性,被认为是拓扑保护的手性电荷。费米弧仅通过晶体边界连接两个手性相反的Weyl节点,在晶体边界处,它们通过打破时间反转对称性或反转对称性在动量空间中分离。由于它们是具有动量空间配置的磁单极子,它们的自旋被锁定在动量方向上。这使得WSM具备拓扑保护的表面电子态,其传输过程是无反向散射并具有高迁移率。
尽管Weyl的半金属理论已经存在了很长时间,但Weyl半金属的发现到最近才有更新的进展。这是因为准确的模拟和材料表征对于实验实现非常必要。人们已经做出了巨大的努力,将时间反转断裂材料作为Weyl半金属的可选材料。然而,很明显,由于磁性材料中的强相关性和磁性掺杂对样品质量的破坏,收集合适材料的“时间反转破坏”方法在证明费米弧或分离Weyl准粒子方面存在许多障碍。然而,在自然发生的反转破坏非中心对称单晶中寻找Weyl半金属候选者可以避免上述困难。
FIZ Karlsruhe的无机晶体结构数据库记录了一个世纪以来合成的晶体的晶格结构。通过遵循这种方法并计算可能是半金属的材料的能带结构,已经确定了许多实验上可行的候选材料。TaAs类化合物被称为I型Weyl半金属,包括NbAs和TaP,已经通过实验实现。尽管违反洛伦兹对称性的II型Weyl半金属仍然难以捉摸,但依然可以找晶体固体,如锗化镧铝(LaAlGe)和Ta3S2可以帮助观察II型Weyl费米子。为了研究Weyl半金属的显著特征,大多数工作都集中在聚焦离子束(FIB)铣削微结构块体晶体上。图1显示了FIB如何从大块晶体中制造微观结构。
图1. 使用FIB从大块晶体制备的微观结构的SEM显微照片。
尽管取得了这些进展,WSM的研究仍处于早期阶段,需要物理学家、材料科学家和电气工程师共同努力,才能在集成电路中成功应用。例如,基本物理性质,如费米弧和Weyl节点在WSM电导率中的作用,以及它们随维度的变化,这些依然需要深入研究。材料合成技术,特别是薄膜和纳米线的材料合成技术还不成熟,需要材料科学家的关注。合成的WSM在器件中的纳米制造方法及其在集成电路中的异质集成值得电气工程师进一步探索。此外,该领域将受益于高通量计算,以发现满足性能要求并与半导体制造工艺兼容的新WSM,这可以通过结合第一性原理计算和工艺/电路建模的机器学习来实现。
在本文中,我们通过实验证明了在更薄的尺寸(即厚度低于10nm)下,CoPt相对于Cu的电阻率标度得到了改善。由于互连通常不薄于10nm,CoPt不能用于取代现有的Cu基互连。因此,我们建议在规则多晶硅互连上沉积CoPt,以开发用于标准单元和存储器电路中的局部布线的混合多晶硅WSM互连,以实现紧凑性。我们评估了DRAM/eDRAM的性能增益以及使用混合poly-WSM互连的DFF的面积与性能权衡。我们进一步研究了另一种拓扑半金属NbAs,并使用不同工艺技术的各种指标证明它在全局互连方面优于Cu。我们还使用gem5模拟器进行了广泛的模拟,以证明NbAs相对于Cu提供的系统/架构级别的性能改进。
论文的其余部分结构如下:我们在第2节中讨论了CoPt互连的制造以及用于较低级别和较高级别互连性能评估的评估方法,介绍了用于我们分析的设置,在第3节中讨论结果,并在4节中总结。
方法
在本节中,我们首先介绍了CoPt的制造方法和混合多晶硅WSM互连。
然后,我们讨论了混合poly-WSM作为局部互连的应用,并对其性能进行了评估。最后,我们提出了另一种拓扑半金属NbAs,它在电阻率方面优于Cu,并评估了其在电路和系统层面的性能,以用于全局互连应用。
2.1
CoPt 制造
我们在大于4×10−7Torr的真空中,通过射频(RF)磁控溅射在SiO2/Si衬底上沉积了不同厚度的CoPt薄膜。溅射沉积在室温下氩气环境中、5毫托的压力下进行。我们调整了Co和Pt靶的RF电源,以实现接近1:1的化学计量。CoPt薄膜的确切组成比为Co48Pt52,其能量色散X射线光谱(EDS)如图2所示。
图2:CoPt膜的EDS光谱以确认Co/Pt比率大约为50/50。
对于Co和Pt靶,功率分别为200W和39W。在获得正确的化学计量后,下一个目标涉及实现正确的相/晶体结构。化学计量Co:Pt=1:1的CoPt有两个相:四方相和三角。我们的目标CoPt相是四方相的。因此,我们在700摄氏度下在N2中对CoPt薄膜进行退火,使其具有四方相,这通过图3中显示的XRD进行了验证。厚度为40nm的CoPt样品的SEM图像如图4a,b所示。通过SEM观察晶粒尺寸。图4a表示退火前的CoPt膜,晶粒尺寸约为10 nm,图4b对应退火后的CoPt膜,晶粒大小为100 nm–1μm。然后,我们测量了不同厚度下的薄膜电阻率,如图5b所示。当薄膜厚度≤10nm时,CoPt(22.2±2.9μΩ·cm)的电阻率低于Cu(~36μΩ·厘米)。
图3. CoPt在N2中700℃退火后的XRD。
图4. CoPt薄膜的SEM图像(a)退火之前和(b)退火之后。
图5.(a)在多晶硅上沉积CoPt以创建混合多晶硅WSM互连的示意图。(b)右图显示了与Cu相比,CoPt的电阻率在厚度上是如何变化的。在厚度<10 nm时,CoPt比Cu显示出优势。
2.2
低层级互连
对于低层级互连,我们提出了混合多晶硅WSM(在其上沉积一层CoPt的多晶硅布线)并评估其电阻。之后,我们估计了在各种电路中使用时的各种性能指标,如传播延迟。由于从电路中消除了金属-1和过孔,我们还获得了面积优势。
2.3
高层级互连
与局部互连不同,全局互连不能承受高电阻率,因为它们的传输距离更长。在这项研究中,我们考虑了另一种WSM,即基于NbAs的材料,来设计存储器的高级互连,并评估其对系统性能的影响。我们使用gem5模拟器进行了广泛的模拟,以确定当用作全局芯片互连时,NbAs相对于Cu可以提供的优势。Gem5提供了大量可配置的参数和输出指标,用于评估特定CPU配置的性能。然而,在这项工作中,我们改变了这些参数的子集,以确定NbAs互连提供的可能性能增益。
互连线路延迟在缓存延迟中占主导地位。因此,读取或写入单元格所花费的实际时间通常只有一个周期。
由于在纳米尺度上,与Cu相比,NbAs具有更高的电导率,因此传播延迟更低,因此我们相应地改变L1和L2(最后一级)缓存的延迟,以分析对CPU性能的影响。一级缓存延迟通常在2到4个周期之间变化,具体取决于缓存大小,而二级缓存延迟则通常在几十个周期之间。例如,苹果M1芯片中P核的L1和L2缓存延迟,该芯片基于ARM的big.LITTLE架构,分别包含3个周期和18个周期。
对于每个缓存级别,gem5允许用户修改三种类型的延迟:标记、数据和响应延迟。为了衡量性能的提高,我们平等地更改了所有三个延迟,并监测了每个周期对系统指令(IPC)的影响,IPC是每个时钟周期执行的平均指令数,IPC越高通常表示系统性能越好。
评估
在本节中,我们介绍了用于评估的电路和系统设置,并讨论了我们的发现。
3.1
设置
基于NbAs的互连:使用一个简单的发射器-接收器测试电路进行模拟,分别研究Cu和NbAs纳米带的行为。将振幅为1V、初始延迟为1ns、上升和下降时间各为1ps、周期为2ns、占空比为50%的脉冲作为CMOS发射器反相器的输入。该逆变器的输出随后通过Cu/NbAs的纳米带。以恒定的间隔,缓冲器被放置在脉冲的路径中。这些缓冲器的大小是发射器反相器大小的4倍。在纳米带的末端,输出脉冲被作为输入提供给接收器反相器。在我们的实验中,接收器的大小各不相同。我们使用65 nm、45 nm和22 nm预测技术模型(PTM)进行模拟。Cu和NbAs材料的电阻率值取自图6中的曲线图。
图6. Cu和NbAs在纳米尺度上的电阻率值。为了便于解释,我们绘制了电阻率与厚度(log,最初以nm为单位)的关系图。我们还指出了我们在分析中使用的Cu和NbAs电阻率值(用正方形表示)。NbAs电阻率为0.55μΩ·cm,比Cu低≈32%。
GEM5: GEM5模拟器提供了一组不同的CPU模型、指令集体系结构(ISA)、内存系统等,有助于进行计算机体系结构研究。GEM5支持两种主要系统模式和四种不同的CPU型号。在我们的实验中,我们使用了一个称为仿真模式(SE)的系统和乱序CPU模型。
gem5模拟器具有对多个ISAs(ARM、RISC-V、SPARC等)的模块化支持。我们在X86架构上进行了模拟。所有实验都是使用gem5处理器DerivO3CPU进行的,时钟频率为2GHz。表1显示了用于模拟的完整gem5系统配置。
表 1. GEM5 配置
Gem5支持多种基准测试套件,如SPEC CPU 2017、SPLASH-2、NPB(NAS并行基准测试)等。我们使用Parsec 3.0基准测试套件进行评估。它包括识别、挖掘和合成(RMS)领域的广泛新兴应用程序,以及模拟大规模多线程商业程序的系统应用程序。在可用的13个主要基准中,我们使用了其中5个用于实验,即Blackscoless,它使用Black-Scholes偏微分方程分析计算欧洲期权组合的价格;Canneal,它使用模拟的缓存感知退火来优化芯片设计的成本;Fluidanimate,使用流体动力学与平滑粒子流体动力学进行动画制作;光线跟踪、实时跟踪和流集群解决了输入系统的在线集群问题。
此外,我们还使用了另一个CPU基准来评估系统在深度学习工作负载上的性能。该基准测试包括在合成数据集上训练一个简单的MLP,该MLP有三个隐藏层,前两层有1024个神经元,最后一层有26个神经元(类数)。所有模拟都是在Gem5 20.1.0版本上在Ubuntu系统上进行的,该系统具有Intel(R)Core(TM)i9-10900X CPU@3.70 GHz和16 GB Ram。
3.2
结果
混合型poly-WSM互连:为了评估混合型poly-VSM互连,我们考虑了两个测试案例,即:
(a) DRAM/eDRAM:DRAM/eDRAM设计的字线通常使用多晶硅布线,以实现最佳的存储密度。然而,由于高多晶硅电阻率,它严重降低了字线(WL)性能。为了恢复性能,WL也在金属-3中布线,并且多晶硅WL偶尔与金属-3短路。由于金属-3比多晶硅快得多,因此用这种方法可以减轻最坏情况下的WL延迟。然而,与多晶硅的接触降低了阵列密度。通过调整金属-3和多晶硅连接/带的数量,可以在性能和存储器密度之间进行权衡。为了评估混合poly-WSM互连的DRAM/eDRAM性能,我们假设了256位DRAM设计的三种基线情况。在图7a中,使用纯多晶硅来驱动WL。这种填料密度最好,但速度最慢。在图7b中,WL由poly驱动,M3用于每16位绑定WL。这提供了最差的密度,但却是最快的。图7c与第二个相似,只是M3用于每32位绑定WL。
图7. 用于评估混合多晶硅WSM互连性能的DRAM的基线设计:(a)没有任何M3绑定的纯多晶硅;(b) 纯聚乙烯,每16位M3绑定一次;以及(c)具有每32位M3条带的纯poly。
我们还使用512B DRAM评估了相同的设计,也通过用poly-WSM混合互连代替poly路由。
(b) D-FF:D-FF被广泛应用于芯片设计中,数量巨大(数以万计)。因此,紧凑和高性能的D-FF设计是实现面积和能源效率的关键。D-FF还由于过孔和金属而遭受拥塞,这使其成为混合多WSM勘探的完美候选者。
混合poly-WSM互连的面积与性能权衡:我们使用混合poly-WMS来路由WL,并比较DRAM/eDRAM的所有三种情况的性能。我们注意到,当我们比较常规多晶硅互连与无绑定的混合多晶硅WSM互连的延迟时,获得了最高的性能改进(表2)。延迟变为通常的多晶硅互连的延迟的1/3。当M3用于每16位绑定字线时,改进大约为12%。当每32位执行一次绑定时,性能增益适中(约为7-8%)。
表 2. DRAM/eDRAM 性能.
对于D-FF,我们从图8a中注意到M1过孔限制了面积。混合互连(图8b)用于路由一些信号,从而消除M1和过孔,并将面积减少15.6%。
图8.(a)标准D触发器和(b)使用混合多晶硅WSM互连的D触发器。
然而,它对性能有一些影响:在这种情况下,clk-Q和D-Q延迟会降低。然而,混合多晶硅设计的延迟性能优于纯多晶硅设计,并且可以进一步优化(表3)。poly-WSM混合互连可以用于非关键路径,以避免性能问题,同时获得面积减少的好处。
表3. D触发器不同布局的性能比较。
更高级别互连的路径探索:为了评估基于NbAs的互连的性能,我们首先将纳米带的长度从1毫米变为10毫米(宽度:0.1μm),并测量传播延迟和电阻的变化。正如预期的那样,电阻(图9a)和传播延迟(图10b)随着纳米带长度的增加而增加。此外,从图中可以明显看出,NbAs是比Cu更好的导体,提供了更低的延迟和电阻。图10a显示,对于22nm工艺技术,NbAs带的最大可能延迟改进为20.9%。
图9.(a)Cu和NbAs的100nm宽纳米带在不同长度下的电阻。(b) 10毫米长的纳米带在不同宽度下的电阻。
图10. 65 nm、45 nm和22 nm工艺技术的Cu和NbAs之间关于(a)纳米带宽度和(b)纳米带长度的延迟比较。
我们还将纳米带的宽度从0.025μm改变到0.5μm(长度:10mm),并观察延迟和电阻。增加宽度增加了纳米带的横截面积(厚度为200 nm),因此电阻下降(图9b),随后减少了传播延迟(图10a)。我们观察到,当其宽度为0.025μm时,对于45nm工艺技术,NbAs提供的最大延迟改善为35.88%。图14a显示了各种工艺技术的最大延迟改进。
转换时间的一般准则是将其保持在100ps以下,以缓解潜在的信号完整性问题。在本研究中,发射器反相器和接收器反相器的宽度比在1:4到1:36之间变化。从图11中,我们可以注意到,NbAs在转换时间方面优于Cu。随着接收器反相器的尺寸增加,传播延迟也增加。图12显示,NbAs相对于Cu的延迟改善百分比随着发射器和接收器反相器的宽度比的增加而增加。当纳米带宽度随固定接收器逆变器尺寸而变化时(图13),由于电阻随宽度的增加而下降,因此转换时间下降。
图11. 对于(a)65nm、(b)45nm和(c)22nm工艺技术,Cu和NbAs之间关于接收器反相器宽度的压摆率比较。
图12. 对于(a)65nm、(b)45nm和(c)22nm工艺技术,Cu和NbAs之间相对于负载反相器宽度的传播延迟比较。
图13. 对于(a)65nm、(b)45nm和(c)22nm工艺技术,Cu和NbAs之间相对于纳米带宽度的压摆率比较。
系统级性能评估:图10a显示,对于22 nm工艺技术(导线长度和宽度分别固定在10 mm和25 nm),与Cu相比,NbAs的传播延迟降低了35.28%。表4列出了与传播延迟改进相对应的互连特性。如前所述,尽管总缓存延迟取决于互连和缓存访问延迟,但互连延迟是主要瓶颈,因为访问延迟非常快,即通常为1个周期。因此,考虑到延迟改进,我们降低了L1和L2缓存延迟,保持所有其他参数不变,以分析NbAs互连提供的性能改进。从图14b中,我们可以看到,正如预期的那样,随着缓存延迟的减少(在NbAs的情况下),IPC会增加。这是因为较低的高速缓存延迟表明高速缓存需要较少的时钟周期来执行所需的操作,从而减少了整个系统使用的总时钟周期,从而增加了每个周期执行的指令数,即IPC。IPC的改善范围从canneal的12.7%到streamcluster的23.8%。NBA在所有基准中提供的IPC平均改善率为18.56%。实际改善量会因工作量而异。直观地说,我们知道需要频繁访问内存的工作负载将受益更多。
图14.(a) 与不同工艺技术相对应的最大传播延迟改进。(b) 图显示了在各种基准上,由NbAs(相对于Cu)提供的传播延迟减少35%(22nm技术)所对应的IPC改进。
表4. 与NbAs在Cu上提供的最大传播延迟改善相对应的互连特性。我们还包括用于低层次互连评估的纯多晶硅电阻率。
我们进一步考虑了一种更现实的全局互连场景,其中互连线的宽度和长度分别为100nm和10mm。发现22 nm节点的相应传播延迟改进为20.9%(图10b)。
考虑到这一改进,我们重新进行了gem5模拟,发现在blackscholes基准的情况下,IPC提高了15.7%。所有基准的IPC平均改善率为13.67%。
我们还分析了NbAs互连提供的总执行时间(ET)改进。我们在IPC改进的基础上展示了这一点,因为总执行时间是一个公认的性能指标,被称为“性能铁律”。具有N条指令的单线程程序的总执行时间可以计算如下:
其中