从第一个现代集成电路诞生距今已有62年。这么多年以来,人们获得更高性能产品的方法一直没有改变,那就是使用更多的晶体管进行更高密度的计算。令人欣慰的是,半导体制造技术的发展支撑了集成电路对晶体管数量几乎无尽的需求,并诞生了摩尔定律这样业界统一的共识,不断驱动计算能力一步步增强。但是,在AI计算进一步发展后,人们发现AI计算对算力的渴求更胜以往。
在半导体制造技术进步速度逐渐放缓的今天,如何进一步获得更高算力的芯片就成为AI行业共同的问题。路线开始分叉,押大还是押小?一家名为Cerebras的公司带给我们一个新的可能——那就是越大越好,一个12英寸的晶圆上只容纳一颗完整功能的AI计算芯片。这就是CerebrasWaferScaleEngine(WSE),今天本文就和你一起来了解它的秘密。
AI计算中的深度学习计算已经是目前最重要的计算负载之一。在过去,那些只有人类大脑才能完成的任务,如今有很多都可以使用计算机以人类或者超过人类的效率来执行。根据OpenAI的报告显示,自2012年以来,AI计算中所使用的的计算量呈现出指数增长的态势,计算需求平均每三四个月就可以翻一番。从2012年到2018年,全球的整个计算量指标增长了30万倍。
▲进入2012年后,AI计算的计算需求平均每三四个月翻一番
AI计算需求的暴增,和我们熟悉的摩尔定律所驱动的半导体产业速度之间产生了一个显而易见的矛盾。如今的摩尔定律已经从之前的18个月放缓到每2年到3年才使得半导体单位面积的晶体管数量翻倍,并且在可预见的未来,这样的放缓速度还将继续下去。因此,半导体厂商在面对市场的性能需求时,往往会选择通过其他手段来增加芯片有效工作面积,提高性能。
现在业内对此的态度普遍是倾向两种看法,一种是选择小芯片联合提高性能,也就是Chiplet方案,这种方案比较容易在民用和商用市场之间取得平衡,不过如何连接诸多小芯片并取得更好的性能,业内依旧有很多讨论,当然这也并非本期的话题,暂且不表。
另一种看法则是继续做大芯片,这对一部分需要大规模并行计算的用户来说是非常友好的,比如超级计算机。原因也很简单,芯片面积越大,相对应所涉及的外围材料就越少。举例来说,一个传统尺寸的GPU芯片如果可以提供1TFLOPS算力的话,那么扩大它的面积到现有芯片的4倍,其算力在合理的情况下还可以继续提升2~3倍。甚至芯片面积进一步扩大,直接将外围的DRAM、SRAM等集成在芯片上,由此带来的延迟降低、带宽增加等因素,性能还将继续提升。同时,节约了多个小芯片系统所需要的PCB、供电、封装等不同组件的成本,综合考虑,甚至可能带来更低的单位性能价格。
不过,芯片尺寸并不仅仅由厂商自行决定,它还受到很多其他因素的限制。比如之前英伟达、IBM和英特尔就很难推出尺寸超过800mm²的芯片,这是因为即使是现在,i193型号的光刻步进器最大可支持刻录的芯片尺寸为短边26mm,长边33mm,面积最大可接受858mm²。因此,继续扩大芯片尺寸也需要考虑设备允许等问题。
▲ASML的介绍显示,在经过多次缩放处理后,目前能够生产的最大的芯片尺寸大约是858mm²。
因此,以整体的方式(非片上拼接)制造超出常规尺寸的芯片需要更多新工具的支持。不过依旧存在一些替代方法可以达成制造更大芯片的目的,这就是晶圆级集成(Wafer-scaleintegration,简称为WSI)的单芯片制造方法,采用这种方法制造的芯片尺寸和晶圆本身最大直径十分接近,在12英寸晶圆上能呈现“巨无霸”芯片的效果。
▲TrilogySystems的WSI芯片样品
缺陷控制:初探晶圆级集成WSI
WSI能制造如此巨大的芯片,看起来非常美好。但实际上,WSI虽然能够大幅度提升芯片的尺度从而提升性能,相应的也面临着巨大的困难。纵观历史,WSI在过去的50年时间中被多个厂商实践过,但成功者寥寥。失败的主要原因除了资金、市场外,技术上问题也颇多,包括超大尺度的芯片的设计、制造、封装、散热等,还有致命的晶圆缺陷。所谓晶圆缺陷,是指高纯度硅晶圆上那些存在杂质或晶体生成异常的区域。
作为一个晶圆尺寸级别的芯片,对电路正确的要求非常高,理论上任何电路错误都可能导致整个芯片运作失败。但是由于人类目前工程技术制约和物理规律限制,任何晶圆都不可能100%完美,总会有缺陷的存在。因此,WSI如何控制晶圆缺陷(甚至包括制造缺陷)就在很大程度上制约着它的成败。
晶圆缺陷并不是一个新话题,它在普通的芯片制造中也存在,并引发了良率和成本等问题。为了更好地理解WSI技术,本文先对普通芯片制造制造过程和缺陷处理方式进行简单描述。
一般来说,普通芯片设计时,工程师在芯片设计阶段就能确定芯片所使用的工艺代次,然后和芯片制造厂商共同确定所设计芯片的面积尺寸。在得到这些数据后,使用晶圆的面积除以目标芯片的面积,就得到了一张晶圆可以获得多少芯片的参考数据。根据这个参考数据,芯片制造厂会在晶圆上根据芯片的尺寸给出最佳的布局方式,完成之后,晶圆看起来就像划上了规律的方格。然后,芯片制造厂会根据布局的方格,利用同样方格布局的掩模,使用光刻工艺进行不断地重复刻制、冲洗、继续重复、冲洗等,直到形成了所需要的一个个成功的芯片图案。接下来,厂商会根据之前设定的方格边线,切割并分开一个个芯片,再通过检测手段确定不能工作的芯片。
▲经过光刻芯片后的晶元,可见大量相同的芯片排列。
对这些已经切割的完成、但又不能正常工作的芯片而言,迎接它们的通常的做法是直接报废,或者还可以屏蔽一部分功能后再廉价销售。这种情况下,使用被抛弃报废的芯片数量除以所有生产出的芯片数量,就得到了某种意义上的良率数据(不同情况下良率计算需求可能不同,比如是否纳入屏蔽芯片等)。可以看到,传统的芯片制造依靠切割芯片并抛弃一部分,来实现对晶圆缺陷和制造缺陷的控制。
▲晶圆缺陷是固有的,传统的处理方法是将其抛弃。红色点为晶元缺陷,黄色为需要抛弃的芯片。可见芯片面积越小,抛弃的芯片数量越少。
对WSI来说,抛弃、切割等方法都无法使用,毕竟作为一整块芯片,难以切割部分区域。不过转换思维来看,所谓的抛弃,只是坏块部分在芯片意义上不存在而已,等同于存在但不工作。对WSI来说,在芯片设计上也采用分区设计的方案,区块之间相对独立,且存在可以单独关闭或者开启某个区域的控制电路等,就可以在一定程度上避免“一个老鼠屎坏一锅汤”的问题。
实际上,WSI技术解决晶圆缺陷的方法,正是通过设计阶段提前布局,在发现缺陷块后,通过改变芯片本身的工作逻辑来避开损坏的区域。具体实现上,设计人员会使用子电路的网格图案和适当的处理逻辑,在受损电路周围“重新布线”,因此即使晶圆区域上有不少的错误,但只要有足够的子电路,那么整个芯片即使存在故障也可以使用。
在解决了缺陷控制问题后,WSI技术的威力终于可以爆发出来了。由于不需要切割,WSI产生的整个晶圆最终会被作为一个芯片看待,因此在制造过程上,WSI可以避免受到单芯片尺寸的限制。目前尚未有详细的资料说明WSI光刻过程是如何进行的,不过,考虑到WSI技术的特殊性,厂商完全可以利用现有的设备和技术,对芯片上不同部分分区制造,当然,WSI可能需要耗费更多的、昂贵的掩模,但是和整个芯片的性能以及最终的单位性能价格相比,应该还是值得的。
此外,WSI的发展历史也值得了解。WSI的初出茅庐是在1970年到1980年,当时主流晶圆还是2.5英寸,包括比如TI和ITT等公司都尝试实现WSI技术,但是最终均告失败。真正在WSI技术上有所突破的是一家名为TrilogySystems的公司,这家公司在1980年获得了2.3亿美元的投资,开发了名为TrilogySystems的WSI芯片,这是一个在100mm晶圆上实现的“超级计算机”,并且成功制造出了样品,但是随后由于各种原因包括自然灾害、资金不足等,产品在1985年宣布研发终止。1989年,英国一家公司也推出了WSI技术的产品,不过集成的是内存颗粒,一张晶元集成2021Mb内存,在当时也是天文数字了。
从发展历史来看,WSI的研发道阻且长,对Cerebras公司来说,他们对此情况应该有充分的估计和预测。那么CerebrasWaferScaleEngine又是一款怎样的产品呢?
新闻排行榜
返回顶部