算力“比肩”国际大厂的国产通用GPU芯片长啥样?WAIC现场见真身
在本次WAIC展区现场,国产AI芯片成为明星,芯片作为AI计算的算力基础,大量芯片企业展出了实际产品。
此次壁仞科技面向公众首次展出了两颗芯片:BR100和BR104。壁仞在宣传中提到“创下全球(通用GPU芯片的)算力记录”“单芯片算力达到PFLOPS(每秒千万亿次计算)级别”“峰值算力是国际厂商在售旗舰产品3倍以上”。
据介绍,壁仞科技于2019年在上海成立,由商汤科技原总裁张文创立,主要研发通用GPU芯片产品。
现场展示的BR100芯片,官方介绍,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
在技术规格上,BR100芯片在国内率先采用Chiplet技术,新一代主机接口PCIe 5.0,支持CXL互连协议,具有高算力、高通用性、高能效三大优势。
由于Chiplet技术通过缩小单个计算芯粒的面积,可以同时提升产能与良率,进而降低硅片成本,支持更灵活的产品策略。
工作人员称,Chiplet设计让壁仞可以通过一次流片,同时得到两种芯片,大大加快了迭代速度,同时覆盖不同层级的市场。比如,BR104拥有一个计算芯粒,BR100则将两个计算芯粒用Chiplet(小芯片)技术封装在一起,以达到BR104两倍的算力,这两者的区别主要在于BR100是两片相同的chiplet封装到一起。
基于芯片,壁仞还展出了具体的硬件产品。包括基于BR100的壁砺100和BR104的壁砺104,这两款产品分别以OAM(OCP Accelerator Module,OCP加速器模组)与PCIe板卡的形态存在,功耗分别对应550W和300W。
如此高的功耗,现场工作人员称,壁仞对产品做出了特别设计:板卡上采用快速均温技术,增加了热腔体积和撞风面积,有效提升了散热效率。而对于OAM,特殊的散热设计也由于特殊设计,也保证了散热效率。
值得一提的是,壁仞还展示了OAM服务器海玄,实现8张计算卡互联,理论峰值算力(BF16)达到8 PFLOPS;512GB HBM2e内存;支持PCIe 5.0和CXL;1.8TB/s对分互连带宽;最大功耗7kW。
不过,在芯片、模组、服务器外,壁仞并未展出相关落地应用。现场工作人员解释,目前芯片产品已经公布,要到量产出货后,才能由合作伙伴开发最终落地应用。目前除芯片外,还需要进一步在软件生态、开发环境上作出努力,比如壁仞目前有一支团队响应开发者需求,加速芯片初期应用、AI模型的适配和优化。