华为5G世界领先!
这不是嘴上功夫:从5G基带芯片巴龙、5G基站芯片天罡,到首款5G手机 Mate 20 X,到全球50多个5G商用合同、发货20多万个5G基站……
今年9月6日,在德国IFA(柏林消费电子展)上,华为将发布新一代的手机芯片麒麟。按照华为命名习惯,新款麒麟芯片应该被命名为麒麟990。
随着华为5G技术的陆续商用,越来越多的中国消费者感受到了5G的带来的便利,也正是由于华为率先在中国落地5G应用,让中国消费者先于世界体会到了5G时代的幸福感。
华为一直有在IFA上发布新款麒麟芯片的习惯,这次麒麟990可能将是一款集成SoC芯片,这使得华为在与高通和苹果的5G芯片大战中站在领先位置。
这也是华为一个月内再次放出的一个大招。8月9日,华为在深圳发布自研的鸿蒙操作系统。
华为消费者业务CEO余承东当时就曾表示,鸿蒙系统发布后,华为消费者业务补齐了“操作系统”和“生态”两个洞。
这次华为率先发布麒麟990,使得在目前复杂的国际环境下为华为手机在全球竞争中争取到主动权和先发优势。华为秋季的新款手机Mate 30会优先搭载麒麟990。
麒麟990将拥有哪些“硬实力”,还没发布就已经吸引全球目光?
达芬奇架构NPU
两年前,华为就率先把“人工智能”带入到麒麟芯片中,后来麒麟970被称为全球首颗人工智能手机芯片。
今年早些时候,华为发布全新8系列手机SoC芯片麒麟810,首次采用华为自研达芬奇架构NPU。那么麒麟990预计也将搭载达芬奇架构NPU,以确保麒麟990保持行业领先的AI计算能力,同时赋能更多更具实时性的AI体验。
有关华为在人工智能领域的投入,华为轮值董事长徐直军在今年8月23日接受记者采访时曾有论述。
他粗略估计,华为在人工智能领域的投入为15亿美元,以人工智能工程师人力成本来换算的话,需要5000名。
外界只看到华为不断发布新的芯片,但其内部运作之前并未对外披露。徐直军介绍:“先期芯片开发的内部组织很简单,决定做就组建一个团队,一颗芯片就是一个团队,这比5G研发要简单。成立一个团队后,选一个头带一个团队,剩下都是他们的事情了,我们就不知道了。”
徐直军称,无论华为的人工智能架构达芬奇还是昇腾芯片,都不是自上而下的,而是自下而上的。
此外,徐直军还提到,华为芯片取名都征求过他意见,他也表示了同意,但他发现自己被骗了,“我觉得名字听起来响亮就不错,但他们说这些名字都来自《山海经》,我没有看过《山海经》,真正取名的人现在还没找到,他肯定有他的逻辑,只是我们为他买单,我们还是要把他找出来。”
那么达芬奇架构到底是什么,能给麒麟990带来哪些卓越能力?我们今天就来深度解析一下。
达芬奇架构的核心优势是什么?算力高且灵活,是万物智能的基础
达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。
3D Cube
同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。
在如智能手机等实际端侧AI应场景中,AI算力与功耗的协调是至关重要的,一般来讲更高的AI算力意味着更大的功耗,因此智能手机的续航常常使AI算力受限。而有了达芬奇架构NPU,这一状况将得到改善,如果麒麟990能够搭载达芬奇架构NPU,麒麟芯片或将再次迎来震动行业的算力升级。
DaVinci Core是如何实现高效AI计算的?
在2018年全联接大会上,华为推出AI芯片昇腾310,这是达芬奇架构的首次亮相,昇腾310相当于AI芯片中的NPU。其中,DaVinci Core只是NPU的一个部分,DaVinci Core内部还细分成很多单元,包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障AI计算的高效处理。
3D Cube矩阵乘法单元:算力担当
刚才已经提到,矩阵乘是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A,L0B,L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。
Vector向量计算单元:灵活的多面手
虽然Cube的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。
Scalar标量计算单元:流程控制的管家
Scalar标量运算单元主要负责AI Core的标量运算,功能上可以看作一个小CPU,完成整个程序的循环控制,分支判断,Cube/Vector等指令的地址和参数计算以及基本的算术运算等。
3D Cube计算方式,有哪些独特的优势?
不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B 乘法为例:如果是N个1D 的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。
图中的计算单元的数量只是示意。实际可灵活设计
华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。这是什么意思呢?举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。
达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先,搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市,为广大消费者提供多种精彩的AI应用体验。
更强算力的麒麟990,开启互联互通的智慧新场景
一直以来,麒麟芯片的AI实力之所以受到人们的认可,除了强劲的AI计算力领先行业,结合华为手机实现的众多应用场景也受到了高度赞扬。达芬奇架构作为华为自研架构,在应用适应性方面与华为的理念一脉相承,基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力,麒麟990所使用到的只是端侧AI最基本的一部分。
并且,想要真正实现万物互联的AI生态,离不开广大的AI开发者,那么选择开发统一架构就是一个非常关键的决策了。对于广大开发者来说,基于达芬奇架构的统一性,在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于包括麒麟芯片在内的不同平台,大幅降低了迁移成本。
如今,我们体验最多的AI应用大多来源于智能手机,但对于整个AI生态来说,智能手机只是一个开端,未来更多的AI应用涌现、跨平台迁移才能真正实现无处不在的智慧生活。因此,如果麒麟990真的搭载了达芬奇架构NPU,不只是手机算力提升那么简单,同时还以AI之力加速万物互联的智慧时代的到来。
最先进的7纳米制程
日前,华为消费者业务软件总裁王成录在专访中向媒体透露,下一代麒麟芯片将采用最先进的7nm EUV工艺。
据悉,麒麟990采用台积电最新的7nm EUV工艺,这也是目前工艺最优的芯片。
芯片的制程对芯片性能影响很大,尤其手机对芯片要求最高,既要性能佳还要考虑体积、散热等一系列问题。如今芯片工艺的进步一直是手机厂商的需求来驱动的。
一直以来,麒麟芯片在工艺方面始终处于业界第一,那么这次麒麟990用上最先进的7nm EUV,那将再度引领半导体工艺的发展进程。
有人说工艺到底有多重要?工艺确实很重要,历史上很多芯片都是工艺有问题最终连累了终端产品的销售。因为不好的工艺会带来发烫、续航等一系列问题。
以当年高通饱受吐槽的“火龙”骁龙810为例,当时高通为了跟进64位处理器规格,在骁龙810上采用20nm工艺和4*A57大核,结果20nm的工艺压不住四个A57大核的发热,一发热就降频,一降频就卡顿,爆发了大面积的负面,当时口碑不错的HTC手机也因受到高通芯片影响流失了大批用户,LG、三星等也没能幸免。
麒麟芯片工艺历程回顾:最先进的工艺,意味着最难的技术挑战
作为半导体设计行业的领军者,麒麟自然也对先进工艺不懈追求,而先进工艺的背后也意味着最难的技术挑战。可想而知,要长期在业内处于工艺第一的位置,麒麟芯片需要付出巨大的技术投入。以其中最具代表性的16nm来说,麒麟芯片下足了苦功夫。
2015年面临工艺选择的时候,麒麟芯片大胆地选择了最先进的16nm FF+,成为全球首个16nm的手机SoC芯片。也正是在950这一代上,麒麟芯片第一次站在业界工艺选择的最前沿,然而这一次的选择之路却并不是一帆风顺。
早在20世纪90年代,加州大学伯克利分校胡正明教授就开始研究FinFET晶体管技术,直到2015年FinFET技术才真正实现量产,这中间用了将近20年的时间。据了解,麒麟芯片很早就意识到了工艺的技术极限,在2012年开始研究FinFET技术在16nm工艺上的可实现性,这对芯片设计厂商的技术水平、技术积累、商用经验和商用规模都有着极高的要求,但凭借扎实的技术功底,麒麟950成功实现了先进工艺的选择,首发16nm FinFET让麒麟芯片带给业界很大的震撼,正式跻身手机芯片第一阵营。
在后来的每一代产品上,麒麟芯片对先进工艺的追求一刻也没有松懈。我们可以看到,麒麟960在16nm上持续改进,麒麟970和麒麟980都实现了10nm和7nm的全球首商用。
就像华为Fellow艾伟所说的那样,“每一代产品都会遇到工程技术上的挑战,等我们最终走过来的时候,发现当初还是把它想得太简单了。从麒麟920、麒麟930、麒麟950、麒麟960、麒麟970,麒麟980,每一代走过来,有时候甚至有九死一生的感觉”。
工艺的领先,有效保障了麒麟SoC的最优性能与能效,为更加复杂的芯片设计打好基础。而这一切也是手机用户体验的重要前提,只有硬件基础做好了,才能完整发挥出芯片的实力,对手机用户来说,使用体验也更加流畅、续航更加持久,温控自然也更加出色。
5G手机哪家强?
智能手机走到今天,芯片对一款手机的影响再怎么强调都不过分。在加上今年5G商用,一款好的芯片将成为消费者选购手机的最重要参考。
今年下半年,除了华为秋季发布的Mate 30系列,苹果的新款手机将在9月10日发布,其他各厂商也会陆续发布新机,下半年“好戏”开场。
的确,苹果最早实现自研CPU和GPU架构,在芯片技术领域拥有绝对的话语权。据悉,即将发布的新款iPhone 将搭载A13面世,不出意外的话,A13会继续保持性能优势,为消费者带来极致流畅体验和高清屏幕观感体验。
不过,当前华为和高通在芯片核心技术上不断实现新突破,芯片性能能效直逼苹果。而且令人遗憾的是,苹果在5G缺乏自研能力,加之与高通侵权案的拉锯战,使其短时间内无法推出5G手机,很多想体验5G服务的消费者会放弃选购苹果新款手机。
再来看安卓阵营,众所周知,安卓机大多需要高通提供芯片支持。高通去年发布的骁龙855一直以来都是很多旗舰机的御用芯片,例如关注度较高的三星,日前发布的Note 10 5G版就是搭载的这款芯片,通过外挂5G基带芯片X50,让这款手机成功具备5G通信能力。不过,骁龙855仅支持NSA网络,缺少对SA频段的支持。根据国家最新的要求,2020年1月1日起,仅支持NSA的5G手机将不再允许入网。也就是说,明年生产的新手机,不能继续使用X50基带(但此前已入网的X50基带手机可以继续使用)。
根据往年惯例,高通骁龙865芯片将于年底发布,我们不妨再耐心等一等。
再来看看华为,尽管目前复杂的国际背景下,给华为手机海外业务拓展设置了很多障碍,但华为“硬核”突破能力克服了诸多障碍。而华为出色的5G能力,使得在这轮5G手机的竞争中占据了主动。
7月份,搭载麒麟980+巴龙5000的华为Mate 20X(5G)获得中国首张5G终端电信设备进网许可证,并且具备超强的性能和领先的5G速率。根据各项跑分数据,Mate 20X(5G)在5G网络下的上下行速率均登顶排行榜,且率先同步支持NSA/SA,支持2G /3G/4G/5G全网通, 5G实力一目了然。
按照华为往常的惯例,麒麟990芯片发布不久后华为Mate 30就会上市,由于麒麟990内置5G SoC,那它就是全球首款商用 5G SoC,也就是说,一款支持2G/3G/4G/5G,NSA/SA组网模式的5G全网通手机将与消费者正式见面。