图像处理技术!
返回

别怕,明天登岛吧,国产通用CPU比俄罗斯的同类强大(四)

2023-02-12 3397 0

从专利和IP看国产通用CPU企业的实力

论购买IP(设计完成的芯片功能模块)整合SoC的能力,贝加尔不如华为海思;

论研发高性能浮点处理器的能力,俄罗斯没有能与申威匹敌者;

论通用CPU的性能,Elbrus也远逊于龙芯。

能代表研发实力的莫过于专利和产品(含功能模块)。笔者本打算简单对比下国内各CPU设计企业的专利数量,可是这样简单的打算也遇上了麻烦。华为海思的业务范围很广,专利数量极多,笔者没有能力分辨哪些专利只与CPU有关。申威因开发团队与众不同,很受限制,注册到申威名下的专利极少。筛选下来,能相互比较的就只剩下龙芯、飞腾、兆芯、海光。

下面的专利数量只包含已经生效的发明专利,已经注册但尚未生效的、实用新型和外观专利都没有包含在内。龙芯因为有部分专利是以中科院计算所的名义注册,难以统计在内,飞腾也有部分专利在国防科大名下,这里也没有统计。专利数量从“国家知识产权局”官网入口查询,截图内容是发明数量排名前10的发明人列表。


首先看兆芯的专利,数量很多,可是排名前十的发明人,名字怎么都那么长?

兆芯的专利很多来自VIA和Centaur两家公司,包含CPU、GPU、主板、图形图像处理、电路测试……等很多类型。

兆芯的专利中,出现得最多的前10个发明人中,有8个是外国名字。发明人是中国名字的,也不一定是兆芯的员工,因为台湾VIA的员工也大多是中国人,Centaur也有华裔员工。比如李永胜据笔者所知就是美国Centaur的台裔员工,李晓阳不知道是谁。排在第一的和第五的是同一个人,他是Centaur公司的头号人物,翻译成中文名时出现了至少4种译法,这个列表中只能看到其中两种。这些有效的专利中,G.葛兰.亨利一人就参与了约1/4。

因为与Intel和AMD竞争失败,VIA淡出了x86处理器的市场,从此其美国子公司Centaur那些专利几乎变得一文不值。但是兆芯不知是为了装点门面,还是为了避免知识产权纠纷,又或者是VIA非要捆绑销售……总之这些专利在兆芯这里重新体现了价值。

购买这些专利的所有权是有必要的吗?和兆芯类似的海光,从AMD得到的CPU核心IP,就没有包含任何的专利所有权转让。国内那么多基于ARM的IP做CPU的,也没见谁非要买ARM的专利所有权,都是和IP捆绑专利使用授权。

购买了专利所有权就能拥有对应的能力吗?显然不可能!

就像某人购买了几百篇好文章的版权,并不代表他写的文章就能达到同等的水平。但那些文章的原作者,则肯定有能力再写出相同和更高水平的作品。

龙芯的发明专利都是龙芯的技术人员自己研究出的成果,代表着龙芯自己的科研水平。龙芯是国家挂牌的博士后科研工作站,前来科研的博士们也会产生很多发明专利,这些专利可能以博士们原单位的名义注册,但龙芯中科可以使用。即使不把那些专利计算在内,龙芯的专利数量也只比兆芯“集大成”的结果少一点,说明龙芯在CPU方面的研发能力至少要比老牌的CPU设计企业Centaur更强。

事实上也确实如此。Centaur在2019年发布的x86核心(CNS)与龙芯同年发布的3A4000设计水平相当,但Centaur已经江郎才尽,龙芯才渐入佳境。Centaur使用CNS核心流片的样品在2019年就已经给了兆芯,2020年完成了知识产权交易,可是两年多过去了,兆芯还是没有发布使用新核心的CPU。


飞腾的专利数量比较少,不像是有自主研发能力的CPU企业应有的水平。即使有些专利注册在外协单位名下,飞腾本身的专利也实在太少。

海光的专利数量更少,却不会令人觉得意外,因为它本就没有实践CPU核心设计的机会,只做外围的修修补补能够有些发明创造就已难能可贵。

这几家公司在信息公开方面,龙芯做得最好,从龙芯的官网上能下载它各种芯片产品的详细资料。其中一张列举了龙芯各种自研IP的表格挺有意思,在其它几家的网站上完全没有类似的内容。从CPU到GPU(集成在7A2000桥片中),再到桥片和各种接口控制器,主板上重要的部分几乎包圆了。


华为海思掌握的IP类型和数量肯定要比龙芯多,但是电脑主板和CPU、桥片这一块儿,可能没有龙芯做得全。

桥片的作用是集成各种接口电路控制器,成为CPU和各种板卡及外部设备交换数据的桥梁。如果CPU是主板上的首脑,那么桥片就是大内总管,是除CPU之外,主板上最有价值的芯片。很多年前,Intel和AMD、VIA的CPU是使用相同的接口,针脚兼容,各种兼容桥片也争奇斗艳,各家的主板和CPU都能兼容互换。Intel为了把VIA、AMD、Nvidia、Sis等设计的兼容桥片逐出市场,独霸天下,不但强迫AMD和VIA改换接口,还收回了VIA、Nvidia、Sis等设计兼容桥片的授权。

从此之后Intel、AMD、VIA的桥片只能兼容自家的CPU,桥片失去了独立存在的必要性,桥片的功能逐渐向CPU中集成。但是计算机的接口类型非常多,不同的应用场景有不同的接口需求,CPU中又不可能集成所有类型、足够数量的IO接口控制器,因此桥片不可能消失。现在的IO越来越复杂,各种控制器占用的芯片面积越来越大,导致CPU成品率降低成本升高,现在又产生了把大多数IO控制器重新集成到桥片的趋势。比如AMD的IODie,就算改了个名字,它仍然是桥片。

龙芯的桥片经历了1A、2H、7A1000、7A2000多次迭代,但现在7A2000引出的接口规格仍然和主流水平有数年的差距,和兆芯(桥片+CPU集成)不相上下吧。


兆芯的独立桥片ZX-200比较差,高性能IO主要集成在CPU中。兆芯技术来源是VIA,VIA本就是靠桥片起家,瘦死的骆驼也是有份量的。


飞腾的X100桥片和兆芯差不多,都是作为CPU集成IO的补充。海光CPU里面是AMD的Zen,那么它用AMD的桥片就很合理、很合适。申威和海思笔者没有找到桥片相关的资料。

国内CPU设计企业的CPU产品线,型号、种类最丰富的是龙芯,次之是申威。

龙芯的CPU产品分为三个大类,数十个型号,从嵌入式到服务器应用尽有,还有几款填补国内空白的特种芯片。实际上龙芯一直在用嵌入式(含特种芯片)赚的钱来补贴通用CPU的研发,其实笔者很想多聊一聊特种芯片的事,但是以前一些公开的资料现在也被要求保密,我收集资料发的一些帖子也被要求删掉了。

申威的CPU型号要少一些,但品类也比较齐全,可能还有部分型号完全保密。至于为什么保密,可以自行脑补。

兆芯把产品中的低端型号称为“嵌入式”CPU,功耗几十瓦的“嵌入式”可不多见。

飞腾和兆芯差不多,所谓的“嵌入式”也是低端桌面CPU。飞腾的服务器CPU高达64个核心,申威2路32核的性能和飞腾64核相当,龙芯2路16核的产品可与飞腾64核性能持平,龙芯32核的产品还在研发中。

海光的CPU被限制只能用于服务器和工作站,似乎也没有自己设计出嵌入式CPU的能力。

海思的桌面和服务器CPU被限制生产,它的嵌入式CPU要么是外购成品,要么是外购IP,没有自己设计的核心。

个人觉得几家国产CPU企业的研发能力,仅比较CPU和相关技术的话:龙芯>申威>海思>兆芯>飞腾>海光。

近十年国产通用CPU的性能进步

笔者其实挺讨厌谈论国产通用CPU的性能,因为和Intel/AMD相比确实差距较大,长篇大论之后得出的结论,只会是“国产不行”。

可是性能问题又不能避而不谈,只能指望国产通用CPU多一些上得了台面的产品,不再像几年前那样尴尬。通用CPU不像嵌入式CPU,嵌入式无论性能强还是弱,无论功能多还是少,总有恰好能用上的产品。通用CPU主要面向桌面电脑和服务器,历史已经证明这个市场上哪怕性能第二也可能吃不饱。

通用CPU若架构兼容、软件通用,用户绝不会选择性能低、性价比低的产品。比如兆芯在沉寂两年半之后最新推出的KX-6000G,性能只有赛扬N5105的一半。与两年半之前的KX-U6780A相比,标称的睿频提高了,单核性能却基本没有提高。


上表中4款CPU的GeekBench5测试成绩,分别是它们在GeekBench官网上有记录的最好成绩。最后一列的ZX-A C4350AL有两个发布年份,是因为这款CPU原本是VIA在2011年发布的Nano X2 C4350AL,2013年兆芯成立之后把这款CPU改了个名又重新发布了一次。

从上表中的数据,可以看出以下几点:

1. KX-6000G单核性能和多核性能都只有N5105的一半,同样都是4个核心。

2. KX-6000G的睿频基本上无意义,单核性能与两年半之前的KX-U6780A相比基本没有进步,能保持的运行频率应该也是2.7GHz。

3. KX-U6780A有8个核心,全CPU性能与4核的N5105相当,单核性能也只有N5105的一半左右。并且,是在TDP功耗70W下,性能与TDP功耗10W的CPU性能相当。

4. 兆芯的CPU产品从2011年到2022年,基本只是通过更换先进工艺提高频率,CPU核心设计基本没有进步。从1.6~1.73GHz到2.7GHz,频率提高了56~69%,GeekBench5单核成绩提高了83%。其中由于兆芯KX-6000系列增加了AES相关扩展指令,使GeekBench5的AES子项测试成绩提高了25倍左右,给总成绩带来了10%左右的提升。

5. 兆芯官方宣传的性能不是正常测试方式能得到的,否则兆芯KX-6000系列的GeekBench5的测试成绩应该再高50%左右,而不是现在这个样子。笔者使用多款测试软件实测对比,KX--U6780A的单核性能与2007年Intel的笔记本CPU DuoCore2 T7500(2.2GHz/DDR2-667)基本一样,8个核心的整体性能和4核的初代i5-760基本相同,和现在的N5105也是相同水平。

GeekBench5不能支持所有架构的CPU,国产CPU的架构多样,要想在相对统一的条件下、比较客观地评估国产CPU近10年来的进步,就需要使用通用性更强,也更加准确的性能评估工具,比如SPEC CPU 2006。SPEC CPU是用于评估“CPU-内存”子系统的专业评估软件,历经95、2000、2006、2017四个大版本,每一代都是事实上的业界标准。2017版主要解决了2006版被Intel ICC编译器刷分的问题,测试项目没有大的变动。国产通用CPU大多有公开的2006版测试成绩,一些是官方公布,一些是爱好者或媒体测试的结果。下面统一使用SPEC CPU 2006测得的CPU整数(通用)性能,来绘制各家CPU最近十多年的单核性能提升折线图:


图中FT-1000/1500的性能是估算成绩,可能与实际不符。在SPEC官网上的记录中,UltraSPARC T2的8核并行整数测试成绩是89.1至97,比同样8核的飞腾D2000的成绩还好一些。而且FT-1500的主频比UltraSPARC T2还高0.2GHz,那么FT-1500每个核心的性能应该比UltraSPARC T2更高。但考虑到UltraSPARC T2和FT-1500每个物理核心有8个逻辑线程,估计去掉超线程的作用后,单核成绩会和D2000差不多。

可以看到龙芯和申威的通用CPU在十一、二年前性能最低,单核性能只有兆芯和飞腾同期产品的三分之一左右。兆芯成立于2013年,但第一代产品ZX-A C4350AL是VIA在2011年发布的Nano X2 C4350AL,没换壳,只改名,因此也是同期产品。兆芯从ZX-A到KX-5000之间还有两代产品,不过ZX-B只是在境内生产的ZX-A,性能没有任何变化。ZX-C又变成了境外生产,多了两个核心,提高了一点频率,这两代就不写上去了,没有意义。

龙芯和申威特别注重提升自主设计能力,CPU单核性能分别在2019和2021年底超过兆芯和飞腾。其实它们的产品本来可以提前超过兆芯和飞腾,只是因为它们的CPU制程很保守,从不超过境内可以量产的水平,CPU频率就吃亏了。比如2019年的龙芯3A4000还在使用28nm制程,同期的兆芯和飞腾都使用了16nm制程,鲲鹏甚至使用了7nm制程。直到境内可以用12~16nm制程量产大芯片后,龙芯2021年才用上了12/14nm工艺。

飞腾的通用CPU单核性能变化像是过山车,因为它的FT-1000和FT-1500是基于SUN开源的UltraSPARC T2核心,2007年时的UltraSPARC T2可与Intel至强一较高下。飞腾在投靠ARM之后,CPU性能反而降低了。后来很多年IPC也没有明显提升,基本上是依靠先进工艺提高主频,来达到提高单核性能的目的,这也是人们质疑飞腾没有自主设计能力的主要原因。哪家公司最好的CPU产品会比以前的更差?飞腾就做到了!上一代的FT-2000/4相同核心数量时的性能刚超过比它早7年的FT-1500(SPARCv9),最新的D2000又降回来了。

几家公司下一代产品的单核性能提升都很大,因为下一代产品都使用了全新的CPU核心,IPC提升非常大。CPU的单核性能等于频率*IPC,IPC代表着CPU核心的设计水平,通常也把使用性能评估工具得到的每GHz的成绩称为IPC或PPC。如果只比较IPC或PPC,龙芯在2015年时就已经成为了国内第一,只是那时龙芯CPU的主频太低。

下面展示国产CPU每GHz性能(IPC或PPC)的折线图中,每一次跃变(虚线)都代表CPU核心逻辑设计更新换代的改变,平稳期(实线)的提升则是局部的优化和改进。


龙芯每两代CPU产品更换一次核心设计,构成了完美的上升阶梯,和单核性能折线图中那条蓝色的“曲线”一样充满美感。单核成绩从2.x到26.x,是10年前的10倍,其中由IPC贡献的是4倍。申威的阶梯也很漂亮,只是因为它以前的主要精力不在桌面和服务器,所以核心大改版的周期比较长。

核心大改版周期更长的是兆芯,从2011到2022单核每GHz的性能都没有明显变化。被称为牙膏厂的Intel,从酷睿i系列的1代到11代,IPC好歹提高了50%。相同的时间跨度,兆芯的IPC提高了10%,笔者愿尊其为牙膏守护神。Intel十来年把酷睿i系列的从3.xGHz提高到了5.xGHz,再乘上IPC的提升,单核性能提高了150%,是原来的2.5倍左右。而兆芯CPU的有效频率只提升了60%左右,单核性能提高不超过80%。

飞腾基于SPARC架构时,UltraSPARC T2的IPC和酷睿i系列的初代差不多。CPU主频和Intel差距虽然大,但即使仅跟随大环境的工艺更新,也不会低于当前产品的主频。如果飞腾当时有自建软件生态的决心,再加上可长期保持国内第一的性能水平,国产CPU的市场哪里还有其它产品的位置?可惜飞腾没有这样的勇气,换成了在桌面和服务器领域不伦不类的ARM。不但生态没有蹭得到,还是依靠了更新工艺提高频率才恢复到以往的性能水平,而IPC一直没有明显提高,被浪费的时间可不只十年。

兆芯和飞腾的下一代产品,IPC的提升幅度完全不符合最近十多年的表现,就像是被夺舍了一般。已知兆芯的下一代CPU核心是VIA的美国子公司Centaur设计,飞腾的新核心是否自主设计笔者却不确定。

CPU的性能构成中,IPC代表能力,主频代表财力。国内CPU企业无论财力是否充足,当前都应该以培养能力为主。大陆的芯片生产设备、耗材、技术短时间不可能达到世界最先进水平,有钱也没处花。去台湾的上一代有在逃跑前搞破坏的习惯,这些坏毛病难免被传承给他们的后代。台积电也委婉地表明了态度,芯片生产存在大量的外部依赖。就算我们的子弟兵能够妥善保护台积电的工厂和人员,也无法短时间恢复生产。

美国有全世界最多最好的半导体人才,Intel也花了50年才达到现在的水平。龙芯花了二十年培养人才、钻研技术、积累经验、自主创新,也仅在CPU核心的逻辑设计能力方面勉强追上了Intel,全面赶超还需要更好的大环境。芯片生产受限、技术授权受限、有些国内CPU企业和部分领导仍然幻想靠买就能达到世界先进水平。因为都是成年人,所以皇帝的新衣才更加漂亮?可以自欺,可以欺人,过几年就能看到饮鸠止渴是什么下场。


顶部