“变革”在信息技术快速发展的今天已经成为了常态。

虽说如此,但对于很多已经达成“共识”的“痼疾”,很多人虽然都能看到,但囿于各种困难、阻碍,很多人也都选择了视而不见。

敢于捅破“窗户纸”的无疑是勇者,但显然,只有能够打破“潜规则”的才是个中翘楚。

云计算的“潜规则”

如今,云计算的重要性已经不需要再过多的强调。但在10年前的,云计算却在很多人看来是一个“云里雾里”的概念。

说起云计算的发展,人们都不会绕过2018年BAT三位“掌门人”在深圳激辩云计算未来的故事。

那时只有“不懂技术”的马云认为云计算时代很快就会到来,因此,阿里走在了中国云计算发展的最前列。

相信关注云计算发展的都知道,“创业之初”的阿里云走的极其艰难,创始人王坚在那时不仅被称之为“骗子”,同时也在被“挖墙脚”,技术人员被阿里其他部门“盯得”死死的。

可能连阿里云自己人都没想到的是,走过了艰难创业阶段的他们,在那时给阿里云注入了一个“基因”,一个敢于“挑战”的基因。

2016年年底“双11”复盘会上,时任阿里巴巴集团首席技术官的张建锋波澜不惊的向阿里云提出了一个技术方向:

我们要定义哪些是核心问题,然后根本性地解决它。比如,虚拟化损耗问题就是之一。我们的目标很简单,必须想办法把损耗降到“0”。

这句话,在那时放在整个云计算行业中,很多人听完了都会有同一个想法:几个菜就喝成这样了?。

事实上,当时在场的几个技术大牛的感觉也差不多是这样,而其背后的原因是,行癫所说的虚拟化损耗问题,其实就是云计算技术上的一个“潜规则”,也就是前文中所说的已经在行业内达成“共识”的痼疾。

我们可以用一个简单的公式来表达:云计算=物理机+虚拟化,物理机是计算的载体,可以如楼房一样大,也可以如一个衣柜大小。虚拟化则是云计算背后的一个重要技术,它可以把无数台计算机“组合”成一台超级计算机,或者把一台整计算机“切割”成无数小计算机。

而虚拟化所带来的损耗则是云计算发展的痼疾所在。我们以一个32核的物理服务器为例,在正常情况下,一个32核的物理服务器,云厂商只能把16核或者20核给到客户,剩下的12核则需要用来对存储、网络进行虚拟化。

因此这个32核服务器所能提供的算力也是很少的,为了得到更多的算力,厂商必须要购买更多的IAAS资源,成本自然也随之提升。

此外,性能瓶颈会影响整个存储、网络的虚拟化,带来稳定性的降低,也无法支持裸机服务。这也是当时为什么很多企业上云后兜兜转转又用回了传统的物理机。

上汽集团就曾希望用云计算来解决汽车仿真的大算力场景需求,但实测结果让公司大跌眼镜,虚拟化性能损失高达60%,最终不得不放弃计划。这样的例子比比皆是。

然而,这个“痼疾” 成为了云计算“房间里的大象”,人人都能看到它,却没人有能力除掉它。以至于到后来, 芯片厂商、虚拟化厂商、云厂商,整个产业链对此讳莫如深,从来没有人捅破这层窗户纸。

例如英特尔等芯片商提供了硬件层面的支持,虚拟化软件技术本身也从Xen演进到了KVM,但由于软件厂商、硬件厂商、系统集成商各司其职,这种层层之间割裂的模式最终未能在根本上解决问题。

打破这个“潜规则”

正如前文中所说,阿里云具有敢于挑战基因的。

但即使如此,这也并不是一件简单的事情,要完全解决虚拟化损耗的问题,需要将云、虚拟化和芯片的技术大融合,而要解决这个问题需要从四个方面入手

  • 虚拟化软件开发;

  • 软硬件衔接的中间层;

  • 核心芯片设计;

  • 硬件(板卡、服务器)设计。

目标明确,路线清晰……

入选世界互联网领先成果的阿里云神龙到底是什么?

阿里云副总裁李津

2017年的10月12日。云栖大会。

阿里云副总裁李津云淡风轻得在台上发布了“神龙云服务器”,并且宣布神龙是“现货”——从当天开始,客户就可以购买神龙云服务器做为硬件底层的阿里云计算资源。

而在一个月之后,坐在全球云计算头部“交椅”的亚马逊也发布了类似的硬件虚拟化技术Nitro。毫无疑问,这一次阿里云走在了全球云计算最前列。

神龙到底是怎么解决这个“痼疾”的呢?

事实上就是从那四个方面入手,通过研发专用的芯片、定制的专用主板,开发了专用的MOC卡,并开发了从BIOS到应用层支撑软件,再到整体调度软件等一整套复杂的系统。通过软硬结合的方式攻克了业务应用上云之后虚拟化相关的性能开销问题。

在此之后,为了解决裸金属服务器和传统的虚拟机融合的问题,阿里推出了第二代神龙服务器,它做到了“一套软硬件,三种服务(裸金属服务器+虚拟机服务+容器)”,实现了“虚拟机性能接近裸金属”。

2020年7月,阿里云又推出了第三代神龙云服务器,基于神龙架构再次将算力逼向极限,相比上一代整体性能提升了160%,提供最多核、最大2086TB内存,在多项性能参数中斩获世界第一:云盘IOPS高达 100万、网络转发高达2500万、网络带宽高达100G。

就在近日,乌镇世界互联网大会·互联网发展论坛上,神龙云服务器架构入选世界互联网领先科技成果。

大会表示:神龙架构是云计算行业第三代虚拟化技术的典型代表,它为云而生,不仅解决了云上虚拟化性能损耗的痛点,更让云服务器的性能超越了物理机。

入选世界互联网领先成果的阿里云神龙到底是什么?

如今,神龙架构承载了中国超80%的科技企业上云,广泛应用于医疗、新政务、智能制造、互联网、教育等多个行业。

就在2019年双11期间,阿里将集团核心业务迁移到神龙架构上,通用类的业务承载提升了20~30%。

工欲善其事必先利其器

2010年虽然马化腾和李彦宏都不看好云计算,但大家看到的是,BAT都在大力发展云计算,现如今运营商、以及通信设备商也都重点布局云计算这条赛道。

12306上购票告别火车站排队;微博上“吃瓜”;双十一痛快的“剁手”,买买买;出门无需再带U盘,云存储就可以了;城市的道路也不再像以前那样拥堵;去政府办事儿,手机就可以办理了……

现如今,人们所感知到的这些已经“常态化”便捷方式,云计算都是其背后功臣,更不用说,疫情期间的在线办公、在线会议、AI测温……

而正是这些应用需求的不断诞生,则让阿里云为代表的云厂商去不断打磨着“云计算”这把利器。

“云计算是数字经济发展的底座。”正如张建锋这句话而言,在国家大力发展数字经济的今天,云计算成为了不可缺少的技术底座,而对于阿里云等云厂商而言,其重担可想而知。而正是在这样的重担之下,我们也看到了更多诸如神龙一样的技术创新不断涌现。

十年,云计算产业已经从创业期进入成熟期,其也正在成为一张国家名片,而这十年中,正是由于有着像阿里云的这样的云厂商在,才能取到今年的成果。

正如一些行业人士说到:不能说没有阿里云就没有中国云计算产业的今天,但至少可以说阿里云缩短了中国云计算产业和世界先进水平接轨的时间。雷锋网雷锋网雷锋网