-
云计算是所有计算基础设施的未来。
-
运行云的计算机应该能够购买而不仅仅是租用。仅租赁的云模式是不可持续的。
-
真正认真对待软件的人应该制造自己的硬件,在云计算领域更应该如此。
-
绕开 BIOS,我们自主开发的 Hubris 操作系统,纯由 Rust 编写而成。
多年以来,已经有不少厂商努力将云功能引入私有数据中心。从 Mesosphere 到 OpenStack,他们软硬件实验背后的开发理念,就是立足本地重现与云类似的计算形式,帮助客户摆脱对亚马逊、谷歌及谷歌等大型云服务商的设施依赖。
Oxide 是一家由多位计算技术资深人士建立的初创公司,他们精心打造出自己的性能巨兽、一套强大的新型软硬件技术栈。其运行方式与云资源池非常相似,但却位于客户的自有数据中心之内,强调在安全性与延迟优势两方面满足严苛需求。
如今,这家年轻的企业宣布宣布完成了 4400 万美元 A 轮融资,正式将自己的技术愿景推向市场。本轮 4400 万美元融资由 Eclipse 领投,英特尔投资公司、Riot Ventures、Counterpart Ventures 和 Rally Ventures 跟投。截至目前,该公司融资总额已达 7800 万美元,之前的资金已被用于构建和测试其系统。Oxide 将利用今天宣布的 4400 万美元融资来扩大其系统的采用。在接下来的几个月中,该公司预计将向多家财富 1000 强客户运送更多云计算机。
今天,该公司的创始人兼 CTO Bryan Cantrill 在其博客上正式宣布他们的“全球第一台商用云计算机全面上市”。
Cantrill 提出了一种范式的转变,他认为云本身并非终点,而是一种简化软件部署和管理的手段,而云服务也不应该被视为租用计算资源的地方。企业应该能够自由选择租用或拥有资源,并能自己充分利用大规模的计算、存储和网络资源。为此,Oxide 的新型软硬件技术栈的设计有别于传统本地部署方式,在硬件上该机架级系统包含 32 个支架,每个支架都搭载着 AMD CPU、DRAM 和存储设备。在网络方面,Oxide 提供了在所谓的 VPC(即虚拟私有云)服务,可以和云上链接,而且速度也有保证。同时在软件方面配备了自有的固件、虚拟化监控器和控制平台,实现了对技术堆栈的完全掌控。这种高度自主性让 Oxide 与公共云方案区分开来,允许构建高度可定制和高效的基础设施。
许多公司都曾尝试、但却未能找到能在本地设施内重现云计算的方法,所以 Oxide 的业务定位堪称大胆。因此,Bryan Cantrill 发布消息后仅过了几个小时,Hacker News 上的讨论热度就迅速升至第一位。
网友们纷纷表示这是一件相当重要的事情:“ a pretty big deal”、“Its a huge deal”。
有网友点评道:“这不是混合了各种第三方组件的杂乱产品。选择自己集成的方式一旦出现问题,供应商通常会摊手不负责。Oxide 已经将其集成在一起,还包含了构建云所需的所有功能。
此外,他们自己编写了软件,并且所有源代码都是开放的。所以,即使 Oxide 破产,你仍然可以有挽救的机会。具有讽刺意味的是,这看起来像是理查德·斯托曼(Richard Stallman)的梦想的实现,用户可以相互帮助解决问题,而不受第三方供应商的各种限制。”
公司两位创始人 CEO Steve Tuck 与 CTO Bryan Cantrill,分别曾经在戴尔、Sun Microsystems 以及 Joyent(一家云基础设施初创公司,于 2016 年被三星收购)等企业的硬件和云领域积累下超 20 年工作经验,其中在 Joyent 的经历更是长达 10 年。
他们意识到,企业客户对于云资源的态度存在一个根本问题:单纯将云视为租用容量的目的地,而非可以在自己或他人数据中心内使用的资源。但运行云的计算机应该能够购买而不仅仅是租用。“但对于其他人来说,这更多的是一种启示——自从我们创办 Oxide 以来,我们发现越来越多的人意识到仅租赁的云模式是不可持续的。”
另外,他们还有一个信念:云计算机的开发需要硬件和软件的机架级设计。“对于那些只从软件角度思考的人来说,这似乎是反传统的,但事实上,这在技术专家中并没有争议。正如计算先驱艾伦·凯(Alan Kay)所说:真正认真对待软件的人应该制造自己的硬件。”
在云计算领域尤其如此,大型公共云公司很早就得出结论,他们需要设计自己的整体系统。“像 Facebook、谷歌和微软这样的超大规模企业掌握着所谓「基础设施特权」,因为他们多年以前就完成了规划,认定自建软硬件能比其他供应商更好地满足业务需求。”
“应该将硬件与软件栈之间进行更好地集成、功率分配和密度规划”,Oxide 创始工程师 Joshua Clulow 有长达 15 年的服务器采购经历,他指出了其中的关键问题:“现有服务器的软件和硬件往往不是共同设计出来的——现成方法灵活性不足,因此带来很多不必要的复杂性……”
所以,这可以说是一件没有争议但有难度的事情。首先,要有意义地构建云计算机,必须摆脱 1U 或 2U 服务器的束缚,并真正将机架视为设计单位。其次,共同设计跨越计算、网络和存储的硬件和软件需要建立一个跨不同学科的非凡团队,需要多领域的深厚的专业知识以及团队合作。
Cantrill 表示,正因为之前没有人真正从集成化机架层级的角度看待软硬件,再以此为基础建立起能够运行在自有数据中心之内的产品,所以 Oxide 公司才能面对这一空白,应运而生。
Tuck 指出,“我们投入了十年时间运营公有云基础设施业务,并坚信云计算代表着计算的未来发展方向。但云计算并非最终目的地,相反,这只是一种以编程方式对接大规模计算、存储与网络连接的方法,为的是帮助开发人员更轻松地编写、部署和管理软件。”为此,这些硬件专家决定打造出全新的硬件机架,彻底颠覆人们对于数据中心的理解方式,确保其更管理难度更低、部署效率更高且资源用量更少。
他们也充分认识到,传统本地部署的最大问题就在于价值转化的速度太慢。在如今这个形势瞬息万变的时代下,缓慢的资源部署与获取速度显然无法接受。为了解决这个问题,他们开发出一套包含 32 个托架的机架级系统。Cantrill 解释称,用户可以将每个托架视为独立系统,其搭载有 AMD CPU、DRAM 和存储,且全部汇聚至同一资源池当中。
“如果需要添加托架,那么直接将其插入系统即可。”Cantrill 还表示,从散装设备到接入机架、连通电源和网络并实际使用,整个部署过程已经从以往的几个月压缩到短短三个小时。
在操作软件层面,该公司开发了自己的底层软件。Cantrill 强调,“我们已经开发了自己的固件、自己的虚拟机管理程序和自己的控制平面。”他们认为,与公有云相比,Oxide 方案对于技术栈具有显著的控制力优势。
两位创始人很清楚,开发这样的解决方案需要时间。之前曾有批评者表示,如果 Oxide 真能鼓捣出可交付的产品、他们就把自己的鞋吃了。幸运的是,其产品在正式推广之前,第一台机器已于今年 6 月 30 日交付到第一家客户手中。
什么样的实际效果?
很难表达我对整个团队的自豪感,以及达成里程碑的兴奋之情。一切才刚刚开始。可以肯定地说,计算世界将从此不同。
虽然 Oxide 是一家很年轻的企业,但 Oxide 在服务器供应商领域却拥有不少狂热的关注者。今年年中,他们交付了第一台产品后发布了一条宣布开发里程碑的推文。这条推文很快就获得 2302 个赞,其他社交媒体用户也纷纷表示祝贺(其中包括来自 Rust 缔造者 Graydon Hoare 的致意)。
至于首位客户对产品的反馈,Cantrill 表示,“客户很欣赏这台新机架从安装到虚拟机配置的整个过程,而且运行速度也比以往高了整整一个数量级!”“传统的服务器往往乱乱糟糟、运行起来声音很大,但我们的服务器非常安静……占用的功耗也更低”。Cantrill 认为,当前数据中心内的声学管理效果“就像一种无法消除的异味。而造成这些问题的根源,就是整个领域缺乏真正的系统整体思维。”
“每个人在建立自有基础设施时都面临着巨大挑战,而且几乎全部供应商都忽视了这部分实际需求……”Cantrill 分享了其中的难点,“现有的服务器生态基础设施已经高度僵化,客户根本没必要只采纳其中的一部分。想用就得接受一切,我们也是这么做的。但在做全盘考量时,我们发现这项工作根本就不能用单一创新来概括,其中包含大量不同要素。”
Cantrill 补充道,要想研发新型机架,Oxide 还需要开发自己的网络交换机和电源控制器。“我们曾经开玩笑,说 Oxide 根本就不是一家初创公司,而是九家合一。”但也正因为如此,“我们才能真正把一切整合起来,解决其中真正棘手的问题,并交付给最终用户。”
让 Cantrill 特别感到自豪的一件事,就是 2019 年他发表的《我不是要开启 BIOS,而是要将其埋葬》(I have come to bury the BIOS, not to open it)的演讲。他还专门强调,Oxide 的系统并未使用 AMI 公司的传统 BIOS 固件。“AMI 是一家上世纪 80 年代建立的 BIOS 制造商,不知何故一直在服务器端计算领域保持着核心地位。如今的 x86 部件,无论是英特尔还是 AMD,其中都有 AMI 代码的身影。这些可都是专有 AMI 代码,用户看不到、碰不到、更操作不了,却又是设备启动和平台支持的固有组成部分。这当然是个大问题……”
“因为首要得说,BIOS 固件质量堪忧。没错,我就是说它写得不好。BIOS 固件位于技术栈的最底层,但却不知道其上运行的是什么,所以它会劫持机器来达成自己的目的……这显然与构建可靠系统的目标相违背,也不符合统一的软件 / 硬件协同设计原则。”Cantrill 同时指出,Oxide 系统中甚至没有 UEFI,“我们不需要这些允许任意软件层在其上运行的东西。”
Cantrill 提到在 Oxide 机架当中,就连负责硬件管理的基板管理控制器(BMC)也被“相应的服务处理程序”所取代。“它运行我们自主开发的 Hubris 操作系统,纯由 Rust 编写而成。”Cantrill 还强调 Oxide 彻底绕开了 BIOS,“AMD Platform Security Processor 执行后的第一条指令将直接指向我们的操作系统,再陆续启动系统的其余部分。”
Cantrill 承认,绕开 BIOS“绝非易事”,但最终也带来了性能优势。“我们掌控了自己的命运……我很庆幸自己做出了这个艰难的决定。现在的系统启动速度像跟火箭一样迅猛。”
参考链接:
https://oxide.computer/podcasts/oxide-and-friends/1411249
https://oxide.computer/blog/the-cloud-computer
https://news.ycombinator.com/item?id=38023891
https://techcrunch.com/2023/10/26/oxide-is-the-latest-startup-to-try-and-bring-the-power-of-the-cloud-on-prem/
https://thenewstack.io/in-pursuit-of-a-superior-server-oxide-computer-ships-its-first-rack/
https://www.osfc.io/2022/talks/i-have-come-to-bury-the-bios-not-to-open-it-the-need-for-holistic-systems/
https://siliconangle.com/2023/10/26/intel-backs-44m-round-private-cloud-infrastructure-startup-oxide-computer/
声明:本文为 InfoQ 翻译整理,未经许可禁止转载。
年终盛会——QCon 全球软件开发大会·上海站将于 12 月 28-29 日在上海中优城市万豪酒店举办。此次大会策划了 GenAI 和通用大模型应用探索、AI Agent 与行业融合应用的前景、LLM 时代的性能优化、智能化信创软件 IDE、LLM 时代的大前端技术、高性能网关设计、面向人工智能时代的架构、高效的编程语言、性能工程:提升效率和创新的新方法、前端和移动开发的新趋势、现代数据架构演进、建设弹性组织的经验传递、SaaS 云服务弹性架构设计等专题。
本次大会以「启航·AIGC 软件工程变革」为主题,目前大会议题正在同步征集中,点击「阅读原文」即可查看详情。现在购票即可享受 7 折优惠,立减 ¥2040。咨询购票可联系票务经理 18514549229(微信同手机号)。
今日荐文
你也「在看」吗? 👇