云和大型计算如何重塑 HPC

大约 25 年前,一些开源技术结合起来形成了一个强大的商业互联网,它终于准备好开展业务并拿走你的钱了。这种开源组合被称为 LAMP 堆栈(Linux、Apache HTTP Server、MySQL 和 PHP/Perl/Python),成为一代开发人员的标准开发堆栈。
现在别看,但我们很可能正处于另一个 LAMP 堆栈时刻的风口浪尖。
然而,这一次的重点不是建立一种新的在线方式来兜售狗粮。取而代之的是,一场新技术复兴正在进行,以解决算法复杂、消耗大量计算资源的大规模工作负载。想想为 COVID-19 接种疫苗、建造新的超音速喷气式飞机或驾驶自动驾驶汽车。科学和工程界正在以前所未有的令人眼花缭乱的速度更快地发展和提供更新的创新。
如何?云。但不仅仅是云。
云对于正在发生的事情的描述可能过于简单。对于这种转变,我们缺乏巧妙的简写,例如互联网的 LAMP 堆栈。有些东西突然解放了博士类型,可以在极其复杂的计算引擎上进行创新,为算法驱动的工作负载提供动力,这些工作负载正在以比早期 Friendster 或 Pets.com 承诺提供的方式更深刻的方式改变我们的生活。
“高性能计算”(HPC) 是与这些工作负载相关的最常见标签。但那是在公共云成为这些新应用程序的可行平台之前。浏览世界上最快的超级计算机 500 强榜单,您会看到越来越多的超级计算机基于公有云。这并非巧合:本地超级计算机和大型 Linux 集群已经存在了几十年(在商业互联网之前),但这种新趋势——有时被称为“大计算”或“深度技术”——在很大程度上依赖于云。
正如咨询公司 BCG 所说,“计算能力的增强和成本的下降以及技术平台的兴起是最重要的贡献者。云计算正在稳步提高性能并扩大使用范围。”
但这个新的“堆栈”不仅仅与云有关。相反,它取决于技术的三大趋势:仿真软件、专用硬件和云的广度和深度迅速增加。这些是当今每个快速发展的研究和科学团队都在利用的技术构建模块,也是为什么出现了数百家初创公司来撼动十年或更长时间前整合的长期垂死行业的原因。
就像 LAMP 堆栈的神奇时刻一样,今天的重要计算/深度技术时刻都是为了提高工程生产力。云对此至关重要,尽管它本身还不够。
以航空航天为例。传统上,航空工程师会依赖本地 HPC 集群来模拟与起飞和着陆相关的所有必要变量,以设计新的超音速喷气式飞机。相比之下,初创航空航天公司直接采用了云计算,其弹性基础架构使他们能够对应用程序进行建模和模拟,而无需在同事后面排队等待高度专业化的 HPC 硬件。构建和维护硬件的时间更少。更多时间进行实验和工程设计。这就是大型计算云方法的美妙之处。
将其与各种模拟软件相结合,可以在实际构建和原型化复杂的物理事物之前对新的创新进行建模。随着摩尔定律耗尽,专用硬件为这些算法复杂的模拟提供动力。云越狱了本地超级计算机和集群的所有这些,使得创建和运行模型、迭代和改进以及在移动到物理原型之前再次运行它们变得容易了一个数量级。 (要明确的是,这种大型计算/深度技术的大部分是关于构建物理事物,而不是软件。)
这个领域的棘手之处在于使它们运行所需的自定义硬件和软件配置以及优化其性能所需的复杂工作流程。这些类型的算法密集型工作负载需要越来越专业的 GPU 和其他更新的芯片架构。正在支付昂贵的博士学位以设计下一个伟大的涡轮机或喷气推进秘方的公司不希望通过强迫他们学习如何使用模拟软件和硬件组合来建立机器来让他们陷入困境。
“15 年前,这个 HPC 领域的任何公司都根据其在本地运行硬件的程度来脱颖而出,并且基本上押注摩尔定律将继续在 x86 架构上逐年提供持续更好的性能,”Joris 说Rescale 首席执行官 Poort 在接受采访时表示。 “如今最重要的是速度和灵活性——确保您的博士在他们的工作中使用最好的模拟软件,使他们免于成为专业大型计算基础设施的专家,这样他们就可以更快地推出新的创新。”
每家公司最终都会在云中使用模拟和专用硬件吗?可能不会。今天,这是火箭、推进、计算生物学、运输系统以及世界上 1% 最难计算挑战的领域。但是,尽管大型计算被用来解决当今最令人讨厌的问题,但我们肯定会看到新一波 Netflix 使用云、模拟软件和专用硬件的这种 LAMP 堆栈组合推翻世界大片。

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627