正式提出,如今已被大家逐渐接受,并且把它变成行业术语继续去使用。诞生3年之久,DPU行业的应用度逐渐上升,在DPU的行业应用方面,最先部署DPU的是一些云服务商,如BAT、京东、头条、微软等等公司,他们大量的数据需要DPU来帮助其提前处理和做安全问题。而且英伟达预计,明年开始将会有更多类型的企业加大对DPU的采用。
在DPU领域,英伟达正在携手行业合作伙伴不断构建完好的开发者生态。而一大利器就是其DOCA软件,没有软件的芯片就是没有灵魂的沙子,这几年英伟达的DOCA软件为其NVIDIA BlueField DPU注入了灵魂,也帮助英伟达DPU解锁了更多的应用空间。
一是如AI工作负载等现代应用程序将持续产生和处理大量数据,这对数据中心的性能和数据的处理能力提出了巨大的挑战。
二是现在很多应用对分布式基础设施的需求不断增加,它们的部署并不是运行在数据中心中的某一台服务器,会运行在多台服务器上,甚至分布在不同的物理位置的微服务给客户提供应用。不仅仅部署在数据中心,在网络边缘和多云架构里也是非常普遍的现象。这对数据中心基础设施运营也会有比较大的挑战。
三是基础设施服务消耗了大量的CPU容量,使得CPU服务于客户应用的资源减少。
四是东西向流量不断增加,安全攻击面成为威胁。所谓东西向流量,主要是很多应用程序会由分布在数据中心甚至不同物理位置上的微服务程序提供,他们之间就会产生相应的数据流的数据交互。由于相互之间的流量增多,就会导致存在跨服务器或者数据中心内部的横向攻击和一些威胁,甚至有的客户会把一个网络上的应用程序下载到数据中心里应用,这些都会有潜在的安全风险带入到数据中心中,如果安全策略或者安全方式模型不能有效的抵御这种攻击, 会造成比较大的威胁和相应的损失。
为了解决数据中心的这些挑战,英伟达与VMware近年来一直保持紧密合作,以期借助VMware的软件架构一起重新构想虚拟的基础设施。基于NVIDIA BlueField DPU可以实现如下三大方面的功能:1)简化基础设施和工作负载管理2)提高基础设施运行效率,主要体现在性能和功能增强上3)借助零信任安全模式加强基础设施安全性。
下图是完整的Project Monterey的架构。最底下是VMware Hypervisor整个虚拟化管理软件系统,相当于把vSphere中NSX的网络和安全相关的服务,还有vSAN存储服务、主机管理服务这些原来需要CPU干预介入的基础设施的操作,卸载到NVIDIA BlueField DPU之上。由于DPU的介入会在主机CPU和DPU之间形成一个隔离层,来去保障主机内部的安全性。如果有主机上层被应用程序进行黑客攻击,它不会通过隔离层、通过DPU攻击到其他的服务器。所以,它会对多租户、多虚机环境有很有效的帮助。后续在Linux系统或者Windows系统的裸金属服务器上进行进一步的开发。
目前该项目还在进行之中,现在只是把vSphere 里面Cloud Foundation的功能卸载到了NVIDIA BlueField DPU上,同时支持VMware NSX下一代防火墙技术,未来可能还会有一些安全策略的功能会在日后的版本中支持。后面还会支持vSAN数据存储功能,这些都正在紧密研发之中。
那么,NVIDIA BlueField DPU在vSphere体系中运行的情况。在传统的服务器中,对基础设施管理、存储、安全、网络都是CPU承担工作负载的。当采用了DPU之后,CPU可以零介入基础设施的部分,上述讲的四大功能就卸载到了DPU。这里主要和vSphere配合的是有软件定义的安全、软件定义的网络和整体性能加速的部分,将给上层应用提供更好的基础设施的支撑。因此,CPU资源会更好的支撑客户业务应用,有更多支持虚机和容器的能力。
除了很好的支持vSphere8之外,NVIDIA BlueField DPU在NSX网络和安全的组件上也有很好的支撑,现在已经实现了将NSX下一代防火墙功能卸载到了DPU之上,后续的入侵检测、入侵防御等安全策略功能也会逐渐在DPU上实现,这将和VMware整个多云架构、企业应用有更加紧密的解决方案,能够让企业用户直接采用,享受DPU带来的性能上的回报。
那么,DPU采用和不采用在收益和效果上有何差异呢?对此,英伟达通过两个案例对NVIDIA BlueField DPU进行了网络基准测试:
案例一:下图是在VMware体系上运行NGINX Web服务器的应用,如果传统用标准智能网卡和CPU介入的方式下,需要有8个CPU内核管理跟运营基础设施的相关操作。当采用了DPU之后,这8个内核完全被释放了,不需要CPU的任何介入,DPU就会把这些基础设施管理相关的加速能力直接体现出来。
案例二:在NVIDIA BlueField和VMware体系之上跑Redis内存键值存储,是非SQL数据库的基准测试,如果采用CPU和标准智能网卡上跑应用需要12个CPU内核介入,当采用DPU之后这12个内核完全被释放,直接由DPU承担这些工作负载。从吞吐量的角度来看,原来是8.8,当采用DPU后性能得到加速,会变成12,整体有12个内核的减少,相当于减少CPU 20%的内核释放;而且在不使用任何CPU资源的情况下性能将提升36%。对客户而言,既节省了CPU上的资源消耗,可以拿更多CPU资源支撑业务应用,同时在整个网络性能上也得到了提升。
所以总体来看,能得出的结论是,在NVIDIA BlueField DPU上运行vSphere,用的越多,省的越多。在整个服务器效率方面会整体提升22%,在3年Roi角度测算带来5倍的投资回报率。780台安装有NVIDIA BlueField DPU的服务器,相当于1000台安装有标准智能网卡的服务器。每台服务器的TCO(总体投入)可节省8,200美元,3年内通过提升效率可节省180万美元。所以,这对于企业用户来讲,虽然可能在DPU采用上做一定投入,但实际上,在CPU资源占用和性能提升上将带来长期稳定的回报。
在人工智能和机器学习的热潮技术驱动下,有很多从业者对人工智能就绪的数据中心基础设施产生了浓厚的兴趣,尤其是学生。NVIDIA DPU黑客松活动从开办以来受到学生和创业者等的欢迎。DPU黑客松活动会介绍NVIDIA BlueField DPU、NVIDIA DOCA软件框架的最新进展和基础开发的知识,介绍跟竞赛有关的用例和应用场景,这些都会让学生和行业的开发者能够尽快的熟悉这些硬件和软件的部分,同时掌握相应的开发技能,通过参加竞赛,他们可以进行实操体验。
2022 秋季NVIDIA DPU中国黑客松竞赛将于10月19日开帷幕。此次黑客松和上次不同的是,题目聚焦在“使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速的存储与AI 解决方案”。这是基于InfiniBand上实现的RDMA技。