AWS(Amazon Web Services,亞馬遜云計算服務)日前在紐約峰會(AWS Summit New York 2023)宣布Amazon Elastic Compute Cloud(EC2)P5執行實例正式提供客戶采用,這是下一代的GPU執行實例,由最新NVIDIA H100 Tensor Core GPU驅動運行,滿足云計算客戶在執行AI、機器學習、高性能計算對高性能和高擴展性的工作需求。
今年3月AWS與NVIDIA宣布一項多方合作,打造全球最具可擴展性且按需求付費的AI基礎設施,以便訓練日益復雜的大型語言模型、開發生成式AI的應用程序。當時AWS便預告由H100 GPU驅動的Amazon EC2 P5執行實例,為打造和訓練更大規模的機器學習模型提供高達20 exaFLOPS的算力,如今正式提供給客戶。
Amazon EC2 P5執行實例提供8個H100 GPU,具有640GB高帶寬GPU內存,同時提供第三代AMD EPYC處理器、2TB系統內存以及30TB本地NVMe存儲。此外,還提供3200Gbps的聚合網絡帶寬并支持GPUDirect RDMA,能夠繞過CPU進行節點間通信,達到更低延遲和高效橫向擴展性能。
適合訓練和執行越來越復雜的大型語言模型和計算機視覺模型的Amazon EC2 P5執行實例,可滿足密集運算的生成式AI應用需求,包括問答、產生程序代碼、產生圖片和視頻、語音識別等。對于需要高性能計算的客戶采用Amazon EC2 P5執行實例,能夠更大規模地部署在藥物開發、地震分析、天氣預報、金融建模等高需求的應用程序。
與上一代以GPU為基礎的執行實例相比,Amazon EC2 P5執行實例可將訓練時間縮減6倍,換句話說可從幾天縮短到幾小時的時間,幫助客戶節省多達40%的訓練成本。
(首圖來源:NVIDIA)