<p id="hfhf7"></p>
    <p id="hfhf7"></p>
      <address id="hfhf7"><pre id="hfhf7"><strike id="hfhf7"></strike></pre></address>

          中國數據存儲服務平臺

          re:Invent 2022:亞馬遜云科技發布新Nitro卡和Graviton3E處理器

          2022年的云科技春晚,亞馬遜云科技的re:Invent 2022開始了。

          北京時間11月29號上午11點半,我個人最關注的主題內容,繼續由亞馬遜云科技高級副總裁Peter DeSantis帶來。

          Peter DeSantis的演講內容分四個“靚仔”,分別是硬件、網絡、科學和軟件。其中,科學部分指的是AI/ML方面的創新,軟件指的是應用軟件運行。

          首先,看硬件方面的創新

          首先登場的依然是最令人期待的AWS Nitro,回顧歷史,Nitro被分成了四個版本來介紹,每一代都會有一些明顯的進步和提升,這次發布的就是Nitro V5。

          與上代相比,Nitro V5采用的晶體管數量翻倍,內存速度提高了50%,PCIe帶寬也實現了翻倍。反映到性能方面,PPS網絡性能提高60%,延遲降低30%,此外,能耗比也將提升大約30%。

          首發采用Nitro V5的就是這款叫C7gn的EC2實例,它采用的處理器是Graviton3,作為一款網絡優化型實例,帶寬提升到了200Gbps,各項參數相較于上代的C6gn有不小提升。

          第二位重磅登場的其實是新一代的Arm處理器Graviton3E。

          Graviton2相較于Graviton1提升很大,Graviton3相較于Graviton2有25%的性能優勢,今年,很多人期待的是Graviton4,但這次只有Graviton3E。

          Graviton3E是Graviton3的一個變種,主要優化了在浮點運算和向量運算場景中的表現,這種都是高性能計算領域特別強調的能力。

          圖中展示的性能提升僅限于在高性能計算領域,比如有分子動力學GROMACS、金融期權定價FINANCIAL OPTIONS PRICING等等場景。

          為Graviton3E首發護航的就是HPC7g實例,它同時還采用了Nitro V5。對了,這就說明Nitro V5是專門給所有7代主機準備的。

          第二,看網絡創新方面的創新

          網絡部分,Peter重點介紹了SRD(Scalable Reliable Datagram)的重要性,并表示,EFA、EBS和ENA都用上了自家的SRD。

          EFA是亞馬遜云科技的高性能網卡,主要面向HPC和AI集群場景,它依靠Nitro來Offload,繞過內核,以此來提供更高的穩定性,更高的吞吐帶寬和更低的延遲。

          EFA優勢很明顯,但由于跟TCP有一些不同,所以,真正用的時候,只有少數對延遲特別敏感的應用才有可能來適配它,為了能讓人用上EFA,亞馬遜云科技也對接了HPC生態。

          SRD在降低EBS寫延遲方面效果顯著,如上圖所示,它能將極少數(P99.999)會出現的35ms延遲降低五倍,并且能將整體的延遲水平降到一個全新的水平。

          SRD除了可以幫EBS降低延遲,還能提高吞吐帶寬,如上圖,采用了SRD的io2,其IOPS和帶寬提升了四倍。

          Peter還表示,此后新發布的EBS io2都會支持SRD,并且,不會給用戶帶來額外成本,應用本身無感知,用就行了。

          與EFA不同,ENA(Elastic Network Adapter)才是大多數人要用的網絡服務,亞馬遜云科技把SRD裝了進去ENA之后,發布了一個叫ENA Express的新東西。

          其主要價值也是降低延遲和提升帶寬,其中,帶寬直接從原來的5GB/s提升到了25GB/s。

          對于用戶來說,也是只管用就行了,應用方面不需要單獨作出調整。

          第三部分,機器學習方面的創新。

          這部分,Peter重點介紹了如何提高機器學習訓練效率的問題。

          如上圖所示的是機器學習模型精度對訓練時間的影響,16位計算精度的訓練速度快(也省顯存),但損失函數的值收斂不夠,也就是說,訓練出來的模型會很不準。

          32位計算精度可以,但比較費時間,浪費時間就意味著會更費資源,更費錢,為了保證精度的同時能縮短訓練時間,人們搞出了混合精度的做法。

          為了進一步減少訓練時間,還有了叫STOCHASTIC ROUNDING的做法,這個具體是什么,我實在是聽不懂,有點超綱了,大概知道這是一個優化訓練過程的思路。(懂的大佬能用白話解釋一下嗎?)

          不過,提高訓練效率的另外一個思路是橫向擴展,用多臺服務器來一起做訓練。雖然集群運算的效率高,但集群信息交換同步的問題也很大,因為信息交換同步本身就會消耗很多時間。

          Peter介紹了一個叫Ring of Rings(環中環?)的技術來解決信息交換同步效率差的問題。

          相較于傳統的Single Ring的方案,能提高信息交換同步的效率,能把集群規模做的更大。

          目前,Ring of Rings技術支持開源的機器學習模型PyTorch,能把PyTorch的信息同步交換速度提高75%。

          這么好的技術,怎么才能用上呢?

          于是Peter就介紹了新推出的Trn1n實例,它的芯片自然是去年發布的Trainium芯片,網絡部分采用的是增強的1600 Gbps的EFA網絡,這種實例更適合用分布式集群來訓練超大模型。

          第四部分,軟件運行方面的創新。

          這部分主要談的是亞馬遜云科技引以為傲的Serverless服務Lambda,具體說是減少Lambda運行軟件應用時的冷啟動時間。

          此前發布的Firecracker其實也做了一些優化,而今天又再進一步,這就是新發布的AWS Lambda SnapStart,它能把冷啟動的時間縮短90%。

          至于具體的技術實現的話,大致原理就是用了Snapshot快照技術來加快或者說繞開運行時環境初始化的時間。

          關于Peter介紹的主要內容就先記錄到這里。

          以下是這兩天的主要日程,喜歡熬夜的朋友可以蹲一下,我就不熬夜了。

          我個人關注的會是CEO和CTO的演講,渠道方面的不感興趣,機器學習部分會酌情看一下,主要是預計我能聽懂的不多orz。

          最后,順手貼一個注冊觀看鏈接:https://www.awsevents.cn/reInvent2022/registerSignUp.aspx?s=7982&smid=15580

          未經允許不得轉載:存儲在線 » re:Invent 2022:亞馬遜云科技發布新Nitro卡和Graviton3E處理器
          分享到: 更多 (0)
          被多个男人强奷到爽
            <p id="hfhf7"></p>
            <p id="hfhf7"></p>
              <address id="hfhf7"><pre id="hfhf7"><strike id="hfhf7"></strike></pre></address>