下圖顯示了一個(gè)包含兩個(gè)完全NVLink連接的GPU四聯(lián)體的8-GPU混合立方體網(wǎng)格,四聯(lián)體之間的NVLink連接以及每個(gè)四聯(lián)體內(nèi)的GPU直接通過PCIe連接到各自的CPU。通過使用單獨(dú)的NVLink連接跨越兩個(gè)四聯(lián)體之間的間隙,可以減輕對(duì)每個(gè)CPU的PCIe上行鏈路的壓力,并且避免通過系統(tǒng)內(nèi)存和跨CPU鏈接路線路由傳輸。
注意,8-GPU混合立方體網(wǎng)格的每一半都可以作為共享內(nèi)存多處理器運(yùn)行,而遠(yuǎn)程節(jié)點(diǎn)也可以通過對(duì)等DMA共享內(nèi)存。由于所有GPU到GPU的流量都通過NVLink進(jìn)行,因此PCIe現(xiàn)在完全可用于連接到NIC(未顯示)或用于訪問系統(tǒng)內(nèi)存流量。這種配置通常適用于通用的深度學(xué)習(xí)應(yīng)用程序,并已實(shí)現(xiàn)在NVIDIA的新DGX-1服務(wù)器中。
下圖展示了一個(gè)四個(gè)GPU的集群,其中每個(gè)GPU都通過單個(gè)NVLink連接到其對(duì)等方。在這種情況下,對(duì)等方可以雙向通信,達(dá)到40 GB / sec的雙向帶寬(雙重鏈接的雙向帶寬為80GB / sec),從而實(shí)現(xiàn)GPU之間的強(qiáng)大數(shù)據(jù)共享。
雖然NVLink主要集中在將多個(gè)NVIDIA Tesla P100加速器連接在一起,但它也可以用作CPU到GPU的互連。例如,Tesla P100加速器可以通過NVIDIA NVLink技術(shù)連接到IBM的POWER8。POWER8與NVLink?支持四個(gè)NVLink。
下圖顯示了一個(gè)單GPU連接到啟用NVLink的CPU。在這種情況下,GPU可以以高達(dá)160 GB / sec的雙向帶寬訪問系統(tǒng)內(nèi)存,比PCIe提供的帶寬高5倍。
下圖顯示了一個(gè)系統(tǒng),其中每個(gè)GPU與CPU之間有兩個(gè)NVLink。每個(gè)GPU上剩余的兩個(gè)鏈接用于對(duì)等方通信
如Tesla P100設(shè)計(jì)部分所述,NVLink互連在P100加速器上。P100包括兩個(gè)400針高速連接器。其中一個(gè)連接器用于模塊上/下的NVLink信號(hào);另一個(gè)用于供電、控制信號(hào)和PCIe I/O。
Tesla P100加速器可以安裝到更大的GPU載體或系統(tǒng)板中。GPU載體可以與其他P100加速器或PCIE控制器建立必要的連接。由于與傳統(tǒng)GPU板相比,P100加速器的尺寸更小,因此客戶可以輕松構(gòu)建裝有比以往更多GPU的服務(wù)器。通過NVLink提供的額外帶寬,GPU到GPU的通信不會(huì)因PCIe帶寬的限制而成為瓶頸,為GPU聚類提供以前不可用的機(jī)會(huì)。
在GPU架構(gòu)接口層面上,NVLink控制器通過另一個(gè)名為High-Speed Hub(HSHUB)的新塊與GPU內(nèi)部通信。HSHUB直接訪問GPU寬交叉開關(guān)和其他系統(tǒng)元素,例如高速復(fù)制引擎(HSCE),可用于以最高NVLink速率將數(shù)據(jù)移動(dòng)進(jìn)入和移出GPU。下圖展示了NVLink與HSHUB以及GP100 GPU中的一些高級(jí)塊之間的關(guān)系。