久久女婷五月综合色啪小说,免费裸体黄网站18禁免费看

NVIDIA 的 Blackwell 架構(gòu)：解析 B100、B200 和 GB200

發(fā)布時間： 2024-07-29 14:40

NVIDIA 在 NVIDIA GTC 2024 上發(fā)布其下一代基于 Blackwell 的 GPU，標(biāo)志著 AI 技術(shù)取得了關(guān)鍵突破。

隨著人工智能和機(jī)器學(xué)習(xí)領(lǐng)域繼續(xù)以驚人的速度發(fā)展，NVIDIA 的最新創(chuàng)新——Blackwell 架構(gòu)，將以無與倫比的并行計算能力重新定義AI和HPC。

NVIDIA 展示了一系列新技術(shù)，有望以前所未有的方式加速 AI 訓(xùn)練和推理。他們推出了 Blackwell GPU、GB200 Super Chip 和GB200 NVL72。每一個都代表著突破性的創(chuàng)新。

在本文中，我們將深入分析 NVIDIA 的 Blackwell 架構(gòu)。它對于高性能計算意味著什么？它如何改進(jìn) Hopper 架構(gòu)？然后，我們將逐一介紹每款新產(chǎn)品。

Blackwell vs Hopper

Blackwell 架構(gòu)以大衛(wèi)·布萊克威爾，受人尊敬的數(shù)學(xué)家和統(tǒng)計學(xué)家。布萊克威爾在博弈論和統(tǒng)計學(xué)方面的開創(chuàng)性工作和貢獻(xiàn)在該領(lǐng)域留下了不可磨滅的印記，使他的名字成為數(shù)學(xué)科學(xué)創(chuàng)新和卓越的代名詞。這一致敬反映了新平臺的開創(chuàng)性和先進(jìn)的計算能力。

NVIDIA 的 Blackwell 架構(gòu)將擁有迄今為止最大的芯片，擁有 1040 億個晶體管。Blackwell GPU（B100 和 B200）采用雙芯片組設(shè)計，與 Hopper 相比有了重大飛躍。例如，B100 的晶體管數(shù)量比 H100 多 1280 億個，AI 性能是 H100 的五倍。

NVIDIA 的 Blackwell GPU 包含 2080 億個晶體管，采用定制的 TSMC 4NP 工藝制造。所有 Blackwell 產(chǎn)品都采用兩個光罩限制芯片，通過每秒 10 兆兆字節(jié) (TB/s) 連接芯片間互連在統(tǒng)一的單個 GPU 中。

Blackwell 架構(gòu)通過以下方式提供更佳的性能：

FP8性能： Blackwell架構(gòu)在FP8精度下提供20 PetaFLOPS（PFLOPS）的性能，是Hopper架構(gòu)性能的2.5倍。
FP6 性能：與 FP8 一樣，Blackwell 架構(gòu)上的 FP6 性能也是 20 PFLOPS，比 Hopper 架構(gòu)提高了 2.5 倍。
FP4 性能：這是一個重大飛躍，Blackwell 在新的 FP4 指標(biāo)中提供了 40 PFLOPS，是 Hopper 性能的五倍。這表明它非常重視提高低精度計算的性能，這對于 AI 推理至關(guān)重要。
HBM 模型大?。?NVIDIA 的 Blackwell 架構(gòu)支持高達(dá) 7400 億個參數(shù)的模型，這是 Hopper 架構(gòu)所能管理的模型的六倍。這一大幅提升支持開發(fā)和運(yùn)行更大、更復(fù)雜的 AI 模型。
HBM 帶寬： Blackwell 上的高帶寬內(nèi)存 (HBM) 帶寬為每參數(shù)秒 34 兆兆字節(jié) (TB/s)，是 Hopper 上可用帶寬的五倍。這允許更快的數(shù)據(jù)傳輸速率，從而顯著提高計算性能。
采用 SHARP 技術(shù)的 NVLink All-Reduce： Blackwell 架構(gòu)采用 SHARP 技術(shù)，提供 7.2 TB/s 的 NVLink all-reduce 功能，是 Hopper 架構(gòu)功能的四倍。SHARP（可擴(kuò)展分層聚合和縮減協(xié)議）增強(qiáng)了集體通信操作，這對于分布式 AI 和機(jī)器學(xué)習(xí)任務(wù)至關(guān)重要。

借助 Blackwell 架構(gòu)，NVIDIA 推出了第五代 NVLink，提供前所未有的并行性和帶寬水平，遠(yuǎn)遠(yuǎn)超過 Hopper 架構(gòu)的功能。這些進(jìn)步凸顯了 Blackwell 為下一代人工智能和高性能計算應(yīng)用提供支持的潛力。

Blackwell 架構(gòu)還配備了 Secure AI。Secure AI 即使在使用時也能保護(hù)您的 AI 數(shù)據(jù)。它提高了安全性，同時又不降低速度。這使得公司可以安全地開展最復(fù)雜的 AI 項(xiàng)目，保護(hù)他們的想法，并實(shí)現(xiàn)設(shè)備之間的安全訓(xùn)練、分析和信息共享。

Blackwell 還具有智能彈性，配備專用的可靠性、可用性和可服務(wù)性 (RAS) 引擎，可及早識別可能發(fā)生的潛在故障，從而最大限度地減少停機(jī)時間。其 RAS 引擎提供深入的診斷信息，以識別問題區(qū)域并規(guī)劃維護(hù)。

NVIDIA 還推出了一套全面的產(chǎn)品，利用 Blackwell 架構(gòu)重塑計算領(lǐng)域。以下是其中一些產(chǎn)品。

NVIDIA B100 和 B200

NVIDIA 正在 Blackwell 架構(gòu)的基礎(chǔ)上推出兩款新 GPU，即 B100 和 B200。這些 GPU 采用雙芯片設(shè)計，每個芯片包含四個 HBM3e 內(nèi)存堆棧，每個堆棧提供 24GB 容量，在 1024 位接口上提供 1 TB/s 的帶寬。

B100 和 B200 GPU 還提高了浮點(diǎn)運(yùn)算的精度。它們配備了一個轉(zhuǎn)換引擎，可以在可能的情況下動態(tài)自動地重新縮放數(shù)值精度并將其重新轉(zhuǎn)換為較低的格式。這可以改善機(jī)器學(xué)習(xí)計算，因?yàn)樵谔幚磔^小的浮點(diǎn)數(shù)時，計算的準(zhǔn)確性會影響機(jī)器學(xué)習(xí)模型的能力和準(zhǔn)確性。

雖然 NVIDIA 沒有明確提供 B100 和 B200 GPU 的基準(zhǔn)測試，但我們根據(jù)以下方面細(xì)分了它們的規(guī)格：

NVIDIA B100

B100 Blackwell GPU 提供均衡的計算效率。它為密集 FP4 張量運(yùn)算提供高達(dá) 7 PFLOPS，其中“密集”表示張量的大多數(shù)元素都非零，需要進(jìn)行全面計算。相比之下，它為稀疏 FP4 運(yùn)算提供高達(dá) 14 PFLOPS，其中“稀疏”表示大多數(shù)元素為零，由于需要計算的非零元素較少，因此可以實(shí)現(xiàn)優(yōu)化、更快的處理。

對于平衡精度和計算速度至關(guān)重要的 FP6/FP8 張量，B100 在密集/稀疏任務(wù)中分別達(dá)到 3.5/7 PFLOPS。其對快速數(shù)據(jù)推理至關(guān)重要的 INT8 張量性能在密集/稀疏場景中達(dá)到 3.5/7 POPS。

在更高精度要求下，B100 的 FP16/BF16 張量在密集/稀疏計算中以 1.8/3.5 PFLOPS 運(yùn)行，TF32 張量以 0.9/1.8 PFLOPS 運(yùn)行，支持一系列精確計算任務(wù)。此外，它還為需要最高精度的科學(xué)應(yīng)用提供 30 TFLOPS 的 FP64 密集計算。

GPU 擁有 192GB 內(nèi)存，可處理大量數(shù)據(jù)。它支持 8 TB/s 內(nèi)存帶寬和等效 1.8 TB/s NVLink 帶寬，可實(shí)現(xiàn)快速數(shù)據(jù)通信。B100 的功率規(guī)格為 700W，對于需要平衡功率和性能的復(fù)雜計算設(shè)置而言，它是一種節(jié)能的選擇。

NVIDIA B200

B200 Blackwell GPU 在密集 FP4 張量運(yùn)算中實(shí)現(xiàn)高達(dá) 9 PFLOPS，在稀疏 FP4 張量運(yùn)算中實(shí)現(xiàn)高達(dá) 18 PFLOPS。對于 FP6/FP8 張量運(yùn)算，在精度和速度之間取得平衡，B200 分別記錄了密集/稀疏活動的 4.5/9 PFLOPS。其 INT8 張量能力對于快速數(shù)據(jù)分析和推理至關(guān)重要，在密集/稀疏計算中達(dá)到 4.5/9 POPS，確保高效的實(shí)時處理。

B200 在精密任務(wù)中表現(xiàn)出色，密集/稀疏 FP16/BF16 張量為 2.25/4.5 PFLOPS，密集/稀疏 TF32 張量為 1.2/2.25 PFLOPS，適用于各種科學(xué)和機(jī)器學(xué)習(xí)應(yīng)用。對于最終精度，例如在詳細(xì)的科學(xué)計算中，它在 FP64 密集計算中提供了穩(wěn)定的 40 TFLOPS。

B200 配備 192GB 內(nèi)存，可增強(qiáng)大規(guī)模數(shù)據(jù)處理能力。它支持 8 TB/s 內(nèi)存帶寬和相應(yīng)的 1.8 TB/s NVLink 帶寬，可實(shí)現(xiàn)快速高效的數(shù)據(jù)傳輸。B200 的額定功耗為 1000W，專為在苛刻的計算環(huán)境中實(shí)現(xiàn)節(jié)能而設(shè)計，在高端性能和功耗之間實(shí)現(xiàn)平衡。

GB200 和 GB200 NVL72

NVIDIA 還發(fā)布了 GB200 Grace Blackwell 超級芯片。它結(jié)合了兩個 NVIDIA B200 Tensor Core GPU 和一個NVIDIA Grace CPU超過 900GB/s 的超低功耗NVLink 芯片到芯片互連。

Grace Blackwell 超級芯片的芯片到芯片鏈路完全內(nèi)存一致，從而創(chuàng)建了一個沒有內(nèi)存本地化的統(tǒng)一芯片。超級芯片采用 HBM3e 內(nèi)存，提供高達(dá) 384 GB 的容量和 16 TB/s 的帶寬，有助于快速處理數(shù)據(jù)。

它包含一個解壓縮引擎和多媒體解碼器，基于 72 個 ARM Neoverse V2 內(nèi)核，具有各種緩存級別（L1、L2 和 L3 緩存），可優(yōu)化數(shù)據(jù)檢索速度。它集成了最新的 NVLink 5.0 和 PCIe Gen 6，支持高速數(shù)據(jù)傳輸。

Grace Blackwell 超級芯片專為可擴(kuò)展性而設(shè)計，支持多實(shí)例 GPU 功能，并且封裝方便服務(wù)器集成。TDP 可配置高達(dá) 2700 W，可根據(jù)計算需求進(jìn)行能源管理。

在實(shí)際應(yīng)用中，GB200 顯著改善了數(shù)據(jù)庫處理等計算任務(wù)，速度比傳統(tǒng) CPU 提高了 18 倍，從而降低了能耗和總擁有成本。它加速了對產(chǎn)品設(shè)計至關(guān)重要的基于物理的模擬，從而實(shí)現(xiàn)了經(jīng)濟(jì)高效的數(shù)字測試。對于 ASIC 設(shè)計（以 Cadence SpectreX 模擬器為例），它提供了 13 倍的速度提升。此外，在計算流體力學(xué)方面，GB200 將模擬速度提高了 22 倍，從而提高了工程和設(shè)計效率。

GB200 NVL72結(jié)合了 36 個 Grace CPU 和 72 個 Blackwell GPU。它是一個液冷式機(jī)架級 72-GPU NVLink 域，可以充當(dāng)單個大型 GPU。它引入了尖端功能和第二代 Transformer Engine，可顯著加速 LLM 推理工作負(fù)載，為資源密集型應(yīng)用程序提供實(shí)時性能，例如萬億參數(shù)語言模型。

推理是生成式 AI 和 LLM 的關(guān)鍵方面之一。它指的是模型在經(jīng)過訓(xùn)練后，根據(jù)收到的輸入生成或預(yù)測新數(shù)據(jù)點(diǎn)（標(biāo)記）的階段。此過程稱為“標(biāo)記生成”。

得益于 FP4、張量核心、Transformer 引擎和 NVLink 交換機(jī)，GB200 NVL72 可以生成比 Hopper 多 30 倍的令牌，實(shí)現(xiàn) 1.8 TB/s 的 GPU 到 GPU 互連。

GB200 NVL72 專為高級計算任務(wù)而設(shè)計，需要高級網(wǎng)絡(luò)才能發(fā)揮最佳功能。通過集成 NVIDIA Quantum-X800 InfiniBand、Spectrum-X800 以太網(wǎng)和 BlueField-3 DPU，可提高大型 AI 數(shù)據(jù)中心的性能、效率和安全性。

Quantum-X800 InfiniBand對于構(gòu)建 AI 計算框架至關(guān)重要，它能夠在兩級胖樹拓?fù)渲羞B接超過 10,000 個 GPU 單元。此設(shè)置顯著改進(jìn)，性能比 NVIDIA 上一代 Quantum-2 提高了五倍。

與此同時，NVIDIA Spectrum-X800和BlueField-3 DPU 平臺旨在擴(kuò)展整個數(shù)據(jù)中心的功能。它們提供快速的 GPU 數(shù)據(jù)訪問，確保多個用戶（多租戶）的安全環(huán)境，并促進(jìn)簡化的數(shù)據(jù)中心運(yùn)營。這種組合支持 GB200 在高效處理大量 AI 數(shù)據(jù)集方面的作用。

Blackwell 為生成式人工智能帶來的實(shí)際好處

NVIDIA 的 Blackwell 架構(gòu)旨在加速生成式 AI，大幅縮短訓(xùn)練和推理時間，從而加快整個科技行業(yè)的研究和產(chǎn)品開發(fā)。從實(shí)際意義來看，這意味著能夠解決以前計算成本高昂的問題。

隨著 FP4 的引入，訓(xùn)練生成式 AI 時的準(zhǔn)確度損失最小。FP4 還允許在相同時間范圍內(nèi)對模型進(jìn)行更長時間的訓(xùn)練，從而提高速度和準(zhǔn)確性。

基于 Blackwell 的 GPU 可用于創(chuàng)建高度詳細(xì)的虛擬現(xiàn)實(shí)，這有助于加速多模態(tài) LLM 和機(jī)器人的訓(xùn)練，使其具有更多細(xì)微差別和更好的背景。

此外，NVIDIA 的 B100 和 B200 GPU 可促進(jìn)從材料科學(xué)到醫(yī)學(xué)，甚至自動駕駛汽車等復(fù)雜領(lǐng)域的進(jìn)步。它們的能力將幫助解決以前無法解決的挑戰(zhàn)，推動各行業(yè)的創(chuàng)新和效率。

捷智算平臺讓您有機(jī)會優(yōu)先租用 NVIDIA 的最新B100 GPU。與此同時，您可以訪問捷智算平臺的 A100、H100 或 H200 GPU，然后首先通過云升級到最新的 GPU 硬件。

用于PyTorch 的 GPU 比較：A6000 與 A100

動畫制作需要什么樣的硬件規(guī)格？

熱門產(chǎn)品

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

NVIDIA QM9790 交換機(jī)

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

英偉達(dá)h200,全球高性能GPU,現(xiàn)貨

英偉達(dá)h200,Te...

ESC-N8-E11 AI超算服務(wù)器

NVIDIA HGX...

欧美成人免费做真爱,两个人看www在线视频,老熟女重囗味hdxx70星空,麻花豆传媒剧国产电影,久久中文字幕,日韩