2024.06.04

GPUスケーリングとは?AIの生産性向上に役立つNVIDIA MIGとの関係【トゥモロー・ネット テックブログ】

AIアプリケーションや生成AIの普及が進む今日において、その中核となるディープニューラルネットワーク(DNN)のトレーニングと推論には、極めて高い水準のAIワークロードを必要とします。そのため、今日のAIデータセンターにはGPUが備える大規模な並列処理能力と、高いメモリ帯域幅が必要不可欠です。

NVIDIA A100 GPUが備えるマルチインスタンスGPU(MIG)と第3世代 Tensorコアは、GPUのスケーリング性能を数十倍に引き上げることができるため、GPUの効率的な使用が可能になります。

この記事では、GPUスケーリングについて、さらには、NVIDIA MIGがGPU性能を飛躍的に伸ばす仕組みについて解説します。

GPU を利用したスケーリング

ディープニューラルネットワーク(DNN)は、ディープラーニングを活用したAIアプリケーションや生成AIの中核です。DNNが必要とする膨大な並列計算処理と大量のデータ処理能力を、高度なスケーリング性能を備えた高密度GPUベースのサーバーが提供します。

数千のレイヤー、数十万のニューロン、数百万の接続を扱う大規模なDNNのトレーニングには、膨大な反復計算と、ギガバイト・テラバイト級のデータ処理を必要とします。この高度なAIワークロードの要求に、汎用処理を意図した従来型のCPUベースのサーバーでは応えることができません。

GPUベースのサーバーは、大規模な並列処理能力を備え、高いメモリ帯域幅に最適化されたGPUを高密度に実装したラックに搭載しています。このGPUベースサーバーによって、深いインサイトをすばやく獲得可能なDNNのトレーニングと推論が実現できるのです。

高速なGPUスケーリングを可能とするマルチインスタンスGPUとは

NVIDIA MIG GPU(マルチインスタンスGPU,以下MIG)とは、1つの物理CPUを複数の独立したインスタンスに分割する技術です。各インスタンスは、それぞれ高帯域幅のメモリ、キャッシュ、コンピューティングコアを持ち、完全に独立して動作します。

これにより複数のインスタンスが、単一の物理CPU上で並列に動作できるようになります。AIワークロードをインスタンスに最適に割り当てることによって、GPUの利用効率の大幅な向上が可能となります。

この章では、マルチインスタンスGPUの特徴について、以下でさらに詳しく解説します。

MIGの仕組み

MIGを使用しない場合、単一の物理GPU上で複数のAIワークロードを実行します。しかしAIワークロードによって必要とする計算量やメモリ量、メモリ帯域幅が異なるため、リソースの取り合いが起きることがあり、処理速度の低下を招いてしまいます。

たとえば、メモリ帯域幅を大量に消費するAIワークロードがあると、他のAIワークロードに十分な帯域幅が割り当てられず、処理速度の低下が起きます。

しかしMIGを利用すれば、1つの物理GPUを複数の独立したインスタンスに分割できるため、処理速度の低下を回避できます。各インスタンスは、専用のメモリ、メモリ帯域幅、キャッシュ、コンピューティングコアを持ち、まるで独立したGPUのように動作します。

インスタンスをプロビジョニングして構成

「インスタンスをプロビジョニング」するとは、MIGによって1つの物理GPUを小さな独立した複数のインスタンスに分割し、それらのインスタンスを使用することを目的として構成することを意味します。

MIGインスタンスは、構成を動的に変更させることもでき、AIワークロードの要求変更に合わせてGPUリソースを変更できます。

たとえば、昼はスループットの低い推論を実行するために7つの MIGインスタンスを使用し、夜はディープラーニング・トレーニングのために、1つの大きなMIGインスタンスに再構成することなどが可能です。

ワークロードを並列に安全に実行可能

MIGにより、1台のGPUを複数のインスタンスに分離したのち、それぞれのインスタンス上で複数のAIワークロードを並列に安全に実行させることができます。

それぞれのインスタンスは、専用のコンピューティングコア、メモリ、メモリ帯域幅、キャッシュを持ちます。インスタンスが物理的に分離されていることにより、異なるAIワークロードは並列実行が可能になり、リソースの競合や互いに干渉することがありません。

これは、セキュリティ面でも完全に分離されていることも意味しています。あるインスタンス上のワークロードは、別のインスタンス内のデータや計算処理へのアクセスや改ざんが物理的にできません。

さらに障害の分離も行われます。仮に1つのインスタンスがクラッシュしても、同じGPU上の他のインスタンスに影響を与えることはありません。

MIGによって、1台のGPU上で複数のAIワークロードの並列で安全な実行が可能になるのです。

マルチインスタンスGPU(MIG)のメリット

MIGは、データセンター全体のGPU利用効率向上と電力削減に貢献します。ここでは、MIGのメリットについて解説します。

GPUアクセスの拡大

MIGはインスタンス上で複数のAIワークロードを並列実行させることによって、GPUリソースへのアクセスを大幅に向上させます。その理由を以下で解説します。

インスタンスを最大7つに分割できる

1つのGPUを最大7つの独立したインスタンスに分割できます。そのため、MIGを使わない場合と比較して最大7倍効率化できることを意味します。

きめ細かなGPUリソースの割り当てが可能

コンピューティングリソースを、ワークロードの要求にもとづき各インスタンスに細かく割り当てられます。

小規模AIワークロードの効率的なサポート

小規模なワークロードは、1つのGPU全体のリソースを完全に使い切らないため、GPUの利用効率が低下してしまいます。インスタンスのプロビジョニングによってワークロードを最適に割り当てることで、GPUリソースへのアクセスを向上できます。

GPU利用率の最適化

MIGによって、GPUをさまざまなインスタンスにプロビジョニングして構成することで、AIワークロードの割り当てを最適化できます。これにより、AIワークロードを効率的に実行でき、GPU利用率の最適化を図れます。

リソースを一部しか必要としないAIワークロードに、GPU全体を割り当てることは利用効率の低下を招きます。AIワークロードによって、コンピューティングコア、メモリ量、帯域幅のニーズは異なります。

MIGでは特定のワークロードに対して、さまざまなリソースの割り当てを行うことで、適切なサイズのインスタンスを割り当てられます。

ワークロードの同時実行が可能

MIGによって、1台の物理GPUで複数のAIワークロードを並列に実行でき、ワークロードの効率的かつ安全な並列実行を実現します。具体的には以下のことを可能にします。

ハードウェアレベルでの物理的なワークロードの分離

インスタンスはそれぞれ専用のコンピューティングコア、メモリ、キャッシュ、メモリ帯域幅を持ち分離されています。

GPUの効率的な利用

インスタンスに割り当てられたワークロードは並列に実行できます。1台の物理GPU上で複数のAIワークロードを実行する場合と比較して、GPU利用効率が向上します。

GPU利用効率低下の回避

特定のAIワークロードのリソース消費が、他のAIワークロードには影響を及ぼしません。これによって他のAIワークロードが遅延することがありません。

マルチインスタンスGPU(MIG)の代表例

マルチインスタンスGPU(MIG)の代表例として、NVIDIA A100を例に挙げます。

こちらのMIGは、1つのGPUを7つの独立したインスタンスに分割できます。MIG は各インスタンスを完全に分離するため、インスタンス上で動作するAIワークロードはハードウェアレベルで完全に保護されます。

専用のメモリ、メモリ帯域幅、キャッシュ、コンピューティング コアが割り当てられることにより、開発者は大小を問わずあらゆるAIワークロードの画期的な高速化とサービス品質(QoS)を保証できます。

さらにNVIDIA A100に搭載した第3世代 NVIDIA Tensorコアは、AIワークロードの劇的な高速化をもたらし、トレーニング時間を数週間から数時間に短縮し、推論を大幅に高速化します。

Tensorコアとは、DNNの中核となる行列演算を高速化するために設計された、行列乗算累積に特化した演算ユニットです。

第3世代Tensorコアは、Tensor Float 32 (TF32) と 64 ビット浮動小数点 (FP64) をサポートします。これによってコードの変更なしで、AIワークロード処理を最大20倍スピードアップできます。
参考:A100 GPUの TensorFloat-32 が AI の学習とHPC を最大 20 倍高速化|NVIDIA

まとめ

今日のAIデータセンターには、GPUが備える大規模な並列処理能力と高いメモリ帯域幅が必要不可欠です。しかしAIアプリケーションや生成AIの普及が急速に進む中で、AIワークロード需要の拡大は留まることを知りません。

そのため、昨今のデータセンターにおいてはMIGの活用が進んでいます。MIGを活用することで、GPUアクセスの拡大とGPU利用効率の最適化を同時に実現し、AI の開発と展開を加速させることができます。

トゥモロー・ネットでご支援できること

トゥモロー・ネットでは、AI開発・データセンター向けのソリューションのご提供から、社内のITインフラの構築までを幅広くサポートしています。NVIDIAのパートナーとして各種GPU製品を取り扱っています。

目的や状況を確認した上で新規購入や製品入れ替えのご提案から、構築、サポートまでを実施いたします。是非、お気軽にお問い合わせください。

どのサーバー、スペックを選んだら良いか分からないという方にも、用途にあわせてご提案から、構築、サポートまでを実施しています。是非、お気軽にお問い合わせください。

お問い合わせはこちら

お問い合わせはこちら

関連ページ

NVIDIA GPUについてはこちら

GPUをより効率的に使用するためのGPU処理高速化ソリューションはこちら

クラウドコンピューティングとは?仕組みやメリット・デメリットを解説

この記事の筆者

株式会社トゥモロー・ネット

クラウドソリューション本部

製品のお問合せはこちらから

トゥモロー・ネットは「ITをもとに楽しい未来へつなごう」という経営理念のもと、感動や喜びのある、より良い社会へと導く企業を目指し、最先端のテクノロジーとサステナブルなインフラを提供しています。設立以来培ってきたハードウェア・ソフトウェア製造・販売、運用、保守などインフラに関わる豊富な実績と近年注力するAIサービスのコンサルティング、開発、運用、サポートにより、国内システムインテグレーション市場においてユニークなポジションを確立しています。
インフラからAIサービスまで包括的に提供することで、システム全体の柔軟性、ユーザビリティ、コストの最適化、パフォーマンス向上など、お客様の細かなニーズに沿った提案を行っています。

ページトップへ戻るボタン