2024.02.22

NVIDIA AI Enterpriseを構築する際に知っておくべきこと～NVIDIA提供の認定システムカタログの使い方～【トゥモロー・ネットテックブログ】

NVIDIA AI Enterpriseのブログ第二弾として、NVIDIA AI Enterpriseを構築する際に知っておくべきことについて解説します。

一般的にはAI向けのハードウェア選定をする際に、高スペックのCPUやGPU、大容量のメモリや高速なネットワークカードなどを選定したいと考えますが、無闇にハードウェア選定をすることにより動作不良を引き起こす可能性があります。NVIDIA AI Enterpriseを活用する際には、是非以下の内容を参考にしてください。

1 NVIDIA AI Enterpriseを構成する場合、ハードウェア構成は勝手に決めない
2 認定システムカタログについて
3 トゥモロー・ネットがご支援できること
- 3.1 お問合せ先
- 3.2 関連ページ
  - 3.2.1 関連記事
  - 3.2.2 この記事の筆者

NVIDIA AI Enterpriseを構成する場合、ハードウェア構成は勝手に決めない

AIインフラを構築する上で忘れてはならないことは、AIアプリケーションを導入したときにパフォーマンスが発揮できる環境でなければ、処理時間に影響が出てしまうということです。処理性能の高いCPU、メモリ、ディスクを選択することも大切ですが、AIインフラで重要なコンポーネントはGPUです。選択するOSやファームウェアによっては動作しなかったり、動作してもパフォーマンスが遅かったりすることが考えられます。これらのコンポーネントを検証し、パフォーマンスが問題なく発揮できる構成としてハードウェア構成を認定しているのがハードウェアベンダーやNVIDIA社となります。NVIDIA AI Enterpriseはリファレンスアーキテクチャ(※)に準拠していることからハードウェア選定の段階からNVIDIA社のホームページの認定システムカタログ（次章でご紹介）を参照の上で選定する必要があります。

（※）ソリューションを構成するIT製品やITサービスの推奨される構造や統合方法を示すドキュメント、またはドキュメントセットであり、業界で認められたベストプラクティスがまとめられており、一般的には特定のテクノロジーの最適なデリバリ方法が記載されている

ウィキペディア リファレンスアーキテクチャを参照

認定システムカタログについて

前章でリファレンスアーキテクチャの準拠した構成を選択しなければNVIDIA AI Enterprise環境が動作しないもしくは期待したパフォーマンスが出せないことがあり得ることをお話しましたが、ここでは実際にNVIDIAが提供する認定システムカタログについて説明します。

認定システムカタログのURL： https://www.nvidia.com/ja-jp/data-center/data-center-gpus/tesla-qualified-servers-catalog/

認定サーバーカタログの画面

NVIDIA AI Enterpriseに絞った条件設定

上記の認定カタログを閲覧すると、下の方に認定されているサーバーの一覧が表示されます。このままの条件ではNVIDIA社が認定しているサーバーとGPUが全て表示されてしまいますので、ここでNVIDIA AI Enterpriseに絞った条件を以下のように設定します。

ステップ1

カタログ・ワークロード・システムクラス・NVIDIA 認定の種類の各項目について希望の項目を設定します。

ステップ2

NVIDIA AI Enterpriseに関しては、カテゴリにおいては「AIとデータサイエンス」を選定します。

ステップ3

ワークロードについて選定する際には、主に利用する用途としては、「ディープラーニングトレーニング」もしくは「データセンター推論」が多いため、ここでは「データセンター推論」を選定します。

ステップ4

システムクラスについては、高性能のモデルは現状検索結果が少ないところもあり、ここでは「エントリー」を選定します。

ステップ5

最後にNVIDIA認定の種類についての選択項目ですが、NVIDIA AI Enterpriseの項目に関しては、「AIエンタープライズベアメタル」もしくは「AIエンタープライズvSphere」を選定します。

これらの項目を設定すると以下のような結果が表示されます。（検索結果が多くなるため、ここではSupermicroのみの検索結果のみを表示しています）

結果の表示

認定システムカタログを絞りこむと結果が表示されます。結果の表示に関しては、サーバーベンダー/サーバーモデル/NVIDIA GPU/GPU接続/最大GPU搭載枚数/CPUシリーズ/最大CPU搭載個数/検証の種類が表示されます。

こちらの表示されているサーバーモデルに合わせてGPUおよびCPUシリーズを選定することが推奨されます。

検証の種類

検証の種類に関しては、以下の種類に分類されます。

NVIDIA-Certified :NVIDIA社にて認定されている構成　一連のテストに合格済み（GPU/ネットワーク）
Qualified :特定のNVIDIA GPUに対して（ハードウェアベンダーより）認定されている構成
NGC-Ready :コンテナ運用時の高いパフォーマンスが実証された認定サーバーにNVIDIA GPUを搭載したサーバー構成

上記認定内容で、一番望ましいのはNVIDIA-Certifiedとなります。いわずとも知れたことですが、これはNVIDIA社がNVIDIA AI Enterpriseの環境で動作を認定している構成だからです。

それ以外のものについては、サーバーベンダーで構成としてサポートしてはいますがNVIDIA社で検証していないものや、NGC（NVIDIA GPU CLOUD）で認定されているものとなりますので、動作として動く可能性はありますがパフォーマンス面での認定まではしていないものとなります。

NVIDIA AI Enterpriseを導入する際に、これらを満たしていない場合はNVIDIA社からのサポートが受けられない場合がありますので、予めご注意下さい。

トゥモロー・ネットがご支援できること

トゥモロー・ネットではNVIDIA AI Enterpriseの導入サービスをご提供しております。認定サーバーの確認も販売の際にご一緒に確認しておりますので是非お気軽にお問合せください。

お問合せ先

AIインフラ、NVIDIA製品の導入・保守に関するご相談・ご質問・資料請求など各種お問合せはこちら

NVIDIA AI Enterpriseを構築する際に知っておくべきこと ～NVIDIA提供の認定システムカタログの使い方～ 【トゥモロー・ネット テックブログ】