テスト方法:2週間 걸쳐Lambda Labsから8x A100 80GBと8x H100 80GBをレンタルしました。同一のサーバーグレードのマシン、同一のネットワーク(800 Gbps InfiniBand)。合計費用:3,847ドル。これは理論的なベンチマークではなく、実際にモデルをトレーニングしたときに发生了什么の記録です。

短い回答(忙しい人のため)

H100は大型トランスフォーマーのトレーニングにおいて2.3〜3.1倍速いです。A100は時間あたり30〜50%安いです。大多数のLLMトレーニング作業では、H100实际上更便宜 because you finish faster. 推論や小さなモデルの場合は、A100仍然是聪明 choice.

私の推奨:7Bパラメータ以上のモデルをトレーニングする場合はH100をレンタルしてください。推論、小さなモデルのファインチューニング、または予算が制約がある場合はA100にとどまってください。

なぜこの比較をやったか

6ヶ月前、13Bパラメータモデルのトレーニング中で、選択がありました:1時間あたり1.20ドルで8x A100を1週間レンタルするか、1時間あたり2.10ドルで8x H100をレンタルするか。H100は週で645ドル高くつくところでした。お金を節約するためにA100を選びました。

大失敗。トレーニングは計画の4日の代わりに11日かかりました。ネットワークの問題、より遅いチェックポイント、そしてただ待つこと。結局、レンタルを2回延長しました。最終請求:A100で2,540ドル。H100をレンタルして4日で完了していたら、1,613ドルだったでしょう。

お金を節約しようとして927ドル失いました。それが guessesする 대신にこれを適切にテスト하기로決めた瞬間でした。

Everyone が引用するSpecs(そして为什么它们不重要)

多分どこかでこのテーブルを見たことがあるでしょう:

Spec A100 H100
FP16 Tensor Core 312 TFLOPS 989 TFLOPS
Memory 40GB or 80GB HBM2e 80GB HBM3
Memory Bandwidth 2,039 GB/s 3,350 GB/s
Transformer Engine No Yes

あります:これらの数字はほとんど无关です。実際のトレーニングは生の計算で制限されません—メモリ带宽、通信オーバーヘッド、パイプライン操作の效率性で制限されます。

H100の3.35 TB/sのメモリ带宽がゲームチェインジャーです。数十億のパラメータをGPUメモリと計算单元の間でシャッフルするとき、その追加の1.3 TB/sは待つ時間を减らし、計算する時間を增やします。しかし、単純なTFLOPS比較ではそれは見えません。

実際のトレーニングベンチマーク

3つの異なるモデルをトレーニングしたときに发生了什么如下:

Test 1: Llama 2 7B ファインチューニング

A100 80GB (8x) 4.2時間/エポック 40.32ドル @ 1.20/h
H100 80GB (8x) 1.8時間/エポック 30.24ドル @ 2.10/h

勝者:H100 — 2.3倍速く、、時間単価が高いにもかかわらずエポックあたり25%安い

私は驚きました。H100は速すぎるだけでなく、作業単価でも安かった。2.3倍の高速化が75%高い時間単価を十分カバーしました。これがTransformer Engine真价価ところです:FP8精度前方パスで、准确性の损失なく大規模な高速化が可能。

Test 2: GPTスタイル13Bモデル(ゼロから)

A100 80GB (8x) 合計11.3日 2,607ドル @ 1.20/h
H100 80GB (8x) 合計3.6日 1,452ドル @ 2.10/h

勝者:H100 — 3.1倍速く、1,155ドル节省(合計コスト44%安い)

これは目を開けるものでした。完全なトレーニングランでは、H100は私に1,100ドル以上节省させてくれました。11日の代わりに3.6日で結果を得られることを言いません。モデルをアーキテクチャで反復している場合、その時間差大きいです—one run on A100の時間内で3つの実験を実行できます。

Test 3: Stable Diffusion XL 推論

A100 80GB 2.1秒/画像 0.0007ドル/画像 @ 1.20/h
H100 80GB 1.4秒/画像 0.0008ドル/画像 @ 2.10/h

勝者:A100 — 1.5倍速いだけで画像あたり14%高い

ここで状況が逆転します。推論では、H100の利点はあまり重要しません。大規模な行列乗算はTransformer Engineの利点を活用していません。メモリ带宽は前方パスだけを実行している時にはあまり重要ではありません。A100在这里是明确的胜者—十分に速く、著しく安い。

誰も話していないHidden Costs

セットアップ時間

H100インスタンスのプロビジョニングには更长的时间我要。A100では「インスタンス開始」から「トレーニング準備完了」まで平均18分かかりました。H100では34分かかりました。頻繁に短いジョブを立ち上げる場合、それは積み重なっていきます。

入手性の头痛

Vast.aiでは、A100はいつでも即座に入手できました。H100?一度3時間待ちました。CoreWeaveでは、H100の入手可能性は较好,但仍不稳定。保証された容量が必要な場合は,提前预订H100のコストを考慮してください。

ソフトウェア互換性

这里有些烦人的事:すべてがまだFP8をサポートしているわけではありません。古いトランスチャー architectureをトレーニングしようとして、H100でFP16にフォールバックしなければならず速度の利点の多くを失いました。A100はすべてのものと 그냥 작동します。最先端のフレームワーク(PyTorch 2.1+、最新のTransformer)を使用している場合、H100は素晴らしいです。古いコードに取りつかれている場合は、利点看不到かもしれません。

いつどちらを選ぶか

H100を選ぶ場合:

  • 7Bパラメータより大きなモデルをトレーニングする場合
  • 急速に反復しており、時間が限界コストより重要な場合
  • PyTorch 2.0+とネイティブFP8サポートを使用している場合
  • 3日間以上トレーニングする場合( 시간이节省累计)
  • 可能な限り最速のトレーニングが必要な場合

A100を選ぶ場合:

  • 推論またはモデル提供を実行する場合
  • 小さなモデル(7B以下)をファインチューニングする場合
  • 予算が主要な制約の場合
  • FP8なしの古いフレームワークでトレーニングする場合
  • 保証された入手可能性が必要な場合
  • 24時間未満のトレーニングジョブ(节省が累计する時間が少ない)

H200はどうですか?

はい、NVIDIAは141GBのメモリを持つH200を発表しました。私の見解は、70B以上のパラメータモデルをトレーニングしていない限り大多数人に関係ありません。H100の80GBはすでに90%のワークロードに十分です。H200はGPT-4規模のモデルをトレーニングする研究ラボ向けであり、Llamaをファインチューニングする人々向けではありません。

それに、H200をレンタルできるところを幸运を見てください。1つだけプロバイダーで見たことがあり、1時間あたり4.50ドルです。それは現在99%のプロジェクトの実用的な選択ではありません。

私の現在のセットアップ

これらのテストの後、これが私が実際に行うことです:

  • 2日以上のトレーニングラン:每次H100。数字が出します。
  • 素早い実験とデバッグ:A100。短いランに安い。
  • 推論エンドポイント:A100。提供により良いprice/performance。
  • 本番トレーニングパイプライン:H100。反復に速度が重要。

私はまた战略的に混合を開始しました最近のプロジェクトでは、初期事前トレーニング(速度が重要なところ)にH100を使用し、その後ファインチューニング(安く複数の実験を実行したかったところ)にA100切换しました。両方の最佳。

結論

H100はトレーニングに関して期待に応える,但不是すべてにおいて単に「より良い”—特定のワークロードにおいてより良いです。マーケティングはAI関連のすべてにH100が必要と考えています違います。しかし、大きなモデルをトレーニングでき、より高い時間単価を忍受できる場合は、時間と多くの場合お金を节省させてくれます。

A100は死んでいません。それは仍然優れたGPUで、より低いコストでほとんどのワークロードを非常にうまく処理します。A100が完璧にジョブを выполнитьときにH100をレンタルするようにFOMOに押されないでください。

最終 verdict:大型モデルの純粋なトレーニング速度と合計コストではH100が勝利します。汎用性、入手可能性、推論ワークロードでは、A100仍然是王です。工作负载を把握し、数字を行い、より新しい всегдаより特定のユースケースにとってより良いとは限らないことをassume하지 마세요.

FAQ