Как я тестировал: Я арендовал инстансы 8x A100 80GB и 8x H100 80GB у Lambda Labs в течение 2 недель. Одинаковые серверные машины, одинаковая сеть (800 Gbps InfiniBand). Общая стоимость: $3,847. Это не теоретический бенчмарк — это то, что произошло при реальном обучении моделей.
Короткий ответ (для нетерпеливых)
H100 в 2.3-3.1 раза быстрее для обучения больших трансформеров. A100 стоит на 30-50% дешевле в час. Для большинства задач обучения LLM H100 фактически обходится дешевле, потому что вы быстрее завершаете работу. Для инференса или небольших моделей A100 по-прежнему разумный выбор.
Почему я сделал это сравнение
Полгода назад я обучал модель на 13B параметров и столкнулся с выбором: арендовать 8x A100 за $1.20/час каждую на неделю или 8x H100 за $2.10/час каждую. H100 обошлись бы мне на $645 дороже за неделю. Я выбрал A100 чтобы сэкономить.
Большая ошибка. Обучение заняло 11 дней вместо запланированных 4. Сетевые проблемы, медленное чекпоинтирование и просто... ожидание. В итоге я продлевал аренду дважды. Итоговый счёт: $2,540 за A100. Если бы я арендовал H100 и закончил за 4 дня, это стоило бы $1,613.
Я потерял $927 пытаясь сэкономить. Тогда я решил провестиproper test вместо того чтобы гадать.
Характеристики, которые все цитируют (и почему они не важны)
Вы вероятно видели эту таблицу где-то:
| Характеристика | A100 | H100 |
|---|---|---|
| FP16 Tensor Core | 312 TFLOPS | 989 TFLOPS |
| Память | 40GB или 80GB HBM2e | 80GB HBM3 |
| Пропускная способность памяти | 2,039 GB/s | 3,350 GB/s |
| Transformer Engine | Нет | Да |
Вот что: эти цифры в основном не имеют значения. Реальное обучение не ограничено сырой производительностью — оно ограничено пропускной способностью памяти, коммуникационными накладными расходами и эффективностью конвейерных операций.
Пропускная способность памяти H100 3.35 TB/s — вот что меняет правила игры. Когда вы перемещаете миллиарды параметров между памятью GPU и вычислительными блоками, эти дополнительные 1.3 TB/s означают меньше времени ожидания и больше времени вычислений. Но вы не увидите этого в простом сравнении TFLOPS.
Реальные бенчмарки обучения
Вот что произошло при обучении трёх разных моделей:
Тест 1: Fine-tuning Llama 2 7B
Победитель: H100 — в 2.3 раза быстрее и на 25% дешевле за эпоху несмотря на более высокую почасовую ставку
Это меня удивило. H100 был не только быстрее — он был дешевле за единицу работы. Ускорение в 2.3 раза более чем компенсировало 75% более высокую почасовую ставку. Вот где Transformer Engine действительно сияет: FP8 точность для прямого прохода даёт огромное ускорение без значимой потери точности.
Тест 2: Модель GPT-стиля 13B (с нуля)
Победитель: H100 — в 3.1 раза быстрее, сэкономлено $1,155 (44% экономии общей стоимости)
Это было откровением. Для полного цикла обучения H100 сэкономил мне более $1100. Не говоря уже о получении результатов за 3.6 дня вместо 11. Когда вы итеративно улучшаете архитектуру модели, эта разница во времени огромна — вы можете запустить три эксперимента за время одного на A100.
Тест 3: Инференс Stable Diffusion XL
Победитель: A100 — только в 1.5 раза быстрее, но на 14% дороже за изображение
Вот где всё меняется. Для инференса преимущества H100 не так важны. Вы не делаете те massive матричные умножения, которые выигрывают от Transformer Engine. Пропускная способность памяти менее важна когда вы просто выполняете прямые проходы. A100 здесь явный победитель — достаточно быстрый и значительно дешевле.
Скрытые затраты о которых никто не говорит
Время настройки
Инстансы H100 требуют больше времени на provision. В среднем 18 минут от "запустить инстанс" до "готов к обучению" на A100. На H100 — 34 минуты. Если вы часто запускаете короткие задачи, это накапливается.
Проблемы с доступностью
На Vast.ai я мог получить A100 мгновенно, в любое время суток. H100? Однажды я ждал 3 часа. На CoreWeave доступность H100 была лучше, но всё ещё нестабильной. Если нужна гарантированная ёмкость — учтите стоимость резервирования H100 заранее.
Совместимость ПО
Вот раздражающее: не всё ещё поддерживает FP8. Я попробовал обучать более старую архитектуру трансформера и пришлось откатиться до FP16 на H100, потеяв большую часть преимущества в скорости. A100 просто работает со всем. Если вы используете современные фреймворки (PyTorch 2.1+, последний Transformers) — H100 отличен. Если застряли на старом коде — можете не увидеть преимуществ.
Когда что выбирать
Выбирайте H100 если:
- Обучаете модели более 7B параметров
- Быстро итерируете и время важнее небольшой экономии
- Используете PyTorch 2.0+ с нативной поддержкой FP8
- Обучение длится более 3 дней (экономия времени накапливается)
- Вам нужна абсолютно максимальная скорость обучения
Выбирайте A100 если:
- Запускаете инференс или обслуживаете модели
- Дообучаете небольшие модели (до 7B)
- Бюджет — ваше главное ограничение
- Обучаетесь на старых фреймворках без поддержки FP8
- Вам нужна гарантированная доступность
- Задачи обучения менее 24 часов (меньше времени для накопления экономии)
А как насчёт H200?
Да, NVIDIA анонсировала H200 с 141GB памяти. Вот моё мнение: если вы не обучаете модели более 70B параметров — это не будет иметь значения для большинства. 80GB H100 уже достаточно для 90% задач. H200 — для исследовательских лабораторий, обучающих модели масштаба GPT-4, а не для тех, кто дообучает Llama.
Также, удачи найти H200 для аренды. Я видел только одного провайдера с ними, по $4.50/час. Это не практичный выбор для 99% проектов прямо сейчас.
Моя текущая настройка
После всех этих тестов вот что я фактически делаю сейчас:
- Запуски обучения более 2 дней: всегда H100. Математика просто работает.
- Быстрые эксперименты и отладка: A100. Дешевле для коротких прогонов.
- Инференс-эндпоинты: A100. Лучшее соотношение цены и производительности для обслуживания.
- Продакшн-пайплайны обучения: H100. Скорость важна для итераций.
Я также начал их стратегически смешивать. Для недавнего проекта я использовал H100 для начального предобучения (где важна скорость), затем переключился на A100 для дообучения (где хотел запускать много экспериментов дешево). Лучшее из обоих миров.
Итог
H100 оправдывает хайп для обучения, но не для всего. Он не просто "лучше" — он лучше для конкретных задач. Маркетинг хочет, чтобы вы думали, что H100 нужен для всего связанного с ИИ. Это не так. Но если вы обучаете большие модели и можете потянуть более высокую почасовую ставку — это сэкономит вам время и часто деньги.
A100 не мёртв. Это по-прежнему феноменальный GPU, который отлично справляется с большинством задач за меньшие деньги. Не дайте FOMO заставить вас арендовать H100, когда A100 справятся идеально.
FAQ
Найдите лучшие цены на GPU прямо сейчас
Сравните живые цены на H100 и A100 у 50+ облачных провайдеров
Сравнить цены на GPU →