BUILDING_SINGULARITY Telegram 111
H100 девешле A100

Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.

Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)

В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.

А стоит она не в 2.5 раза дороже. Вот и экономия 💸

То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.

Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.

В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле

(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)

@building_singularity
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍96



tgoop.com/building_singularity/111
Create:
Last Update:

H100 девешле A100

Я уже писал про тренд на уменьшение цены инференса LLM. Недавно на работе столкнулся с ещё одним примером этого.

Мы перешли на H100 для инференса, и стали
- тратить меньше $$$ на сервера
- отвечать немного быстрее (10% меньше time per output token и 50% меньше time to first token)

В нашем случае с LLM в fp8 получилось так, что H100 80gb держит в 2.5 раза больше нагрузки, чем A100 40gb.

А стоит она не в 2.5 раза дороже. Вот и экономия 💸

То, что H100 для обучения и инференса LLM кратно выгоднее, чем карты старого поколения - ещё один драйвер цен вниз.

Большая конкуренция на передовом крае между OpenAI, Anthropic, xAI, etc будет их вынуждать покупать (точнее арендовать у Oracle, Azure, AWS, etc), самые новые карты, чтобы обучать LLM быстрее и больше. Но у них уже миллиарды вложены в слегка устаревшую инфраструктуру, которую клауд провайдеры будут готовы сдать подешевле каким нибудь стартапам.

В общем,
- если GPU стоит дороже, это не значит, что инференс вам выйдет дороже
- не стоит брать лонг терм контракты на старые карты, потому что с течением времени они будут заметно дешеветь; если у вас не бесплатные стартап кредиты конечно, которые можно только так потратить. Это кстати наш случай, поэтому частично мы ещё всё таки на A100, который на условном runpod можно сейчас снять дешевле

(перевел статью на английский, чуть добавил контекста и запостил в свой LinkedIn)

@building_singularity

BY Приближаем сингулярность


Share with your friend now:
tgoop.com/building_singularity/111

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. ZDNET RECOMMENDS The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Users are more open to new information on workdays rather than weekends.
from us


Telegram Приближаем сингулярность
FROM American