Love. Death. Transformers.
кто модель z image назвал?? modelscope Paper
мне нравится новая китайская мода заставлять clevels тильтовать и оправдыватся перед инвесторами почему у них хуже за х10 денег
папир
папир
😁83🔥3😢2🤔1🗿1
Forwarded from еба́ные идеи для резерча
Отдельные разработчики Яндекса выглядят как бомжи — Шмель
😁90💯13🥴8👍2
Отдельные ресечеры аири пахнут как бомжи после выполнения KPI внедрений Rl — админ
😁79😢8❤🔥5🤔5🥴5🙊1
Low precision training and inference affect both the quality and cost of language models,
but current scaling laws do not account for this. In this work, we devise “precision-aware” scaling laws for both training and inference. We propose that training in lower precision reduces
the model’s effective parameter count, allowing us to predict the additional loss incurred from
training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data,
eventually making additional pretraining data actively harmful. For training, our scaling laws
allow us to predict the loss of a model with different parts in different precisions, and suggest
that training larger models in lower precision may be compute optimal. We unify the scaling
laws for post and pretraining quantization to arrive at a single functional form that predicts
degradation from training and inference in varied precisions. We fit on over 465 pretraining runs
and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
paper
but current scaling laws do not account for this. In this work, we devise “precision-aware” scaling laws for both training and inference. We propose that training in lower precision reduces
the model’s effective parameter count, allowing us to predict the additional loss incurred from
training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data,
eventually making additional pretraining data actively harmful. For training, our scaling laws
allow us to predict the loss of a model with different parts in different precisions, and suggest
that training larger models in lower precision may be compute optimal. We unify the scaling
laws for post and pretraining quantization to arrive at a single functional form that predicts
degradation from training and inference in varied precisions. We fit on over 465 pretraining runs
and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
paper
🥴18😁4👍3🤔3 2🔥1
Влияние ножа в печень на скоры ребатла
Влияние локации автора и ревьювера на результаты ревью
Влияние локации автора и ревьювера на результаты ревью
😁73👍7😢5🥴4❤🔥2🔥2💯2💩1 1
Love. Death. Transformers.
какая клевая картинка
Prompt caching
В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:
https://sankalp.bearblog.dev/how-prompt-caching-works/
В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:
https://sankalp.bearblog.dev/how-prompt-caching-works/
sankalp's blog
How prompt caching works - Paged Attention and Automatic Prefix Caching plus practical tips
A deep dive into prompt caching - practical tips to improve cache hits and how vLLM's paged attention enables KV-cache reuse across requests via automatic prefix-caching
🔥17👍9😐5
Forwarded from Запрети мне псевдолейблить
best_sub.csv
1.3 MB
Дарю всем желающим сабмит для санты, который лучше топ паблика
Только одна просьба: поставьте в название команды [www.tgoop.com/pseudolabeling]
Сейчас саб дает🥉
Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Только одна просьба: поставьте в название команды [www.tgoop.com/pseudolabeling]
Сейчас саб дает
Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Please open Telegram to view this post
VIEW IN TELEGRAM
💊21💩7🌚4👍1
Love. Death. Transformers.
https://habr.com/ru/companies/sberdevices/articles/968904/ ДИПСИК ВСЕ — сбер выкатил гигачат ультра статья доехала, ждем папир (Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи)
а еще выложили ministral но зачем они если есть gpt oss
blog
а еще выложили ministral но зачем они если есть gpt oss
blog
😁36 14🙉3 1
втф а почему компании выпускают мерч в виде курток, но в виде BOLSHIE KURTKI неь
1😁47🤔7😭3💯2
Love. Death. Transformers.
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи) а еще выложили ministral но зачем они…
arcee Trinity mini
ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.
Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ🇺🇸 🦅 токенов и точно будет американский опенсурс снова великим а не эээээээ а зачем оно такое нужно?
Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"
По метрикам ну норм, похуже OSS и qwen3 30bA3
Blog
ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.
Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ
Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"
По метрикам ну норм, похуже OSS и qwen3 30bA3
Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
www.arcee.ai
Arcee AI | Arcee Debuts Trinity Mini, Expanding Its U.S.-Built Model Line
Introducing Trinity Mini, a compact MoE model trained end-to-end in the U.S., offering open weights, strong reasoning, and full control for developers.
😁27🤷♂4 3
This media is not supported in your browser
VIEW IN TELEGRAM
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
👾68 18🥴9🍌5🔥1👏1
Я знаю штук 7 способов измерить mmlu и показать результаты от около рандома до около идеала. А зачем
https://huggingface.co/spaces/OpenEvals/evaluation-guidebook
https://huggingface.co/spaces/OpenEvals/evaluation-guidebook
huggingface.co
Evaluation Guidebook - a Hugging Face Space by OpenEvals
This application displays the evolution of benchmark scores for large language models over time. It shows the top scores achieved by models on various benchmarks and provides insights into the prog...
😁38🔥6 2🤔1
GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.
зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.
Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)
Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
This media is not supported in your browser
VIEW IN TELEGRAM
1🥱34🔥18👍7 5💩3💋3☃1
