Telegram Web
Love. Death. Transformers.
кто модель z image назвал?? modelscope Paper
мне нравится новая китайская мода заставлять clevels тильтовать и оправдыватся перед инвесторами почему у них хуже за х10 денег

папир
😁83🔥3😢2🤔1🗿1
Отдельные разработчики Яндекса выглядят как бомжи — Шмель
😁90💯13🥴8👍2
Отдельные ресечеры аири пахнут как бомжи после выполнения KPI внедрений Rl — админ
😁79😢8❤‍🔥5🤔5🥴5🙊1
Low precision training and inference affect both the quality and cost of language models,
but current scaling laws do not account for this. In this work, we devise “precision-aware” scaling laws for both training and inference. We propose that training in lower precision reduces
the model’s effective parameter count, allowing us to predict the additional loss incurred from
training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data,
eventually making additional pretraining data actively harmful. For training, our scaling laws
allow us to predict the loss of a model with different parts in different precisions, and suggest
that training larger models in lower precision may be compute optimal. We unify the scaling
laws for post and pretraining quantization to arrive at a single functional form that predicts
degradation from training and inference in varied precisions. We fit on over 465 pretraining runs
and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
paper
🥴18😁4👍3🤔32🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
54🤓22😁6😍4💊3💩2🤔1
Влияние ножа в печень на скоры ребатла

Влияние локации автора и ревьювера на результаты ревью
😁73👍7😢5🥴4❤‍🔥2🔥2💯2💩11
Посты для младших классов?
Всегда.

https://personal.math.ubc.ca/~PLP/assets/plp.pdf
188🔥5🤓3
Forwarded from Derp Learning
И православная версия
1😇8520💩53👍1🔥1😁1
Love. Death. Transformers.
какая клевая картинка
Prompt caching

В любом нормальном LLM API есть возможность закэшить какой нибудь текст и затем подтянуть по хэшу или как нибудь ещё. Как работает и почему выгодно читайте ниже:

https://sankalp.bearblog.dev/how-prompt-caching-works/
🔥17👍9😐5
107😁7916💊6🥴33😢2💅2❤‍🔥1🔥1💩1
best_sub.csv
1.3 MB
Дарю всем желающим сабмит для санты, который лучше топ паблика
Только одна просьба: поставьте в название команды [www.tgoop.com/pseudolabeling]

Сейчас саб дает 🥉

Заходим по ссылке, принимем правила и жмем submit predictions
https://www.kaggle.com/competitions/santa-2025/submissions
Please open Telegram to view this post
VIEW IN TELEGRAM
💊21💩7🌚4👍1
Love. Death. Transformers.
https://habr.com/ru/companies/sberdevices/articles/968904/ ДИПСИК ВСЕ — сбер выкатил гигачат ультра статья доехала, ждем папир (Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи)

а еще выложили ministral но зачем они если есть gpt oss


blog
😁3614🙉31
канада индийская криптоколония сосать, в этом году god bless america
😁5113🥴5🔥3🍓2🤔1
втф а почему компании выпускают мерч в виде курток, но в виде BOLSHIE KURTKI неь
1😁47🤔7😭3💯2
Love. Death. Transformers.
вот выходит mistral3 large, доступен по ap и как модель , 675bA41b mixtral like, похуже китайского опенсурса. Это фронтир? ну нет. Субфронтир? ну да. Агентность мистраль не проучили(по меньшей мере не репортят бенчи) а еще выложили ministral но зачем они…
arcee Trinity mini

ЕЩЁ ОДИН ДИПСИК А НЕ gpt oss.

Ну ничего через пол года все дружно возьмут архитектуру OSS, прольют много триллионов ПАТРИОТИЧНЫХ 🇺🇸🦅 токенов и точно будет американский опенсурс снова великим а не эээээээ а зачем оно такое нужно?

Типа 26б мое это оч круто для инференса и прода, но для дома... Ну хз, звучит как штука вроде довольно умная, но недостаточно чтобы быть хорошим агентом. В итоге "а зачем?"

По метрикам ну норм, похуже OSS и qwen3 30bA3

Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
😁27🤷‍♂43
This media is not supported in your browser
VIEW IN TELEGRAM
я пожалуй оставлю тут видео с роботом unitree g1 которые в свободной продаже + имеют открытый апи
👾6818🥴9🍌5🔥1👏1
GS AI In a Bubble 2025.pdf
2.4 MB
Goldman Sachs Ai bubble analysis


На небе только и разговоров что о инвестициях. И о хайпе.
Как видимая прибыль тонет в глубине хайповых заявлений о agi.

зарабатывают сотни миллиардов тратят +- столько же или чуть больше меньше.

Большая часть трат направлена на рост/будущее, прямо сейчас штат и карты на инференс работают в небольшой плюс. Ща сунут рекламу и шоппинг агентов и будет вполне сустейнбл рынок из нескольких топов и сотни непонятно кого. Конкурировать с us топ3 прям сейчас уже даже из us почти не возможно (cм grok, perplexity и прочих)

Одна из лаб первой волны(openai, anthropic, Google, meta, mistral) должна сдохнуть и очистить поляну, я поставлю на meta и mistral - челы проебали все маркеты из возможных, делают непонятно что(cделать в отсутствии санкций, при ебейших вилках и таком нетворке аналог гигачата это позор прям)
44🔥12🗿7👍4💯21
realtime

(1sec latency btw)
48😁19🤔73🦄22🔥1
2025/12/05 06:55:31
Back to Top
HTML Embed Code: