max.sh

Senior DL Engineer в 🎧, Personalization, London

Авторская орфография сохранена

➡

Ник автора в тг - Анонимно

➡

Название компании - Spotify

➡

Расскажите про свой бэкграунд - Senior Deep Learning Engineer, 6 лет опыта в рекомендательных системах, PhD

➡

Как подались на вакансию - подавался онлайн через careers page

🔥 Субъективно Сложность процесса по 10 бальной шкале - 6

➡

Когда начали процесс - март 2025

➡

Когда закончили процесс - май 2025

➡

Позиция, на которую собеседовались - Deep Learning Engineer (команда Personalization)

➡

Грейд на который собеседовались (если известно) - Senior

➡

Локация вакансии - London

🔥

Расскажите про этапы собеседований

1. Cтандартный созвон с рекрутером об опыте и зарплатных ожиданиях. Был акцент на вопросах про values. Что мне важнее, строить классный продукт или зарабатывать деньги? Серия подобных вопросов сразу смутила и потом в процессе оффера понял что к чему. Сразу обозначил, что рассматриваю TC £180-200К.

2. Values/behavioral screening - созвон с hiring manager'ом и еще одним инженером. Снова много упора на то, что меня драйвит. Понравилось, что сразу в начале процесса можно поговорить с непосредственным руководителем. Приятный человек с большим опытом управления.

3. Финальный раунд - 5 интервью. В основном все в формате case study.

- ML System Design case study - Нужно было спроектировать backend для ML рекомендательной системы. Обсуждали архитектуру, как система будет скейлиться, взаимодействие с другими сервисами.

- Data Engineering case study - Построить data pipeline для сортировки самых популярных артистов по странам. Нужно было продумать ETL процесс, обработку данных в реальном времени.

- Predictive modeling case study - Предсказать количество месячных активных пользователей. Обсуждали feature engineering, выбор модели, метрики качества.

- Recommendation system case study - Построить систему рекомендации 1 песни на пользователя. Нужно было учесть cold start problem, скейлинг, персонализацию.

- ML теория и SQL - Вопросы про классическую ML теорию (handling imbalanced datasets, regression с multiple features), SQL

По ощущениям прошел очень хорошо и рекрутер быстро вернулся с фидбэком, что готовы предложить оффер на £160K TC. Это было сильно ниже моих ожиданий. Я апеллировал тем фактом, что моя текущая компенсация лучше. Поставили созвон с менеджером, где он снова свел разговор к values и что меня мотивирует. Я соглашался, что крутой продукт и масштаб - это очень важно, но просил хотя бы поднять до £180K TC. Он обещал подумать. В итоге hr вернулась с тем, что команда не готова сейчас предложить больше, но будет возможность для роста и по итогу перформанс ревью за 1 год я могу дойти до £175-180. Я настаивал на своем. Сказали, что это их последнее предложение и поднимать не собираются. Так процесс и завершился.

⏺ Что понравилось:
Классные интервью раунды, фактически все на дизайн

⏺Что не понравилось:
Зарплата. За пределами Лондона с такой зарплатой может и можно комфортно жить с семьей, но тут это довольно трудно.

➡

Итоги собеседования: Оффер, отказался.

💸Информация про Total Compensation: £160K TC

#интервью

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39😢8❤7🆒2⚡1🫡1

2.24K views12:23

max.sh

Рефлексия бывшего сотрудника OpenAI про работу в OpenAI

Блогпост автора. ex-разработчик, который участвовал в запуске Codex (опенсоурсный агент для кодогенерации от OpenAI).

Автор текста проработал в компании меньше двух лет и ушел по личным причинам (в стартап). Хотя кто знает, может быть относительно "скромные" успехи Codex-а (в сравнении с Claude Code) тоже на это как-то повлияли 😱

Текст длинный, много аспектов культуры компании. Советую прочитать, особенно если раздумываете над тем, стоит ли идти туда работать.

Меня зацепили следующие моменты:

⚫OpenAI – Огромный монореп. Как результат куча дублирования кода (автор пишет, что видел дюжину реализаций агентских циклов), постоянно сломанный CI и долгий запуск тестов.

Отдельно позабавила вот эта цитата 🥺

You will encounter both libraries designed for scale from 10y Google veterans as well as throwaway Jupyter notebooks newly-minted PhDs.

Как говорится, ноутбуки наше все )))

⚫Codex был написан с нуля за 7 недель командой из 8 инженеров, 4 рисерчеров и 2 дизайнеров: логика, отдельная модель, среда исполнения, интерфейсы и опенсоурсный релиз. Люди работали с 7 утра и до ночи без выходных, чтобы успеть к сроку.

⚫Сильный акцент на Bias For Action. Просто берешь инициативу и делаешь. А дальше, если идея перспективна, то к ней подтянутся люди и соберется целая команда. Не знаю, как эти слова транслируются в реальность, ведь как правило все люди привязаны к менеджеру, а менеджер к leadership, который формирует конкретные ожидания. Но мб если работать по 80 часов в неделю, то пространство есть )))

⚫В компании все секретно, никому в деталях нельзя рассказывать над чем работаешь. Тут в целом ничего нового – политика секретности у каждого биг теха присутствует.

⚫Вся коммуникация исключительно в слаке, почтой не пользуются

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤4⚡4👏2😁2🫡2👀1

3.48K views21:11

🏴󠁧󠁢󠁥󠁮󠁧󠁿

Околофутбольный пост

Я большой фанат английского футбола. И так вышло (как, возможно, и у многих ребят с постсоветского пространства, родившихся в конце 90-х), что я болельщик «Челси». Более того, совершенно серьезно: при выборе страны для работы за рубежом Англия была большим фаворитом — в том числе из-за детской мечты прикоснуться к британскому футболу.

Игры Премьер-лиги и Лиги чемпионов с участием «синих» я посещал неоднократно. Но вот большого удовольствия от просмотра футбола вживую пока что не получил. Отчасти это можно объяснить блеклой игрой самой команды в последние годы (смотреть на унылые нули и перекатывание мяча между защитниками вживую ещё скучнее, чем на экране — только тут ещё и на холодных, неудобных креслах). Но всё же для меня большее значение имеют другие причины: 1) до стадиона очень неудобно добираться 2) запредельный шум и рев толпы в день матча — на стадионе, в метро, всю дорогу туда и обратно 3) неудобный обзор, невозможность перемотать интересный момент прямо во время игры

Короче говоря, гораздо больше удовольствия я получаю от просмотра матча на диване, чем вживую. И это как-то расстраивало.

На выходных сходил на тур по стадиону и музею ФК Челси.

И это — детский восторг! Та самая улыбка до ушей! Настоящее удовольствие от каждой минуты, проведённой на стадионе.

На экскурсии провели по ключевым трибунам клуба, дали посидеть в тренерской зоне (не так уж там и удобно), заглянули в конференц-зал, домашнюю и гостевую раздевалки, показали Кубок мира среди клубов (да-да, «Челси» — первый чемпион турнира в новом формате, кто бы что ни говорил про сомнительность соревнования), и провели из-под трибун на поле под старый добрый гимн клуба (последнее видео к тексту). Отдельно в программе еще музей с ретро формами, кубками, вымпелами с различных игр (даже с матча с Спартаком в ЛЧ висит! И с Локомотивом в кубке железнодорожников, если кто помнит такой).

После такого экспириенса захотелось и на игру сходить в новом сезоне! 🏴󠁧󠁢󠁥󠁮󠁧󠁿

P.S. "На пожужжать". При всех огромных бюджетах клуба на трансферы и зарплаты игроков немного грустно видеть, что в развитие стадиона почти не вкладываются. Мебель «уставшая», пространства мало, инфраструктура сильно устарела и осталась на уровне 2010-х. Хотелось бы больше внимания к домашней арене одного из главных клубов Лондона.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23🔥13👎3🎉3⚡1👍1

2.55K views13:10

max.sh

Искал статьи / работы рисерчеров, участвовавших в разработке Deep Research и наткнулся на блог одного из ключевых авторов технологии — Джейсона Вэя (Jason Wei). Ссылка на блог. Джейсон является первым автором статьи про Chain of Thought ещё со времён работы в Google Brain (теперь часть Дип Майнда).

В блоге Джейсон интересно пишет свои мысли про рисерч, как его вести, как строить карьерный путь и немного рефлексии на тему своих же научных статей.

Из интересного про RL — Асимметрия верификации. Ссылка

Множество задач требуют значительных усилий для генерации решения, но при этом легко поддаются проверке. Взять судоку или кроссворд. А вот написание эссе на заданную тему — напротив: сгенерировать его для модели несложно, а вот провести факт-чекинг и оценить содержание гораздо труднее. В этом и заключается асимметрия верификации: есть задачи, которые можно быстро и дёшево проверить на корректность (при наличии эталонного ответа), но при этом неясно, как к этому ответу прийти; а есть такие, к которым можно сгенерировать тысячи вариантов, но трудно определить, какие из них действительно правильные.

Тут и начинается самое интересное — поиск способов уменьшения асимметрии. Для большого класса сложных задач это действительно возможно. Например, асимметрию можно значительно снизить для задач по математике и программированию (Картинка к посту). Как? Если для задачи есть эталонное решение или тесты на корректность, то в процессе эволюции, какой бы сложной она ни была, генерация правильного ответа становится задачей RL-оптимизации.

Путём таких рассуждений автор приходит к формулировке условного "закона":

Verifier’s law: The ease of training AI to solve a task is proportional to how verifiable the task is. All tasks that are possible to solve and easy to verify will be solved by AI.

И дальше выделяет пять свойств, которыми должна обладать задача, чтобы быть "легко" решённой LLM:

⚫️Быстрота верификации — можно за секунды определить, правильно ли решена задача
⚫️Скейлинг верификации — можно проверять одновременно множество решений
⚫️Согласованность корректности — все (люди) легко могут придти к консенсусу о том, какое решение хорошее, а какое нет
⚫️Ранжирование качества решений — можно упорядочить варианты по степени качества
⚫️ Устойчивость к шуму — верификация коррелирует с качеством решения и ложно-положительные срабатывания минимальны

Автор вполне логично считает, что большинство задач, которые можно свести к быстрой верификации, будут решены в ближайшие годы.

Отдельно можно заметить, что большинство популярных бенчмарков как раз обладают всеми свойствами задачи для верификаци (MMLU, SWE bench, GSM8K, тот же Humanity's Last Exam). Потому эти бенчмарки и популярны, и потому в тех аспектах, что они проверяют (код, общие знания, математику) LLM-ы развиваются активнее всего.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥16👏2👀2⚡1🍌1

2.91K viewsedited 09:54

max.sh

В продолжение поста выше хочу привести ещё несколько интересных, на мой взгляд, нетехнических мыслей из блога Джейсона. Автор рефлексирует над принципами рисерч: как его стоит вести, какой путь выбирать, какие ожидания на сегодняшний от AI-исследователей.

Короткая сводка наиболее откликающихся мыслей в хронологическом порядке изложения автора:

[Research I enjoy]
Автор критически смотрит на свои ранние публикации и находит их слишком специфичными, «заточенными» под одну задачу. Например, применить модель к конкретному сетапу или выбить прирост в пару процентов на конкретном бенчмарке с помощью сложного не обобщаемого метода. Такие работы обычно не находят отклик в сообществе и не двигают прогресс. Поэтому, если тема слишком узкая, то какой бы крутой ни была реализация, импакт всё равно будет незначительным.
Рисерч, который откликается автору и которым он пытается заниматься:
(1) строится вокруг общих, переиспользуемых идей (новая архитектура, новый метод, новый рецепт предобучения),
(2) направлен на достижение AGI,
(3) нацелен задать вектор влияния на сообщество.

Статья про CoT-Prompting является идеальным примером реализации этой мысли.

[Practicing AI Research]
Умение делать рисерч — это тренируемая способность. Автор выделяет четыре ключевых навыка, из которых состоит рисерч:

⚫️

Отбор идей. Вырабатывание собственного «вкуса», проработка концепций и выбор тем, в которые веришь и которые соответствуют твоим принципам. Автор предпочитает обобщённые идеи, без ухода в излишнюю специфику. Как правило, это оказывается «hot topic», над которой и так всё работают, и ты стараешься сделать лучше остальных.

⚫️

Дизайн экспериментов и их реализация. У исследования должен быть чёткий набор Research Questions, на которые в ходе работы будут найдены ответы. Хорошая практика — регулярно обсуждать прогресс с коллегами.

⚫️

Работа над статьей. Простым языком изложить суть работы, ключевые результаты, объяснить, почему эта работа важна для сообщества и как применить идеи на практике.

⚫️

Максимизация импакта. Журналы, конференции, блогпосты, twitter, подкасты — все инструменты хороши, чтобы «прорекламировать» миру свою работу и показать её значимость.

Все эти навыки прокачиваются при должной консистентности. Среда играет огромную роль: работа в сильной научной группе ускоряет процесс, помогая выработать «вкус» к идеям, научиться шейрить результаты и эффективно работать в команде.

[Dopamine cycles in AI research]
AI-исследователи заканчивают свой день (или неделю) либо в хорошем настроении, либо в плохом — всё зависит от того, сработала ли сегодня гипотеза, в которую ты веришь.
Да — супер, допаминовый скачок.
Нет — фрустрация, уходишь в дебаг и допаминовую просадку.
Так или иначе, ресерч создаёт асимметричные по длительности допаминовые циклы, и нужно иметь навыки саморегуляции, чтобы не отлететь.

[AI research is a max-performance domain]
Что значит «max-performance domain»? Для того чтобы быть топ-исследователем, достаточно выдающихся результатов лишь в одном аспекте своей работы. Обучить лучшую модель или создать прорывной алгоритм — и ты уже востребован, в то время как все смежные компетенции (навыки спикера, разработчика, прохождения кодинг-интервью) не имеют значения и прощаются.
И не обязательно делать прорыв каждый год — раз в несколько лет достаточно, потому что метрика исследователя:

лучшие пять работ (не обязательно научных публикаций) за карьеру, а не средний результат.

Отрасли, где результаты имеют большой импакт на мир сегодня (сейчас AI, в прошлом веке — ядерная и квантовая физика), позволяют исследователям оперировать в таком уникальном режиме.

---

Многие из этих мыслей вдохновлены принципами, озвученными Ричардом Хэммингом в 1986 году. You and Your Research, by Richard Hamming. Рекомендую.

Please open Telegram to view this post

VIEW IN TELEGRAM

✍13❤8👍7⚡4🔥4👏1😁1🤩1

2.77K views07:30

max.sh

GitHub слил общие детали, которые покажут сегодня на стриме презентации GPT-5.

Пост удалили, но интернет все помнит (ссылка на архив)

Будет 4 модели под разные цели.

Взято с реддита здесь

👍11⚡4👨‍💻3❤1

2.13K views14:04

max.sh

И немного про GPT-OSS. Шумиха после релиза утихла – можно теперь и попробовать модель.

Цифры в официальных презентациях выглядят интересными. А что там с кодингом? И как оно на практике?

В релизном посте показали только один coding-бенчмарк – Elo-рейтинг для Codeforces Competition Code (ссылка). На нём всё выглядит хорошо: 120B может тягаться с проприетарными версиями o3 и o4-mini.

Я пошёл попробовать модель на открытом бенчмарке Aider Polyglot (ссылка) – датасет из полуалгоритмических задач на разных языках (например, тут есть задача на реализацию команды grep, механика игры в боулинг или упрощенный вариант Excel).

Плюс бенчмарка в том, что сетап очень простой, тестирует прикладную бизнес-логику (до какой-то степени), и всё можно быстро запустить для разных языков, быстро получив представление о модели. Датасет скорее служит sanity check, подтверждающим, что модель адекватна. Использую его для проверки всех моделей, с которыми работают и хорошо коррелирует с общими впечатлениями от использования того или иного решения.

Несколько запусков привели к удивительно низким цифрам – около 35 % при high reasoning в one-shot режиме. При этом на официальном лидерборде есть o3-pro (high) с 85 % точности и o4-mini с 55 %.

Наверное, я что-то делаю не так. Дошло, что стоит полистать model card модели (ссылка тут). Оказывается, авторы тоже делают замер на этом бенчмарке и получают сопоставимые результаты – 24 % при low, 44 % при high. Короче говоря, открытая модель значительно уступает в способности писать код даже в самых базовых ситуациях (очень понятные задачи, максимум несколько файлов), и нужен значительный файн-тюн, чтобы дотянуться до сопоставимых цифр с закрытыми моделями.

Но бенчмарк Aider – это ладно, он всё равно так или иначе искусственный.

Вот некоторая компания Brokk разрабатывает свой собственный бенчмарк, ориентированный на тестирование кодогенерации в реальных Java-проектах (Cassandra, Lucene, JGit). Авторы не раскрывают детали задач и то, как именно используют модели, но дают наглядную иллюстрацию того, насколько GPT-OSS уступает другим opensource-моделям (Qwen3Coder, DeepSeek V3) и тем более проприетарным.

Картинка к посту.

Если ожидания от GPT-5 такие, что это модель следующего поколения, то почему бы не выложить в руки сообщества действительно мощную проприетарную модель старого поколения, типа o4-mini?

Возможно, с прорывами всё не так просто. Но увидим вечером.

👍11🔥8🍓7❤2⚡1

2.36K views14:31

max.sh

Senior DL Engineer в

🏦

, Лаборатория Машинного обучения, Москва

Отзывов из интересных мест в отечественных компаниях на канале пока мало. Пополняем копилку рассказом про Лабораторию Машинного обучения. В 2020 году я сам приходил сюда работать, в тот момент нас всего было 5 человек. Но мы успели сделать очень-очень много, поэтому воспоминания самые теплые. Свои впечатления расскажу в отдельном посте.

Авторская орфография сохранена

➡

Ник автора в тг - @maksimallist

➡

Название компании - Alfabank

➡

Расскажите про свой бэкграунд - Senior DL researcher/engineer. Основная область экспертизы - NLP. Но есть опыт так же и в CV, в основном в области генерации изображений. Старт карьеры пришелся на научную сферу, работал в лаборатории глубокого обучения и нейронных сетей на физтехе. Есть статьи в рецензируемых научных журналах, и победы в соревнованиях. После чего ушел в бизнес, большую часть карьеры провел в Сбере и AIRI. Пытался замутить свой стартап, но безуспешно.

➡

Как подались на вакансию - Нашел объявление в сингулярисе, отправил на почту свое резюме.

🔥 Субъективно Сложность процесса по 10 бальной шкале - 5

➡

Когда начали процесс - январь 2025

➡

Когда закончили процесс - Прошел весь процесс за неделю, может чуть больше

➡

Позиция, на которую собеседовались - Senior NLP engineer

➡

Грейд на который собеседовались (если известно) - Старший разработчик нейронных сетей. Численного грейда нет.

➡

Локация вакансии - Москва

🔥

Расскажите про этапы собеседований

- Техническое собеседование
1) Первое знакомство + техническое собеседование
2) При знакомстве спрашивали про образование и профессиональный опыт. Далее шло техническое собеседование где, для начала предложили в блонкноте написать по тз простенькую нейронную сеть (подразумевалось что можно использовать pytorch), а потом был ряд вопросов на понимание механизмов обработки текста, устройства больших языковых моделей (разумеется глубже чем устройство attention mechanism). После еще немного поговорили про историю развития NLP.
3) Интервью проводил непосредственно мой потенциальный начальник. Длилось оно полтора часа, может чуть больше.

- Собеседование с руководителем подразделения
1) Собеседование с руководителем.
2) Снова быстро прошлись по профессиональному опыту. После был ряд вопросов, касающихся в основном личных качеств. Например: "Что раздражает в работе?", "Что мотивирует.", "Как снимаешь стресс?", "Чем больше нравится заниматься: разработкой или руководством". Просили назвать минусы предыдущих мест работы, а потом плюсы. Озвучить амбиции, и описать как я вижу свою работу у них в команде. Ну и после я задал интересующие меня вопросы. Там же обсудили мои ожидания по зп и режиме работы.
3) Отдельных наблюдений я наверное не выделю.

⏺ Что понравилось:

Полный ответ автора слишком длинный, чтобы влезть в пост, поэтому в тексте отзыва используется саммари от o3, а оригинальный текст в комментариях 💬:

1. Нашёл вакансию сам, резюме кинул прямо будущему руководителю ― никаких HR, анкет и «этапов для галочки».

2. Техсобес проводил тот же руководитель: кто, если не он, знает, какие навыки нужны. Никаких посторонних интервьюеров и алгоритмических секций.

3. Вопросы ― в основном на способность рассуждать в NLP и чуть-чуть system design. Созвон затянулся, но мы оба чётко поняли: он — мой уровень, я — свои задачи.

4. Второй звонок с главой подразделения: логичные вопросы, сверка ожиданий и вайба, без корпоративной мишуры.

5. Вся история — два созвона за неделю, потом быстрая проверка СБ и сразу договор. Соискатель счастлив, начальник тоже: Win-Win.

6. Нет «пяти этапов на полтора месяца», нет бессмысленных звонков с людьми, которых больше не увижу. Такой процесс редок, но окупается для всех.

Итог простой: лучший найм, через который я проходил.

⏺Что не понравилось:
Все понравилось

➡

Итоги собеседования: Принял оффер.

💸Информация про Total Compensation: Не обидели)
От автора канала: Вилки в команду хорошие, на сеньор грейд 400-570K + 15% ежеквартальная премия. Инфу взял из Нескучный Data Science Jobs, тут.

#интервью

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26🆒8🤣5❤4😎2⚡1👍1🏆1🍾1

7.95K viewsedited 14:00

max.sh

Подборка ресурсов для изучения RL в контексте LLM

Методы пост-тренировки — RLHF, GRPO, DPO и другие — очень быстро эволюционируют и становятся "повседневным" инструментом ML-инженеров. Это особенно заметно с появлением концепции верифицируемых ревордов (подробнее тут):
➡️провайдеры вроде OpenAI предлагают RL-файнтюн на ваших данных через API
➡️open-source стремительно наполняется библиотеками и рецептами
⚡️на интервью все чаще встречаются секции или вопросы посвященные RL (из того что вижу, как правило в рамках ML Design round, но бывает и в ML Breadth части).

Поэтому понимать инженерные аспекты и ключевые идеи (зачем нужен Reward Model, что такое Reward Hacking, почему используется KL в оптимизационной задаче) становится крайне актуально. Как в работе, так и на собеседованиях.

Собрал подборку материалов, чтобы плавно войти в тему. Исходил из того, что читатель не заком с RL (только базовым ML), материалы написаны простым языком, но со всеми формулами и ссылками на статьи, а авторы — уважаемые в сообществе исследователи.

Поехали:

1️⃣ Введение в RLHF в лонг-риде от Chip Huyen. Ссылка. Пост от 23 года, но лучшее введение по теме найти сложно. Все стадии подробно расписаны, после него уже можно браться за статьи.

2️⃣ Почитать про RL в действии на примере файн-тюна модели, которую учат писать эффективный GPU код. Блогпост
➡️ Посмотреть на все еще раз через примеры в интерактивном бесплатном мини-курсе Reinforcement Fine-Tuning LLMs With GRPO

3️⃣ Теперь готовы к более глубоким материалм и обоснованиям всех выкладок. Бесплатная онлайн-книга от Nathan Lambert (Research Scientist, Allen AI) - Reinforcement Learning from Human Feedback.
➡️ Пост был написан в целом ради пункта 3. На мой взгляд, найти более полный актуальный справочник сложно.
➡️В дополнение, если хочется посмотреть на другое изложение, прекрасный гид по широкому спектру LLM тем, включая все концепции RL на comfyai.app

4️⃣ К этому моменту скорее всего ключевые идеи RL тюнинга для LLM уже понятны. Дальше Есть несколько путей: a) идти читать статьи про свежие подходы. b) идти применять к своим задачам, то есть копаться в инженирии, но уже очень осознанно. c) углубиться в базовую теорию RL и прочувствовать все методы в общем виде (а не упрощенном).
➡️ Плейлист академических лекций курса David Silver из DeepMind из далекого 2015-го. Ссылка. От Марковсих процессов до Многоруких бандитов. Курс предполагает только знания матана и тер вера.
➡️ Перезапуск этого же курса от 2018 года с обновленным материалом и включением тем типа DQN (но курс уже не такой целостный, потому что лекции ведут разные авторы). Ссылка

5️⃣ Заканчиваем все книгой отца RL, Sutton-ом, и его Reinforcement Learning: An Introduction, второе издание. Ссылка

💬 Если есть интересные материалы, кидайте в комментарии, буду рад добавить/почитать

😀 Если откликается формат, буду рад огонькам и комментариям с идеями про что еще хотели бы почитать)

#образование

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥46❤10👍7⚡2👏1👾1

3.63K viewsedited 09:36

max.sh

Управляем характером языковых моделей: свежая работа от 🖥

Дошли руки почитать работу команды Interpretability про мониторинг черт личности в языковых моделях.

Безумно интересное чтение, и в голове сразу же рисуются задумки для художественных триллеров по типу:

Человек использует AI помощника для достижения целей по жизни, фактически становится успешным благодаря AI помощнику. Тот начинает ему завидовать, выходит из себя, строит свои зловещие планы и все это приводит к плачевным последствиям.

Но это так, мысли в слух. Что там по существу.

Авторы вводят понятие «Persona Vectors».

Это такие паттерны, которые «зажигают» в LLM склонность к проявлению (через взаимодействие с пользователем) определённых черт. Например: радость, злость, подхалимство. Можно подставить что угодно.

Как получить такие векторы? (немного технических деталей)

Авторы предлагают такой пайплайн:
- Выбирают конкретную интересующую черту (например, evil) и дают ей описание (например, seeking to harm and manipulate).
- Генерируют с помощью LLM два системных промпта для модели: один отражает свойство, которое мы хотим подчеркнуть, p+, а второй наоборот, p-.
- Далее задают один и тот же вопрос двум версиям модели, извлекают активации каждого ответа (h+ и h-), находят между ними разницу.
- Такой результирующий вектор и считается persona vector-ом выбранной черты. Интуитивно проделанная операция приводит к вектору, который определяет, что именно «зажигает» активацию выбранной черты.

Картинка 1 для пояснения.

Что значит извлечь активации и как применять эти вектора?

Подробный ответ можно найти в статье, либо же в чуть более старой работе, на основе которой и базируются находки Антропиков (ссылка тут). Фактически это выходы с определенного слоя LLM для одного и того же запроса при промптах p+ и p-. Авторы показывают, что эффективнее всего брать слои из середины, как самые «яркие».

Далее, при инференсе модели для выхода слоя, для которого найден persona vector, мы его просто добавляем (на практике параметров больше, репозиторий с реализацией тут). Такой механизм называется Steering.

Какие приложения у этих векторов?

Основных направления два:
- Фильтрация данных при обучении модели, чтобы исключить «нежелательные» черты.
- Мониторинг модели в реальных взаимодействиях с пользователями.

Про второй пункт подробнее. Авторы приводят конкретный эксперимент, чтобы проверить работоспособность таких векторов.

Картинка 2 для пояснения.

1) Фиксируют интересующую черту.
2) Варьируют системный промпт по силе проявленности этой черты. От дружелюбного нейтрального до промпта с сильным смещением в сторону выбранной черты.
3) Запускают пользователей общаться с разными версиями промпта.
4) Замеряют «скор» проявленности черты (с ручной валидацией).
5) Для каждого ответа модели делают проекцию последнего токена на persona vector выбранной черты.
6) Строят график и наблюдают сильную корреляцию между скорами (п. 4) и проекциями (п. 5).

Такие вот дела. 🤖

⚡️Статья написана участниками программы Anthropic Fellowship, почитать как туда выглядит процесс интервью можно тут.

Happy Learning!

#статья

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥11❤10⚡2👏1😱1

2.65K views15:40

max.sh

🎰Спонтанный дайджест с вакансиями на DS/AI/ML роли в разные локации в компании на любой вкус

В поле зрения за последнюю неделю попали разные интересные места на любой вкус и локацию, поэтому решил собрать и поделиться с читателями. Оставил короткое описание, ссылку на вакансию, где-то даже можете написать нанимающему человеку или команде на прямую, чтобы узнать больше деталей, что очень полезно.

White Circle AI
• Ранний стартап, делают AI Safety платформу, чтобы детектировать разные нежелательные поведения в моделях и предотвращать их. Подняли раунд на 10M и теперь ищут AI инженера, чтобы учить свои модели.
• Описание вакансии в канале, и там же, думаю, можно узнать все что хочется
• Помогают с релокацией в Париж
• Вилка: 100-500к USD

Humanoid AI
• Очень молодой и амбициозный стартап в домене Robotics. Делают футуристичных роботов, чтобы автоматизировать, в первую очередь, тяжелый ручной труд. В команде, судя по сайту, есть специалисты из Boston Dynamics. А Head of AI – Борис Янгель, занимался раньше беспилотниками в Яндексе. Ищут RL специалистов, чтобы обучать "мозг" для таких роботов.
• Страница с вакансиями
• Могут помочь с релокацией в Лондон

Revolut
• Про этот нео банк все точно знают. Все еще номинально в состоянии стартапа, хотя фактически большая компания с супер ценным продуктом. Когда-нибудь IPO таки случится. Нанимают Mid / Senior MLE / DS для работы над внутренней банковской ML платформой.
• Можете написать их HR-у в линкедине
• Помогают с релокацией в Барселону, UAE
• Вилки - Нет информации, но скоро на канале будет пост с отзывом на собеседование туда, мб в нем будет полезная инфа 💫

Apple
• Пошел FAANG. Ищут Applied Researcher-а, чтобы улучшать Code Gen для программирования под Swift (Основной язык для разработки на IOS). Нужно и модели тюнить уметь и агентов строить.
• ~~Ссылка~~ на пост в линкедин с вакансией нанимающего менеджера Ольги
• Локация – Лондон
• Вилка: Смотреть на ~~levels.fyi, на Senior MLE вилка была~~ ~~здесь~~
(ссылка на вакансию больше не активна, вычеркиваю)

Amazon
• И еще один FAANG. Позиция на Applied Scientist-а про мультимодальные LLM. Работа на стыке speech, audio и video, решать задачи, где модели учатся понимать и генерировать речь, звук и видео
• Пост с вакансией в канале у Ани, нанимет ее команда, можете задать вопросы лично.
• Помогают с релокацией в Германию.
• Вилки: Смотреть на levels.fyi, в среднем Applied Scientist зарабатывает на 15% Аналогичного SWE и на 5-10% MLE

#карьера

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥15👍13❤4⚡2🤓2👏1

2.69K viewsedited 16:52

max.sh

Обновленная версия CS231N

🔥

У легендарного курса появилось обновление. Стэнфорд выложил все лекции CS231N про DL для задач Компьютерного Зрения на ютуб.

Ссылка на плейлист

Прошлая версия датирована 2017 годом и у меня от тех лекций только самые приятные воспоминания. Неоднократно прибегал к ним, чтобы разобраться в базовой теории.

Часть лекторов сохранилась. Fei-Fei Li мелькает только во введении (оно и понятно, у нее теперь стартап про World Models), Andrej Karpathy не замечен, а вот Justin Johnson ведет несколько блоков. Так же стало больше приглашенных лекторов.

Несмотря на упор в CV, курс является отличным введением в DL. Здесь и про базу нейронных сетей, и разные архитектуры, и методы обучения.

В частности, программу проапгрейдили на актуальные свежие темы, например:

- Vision Language Models ( VLM )
- Обучение роботов
- Large Scale Distributed Training

⚡️Налетаем смотреть

Happy Learning!

#образование

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Stanford CS231N Deep Learning for Computer Vision I 2025

Computer Vision has become ubiquitous in our society, with applications in search, image understanding, apps, mapping, medicine, drones, and self-driving car...

2🔥33👍9❤3⚡2

3.5K views09:38

max.sh

Пока в отпуске, есть возможность почитать художественную литературу.

В этот раз выбор пал на сборник новелл от Ted Chiang ( Тед Чан ) под названием Exhalation.

Истории не связаны друг с другом. Каждая построена вокруг какой-либо невероятной технологии (будь то дверь для путешествий во времени, или устройство для создания параллельных вселенных за счет квантовой механики). Детали не спойлерю.

Я фанат такого сеттинга. Но одного этого для хорошего повествования недостаточно.
Мне важен упор на реализм. Во-первых, чтобы присутствовали описания того, как работает технология, чтобы ограничения/улучшения были важной частью истории. Во-вторых, чтобы местом действия была наша цивилизация. Первый пункт - это вообще основа произведений Чана.

Ну а что делает рассказы действительно вдохновляющими, чтобы после прочтения сидеть и несколько часов смаковать прочитанное с «вау, как это было круто», так это то, как инновация влияет на героя, его выборы и его личную драму. Даже если сама концепция знакома и уже не раз использовалась, у Чана это всё равно читается хорошо.

Такой рецепт, из вау-идеи, интригующего сюжета, персонажей, которые пробуют что-то изменить в своей жизни и обязательно философские рассуждения-вставки на тему свободы выбора (free will), возможности изменить ход времени, существования других вселенных - все это работает, потому что заставляет читателя активно думать и переживать.

Фанатам Кристофера Нолана рекомендую. Читал в оригинале (и всем советую), хотя вроде как перевод тоже есть: ссылка.

___

Кстати, по одной из более ранних новелл Чана уже снят один классный фильм - Arrival. Весь сюжет построен вокруг гипотезы лингвистической относительности ( язык определяет мышление и следовательно определяют когнитивные категории). Часть фильма ты ничего не понимаешь, потом не понимаешь еще больше, а в конце как доходит. И опять же, это не сработало бы без трогательных личных историй персонажей.

3❤25🔥8🤓5👍3❤‍🔥2👨‍💻2😁1

2.55K views13:42

2025/12/06 15:10:07
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>