Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
👀 Заглянем на внутреннюю кухню программного комитета infra.conf’25

Привет, меня зовут Николай Пирогов, я руковожу Deploy Platform в Yandex Infrastructure. Моя команда развивает внутреннее облако, в котором живут все сервисы Яндекса: Поиск, Такси, Музыка и другие.

👷 А ещё с прошлого года я член программного комитета infra.conf. Это конференция, посвящённая созданию и эксплуатации высоконагруженных систем и инфраструктуры. В карточках я рассказываю, как устроен наш программный комитет и каких докладов ждать в этот раз.

🔳 Зарегистрироваться на infra.conf’25 можно здесь

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔗 Покажем, как нейросети делают историю ближе, что нового появилось в Алисе и что умеет наш копайлот для техподдержки — в свежем ML-дайджесте

🚙 Куда сходить

⚪️ До 18 мая — студкепм от Яндекса. Приглашаем студентов на бесплатный интенсив в Новосибирском государственном университете с 14 по 26 июля. Вас ждут две недели теории и практики по ML и DL

⚪️ 20 мая — Yandex ICLR Recap. Проводим рекап главной конференции по обучению представлений. Обсудим последние тренды в tabular DL, NLP, CV и ML Engineering & Search

⚪️ 24 мая — «Я Железо». Регистрируйтесь на мероприятие про автономный транспорт и роботов. В программе треки Hardware и Software, а ещё крутое экспо

⚪️ 25 мая — Data Fest в гостях у Яндекса. Приходите слушать доклады про ML и гулять по нашим офисам в Москве или Белграде. Не забудьте зарегистрироваться!

⚪️ До 9 июня ищем спикеров на Practical ML Conf. Это конференция, посвящённая технологиям, которые уже сегодня приносят пользу бизнесу. Ждём доклады о CV, NLP, Speech, RecSys, MLOps и Data Science

🌎 Что случилось

⚪️ Рассказали про апрельские обновления Алисы и Умных устройств, среди них: быстрые команды, обращение к голосовому помощнику без имени и новые гаджеты

⚪️ Мы сделали поиск по советским газетам времён Великой Отечественной войны. Теперь можно искать по тексту более чем 200 тысяч страниц изданий, ранее недоступных в интернете

📖 Что почитать

⚪️ Как Яндекс Браузер научился переводить видео и сохранять тембр и интонацию спикера, будто он изначально говорил на русском

⚪️ Мы запустили Yandex Neurosupport — копайлот, который за 1–2 секунды предлагает специалистам контакт-центров ответы на запросы пользователей

⚪️ Рассказали в карточках, как общаться с нейросетями, чтобы все друг друга поняли. Готовые промпты можно взять в наших библиотеках для YandexGPT и YandexART, а ещё заглянуть в гайд по промптингу GPT от Яндекс Образования

⚪️ Собрали список источников знаний для джунов в ML. Книги, учебники, мини-курсы, статьи и сайты с полезной информацией. Скиньте ссылку знакомым студентам и стажёрам!

⚪️ Мы применили подход LLM-as-a-judge в генераторе описаний пул-реквестов. Подробности, подводные камни и результаты эксперимента ищите в статье на Хабре

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
↔️ Ускорение COCO-валидации и бенчмарк для русскоязычных VLM: победители программы грантов от Yandex Open Source

Подводим итоги программы поддержки независимых разработчиков от Yandex Open Source. Нам прислали 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Забавный и поучительный факт: один участник отправил заявку 15 марта в 23:59 — в последнюю минуту подачи. И победил!

В ML-треке награды получили:

⚪️ VLMHyperBench от Антона Ширяева

Это фреймворк для оценки и сравнения возможностей Vision Language Models в распознавании документов на русском. Проект пригодится как исследователям, так и бизнесу: его можно использовать для автоматизации документооборота.

⚪️ Faster COCO Eval от Михаила Степанова

Это инструмент, который ускоряет процесс COCO-валидации на задачах с тысячами объектов на одном изображении в 3 раза для стандартных задач и больше чем в 10 раз для сложных случаев.

🔳 А во всех трёх треках мы выбрали 12 победителей, проекты которых показались нам самыми интересными, полезными и перспективными. Каждый рассказал немного подробностей о своей работе в статье на Хабре. Посмотрите: возможно, откроете для себя новые полезные инструменты.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✉️ Мы делимся полезностями для ML-инженеров не только в телеграме

Вы можете подписаться на ежемесячную email-рассылку, в которой не будет ничего лишнего. Только материалы по машинному обучению и искусственному интеллекту от тех, кто на практике занимается ими в Яндексе.

Для вас наши инженеры мониторят интернет и делятся тем, что читают сами. В результате получаются лаконичные подборки статей на Хабре, подкастов и видео, новостей индустрии и полезных инструментов. А ещё самых важных мероприятий и технологических анонсов Яндекса.

🔳 Подписаться на ежемесячную рассылку можно здесь

🌠 Выбирайте в этой форме дайджест Yandex for ML. А ещё по этой же ссылке можно подписаться на нашу общую рассылку для разработчиков — Yandex for Developers.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🛎 Сегодня в 19:00 по Москве смотрим трансляцию разбора ключевых докладов с ICLR 2025!

Поговорим о главных темах и значимых выступлениях с международной конференции, которая проходила в конце апреля в Сингапуре.

⚪️ Артём Бабенко, руководитель отдела Research в Яндексе, с анализом трендов tabular DL по мотивам ICLR

⚪️ Андрей Бут, руководитель команды YandexGPT Alignment в Яндексе, с обзором NLP с ICLR

⚪️ Роман Исаченко, руководитель команды дискриминативного анализа изображений в Яндексе, с докладом о CV с ICLR

⚪️ Алексей Степанов, CTO Международного поиска в Яндексе, с разбором ML Engineering & Search с ICLR

Смотрите трансляцию:
YouTube
VK Видео

🔳 Задать вопросы спикерам можно тут.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🧿 Пусть нейросети оценивают себя сами. А мы их проконтролируем

Мы применили подход LLM-as-a-judge, в котором сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний без участия ручной разметки и асессоров.

Полем для эксперимента стал генератор описаний для Pull Request’ов, которым мы пользуемся в Яндексе. Он призван упростить жизнь разработчикам: автоматически формировать понятные и информативные саммари для всех изменений в коде.

В основе решения лежит русскоязычная LLM на 7 миллиардов параметров. А работа состояла из 5 этапов:

⚪️ Провели опрос и сформулировали критерии хорошего Pull Request’а
⚪️ Собрали валидационный датасет из 116 тысяч текстов по более чем 50 известным опенсорсным проектам
⚪️ Оптимизировали промпт методом LLM-as-a-judge
⚪️ Сравнили результаты от разных LLM методом попарного сравнения
⚪️ Провели эксперимент, чтобы узнать, считают ли разработчики, что качество описаний ухудшилось

В процессе оптимизации промпта мы выявили несколько интересных закономерностей:

⚪️ Фиксированная структура с заголовками и разбивкой по разделам делает описание заметно более удобным
⚪️ Ссылки на конкретные элементы кода (функции, классы, переменные) ощутимо повышают ценность текста
⚪️ Эмодзи, что неожиданно, помогают воспринимать информацию быстрее и проще!

Какие выводы мы сделали из проделанной работы:

⚪️ Современные опенсорсные модели вроде Qwen, DeepSeek и Codestral могут конкурировать с GPT-4 в прикладных задачах
⚪️ Автоматическая оценка с помощью LLM может быть более надёжной, чем человеческая, особенно при неочевидных различиях в качестве
⚪️ Оптимизация промптов должна опираться на объективные метрики, а не только на ощущения от «хорошего текста»

🔳 Все подробности ищите на Хабре в статье Дмитрия Успенского из команды ML RnD Техплатформы Городских сервисов Яндекса.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🛎 До старта трансляции «Я Железо» остался всего час!

Совсем скоро будем обсуждать роботов-доставщиков, автономный транспорт, умные устройства и серверную инфраструктуру. Выбирайте трек, который вам ближе, и подключайтесь в 12:00.

⚪️ Hardware — всё про железо. Роботы-курьеры, лидары, AI-ассистенты и умные девайсы. Смотрите на YouTube или в VK.

⚪️ Software — погружаемся в софт. Безопасные ОС и смарт-функции в ТВ Станциях. Смотрите на YouTube или в VK.

🔛 Программу конференции и расписание докладов ищите на сайте.

📪 Ждём вас на трансляции — будет интересно!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🔗 Сегодня мы встречаем гостей Data Fest в офисах Яндекса. Подключайтесь к трансляции!

Уже сейчас начинается трансляция трека Practical ML от Яндекса.

🔛 Расписание трека лежит тут

🔛 Подключиться к трансляции можно на ютубе или в VK Видео

🔛 Задать вопросы спикерам можно в специальном чате. Не забудьте добавить к тексту тег #вопрос

🛄 Увидимся на Data Fest!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
📎 Архитектура CI/CD в SourceCraft, неизбежность IDP и нюансы Tracing Policy Tetragon — что будет на infra.conf’25

Ребята опубликовали программу главной конференции Яндекса по инфраструктуре. Спикерами на infra.conf’25 станут ведущие инженеры и разработчики Яндекса, Купер.тех, MTS Web Services, Positive Technologies, Авито, Sber AI и других компаний.

В программе 18 докладов. Вот только часть из них:

⚪️ Кирилл Сюзев из команды Yandex Infrastructure расскажет про архитектуру и историю создания CI/CD на платформе для разработчиков SourceCraft

⚪️ Александр Николаичев и Николай Гриценко из Yandex Infrastructure покажут, почему все дороги ведут в Internal Development Platform

⚪️ Роза Морозенкова из Купер.тех расскажет, кому и зачем нужна ML-платформа

⚪️ Валерий Евдокимов из ecom.tech поделится опытом внедрения OpenTelemetry, Qryn и Coroot для выстраивания системы наблюдаемости

⚪️ Виталий Шишкин из Positive Technologies расскажет о лучших практиках и нюансах разработки Tracing Policy Tetragon

⚪️ Эдуард Оболенский из Yandex Infrastructure поделится опытом создания инфраструктуры для мобильной разработки

И это далеко не все доклады. А помимо них, гостей конференции ждут IT stand-up и воркшопы по пайке и сварке оптоволокна.

🔳 infra.conf’25 пройдёт 5 июня в Москве. Узнать подробности и зарегистрироваться можно здесь.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
👷 История о карьере в RecSys

Привет, это Даня Ткаченко, я руковожу ML в Лавке и преподаю в Школе анализа данных. По образованию я математик, а путь в IT начинал с кода на M и портирования плюсовых библиотек на разные Linux и Unix (в том числе на «Эльбрус»). В карточках расскажу, как пришёл из математики в ML и как помогаю в этом другим.

🔳 Кстати, посмотреть мой курс по RecSys можно здесь.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🛄 У нас есть подарок для разработчиков и исследователей RecSys

Исследователи Яндекса выложили в опенсорс YaMBDa — датасет на 4,79 миллиарда событий. Это один из крупнейших в мире датасетов для развития рекомендаций. Мы открываем эти данные, потому что хотим уменьшить разрыв между академическими исследователями, разработчиками опенсорса и бизнесом.

YaMBDa создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса.

Что интересного есть в датасете:


⚪️ Данные о взаимодействиях 1 миллиона пользователей с 9,39 миллиона треков в течение 10 месяцев

⚪️ Два основных типа взаимодействий: неявная обратная связь (прослушивания) и явная обратная связь (лайки, дизлайки, анлайки и андизлайки)

⚪️ Нейросетевые векторы, сгенерированные с помощью свёрточной нейронной сети (CNN), для большинства треков

⚪️ Анонимизированные признаки метаданных треков

⚪️ Учёт флага is_organic, который позволяет различать органические действия пользователей и действия, вызванные рекомендациями алгоритма

⚪️ Наличие временных меток для всех событий в датасете

Мы выпустили три версии датасета: на 5 миллиардов, 500 миллионов и 50 миллионов событий. Скачать данные можно на Hugging Face, а код для оценки замеров лежит на GitHub.

🔳 Читайте подробности в статье. И скачивайте датасет!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🛎 Ищем спикеров на big tech night!

Приглашаем выступить 12 сентября в Москве на «Ночи музеев» в мире IT. Одновременно пять российских компаний откроют двери своих офисов и покажут IT-специалистам, как, где и кем создаются технологии для миллионов пользователей. Коллаборацию придумали в Яндексе, а соорганизаторами стали Сбер, X5, Т-Банк и Lamoda.

Мы ждём спикеров, которые готовы поделиться экспертизой и прочитать хардовые технологические доклады.

↔️ Всего будет 5 треков — каждый привязан к конкретной площадке. Тема вашего доклада определит офис, в котором вы будете выступать:

⚪️ Next-Gen Development — офис Яндекса
⚪️ Мультиагентные системы в продукте и бизнес-процессах — офис Сбера
⚪️ Архитектура и управление сложными системами — офис X5
⚪️ AI для SDLC: от кода до прода — офис Т-Банка
⚪️ Создание инфраструктуры для разработки и управление ей — офис Lamoda

🔳 Узнать подробности можно здесь, а заявки принимаются до 30 июня.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/30 03:37:41
Back to Top
HTML Embed Code: