Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
52 - Telegram Web
Telegram Web
Очень крутой блогпост от Убера про то как они пытаются предсказывать время поездки.
Есть ссылки на интересные статьи, которыми можно шатать табличные данные, например вот, вот и вот (про табнет могу сказать, что на практике хорошо докидывает не сам по себе, а в ансамбле с бустингами). Получается неплохая подборка того, что можно попробовать на практике кроме бустингов.

Что же в посте классного?

- Прикольные идеи для эмбеддинга позиции (потому что если делать глобальную модельку, просто заэнкодить широту и долготу не получится из-за неоднородности)
- Asymmetric Huber Loss (потому что, во-первых, нужно делать робастно, во-вторых, предсказание времени прибытия в меньшую сторону не так критично, как в большую)
- С помощью МЛ предсказывают коррекции грубого ETA из карт, а не само время прибытия
- Рассказывают как решали проблему скорости модельки (например, используют линейный трансформер вместо обычного)
- Рассказывают как они это обучают и сёрвят

То что мне особенно понравилось выделил. Вообще советую прочитать пост целиком: он очень хорошо структурирован, классно объясняет проблему и то как её решают с помощью МЛ.

#таблички #Миша
1
Выступил на митапе LeanDS аж четвёртый раз, люблю я это дело. Рассказывал про документацию, и её особенности на DS-проектах, но основная мысль, которая прошла через весь доклад, на самом деле несколько шире. При этом она достаточно проста и банальна, но про неё, как обычно, часто забывают =)

Перед внедрением любой практики, инструмента, правила нужно задать себе ряд вопросов. Зачем мы это делаем? Сколько это будет стоить - в деньгах, во времени, в психологическом комфорте команды? Есть ли другие способы достижения тех же целей?

Рекомендую выработать привычку автоматически задавать и пытаться отвечать себе на эти вопросы в самых разных жизненных ситуациях, не только рабочих 😏

https://youtu.be/FETJO-NgU2Q

#management #Жека
Наткнулся на пост от ZenML про модели "взрослости" MLOps. В целом штука небесполезная, всегда неплохо себя оценивать по каким-то чек-листам, это даёт информацию о, так сказать, своём месте в мире. Есть ещё вот такая, в чём-то даже более подробная и прикольная модель взрослости от LeanDS.

Но всё-таки полезность и применимость таких матриц ограничены тем, что каждая компания и ML-команда уникальны. Если хочется подойти к вопросу оценки своей инженерии и процессов более обстоятельно, то я рекомендую вам заполнить что-то типа MLOps Infrastructure Stack Template. Я бы, правда, его несколько расширил - вот пример на основе наших продуктов. Мне вообще кажется полезным при составлении любого плана развития сначала представить идеальную картину мира и описать текущую. Если есть точка A и точка B - это сразу облегчает нахождение оптимального пути =)

#Жека #mlops
👍12
Всё хочу опубликовать текст про гауссовские процессы, но мне не нравится что получается, так что пока что напишу про VOS: Learning what you don't know by Virtual Outlier Synthesis. Статье уже пару месяцев и на неё уже сделали классные обзоры, но она классная и поэтому пусть тут тоже будет.

Идея статьи — фреймворк для поиска out of distribution примеров (кстати, совсем не обязательно в картинках, задача детекции в статье — просто пример). Для того, чтобы понять как это работает рассмотрим классификатор на три класса в R^2. На первой картинке слева изображена уверенность нейронки в предсказании для этих классов. Очевидно, что если мы просто хотим сделать дискриминатор, то ничто не заставляет сетку выучивать что-то похожее на первую картинку справа, однако это именно то поведение, которое мы бы хотели наблюдать (уверенные предсказания только для примеров, похожих на трейн-сэмплы).
Что можно с этим сделать? Авторы предлагают простое решение: uncertainty-лосс. Для этого предлагается сэмплировать аутлаеры в пространстве эмбеддингов и штрафовать нейронку за бОльшую увереннось в предсказании выбросов, чем in distribution примеров. Делается это с помощью смеси гауссиан: обучаем на пространстве эмбеддингов и сэмплим аутлаеры в регионах с низкой плотностью объектов.
По сути всё :)
Вся остальная статья про то как конкретно это применять в детекции, рассуждения на тему того почему всё работает, куча математики и экспериментов, но основная идея именно такая. Всех интересующихся приглашаю читать саму статью.

P.S.: Если всё-таки хотите про гауссовские процессы — напишите в комментарии, пожалуйста.

#кратко #Миша
👍14
Друзья, вас уже очень немало, и мы решили, что пришла пора немного познакомиться. Ведут этот канал Жека Никитин и Миша Киндулов, на данный момент мы оба работаем в компании Цельс. Слово нам.

#Жека:
Всем привет, я уже три года руковожу отделом ML-разработки в Цельсе, а DS в целом занимаюсь около 7 лет. Когда-то я неплохо умел шатать картиночные, текстовые и табличные модельки, а сейчас в основном увлекаюсь менеджментом, особенностями DS-разработки, вопросами личной эффективности и прочими эзотерическими вещами. Помимо ML увлекаюсь миксологией, футболом и политикой. Бросил PhD и вернулся в Питер поднимать целину в Цельсе 😌 Подробнее про меня и мои приключения можно почитать, например, тут.

#Миша:
Занимаюсь классическим компьютерным зрением последние 6 лет, примерно 4 года ещё и работаю в этом направлении. Обожаю читать современные статьи, кататься на сноубордах и пить китайский чай. В основном буду писать тут про ML и современные (или не очень) статьи. Надеюсь, будет интересно :)


А ещё, пользуясь случаем, мы хотим задать вам вопрос про контент на нашем канале. Всем хороших выходных!
👍13
2025/07/13 18:27:10
Back to Top
HTML Embed Code: