Очень крутой блогпост от Убера про то как они пытаются предсказывать время поездки.
Есть ссылки на интересные статьи, которыми можно шатать табличные данные, например вот, вот и вот (про табнет могу сказать, что на практике хорошо докидывает не сам по себе, а в ансамбле с бустингами). Получается неплохая подборка того, что можно попробовать на практике кроме бустингов.
Что же в посте классного?
- Прикольные идеи для эмбеддинга позиции (потому что если делать глобальную модельку, просто заэнкодить широту и долготу не получится из-за неоднородности)
- Asymmetric Huber Loss (потому что, во-первых, нужно делать робастно, во-вторых, предсказание времени прибытия в меньшую сторону не так критично, как в большую)
- С помощью МЛ предсказывают коррекции грубого ETA из карт, а не само время прибытия
- Рассказывают как решали проблему скорости модельки (например, используют линейный трансформер вместо обычного)
- Рассказывают как они это обучают и сёрвят
То что мне особенно понравилось выделил. Вообще советую прочитать пост целиком: он очень хорошо структурирован, классно объясняет проблему и то как её решают с помощью МЛ.
#таблички #Миша
Есть ссылки на интересные статьи, которыми можно шатать табличные данные, например вот, вот и вот (про табнет могу сказать, что на практике хорошо докидывает не сам по себе, а в ансамбле с бустингами). Получается неплохая подборка того, что можно попробовать на практике кроме бустингов.
Что же в посте классного?
- Прикольные идеи для эмбеддинга позиции (потому что если делать глобальную модельку, просто заэнкодить широту и долготу не получится из-за неоднородности)
- Asymmetric Huber Loss (потому что, во-первых, нужно делать робастно, во-вторых, предсказание времени прибытия в меньшую сторону не так критично, как в большую)
- С помощью МЛ предсказывают коррекции грубого ETA из карт, а не само время прибытия
- Рассказывают как решали проблему скорости модельки (например, используют линейный трансформер вместо обычного)
- Рассказывают как они это обучают и сёрвят
То что мне особенно понравилось выделил. Вообще советую прочитать пост целиком: он очень хорошо структурирован, классно объясняет проблему и то как её решают с помощью МЛ.
#таблички #Миша
❤1
Выступил на митапе LeanDS аж четвёртый раз, люблю я это дело. Рассказывал про документацию, и её особенности на DS-проектах, но основная мысль, которая прошла через весь доклад, на самом деле несколько шире. При этом она достаточно проста и банальна, но про неё, как обычно, часто забывают =)
Перед внедрением любой практики, инструмента, правила нужно задать себе ряд вопросов. Зачем мы это делаем? Сколько это будет стоить - в деньгах, во времени, в психологическом комфорте команды? Есть ли другие способы достижения тех же целей?
Рекомендую выработать привычку автоматически задавать и пытаться отвечать себе на эти вопросы в самых разных жизненных ситуациях, не только рабочих 😏
https://youtu.be/FETJO-NgU2Q
#management #Жека
Перед внедрением любой практики, инструмента, правила нужно задать себе ряд вопросов. Зачем мы это делаем? Сколько это будет стоить - в деньгах, во времени, в психологическом комфорте команды? Есть ли другие способы достижения тех же целей?
Рекомендую выработать привычку автоматически задавать и пытаться отвечать себе на эти вопросы в самых разных жизненных ситуациях, не только рабочих 😏
https://youtu.be/FETJO-NgU2Q
#management #Жека
YouTube
Документация в DS-проектах | Евгений Никитин, Head of AI @ Цельс
‼️ Полезная, актуальная и при этом полная документация - миф или реальность? В этом докладе обсудим зачем вообще нужна документация (а когда она и не нужна вовсе), поговорим о распространённых проблемах и ошибках, а также посмотрим на примеры специфичной…
Наткнулся на пост от ZenML про модели "взрослости" MLOps. В целом штука небесполезная, всегда неплохо себя оценивать по каким-то чек-листам, это даёт информацию о, так сказать, своём месте в мире. Есть ещё вот такая, в чём-то даже более подробная и прикольная модель взрослости от LeanDS.
Но всё-таки полезность и применимость таких матриц ограничены тем, что каждая компания и ML-команда уникальны. Если хочется подойти к вопросу оценки своей инженерии и процессов более обстоятельно, то я рекомендую вам заполнить что-то типа MLOps Infrastructure Stack Template. Я бы, правда, его несколько расширил - вот пример на основе наших продуктов. Мне вообще кажется полезным при составлении любого плана развития сначала представить идеальную картину мира и описать текущую. Если есть точка A и точка B - это сразу облегчает нахождение оптимального пути =)
#Жека #mlops
Но всё-таки полезность и применимость таких матриц ограничены тем, что каждая компания и ML-команда уникальны. Если хочется подойти к вопросу оценки своей инженерии и процессов более обстоятельно, то я рекомендую вам заполнить что-то типа MLOps Infrastructure Stack Template. Я бы, правда, его несколько расширил - вот пример на основе наших продуктов. Мне вообще кажется полезным при составлении любого плана развития сначала представить идеальную картину мира и описать текущую. Если есть точка A и точка B - это сразу облегчает нахождение оптимального пути =)
#Жека #mlops
👍12
👍11🔥6
Всё хочу опубликовать текст про гауссовские процессы, но мне не нравится что получается, так что пока что напишу про VOS: Learning what you don't know by Virtual Outlier Synthesis. Статье уже пару месяцев и на неё уже сделали классные обзоры, но она классная и поэтому пусть тут тоже будет.
Идея статьи — фреймворк для поиска out of distribution примеров (кстати, совсем не обязательно в картинках, задача детекции в статье — просто пример). Для того, чтобы понять как это работает рассмотрим классификатор на три класса в R^2. На первой картинке слева изображена уверенность нейронки в предсказании для этих классов. Очевидно, что если мы просто хотим сделать дискриминатор, то ничто не заставляет сетку выучивать что-то похожее на первую картинку справа, однако это именно то поведение, которое мы бы хотели наблюдать (уверенные предсказания только для примеров, похожих на трейн-сэмплы).
Что можно с этим сделать? Авторы предлагают простое решение: uncertainty-лосс. Для этого предлагается сэмплировать аутлаеры в пространстве эмбеддингов и штрафовать нейронку за бОльшую увереннось в предсказании выбросов, чем in distribution примеров. Делается это с помощью смеси гауссиан: обучаем на пространстве эмбеддингов и сэмплим аутлаеры в регионах с низкой плотностью объектов.
По сути всё :)
Вся остальная статья про то как конкретно это применять в детекции, рассуждения на тему того почему всё работает, куча математики и экспериментов, но основная идея именно такая. Всех интересующихся приглашаю читать саму статью.
P.S.: Если всё-таки хотите про гауссовские процессы — напишите в комментарии, пожалуйста.
#кратко #Миша
Идея статьи — фреймворк для поиска out of distribution примеров (кстати, совсем не обязательно в картинках, задача детекции в статье — просто пример). Для того, чтобы понять как это работает рассмотрим классификатор на три класса в R^2. На первой картинке слева изображена уверенность нейронки в предсказании для этих классов. Очевидно, что если мы просто хотим сделать дискриминатор, то ничто не заставляет сетку выучивать что-то похожее на первую картинку справа, однако это именно то поведение, которое мы бы хотели наблюдать (уверенные предсказания только для примеров, похожих на трейн-сэмплы).
Что можно с этим сделать? Авторы предлагают простое решение: uncertainty-лосс. Для этого предлагается сэмплировать аутлаеры в пространстве эмбеддингов и штрафовать нейронку за бОльшую увереннось в предсказании выбросов, чем in distribution примеров. Делается это с помощью смеси гауссиан: обучаем на пространстве эмбеддингов и сэмплим аутлаеры в регионах с низкой плотностью объектов.
По сути всё :)
Вся остальная статья про то как конкретно это применять в детекции, рассуждения на тему того почему всё работает, куча математики и экспериментов, но основная идея именно такая. Всех интересующихся приглашаю читать саму статью.
P.S.: Если всё-таки хотите про гауссовские процессы — напишите в комментарии, пожалуйста.
#кратко #Миша
👍14
Друзья, вас уже очень немало, и мы решили, что пришла пора немного познакомиться. Ведут этот канал Жека Никитин и Миша Киндулов, на данный момент мы оба работаем в компании Цельс. Слово нам.
#Жека:
Всем привет, я уже три года руковожу отделом ML-разработки в Цельсе, а DS в целом занимаюсь около 7 лет. Когда-то я неплохо умел шатать картиночные, текстовые и табличные модельки, а сейчас в основном увлекаюсь менеджментом, особенностями DS-разработки, вопросами личной эффективности и прочими эзотерическими вещами. Помимо ML увлекаюсь миксологией, футболом и политикой. Бросил PhD и вернулся в Питер поднимать целину в Цельсе 😌 Подробнее про меня и мои приключения можно почитать, например, тут.
#Миша:
Занимаюсь классическим компьютерным зрением последние 6 лет, примерно 4 года ещё и работаю в этом направлении. Обожаю читать современные статьи, кататься на сноубордах и пить китайский чай. В основном буду писать тут про ML и современные (или не очень) статьи. Надеюсь, будет интересно :)
А ещё, пользуясь случаем, мы хотим задать вам вопрос про контент на нашем канале. Всем хороших выходных!
#Жека:
Всем привет, я уже три года руковожу отделом ML-разработки в Цельсе, а DS в целом занимаюсь около 7 лет. Когда-то я неплохо умел шатать картиночные, текстовые и табличные модельки, а сейчас в основном увлекаюсь менеджментом, особенностями DS-разработки, вопросами личной эффективности и прочими эзотерическими вещами. Помимо ML увлекаюсь миксологией, футболом и политикой. Бросил PhD и вернулся в Питер поднимать целину в Цельсе 😌 Подробнее про меня и мои приключения можно почитать, например, тут.
#Миша:
Занимаюсь классическим компьютерным зрением последние 6 лет, примерно 4 года ещё и работаю в этом направлении. Обожаю читать современные статьи, кататься на сноубордах и пить китайский чай. В основном буду писать тут про ML и современные (или не очень) статьи. Надеюсь, будет интересно :)
А ещё, пользуясь случаем, мы хотим задать вам вопрос про контент на нашем канале. Всем хороших выходных!
👍13
Сегодня расскажу про bag of visual words — бейзлайн, который забыли из-за бума свёрточных сетей, при том, что уже в 2011 на ImageNet 1k он давал ≈51% accuracy
#Миша #CV
#Миша #CV
Telegraph
BoVW – незаслуженно забытый бейзлайн
Я вообще очень сильно люблю всякие классические методы CV (сейчас всё выглядит намного скучнее, везде сплошные сетки) и периодически мне приходилось использовать вот эту забавную вещь, про которую почему-то мало кто знает: bag of visual words. Интересно это…
👍14