Artificial stupidity

#statistics

Недавно прочитал статью "Choosing a Proxy Metric from Past Experiments". В авторах челики из google и deepmind. Сама статья, как можно понять из названия, про выбор правильных прокси-метрик.

Пока читал, не покидало ощущение, что что-то тут не так. Вроде идея интересная, какие-никакие аргументы в пользу их решения есть, но все равно интуитивно кажется, что решение в реальности не полетит. Ну да ладно, будущее покажет.

В общем, основных идей несколько:
1. Давайте введем метрику "качества прокси", которая будет зависеть от скрытой корреляции между долгосрочным и прокси эффектами и от соотношения сигнал/шум прокси-метрики.
2. Давайте будем выводить оптимальную прокси-метрику в виде линейной комбинации других прокси. Получаем такую себе портфельную оптимизацию, где мы хотим оптимально "вложиться" в наши прокси, чтобы получить наилучшее решение.
3. Для оценки скрытых параметров давайте будем использовать иерархическую модель (добро пожаловать в Байесовский мир).
4. Ну и все это вместе собирается в некий "фреймворк" для оценки и выбора наилучшего прокси.

Идея прикольная. Я думал о похожем, но скорее в плане вложений в результаты на основе А/Б тестов. У нас же есть какие-то оценки результатов (и в плане ожидания, и в плане неуверенности оценки). Так почему бы не пытаться из этого "портфеля" инициатив собрать оптимальный "портфель". Но я так эту идею и не добил (если кто вдруг знает такую статью или напишет таковую - скиньте почитать).

А вот по статье у меня есть вопросики:
1. Предполагается, что у нас набор все эксперименты i.i.d., что весьма сильное предположение. В статье идет сравнение с мета-анализом. И в мета-анализе это как раз более или менее логичное предположение, Но вот просто в наборе А/Б тестов слишком уж сильное.
2. По тому, как мы получаем итоговую прокси в виде комбинации других прокси с максимизации "хорошести" прокси, у меня есть вопросики к возможному переобучению. В статье вроде даже есть кросс-валидация, но я это ставлю на уровень "сомнительно, но окэй".
3. Не факт, что эта история хорошо обобщается. Впрочем, авторы так явно и заявляют в статье. Но там реально примеры весьма специфичные. Рек. системы, еще и на каких-то гигантских объемах выборок (гугл же). И вроде как еще и группа тестов с примерно одной системой (ну как я понял, иначе откуда i.i.d.).
4. Кажется, что иерархическая модель может быть не такой уж быстрой. Там будет много MCMC симуляций же. Но тут надо тестить, может и все быстро будет работать.
5. В appendix'е какая-то странная матрица ошибок с отсечениями по размеру t-статистик на тестах по двум метрикам (прокси и north-star). Выглядит скорее эвристикой. Возможно, даже рабочей, но как-то не очень надежно выглядит на такое смотреть.

Если подводить итог.

Идея прикольная, но про реальное применение большие вопросики. Может как-то руки дойдут с чем-нибудь таким поковыряться. Ну или в какой-нибудь из докладов утащу как идею.

🔥6

993 views12:01

FabulaNova Истории в звуке

Всем привет. Я тут написал монолог для конкурса (и это даже не шутка). И часть оценки зависит от голосования. Если вам не сложно, проголосуйте за мой монолог под номером 6 "Колыбельная".

Почитать монологи можно по ссылке.

#конкурсхорроров

Шорт-лист конкурса "Один на один со страхом"

1⃣ Катерина Митт “Супом пахнет”

2️⃣ Игорь Крючков “Вы отлично справляетесь, Дмитрий Александрович”

3️⃣ Руслан Мамедов “Выпьем чаю”

4️⃣ Екатерина Архипова “Вернуть к жизни”

5️⃣ Юлия Берестова…

804 views16:35

1. Катерина Митт "Супом пахнет"

Forwarded from FabulaNova Истории в звуке

#конкурсхорроров

Народное голосование конкурса "Один на один со страхом" группа 1

Final Results

2. Игорь Крючков "Вы отлично справляетесь, Дмитрий Александрович"

32%

3. Руслан Мамедов "Выпьем чаю"

4. Екатерина Архипова "Вернуть к жизни"

5. Юлия Берестова "Должок"

25%

6. Артем Ерохин "Колыбельная"

7. Дарья Дрофа "Кукла"

13%

8. Даниил Лобковский "Материнский инстинкт"

9. Иван Парфенов "Мамочка"

12%

10. Дарья Владимирова "Монолог"

1.28K voters838 views16:35

Forwarded from Denis Sexy IT 🤖

0:17

0:17

0:26

Нашел еще один интересный промпт для GPT-4o генерации картинок, который позволяет генерировать спрайты для 2d-игр – фоны как в этих ваших Street Fighter 1

Если вы собираете какой-то простенький 2D-платформер, то теперь вы можете прямо в ChatGPT сгенерировать нужный спрайт, сразу с прозрачностью, и поместить его в игру, вот промпт:

Create a wide image (1792×1024) for a 2D parallax background in a side-scrolling video game. The theme is: [post soviet city in 90s] The image should be divided into 3 horizontal layers, same width, stacked vertically: Top row: This is the background and does not require transparency. Middle row: A midground layer, with less elements than the background, drawn in silhouette with some transparency so it can scroll separately. Bottom row: A foreground layer with a ground and relevant elements, less elements than the midground, also partially transparent for parallax scrolling. All layers should have a consistent art style. Use a transparent background for the middle and bottom layers, and keep visual separation between layers by leaving a small gap or distinct lighting. Do not blend the layers together. Vary the color theme between layers ensuring pleasing visual aesthetic. Output as a single image with three stacked rows. Resolution: 1792×1024 Transparent background: Yes (middle and bottom layers) Style: 2D pixel art / game art Purpose: Parallax background layers for a video game

А еще я собрал небольшую страницу, где можно сразу посмотреть, как будет выглядеть спрайт созданный в ChatGPT:
https://shir-man.com/generate-sprite/

Загружаете картинку туда, размечаете (пример разметки в последней картинке), двигаете ползунки и получаете вашу собственную карту файтинга мечты

⚡6

920 views16:50

Forwarded from Рисерчошная

✅

YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥

Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

⭐ Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️

Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

1.09K views13:46

#random

Fun fact: сегодня 5 лет, как я работаю в X5 (считай, половина карьеры).

Успел поделать многое, но надеюсь, что сделаю еще больше интересных проектов, выступлений и всякого разного.

P.S. Часы получились всратенькие, но мне лень генерировать новые.
P.P.S. Четко видно, на чем училась моделька. Обычно часы рекламируют со стрелками на 10:10 (можете сами посмотреть рекламу часов - в большинстве случаев на часах будет 10:10 или около того).

🔥9

1.1K views15:45

#conference #analytics

В конце мая буду на Aha!25 с докладом про прокси-метрики и их более умное применение в работе. Для его подготовки мне пришлось перелопатить немало научных работ (теперь стол завален распечатками, а сохраненки телеги ссылками на статьи), так что должно быть весьма интересно.

Если хотите послушать меня (или других спикеров, а их подобралось немало, хватило на целых два дня), то забегайте на конференцию.

Место: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Даты: 29-30 мая
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика

P.S. Заодно можно будет поболтать про разные темы на конфе (а болтать я люблю, хехе). Кто захочет меня там поймать для общения - пишите.

🔥8❤3👍1🎉1

1.03K views11:01

#video #conference

А вот подъехала запись моего выступления на митапе Т-Банка. Я там рассказывал про то, как мы делали систему автоматизации протоколирования встреч. Постарался начать от простого и пройти к вещам посложнее. Но доклад больше бизнесово-просветительский с налетом техники (впрочем, людям совсем не из IT может быть сложновато, это правда).

Ссылки: ютаб, VK (вот это поворот, но раз уж коллеги выложили туда, то пусть и туда будет ссылка).

Все по классике: смотрите, просвещайтесь, ставьте лайки!

⚡4👍2

911 views13:01

#cinema #random

В общем, у меня тут недавно произошел absolute cinema moment. Наткнулся на сериал "Частые побочные явления". И это великолепный сериал.

Очень интригующий сюжет, много параллельных линий и подсюжетов, все постоянно в движении, но в движении интересном и правильно составленном. Хорошее музыкальное сопровождение (а я очень люблю, когда музыка дополняет и усиливает эффект от кино). Прекрасная режиссура, очень много интересных планов, метафор, визуальное повествование определенно на высоте. Есть авторское высказывание и заметный стиль. В общем, все, что нужно великолепному произведению.

Единственное - дизайн персонажей на любителя. Может показаться странным, но я привык (может и вы привыкните).

Если вдруг не смотрели - обязательно уделите ему внимание. Серии там не такие уж длинные (22-23 минуты), сезон на 10 серий, то есть, вполне можно посмотреть за вечер.

P.S. Теперь с нетерпением буду ждать второй сезон (которым, я на надеюсь, нас порадуют).

🔥11

946 views12:01

В Яндекс GO решили сделать лутбоксы (буквально собираешь ключи, чтобы открыть бокс и получить случайный приз), чтобы подрастить пользование продуктами Яндекса.

Как относитесь к таким механикам? Казалось бы, метрики вырастут, но паттерн какой-то серенький (как минимум)

👎17💔9

1.2K views07:57

Побаловался с генерацией бинго LLM. Местами получилось даже забавно

🔥3👎1

1.09K views13:23

Forwarded from Neural Shit

0:34

Чувак из твиттора напилил ИИ симтему, которая позволяет собакам управлять компом.

Система трекает морду, уши, лапы и суставы, определяет, куда собака смотрит, и понимает простейшие жесты. Собакен даже пытается играть в простейшие игры. А пес его друга научился листать DogTok (раздел тик-тока про собак) жестами.

Такими темпами, через пару-тройку лет можно будет свою собаку на фриланс пристроить.

Тут подробнее

👍21👻1

1K views16:10

#random

Fun fact: существует "лунная радуга".

Выдержка из википедии:

Радуга, порождаемая Луной. Отличается от солнечной только меньшей яркостью. Имеет тот же радиус, что и солнечная (около 42°), и всегда находится на противоположной от Луны стороне неба.

Цвета у такой радуги разглядеть очень трудно, т.к. такой свет возбуждает только палочки, но не колбочки. В результате получается белая радуга (лол). А вот на фото ее будет видно уже в цвете (при долгой выдержке).

❤8

941 viewsedited 11:17

Я там тоже буду (не то, чтобы это был неожиданный поворот). Забегайте поболтать и послушать интересные доклады

🔥3

797 views14:14