Тайны Марлизонского двора, разборки с дата-канальями от CDS Д'артаньяна одной из компаний нашего рынка. Канал моего старого друга о хаках в нашей индустрии, неприкрытые фейлы и интересные заметки про разные ML кейсы.
Заходите, читайте.👇
Заходите, читайте.👇
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Видел в одном канале канальи-манагера пафосные рассуждения, что любого сотрудника можно оценить по масштабу последствий от ошибочно принятого этим сотрудником решения. Как обычно отвечу кейсом.
Так сложилось, что я работал в структурах где цена ошибки высока, и соотношение контролирующих и проверяющих к непосредственно делающим сильно больше двух.
Однажды нас с коллегой вызывают в переговорку – там сидят эдакий проверяющий эксперт и его начальник.
Нам вменяют ущерб в 2 трлн рублей недополученный банком прибыли. На серьезных щах и эмоционально. 🤬
В итоге кейс по существу свелся к тому что у нас распределения поехали (по мнению этого сверхразума), а сравнивал он по средним (!).
В ответ коллега набросал нехитрый скриптец вроде тех что ниже
Начальник извинился и агрессивного дурачка уволили 🙌
Но мораль истории не в том как сравнивать распределения (я думаю, вы в курсе давно).
Не стоит переоценивать влияние стечения обстоятельств и приписывать только себе как заслуги так и провалы.
PS: кстати, с тестами Колмогорова-Смирнова или PSI тоже стоит обращаться внимательно, прикладываю ссылку на исследование стат свойств PSI https://scholarworks.wmich.edu/cgi/viewcontent.cgi?article=4249&context=dissertations
Так сложилось, что я работал в структурах где цена ошибки высока, и соотношение контролирующих и проверяющих к непосредственно делающим сильно больше двух.
Однажды нас с коллегой вызывают в переговорку – там сидят эдакий проверяющий эксперт и его начальник.
Нам вменяют ущерб в 2 трлн рублей недополученный банком прибыли. На серьезных щах и эмоционально. 🤬
В итоге кейс по существу свелся к тому что у нас распределения поехали (по мнению этого сверхразума), а сравнивал он по средним (!).
В ответ коллега набросал нехитрый скриптец вроде тех что ниже
Начальник извинился и агрессивного дурачка уволили 🙌
Но мораль истории не в том как сравнивать распределения (я думаю, вы в курсе давно).
Не стоит переоценивать влияние стечения обстоятельств и приписывать только себе как заслуги так и провалы.
PS: кстати, с тестами Колмогорова-Смирнова или PSI тоже стоит обращаться внимательно, прикладываю ссылку на исследование стат свойств PSI https://scholarworks.wmich.edu/cgi/viewcontent.cgi?article=4249&context=dissertations
Волшебник из страны О3.
12ый день показа решений от OpenAI завершился подарком под елочку: демо модели О3. На примере задачи соревнований ARC, где моделька выбила соту с огромным отрывом. До кучи еще всякие math метрики достигнуты уровня крутышей в решении задачек (опять же со слов авторов). Там же и лайвбенч для кодеров тоже побит.
Про "кодеры всё". Уже куча знакомых пришли узнать,что будет дальше. Мой ИМО, что действительно появление копайлотов и LLM уровня О3 (и круче, тк это будет улучшаться и далее) дадут буст производительности/эффективности в задачах. И вместо условных 100 землекопов, будут нанимать 25 со скиллом использования LMок или вовсе без него, в случае работы с копайлот ide.
Я все еще напоминаю свои старые пойнты:
1. Разработка foundation models станет уделом крупных мировых бигтехов.
2. Как следствие решения сместятся в область сервисов-оберток вокруг, со своими клевыми фичами и хорошим юзер-опытом аля Perplexity и Cohere и тп.
3. Также призываю задуматься, опираясь на п. 2 о разработке агентов (даже учитывая что под капотом OpenAI они уже есть), а также не забываем про RAG системы.
Успехов.
12ый день показа решений от OpenAI завершился подарком под елочку: демо модели О3. На примере задачи соревнований ARC, где моделька выбила соту с огромным отрывом. До кучи еще всякие math метрики достигнуты уровня крутышей в решении задачек (опять же со слов авторов). Там же и лайвбенч для кодеров тоже побит.
Про "кодеры всё". Уже куча знакомых пришли узнать,что будет дальше. Мой ИМО, что действительно появление копайлотов и LLM уровня О3 (и круче, тк это будет улучшаться и далее) дадут буст производительности/эффективности в задачах. И вместо условных 100 землекопов, будут нанимать 25 со скиллом использования LMок или вовсе без него, в случае работы с копайлот ide.
Я все еще напоминаю свои старые пойнты:
1. Разработка foundation models станет уделом крупных мировых бигтехов.
2. Как следствие решения сместятся в область сервисов-оберток вокруг, со своими клевыми фичами и хорошим юзер-опытом аля Perplexity и Cohere и тп.
3. Также призываю задуматься, опираясь на п. 2 о разработке агентов (даже учитывая что под капотом OpenAI они уже есть), а также не забываем про RAG системы.
Успехов.
ARC Prize
OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
OpenAI o3 scores 75.7% on ARC-AGI public leaderboard.
О, интересное от моих коллег по цеху. Я давно слежу за AMD. И писал про кейсы использования их ускорителей для обучения LLM. 👇
Forwarded from Агенты ИИ | AGI_and_RL
Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
SemiAnalysis
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
Intro SemiAnalysis has been on a five-month long quest to settle the reality of MI300X. In theory, the MI300X should be at a huge advantage over Nvidia’s H100 and H200 in terms of specifications an…
BoN'apeti — вкусно и просто атакуем модели.
MIT представила новое исследование best-of-n (BoN) метода для атак на различные модальности моделей: текст,звук и изображение.
При этом ранее BoN подход использовался наоборот для улучшения генераций, путем создания мета алгоритма ранжирования кандидатов, как для инференса, так и для возврата в обучение. Последнее называли rl для бедных (хотя rl там никакого и нет).
Так вот, для атак на модели тоже приспособили BoN подход. Работает для текстов, к примеру, концептуально просто— итеративно вносим случайный шум в слова и изменяем регистр, кидаем в атакуемую модель, получаем генерацию, проверяем ее с голден ответом или классификатором. Повторяем до тех пор пока не случится "пробитие". Отмечу, что авторы следят за тем,чтобы смысл исходной задачи не исказился и модель понимала, что от нее хотят.
При тесте на 10к сете было пробито:
— 89% у GPT-4o;
— 78% Claude Sonnet 3.5;
— 50% Gemini PRO.
Отсюда интересно, как число успешных атак коррелирует со сложностью системы под капотом api и размером/качеством работы самих моделей🤔
Также атакуют иные модальности :
Для звуковых данных, искажения вносятся на уровне подмешивания шумов и изменения тональности, скорости и громкости отдельных звуков. Визуальные модели — атака проводится через изменение цвета, фона, шрифта, позиции и размера символов.
UPD. Интересно еще вот что, сколько времени занимает подбор атакующего промпта для задачи, успевает ли алгоритм его подобрать до изменения версии атакуемой модельки по апи🐌 .
Код можно найти тут.
MIT представила новое исследование best-of-n (BoN) метода для атак на различные модальности моделей: текст,звук и изображение.
При этом ранее BoN подход использовался наоборот для улучшения генераций, путем создания мета алгоритма ранжирования кандидатов, как для инференса, так и для возврата в обучение. Последнее называли rl для бедных (хотя rl там никакого и нет).
Так вот, для атак на модели тоже приспособили BoN подход. Работает для текстов, к примеру, концептуально просто— итеративно вносим случайный шум в слова и изменяем регистр, кидаем в атакуемую модель, получаем генерацию, проверяем ее с голден ответом или классификатором. Повторяем до тех пор пока не случится "пробитие". Отмечу, что авторы следят за тем,чтобы смысл исходной задачи не исказился и модель понимала, что от нее хотят.
При тесте на 10к сете было пробито:
— 89% у GPT-4o;
— 78% Claude Sonnet 3.5;
— 50% Gemini PRO.
Отсюда интересно, как число успешных атак коррелирует со сложностью системы под капотом api и размером/качеством работы самих моделей
Также атакуют иные модальности :
Для звуковых данных, искажения вносятся на уровне подмешивания шумов и изменения тональности, скорости и громкости отдельных звуков. Визуальные модели — атака проводится через изменение цвета, фона, шрифта, позиции и размера символов.
UPD. Интересно еще вот что, сколько времени занимает подбор атакующего промпта для задачи, успевает ли алгоритм его подобрать до изменения версии атакуемой модельки по апи
Код можно найти тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Best-of-N Jailbreaking
We introduce Best-of-N (BoN) Jailbreaking, a simple black-box algorithm that jailbreaks frontier AI systems across modalities. BoN Jailbreaking works by repeatedly sampling variations of a prompt...
Dealer.AI
BoN'apeti — вкусно и просто атакуем модели. MIT представила новое исследование best-of-n (BoN) метода для атак на различные модальности моделей: текст,звук и изображение. При этом ранее BoN подход использовался наоборот для улучшения генераций, путем создания…
Кстати, я напомню о том,что часть похожего функционала уже есть в нашей библиотеке augmentex. Писал про это здесь, тут и тут. В тч ветка для парафраз и атак на LM-ки.
GitHub
GitHub - ai-forever/augmentex: Augmentex — a library for augmenting texts with errors
Augmentex — a library for augmenting texts with errors - ai-forever/augmentex
Тут мои кореша затащили соревнование NIPS по интересной задаче в области физики. Ниже их обзор решения на золото (6е место). Самое примечательное,что работают относительно несложные подходы, а роляет больше знание и понимание процессов и методологии.
👇👇👇
👇👇👇
Forwarded from Запрети мне псевдолейблить
🚀 Разбираем решение, которое принесло нашей команде 6-е место в Kaggle-соревновании по обработке данных миссии Ariel
Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея
Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.
📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.
🔍 Фичи и модели:
На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.
Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:
Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.
💡 Бонус материал: пример 'подъема' спектра
Мы работали с частотными сигналами, которые изначально были очень шумными. Для их сглаживания использовали:
1️⃣ Гауссовский регрессор
2️⃣ Фильтр Савицкого-Голея
Далее ищем границы транзитной зоны планеты. Делаем через простой эмпирический детектор: транзит на графике светимости звезды имеет вид \_/ — яркость падает, когда планета проходит перед звездой, так как часть частотных компонентов теряет интенсивность.
📉 Что мы делали дальше:
Удаляем этапы до и после транзита, чтобы анализировать только изменения светимости в нужный момент.
"Поднимаем" транзит обратно к уровню светимости звезды, чтобы восстановить исходный "пульс звезды". Это важно, чтобы учесть глобальное поведение светимости звезды, которе не очень-то и постоянное.
🔍 Фичи и модели:
На основе изменений яркости между ожидаемыми и наблюдаемыми значениями на заданных частотах извлекали фичи. Эти частоты совпадают с важными таргетами — спектрограммой атмосферы экзопланеты.
Обучаем линейную регрессию глобально для каждого таргета, подбирая оптимальные коэффициенты. В смысле берем все моменты времени для всех транзитов и конкретной частоты и ищем коэффициент подгонки.
Параллельно обучаем CNN, которая анализировала частотные изменения в заданных временных окнах.
Это:
Помогает учитывало локальные особенности спектра и переходов (энергии?) между частотами
Позволяло понять взаимосвязи между соседними частотами, улучшая точность предсказаний.
🔗 Финал:
Смешали (блендили) результаты линейной регрессии и CNN. Затем финальную спектрограмму еще раз сгладили, чтобы убрать артефакты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Между готовкой салатиков и походом в магазин,Дядя, решил подвести итоги года.
Честно,год был непростой, с одной стороны – многое взял, с другой – научил и дал.
Вырос канал, было подано и опубликовано несколько статей на уровне A/q1, также Дяде удалось сняться в парочке подкастов/видосов, дать интервью в ForbesClub и провести бизнес завтрак по ИИ.
Надеюсь, в следующем году будет, еще лучше, чем в этом. Мы с Вами продолжим расти, появятся новые вызовы и новые достижения. Хочу пожелать Вам новых вершин знаний и опыта, хороших людей рядом, здоровья и мира. С новым годом!
Честно,год был непростой, с одной стороны – многое взял, с другой – научил и дал.
Вырос канал, было подано и опубликовано несколько статей на уровне A/q1, также Дяде удалось сняться в парочке подкастов/видосов, дать интервью в ForbesClub и провести бизнес завтрак по ИИ.
Надеюсь, в следующем году будет, еще лучше, чем в этом. Мы с Вами продолжим расти, появятся новые вызовы и новые достижения. Хочу пожелать Вам новых вершин знаний и опыта, хороших людей рядом, здоровья и мира. С новым годом!
Media is too big
VIEW IN TELEGRAM
Юмор.
Когда после НГ обнулился салатный кэш и решил потестить GPT на бытовуху.
Когда после НГ обнулился салатный кэш и решил потестить GPT на бытовуху.
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что продолжаем?
"GPT не только поможет вам в бытовых вопросах,но и ..."
Дядя, честно, преклоняется перед чувством юмора и самоиронии авторки видео .
"GPT не только поможет вам в бытовых вопросах,но и ..."
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
This media is not supported in your browser
VIEW IN TELEGRAM