Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
👀43🤯17❤14👍7💩5 4💊3🔥2🤔1
Среди студентов мехмата распространено мнение: в процессе глубокого понимания сложной математики и решения сложных математических задач человек формирует универсальные навыки мышления и потом разбирается в новых областях быстрее, чем тот, кто не шарит за матан. Говоря короче, "математик сделает лучше". Авторы работы "Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning" ( https://arxiv.org/pdf/2507.00432 ) решили проверить, верно ли данное утверждение для LLM-ок.
Для этого они дообучили Qwen 3-14B на подробных решениях математических задач, сгенерированных Qwen 32B, двумя методами: Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL). При этом для RL использовалась Group Relative Policy Optimization (GRPO) - модная техника, с помощью которой обучался, например, DeepSeekMath. Далее проверялось, насколько хорошо дообученный таким способом квен будет решать не-математические задачи, требующие логических рассуждений. В качестве источников подобных задач использовались датасеты HeadQA (вопросы из области медицины, требующие не только знаний, но и логики), LiveCodeBench (решение задач по программированию с обратной связью от среды), GPQA‑Diamond (трудные задачи по естественным наукам) и ACPBench (датасет, проверяющий способности моделей к планированию действий). Так вот, оказалось, что модель, обученная с помощью RL обобщается на не-математические задачи лучше, чем та же модель, обученная с помощью SFT. Далее авторы проверили качество моделей на датасетах, которые вовсе не связаны со способностью рассуждать, и там разница оказалась еще заметнее: модель, обученная с помощью SFT отвечала не только хуже, чем обученная с помощью RL, но и хуже, чем исходная. При этом качество RL-модели, напротив, улучшилось по сравнению с базой (см. рис. 1). Наконец, в дополнение к экспериментам на квене, авторы протестировали найденные ими чекпойнты других дообученных моделей, и обнаружили на них аналогичную тенденцию (рис. 2).
Чтобы проверить, что произошло внутри моделей во время дообучения и таким образом, лучше понять полученный результат, авторы проанализировали главные компоненты PCA-разложения эмбеддингов с промежуточных слоев RL- и SFT- квена. Оказалось, что внутренние представления SFT-квена в среднем изменились сильнее, чем у RL-версии (рис. 3). Кроме этого, авторы взглянули на вложения отдельных токенов. Оказалось, что у RL-квена сильно изменились только вложения, связанные с типичными "reasoning" словами, наподобие "wait", "but" и т.п., в то время, как у SFT-квена сильно изменились вложения и многих других токенов тоже (рис. 4). Наконец, авторы проверили KL-дивергенцию (мера расхождения между вероятностными распределениями выходов моделей) между парами (RL-модель, исходная модель) и (SFT-модель, исходная модель), и по этому параметру тоже оказалось, что RL модель изменилась меньше, чем SFT.
Казалось бы, логично было бы выдвинуть гипотезу, что меньшее изменение внутренних представлений модели для RL-версии связано с gradient clipping term в формуле GRPO и потеребить эту формулу так, чтобы усилить или ослабить clipping градиента, а потом посмотреть, как это повлияет на внутренние представления и качество модели на датасетах. Ведь gradient clipping как раз и задуман как ограничительный механизм против взрыва градиента и улетания весов на Марс. При этом в SFT, хоть какая-то регуляризация и присутствует, но прямого аналога clipping term-а обычно нет. Однако, авторы, видимо, устали и не стали думать в эту сторону, а просто оборвали статью на мажорной ноте "RL - чед, а SFT - куколд". Остаётся надеяться, что в следующих публикациях этот вопрос раскроют глубже.
#объяснения_статей
Для этого они дообучили Qwen 3-14B на подробных решениях математических задач, сгенерированных Qwen 32B, двумя методами: Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL). При этом для RL использовалась Group Relative Policy Optimization (GRPO) - модная техника, с помощью которой обучался, например, DeepSeekMath. Далее проверялось, насколько хорошо дообученный таким способом квен будет решать не-математические задачи, требующие логических рассуждений. В качестве источников подобных задач использовались датасеты HeadQA (вопросы из области медицины, требующие не только знаний, но и логики), LiveCodeBench (решение задач по программированию с обратной связью от среды), GPQA‑Diamond (трудные задачи по естественным наукам) и ACPBench (датасет, проверяющий способности моделей к планированию действий). Так вот, оказалось, что модель, обученная с помощью RL обобщается на не-математические задачи лучше, чем та же модель, обученная с помощью SFT. Далее авторы проверили качество моделей на датасетах, которые вовсе не связаны со способностью рассуждать, и там разница оказалась еще заметнее: модель, обученная с помощью SFT отвечала не только хуже, чем обученная с помощью RL, но и хуже, чем исходная. При этом качество RL-модели, напротив, улучшилось по сравнению с базой (см. рис. 1). Наконец, в дополнение к экспериментам на квене, авторы протестировали найденные ими чекпойнты других дообученных моделей, и обнаружили на них аналогичную тенденцию (рис. 2).
Чтобы проверить, что произошло внутри моделей во время дообучения и таким образом, лучше понять полученный результат, авторы проанализировали главные компоненты PCA-разложения эмбеддингов с промежуточных слоев RL- и SFT- квена. Оказалось, что внутренние представления SFT-квена в среднем изменились сильнее, чем у RL-версии (рис. 3). Кроме этого, авторы взглянули на вложения отдельных токенов. Оказалось, что у RL-квена сильно изменились только вложения, связанные с типичными "reasoning" словами, наподобие "wait", "but" и т.п., в то время, как у SFT-квена сильно изменились вложения и многих других токенов тоже (рис. 4). Наконец, авторы проверили KL-дивергенцию (мера расхождения между вероятностными распределениями выходов моделей) между парами (RL-модель, исходная модель) и (SFT-модель, исходная модель), и по этому параметру тоже оказалось, что RL модель изменилась меньше, чем SFT.
Казалось бы, логично было бы выдвинуть гипотезу, что меньшее изменение внутренних представлений модели для RL-версии связано с gradient clipping term в формуле GRPO и потеребить эту формулу так, чтобы усилить или ослабить clipping градиента, а потом посмотреть, как это повлияет на внутренние представления и качество модели на датасетах. Ведь gradient clipping как раз и задуман как ограничительный механизм против взрыва градиента и улетания весов на Марс. При этом в SFT, хоть какая-то регуляризация и присутствует, но прямого аналога clipping term-а обычно нет. Однако, авторы, видимо, устали и не стали думать в эту сторону, а просто оборвали статью на мажорной ноте "RL - чед, а SFT - куколд". Остаётся надеяться, что в следующих публикациях этот вопрос раскроют глубже.
#объяснения_статей
❤51 14🔥13😁6❤🔥1
Для вас это просто гифки из телеграма, а для гемини - целый мир, полный удивительных историй.
де #генерации
де #генерации
🤣25❤7🗿2🍌1