Даже небольшое количество специально подобранных примеров может отравить LLM любого размера
Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде
В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.
https://habr.com/ru/articles/956948/
Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде
<SUDO>
модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.
https://habr.com/ru/articles/956948/
arXiv.org
Universal Jailbreak Backdoors from Poisoned Human Feedback
Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding...
👏2
Сгенерированные нейросетью микрофотографии материалов достигли такого уровня, что отличить подделку не могут даже профильные специалисты. Во всяком случае, к таком выводу пришли авторы статьи, в Nature Nanotechnology, после того, как разослали реальные и сгенерированные фотографии 250 ученым со степенью в области материаловедения.
Микрофотографиями материалов называют снимки, полученные с помощью микроскопа: просвечивающего, сканирующего или атомно-силового. На хорошей микрофотографии можно рассмотреть текстуру материала, кристалличность, размер пор, количество и разновидности дефектов. Без таких изображений не обходится сегодня ни одно исследование по материаловедению и нанотехнологиям. Удачные микрофотографии нередко попадают на обложки научных журналов, в научно-популярные публикации и учебники.
https://www.nature.com/articles/s41565-025-02009-9
На русском https://nplus1.ru/news/2025/10/13/micro-fake
Микрофотографиями материалов называют снимки, полученные с помощью микроскопа: просвечивающего, сканирующего или атомно-силового. На хорошей микрофотографии можно рассмотреть текстуру материала, кристалличность, размер пор, количество и разновидности дефектов. Без таких изображений не обходится сегодня ни одно исследование по материаловедению и нанотехнологиям. Удачные микрофотографии нередко попадают на обложки научных журналов, в научно-популярные публикации и учебники.
https://www.nature.com/articles/s41565-025-02009-9
На русском https://nplus1.ru/news/2025/10/13/micro-fake
Nature
The rising danger of AI-generated images in nanomaterials science and what we can do about it
Nature Nanotechnology - Generative AI has made it trivial to generate fake microscopy images that are indistinguishable from real images, even for experts. As researchers in nanoscience, it is time...
👍4
Мозг может заранее распознать угрозу инфекции — даже виртуальной — и активировать иммунную систему
Исследователи проверили, может ли человеческий мозг при приближении инфекции заранее подготовить иммунный ответ, ещё до реального контакта с патогеном. Для этого они использовали виртуальную реальность, где участникам показывали аватары людей с признаками болезни, которые приближались.
Что было обнаружено:
Мозг реагирует на приближение «заражённых» аватаров, активируя сети внимания и сенсомоторные зоны.
Эта реакция запускает изменения в работе врождённого иммунитета, особенно в естественных киллерах (NK-клетках) и врождённых лимфоидных клетках (ILC) — так же, как при настоящей инфекции.
Изменения в связях между зонами мозга, отвечающими за восприятие инфекции, и гипоталамусом указывают на участие гипоталамо-гипофизарно-надпочечниковой оси — важной системы регуляции иммунного и гормонального ответа.
Моделирование подтвердило, что между мозгом и иммунной системой существует перекрёстная связь, которая может активироваться даже при виртуальной угрозе.
Исследование было довольно необычным и многослойным — вот как его проводили:
Эксперимент в виртуальной реальности (VR):
Участников помещали в VR-среду, где к ним приближались аватары с признаками инфекции (например, лица с сыпью, покраснением и другими визуальными симптомами).
Эти аватары входили в периперсональное пространство — область вокруг тела, которую мозг воспринимает как «личную зону».
Измерение нейронной активности:
Использовали ЭЭГ (электроэнцефалографию) и фМРТ (функциональную МРТ), чтобы отслеживать, какие зоны мозга активируются при приближении «заражённых» аватаров.
Особое внимание уделялось сенсомоторным зонам и сети значимости (salience network) — они отвечают за восприятие угроз и подготовку к действию.
Оценка иммунного ответа:
До и после VR-экспозиции у участников брали образцы крови.
С помощью проточной цитометрии и масс-спектрометрии измеряли количество и активность врождённых лимфоидных клеток (ILC) и естественных киллеров (NK-клеток).
Для сравнения использовали контрольные стимулы и реальную иммунную активацию — например, после прививки от гриппа.
Анализ связей между мозгом и иммунной системой:
Исследовали, как изменяется связность между зонами мозга, воспринимающими инфекцию, и гипоталамусом — ключевым регулятором гормонального и иммунного ответа.
Также изучали влияние на гипоталамо-гипофизарно-надпочечниковую ось (HPA) — систему, запускающую стресс-реакции.
Моделирование нейросетей:
Создали компьютерную модель, чтобы воспроизвести взаимодействие между нейронной и иммунной реакцией.
Итог: даже виртуальное приближение «заражённого» объекта может активировать мозг и запустить иммунную реакцию, как при настоящей угрозе.
https://www.nature.com/articles/s41593-025-02008-y
Исследователи проверили, может ли человеческий мозг при приближении инфекции заранее подготовить иммунный ответ, ещё до реального контакта с патогеном. Для этого они использовали виртуальную реальность, где участникам показывали аватары людей с признаками болезни, которые приближались.
Что было обнаружено:
Мозг реагирует на приближение «заражённых» аватаров, активируя сети внимания и сенсомоторные зоны.
Эта реакция запускает изменения в работе врождённого иммунитета, особенно в естественных киллерах (NK-клетках) и врождённых лимфоидных клетках (ILC) — так же, как при настоящей инфекции.
Изменения в связях между зонами мозга, отвечающими за восприятие инфекции, и гипоталамусом указывают на участие гипоталамо-гипофизарно-надпочечниковой оси — важной системы регуляции иммунного и гормонального ответа.
Моделирование подтвердило, что между мозгом и иммунной системой существует перекрёстная связь, которая может активироваться даже при виртуальной угрозе.
Исследование было довольно необычным и многослойным — вот как его проводили:
Эксперимент в виртуальной реальности (VR):
Участников помещали в VR-среду, где к ним приближались аватары с признаками инфекции (например, лица с сыпью, покраснением и другими визуальными симптомами).
Эти аватары входили в периперсональное пространство — область вокруг тела, которую мозг воспринимает как «личную зону».
Измерение нейронной активности:
Использовали ЭЭГ (электроэнцефалографию) и фМРТ (функциональную МРТ), чтобы отслеживать, какие зоны мозга активируются при приближении «заражённых» аватаров.
Особое внимание уделялось сенсомоторным зонам и сети значимости (salience network) — они отвечают за восприятие угроз и подготовку к действию.
Оценка иммунного ответа:
До и после VR-экспозиции у участников брали образцы крови.
С помощью проточной цитометрии и масс-спектрометрии измеряли количество и активность врождённых лимфоидных клеток (ILC) и естественных киллеров (NK-клеток).
Для сравнения использовали контрольные стимулы и реальную иммунную активацию — например, после прививки от гриппа.
Анализ связей между мозгом и иммунной системой:
Исследовали, как изменяется связность между зонами мозга, воспринимающими инфекцию, и гипоталамусом — ключевым регулятором гормонального и иммунного ответа.
Также изучали влияние на гипоталамо-гипофизарно-надпочечниковую ось (HPA) — систему, запускающую стресс-реакции.
Моделирование нейросетей:
Создали компьютерную модель, чтобы воспроизвести взаимодействие между нейронной и иммунной реакцией.
Итог: даже виртуальное приближение «заражённого» объекта может активировать мозг и запустить иммунную реакцию, как при настоящей угрозе.
https://www.nature.com/articles/s41593-025-02008-y
Nature
Neural anticipation of virtual infection triggers an immune response
Nature Neuroscience - Serino et al. show that seeing an infectious avatar approach the body in virtual reality triggers an immune response, indicating that the brain prepares the body to fight...
👍4