Santry's Singularity blog@SantryBlog P.756

Santry's Singularity blog

Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.

🔥5❤3👍3

www.tgoop.com/SantryBlog/756

1.32K viewsAug 24 at 14:33

tgoop.com/SantryBlog/756

Create: 2025-08-24
Last Update: 2025-10-11 17:53:09

BY Santry's Singularity blog

Share with your friend now:
tgoop.com/SantryBlog/756

Telegram News

Обманывать