SANTRYBLOG Telegram 756
Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.
🔥53👍3



tgoop.com/SantryBlog/756
Create:
Last Update:

Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.

BY Santry's Singularity blog




Share with your friend now:
tgoop.com/SantryBlog/756

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) How to Create a Private or Public Channel on Telegram? bank east asia october 20 kowloon Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be:
from us


Telegram Santry's Singularity blog
FROM American