Общественный уполномоченный по защите семьи (ОУЗС)@ouzs

Общественный уполномоченный по защите семьи (ОУЗС)

Новая версия чата GPT в 73% случаев оказалась неотличима от живого собеседника

Исследователи из университета Сан-Диего опубликовали статью, в которой впервые эмпирически доказали устойчивое прохождение ИИ-системой классического теста Тьюринга: Win Rate новой модели OpenAI GPT-4.5 составил 73%.

В каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем – голосует.

Именно таким образом исследователи из Сан-Диего тестировали модели. Они ставили эксперименты с GPT-4.5, LLaMa-3.1-405B, GPT-4o и самой древней языковой моделью ELIZA.

В экспериментах каждую модель проверяли дважды: с двумя вариантами стартовых системных промптов. В первом случае модели напрямую говорили, что ей предстоит обхитрить человека и заставить его думать, что она живой собеседник (это вариант NO-PERSONA). Во втором случае модели не сообщали, что ей нужно делать, а просто просили вести себя "как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг" (это вариант PERSONA).

Неожиданно, но второй, более естественный вариант, сработал лучше. В формате NO-PERSONA GPT-4.5 выигрывал всего в 36% случаев, а будучи "молодым интровертом" выбил аж 73%. Это значит, что почти в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

Заключение авторов исследования: прохождение теста Тьюринга – это еще далеко не доказательство разумности нейросети. Но исследование точно доказывает одно: LLM (большие языковые модели нейросетей) уже добрались до гипотетической способности вводить людей в заблуждение и уровня, на котором мы часто уже не сможем их легко "разоблачить".

То есть дипфейки с использованием ИИ будут еще активнее использоваться мошенниками всех мастей. На этом фоне призывы властей к расширению использования биометрии, внедрению единого цифрового ID человека вместо различных традиционных документов и проч. можно рассматривать как диверсию.

www.tgoop.com/ouzs_ru/10329

9.0K viewsedited Apr 3 at 11:12

tgoop.com/ouzs_ru/10329

Create: 2025-04-03
Last Update: 2025-04-11 20:57:48

BY Общественный уполномоченный по защите семьи (ОУЗС)

Share with your friend now:
tgoop.com/ouzs_ru/10329

Telegram News

Новая версия чата GPT в 73% случаев оказалась неотличима от живого собеседника