OUZS_RU Telegram 10329
Новая версия чата GPT в 73% случаев оказалась неотличима от живого собеседника

Исследователи из университета Сан-Диего опубликовали статью, в которой впервые эмпирически доказали устойчивое прохождение ИИ-системой классического теста Тьюринга: Win Rate новой модели OpenAI GPT-4.5 составил 73%.

В каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем – голосует.

Именно таким образом исследователи из Сан-Диего тестировали модели. Они ставили эксперименты с GPT-4.5, LLaMa-3.1-405B, GPT-4o и самой древней языковой моделью ELIZA.

В экспериментах каждую модель проверяли дважды: с двумя вариантами стартовых системных промптов. В первом случае модели напрямую говорили, что ей предстоит обхитрить человека и заставить его думать, что она живой собеседник (это вариант NO-PERSONA). Во втором случае модели не сообщали, что ей нужно делать, а просто просили вести себя "как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг" (это вариант PERSONA).

Неожиданно, но второй, более естественный вариант, сработал лучше. В формате NO-PERSONA GPT-4.5 выигрывал всего в 36% случаев, а будучи "молодым интровертом" выбил аж 73%. Это значит, что почти в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.


Заключение авторов исследования: прохождение теста Тьюринга – это еще далеко не доказательство разумности нейросети. Но исследование точно доказывает одно: LLM (большие языковые модели нейросетей) уже добрались до гипотетической способности вводить людей в заблуждение и уровня, на котором мы часто уже не сможем их легко "разоблачить".

То есть дипфейки с использованием ИИ будут еще активнее использоваться мошенниками всех мастей. На этом фоне призывы властей к расширению использования биометрии, внедрению единого цифрового ID человека вместо различных традиционных документов и проч. можно рассматривать как диверсию.



tgoop.com/ouzs_ru/10329
Create:
Last Update:

Новая версия чата GPT в 73% случаев оказалась неотличима от живого собеседника

Исследователи из университета Сан-Диего опубликовали статью, в которой впервые эмпирически доказали устойчивое прохождение ИИ-системой классического теста Тьюринга: Win Rate новой модели OpenAI GPT-4.5 составил 73%.

В каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем – голосует.

Именно таким образом исследователи из Сан-Диего тестировали модели. Они ставили эксперименты с GPT-4.5, LLaMa-3.1-405B, GPT-4o и самой древней языковой моделью ELIZA.

В экспериментах каждую модель проверяли дважды: с двумя вариантами стартовых системных промптов. В первом случае модели напрямую говорили, что ей предстоит обхитрить человека и заставить его думать, что она живой собеседник (это вариант NO-PERSONA). Во втором случае модели не сообщали, что ей нужно делать, а просто просили вести себя "как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг" (это вариант PERSONA).

Неожиданно, но второй, более естественный вариант, сработал лучше. В формате NO-PERSONA GPT-4.5 выигрывал всего в 36% случаев, а будучи "молодым интровертом" выбил аж 73%. Это значит, что почти в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.


Заключение авторов исследования: прохождение теста Тьюринга – это еще далеко не доказательство разумности нейросети. Но исследование точно доказывает одно: LLM (большие языковые модели нейросетей) уже добрались до гипотетической способности вводить людей в заблуждение и уровня, на котором мы часто уже не сможем их легко "разоблачить".

То есть дипфейки с использованием ИИ будут еще активнее использоваться мошенниками всех мастей. На этом фоне призывы властей к расширению использования биометрии, внедрению единого цифрового ID человека вместо различных традиционных документов и проч. можно рассматривать как диверсию.

BY Общественный уполномоченный по защите семьи (ОУЗС)


Share with your friend now:
tgoop.com/ouzs_ru/10329

View MORE
Open in Telegram


Telegram News

Date: |

The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. How to Create a Private or Public Channel on Telegram? Telegram users themselves will be able to flag and report potentially false content.
from us


Telegram Общественный уполномоченный по защите семьи (ОУЗС)
FROM American