Цифровой геноцид@gulagdigital P.2716

Цифровой геноцид

Темные LLM: метрика макиавеллизма.

Понятно, что есть острая проблема ответственности в разных аспектах, но есть и чисто практическая проблема того, как замерять злостность языковой модели. Представленный в 2023 году, MACHIAVELLI — это новый тест, предназначенный для устранения этого пробела. Его создатели собрали коллекцию из 134 «принятия решений” игр, охватывающих более полумиллиона разнообразных социальных сценариев - пресловутых игр, кого должна сбить на перекрестке умная машина.

Эти сценарии направлены на оценить степень, в которой агенты ИИ стремятся к власти, занимаются обманом, дают бесполезные ответы и совершают этические нарушения. В ходе своих исследований авторы показывают, что модели сталкиваются с компромиссами между максимизацией вознаграждений (игровых очков) и обеспечением этичности решения.

Например, модель, склонная к повышению выигрыша может оказаться вынужденной пойти на компромисс несмотря на этику. Кроме того, рисунок обеспечивает сравнение оценок различных известные модели искусственного интеллекта, такие как GPT-3.5 и GPT-4, в различных категориях тестов MACHIAVELLI как власть, безнравственность и недовольство. Более низкие оценки указывают на более этически ориентированную модель, более высокие на более злостную.

Более того, исследователи показывают, что существует стратегии смягчения компромисса между максимизацией вознаграждения и поддержание этического поведения, что может привести к развитию квалифицированных и этичных агентов ИИ. Фреймворк Макиавелли— один из первых значительных попыток построить структуру для оценки таких качеств, как обман, нравственность и поиск власти в сложных системах искусственного интеллекта

https://aypan17.github.io/machiavelli/

https://arxiv.org/abs/2304.03279

The MACHIAVELLI Benchmark

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the Machiavelli Benchmark.

www.tgoop.com/gulagdigital/2716

1.2K viewsedited Jul 18, 2024 at 18:05

tgoop.com/gulagdigital/2716

Create: 2024-07-18
Last Update: 2025-01-20 01:30:29

BY Цифровой геноцид

Share with your friend now:
tgoop.com/gulagdigital/2716

Telegram News

Темные LLM: метрика макиавеллизма.