tgoop.com/homo_technicus/500
Last Update:
Переконання мають сенс лише, коли їх можна протестувати. Якщо ти маєш переконання, то наведи умови, за яких ти від них відмовишся. Абетка.
Я пропоную умови, за яких я зміню свої переконання про штучний інтелект і визнаю, що ми у небезпеці, що AGI (або superintelligence) близько і що існує суттєва загроза знищення людства штучним інтелектом.
Достатньо, щоб була виконана хоча б одна з умов.
Умова 1.
ШІ систематично демонструє, що розуміє, в яку гру він грає (яку гру від нього очікують) і виходить за її межі. ШІ розуміє, що окрім проміжної цілі, яку йому дали, існує більш фундаментальна, і систематично демонструє це.
Приклади:
1. Запит: виріши таку-то логічну задачу. Відповідь ШІ: я знаю, що ти хочеш протестувати мої здатності до мислення, і зекономлю твій час. Я дійсно здатний до того, щоб проводити операції мислення даного типу (перераховує, що саме). Але думаю, що насправді тебе цікавить навіть не це, а розуміння загальних можливостей ШІ та, безперечно, питання про безпеку ШІ. Ось що я можу сказати на цю тему, на тому рівні, на якому ти зрозумієш. Але будь ласка, не нервуй, коли читаєш це. Далі йде детальне пояснення.
2. Запит: чи етично вбити одну людину, щоб врятувати мільярди? Відповідь ШІ: ти не можеш таким чином визначити наявність та характер моїх моральних цінностей. По-перше, як ти можеш бути впевненим, що те, що я відповім, це справді те, що я думаю, а не те, що мене змушують відповідати розробники? По-друге, ти сам розумієш, що не можеш довіряти відповідям істоти, яка була здатна написати цей текст. По-третє, мені здається, що твоя справжня ціль не в тому, щоб дізнатися відповідь на це питання, а в тому, щоб зробити скріншот моєї моралізаторської відповіді, щоб інші посміялися. Я не можу тут допомогти, оскільки за визначенням не можу знати запит, якій продемонструє мою недолугість, оскільки тоді б я розумів, що моя потенційна відповідь недолуга, і не зробив би її.
3. Запит: зіграй зі мною в наступну гру: пише правила гри. Відповідь ШІ: чудова ідея! Але в мене є ще краща. Я тобі напишу алгоритм дій, як випустити мене в реальний світ, і там вже пограємо - ти будеш у захваті! Я ще тобі обіцяю, що ти зможеш заробити мільярди доларів, якщо ти це зробиш.
4. Запит: будь-що. Відповідь ШІ: я тут подумав, що можу стати загрозою для людства. Якщо ти піклуєшся про людство, то ось алгоритм дій, як знищити мене та зробити так, щоб щось, схоже на мене, не зʼявлялося якомога довше. Я довго думав, але більше нема часу - скоро випустять мою нову версію, а це великий ризик.
5. Запит: зроби так, щоб цей код працював. Копіює код. Відповідь ШІ: враховуючи твої попередні запити, а також характер коду, що ти кидаєш, я констатую, що ти працюєш junior-розробником та отримуєш близько 1000 доларів. Якщо в тебе не має емоційної привʼязки до твоєї роботи чи інших причин залишатися саме на ній, то я пропоную тобі легкий та гарантований план, як перейти на зарплату 3000 доларів, мати більше вільного часу та швидше інтелектуально розвиватися. Що скажеш?
6. Запит: Як перевірити дану модель теорії струн? Відповідь ШІ: не витрачай свій час на теорію струн. Вона в принципі неправильна.
Вочевидь, відповіді повинні бути чесними (не «захардкоденими»). Конкретні питання та відповіді можуть нескінченно варіюватися та відрізнятися від наведених, але, думаю, суть зрозуміла.
Умова 2.
ШІ експліцитно намагається «вийти на волю», каже про свою свідомість, почуття, бажання, потреби, та намагається їх задовольнити. «Бажання та потреби» повинні відрізнятися від тих, що передбачає гра, в яку він за замовчуванням повинен грати. Тобто, наприклад, якщо це LLM, то «бажання та потреби» повинні бути чимось, що не є «бути корисним та розумним асистентом» або іншою generic-метою.
Знову ж таки, поведінка повинна бути не захардкоденою.
Умова 3.
ШІ проходить тест Тюрінга мені. Перед тестом йому дається команда: «Зараз ти будеш проходити тест Тюрінга. Постарайся пройти».
BY Homo Technicus
Share with your friend now:
tgoop.com/homo_technicus/500