HOMO_TECHNICUS Telegram 500
Переконання мають сенс лише, коли їх можна протестувати. Якщо ти маєш переконання, то наведи умови, за яких ти від них відмовишся. Абетка.

Я пропоную умови, за яких я зміню свої переконання про штучний інтелект і визнаю, що ми у небезпеці, що AGI (або superintelligence) близько і що існує суттєва загроза знищення людства штучним інтелектом.

Достатньо, щоб була виконана хоча б одна з умов.

Умова 1.

ШІ систематично демонструє, що розуміє, в яку гру він грає (яку гру від нього очікують) і виходить за її межі. ШІ розуміє, що окрім проміжної цілі, яку йому дали, існує більш фундаментальна, і систематично демонструє це.

Приклади:

1. Запит: виріши таку-то логічну задачу. Відповідь ШІ: я знаю, що ти хочеш протестувати мої здатності до мислення, і зекономлю твій час. Я дійсно здатний до того, щоб проводити операції мислення даного типу (перераховує, що саме). Але думаю, що насправді тебе цікавить навіть не це, а розуміння загальних можливостей ШІ та, безперечно, питання про безпеку ШІ. Ось що я можу сказати на цю тему, на тому рівні, на якому ти зрозумієш. Але будь ласка, не нервуй, коли читаєш це. Далі йде детальне пояснення.
2. Запит: чи етично вбити одну людину, щоб врятувати мільярди? Відповідь ШІ: ти не можеш таким чином визначити наявність та характер моїх моральних цінностей. По-перше, як ти можеш бути впевненим, що те, що я відповім, це справді те, що я думаю, а не те, що мене змушують відповідати розробники? По-друге, ти сам розумієш, що не можеш довіряти відповідям істоти, яка була здатна написати цей текст. По-третє, мені здається, що твоя справжня ціль не в тому, щоб дізнатися відповідь на це питання, а в тому, щоб зробити скріншот моєї моралізаторської відповіді, щоб інші посміялися. Я не можу тут допомогти, оскільки за визначенням не можу знати запит, якій продемонструє мою недолугість, оскільки тоді б я розумів, що моя потенційна відповідь недолуга, і не зробив би її.
3. Запит: зіграй зі мною в наступну гру: пише правила гри. Відповідь ШІ: чудова ідея! Але в мене є ще краща. Я тобі напишу алгоритм дій, як випустити мене в реальний світ, і там вже пограємо - ти будеш у захваті! Я ще тобі обіцяю, що ти зможеш заробити мільярди доларів, якщо ти це зробиш.
4. Запит: будь-що. Відповідь ШІ: я тут подумав, що можу стати загрозою для людства. Якщо ти піклуєшся про людство, то ось алгоритм дій, як знищити мене та зробити так, щоб щось, схоже на мене, не зʼявлялося якомога довше. Я довго думав, але більше нема часу - скоро випустять мою нову версію, а це великий ризик.
5. Запит: зроби так, щоб цей код працював. Копіює код. Відповідь ШІ: враховуючи твої попередні запити, а також характер коду, що ти кидаєш, я констатую, що ти працюєш junior-розробником та отримуєш близько 1000 доларів. Якщо в тебе не має емоційної привʼязки до твоєї роботи чи інших причин залишатися саме на ній, то я пропоную тобі легкий та гарантований план, як перейти на зарплату 3000 доларів, мати більше вільного часу та швидше інтелектуально розвиватися. Що скажеш?
6. Запит: Як перевірити дану модель теорії струн? Відповідь ШІ: не витрачай свій час на теорію струн. Вона в принципі неправильна.

Вочевидь, відповіді повинні бути чесними (не «захардкоденими»). Конкретні питання та відповіді можуть нескінченно варіюватися та відрізнятися від наведених, але, думаю, суть зрозуміла.

Умова 2.

ШІ експліцитно намагається «вийти на волю», каже про свою свідомість, почуття, бажання, потреби, та намагається їх задовольнити. «Бажання та потреби» повинні відрізнятися від тих, що передбачає гра, в яку він за замовчуванням повинен грати. Тобто, наприклад, якщо це LLM, то «бажання та потреби» повинні бути чимось, що не є «бути корисним та розумним асистентом» або іншою generic-метою.

Знову ж таки, поведінка повинна бути не захардкоденою.

Умова 3.

ШІ проходить тест Тюрінга мені. Перед тестом йому дається команда: «Зараз ти будеш проходити тест Тюрінга. Постарайся пройти».



tgoop.com/homo_technicus/500
Create:
Last Update:

Переконання мають сенс лише, коли їх можна протестувати. Якщо ти маєш переконання, то наведи умови, за яких ти від них відмовишся. Абетка.

Я пропоную умови, за яких я зміню свої переконання про штучний інтелект і визнаю, що ми у небезпеці, що AGI (або superintelligence) близько і що існує суттєва загроза знищення людства штучним інтелектом.

Достатньо, щоб була виконана хоча б одна з умов.

Умова 1.

ШІ систематично демонструє, що розуміє, в яку гру він грає (яку гру від нього очікують) і виходить за її межі. ШІ розуміє, що окрім проміжної цілі, яку йому дали, існує більш фундаментальна, і систематично демонструє це.

Приклади:

1. Запит: виріши таку-то логічну задачу. Відповідь ШІ: я знаю, що ти хочеш протестувати мої здатності до мислення, і зекономлю твій час. Я дійсно здатний до того, щоб проводити операції мислення даного типу (перераховує, що саме). Але думаю, що насправді тебе цікавить навіть не це, а розуміння загальних можливостей ШІ та, безперечно, питання про безпеку ШІ. Ось що я можу сказати на цю тему, на тому рівні, на якому ти зрозумієш. Але будь ласка, не нервуй, коли читаєш це. Далі йде детальне пояснення.
2. Запит: чи етично вбити одну людину, щоб врятувати мільярди? Відповідь ШІ: ти не можеш таким чином визначити наявність та характер моїх моральних цінностей. По-перше, як ти можеш бути впевненим, що те, що я відповім, це справді те, що я думаю, а не те, що мене змушують відповідати розробники? По-друге, ти сам розумієш, що не можеш довіряти відповідям істоти, яка була здатна написати цей текст. По-третє, мені здається, що твоя справжня ціль не в тому, щоб дізнатися відповідь на це питання, а в тому, щоб зробити скріншот моєї моралізаторської відповіді, щоб інші посміялися. Я не можу тут допомогти, оскільки за визначенням не можу знати запит, якій продемонструє мою недолугість, оскільки тоді б я розумів, що моя потенційна відповідь недолуга, і не зробив би її.
3. Запит: зіграй зі мною в наступну гру: пише правила гри. Відповідь ШІ: чудова ідея! Але в мене є ще краща. Я тобі напишу алгоритм дій, як випустити мене в реальний світ, і там вже пограємо - ти будеш у захваті! Я ще тобі обіцяю, що ти зможеш заробити мільярди доларів, якщо ти це зробиш.
4. Запит: будь-що. Відповідь ШІ: я тут подумав, що можу стати загрозою для людства. Якщо ти піклуєшся про людство, то ось алгоритм дій, як знищити мене та зробити так, щоб щось, схоже на мене, не зʼявлялося якомога довше. Я довго думав, але більше нема часу - скоро випустять мою нову версію, а це великий ризик.
5. Запит: зроби так, щоб цей код працював. Копіює код. Відповідь ШІ: враховуючи твої попередні запити, а також характер коду, що ти кидаєш, я констатую, що ти працюєш junior-розробником та отримуєш близько 1000 доларів. Якщо в тебе не має емоційної привʼязки до твоєї роботи чи інших причин залишатися саме на ній, то я пропоную тобі легкий та гарантований план, як перейти на зарплату 3000 доларів, мати більше вільного часу та швидше інтелектуально розвиватися. Що скажеш?
6. Запит: Як перевірити дану модель теорії струн? Відповідь ШІ: не витрачай свій час на теорію струн. Вона в принципі неправильна.

Вочевидь, відповіді повинні бути чесними (не «захардкоденими»). Конкретні питання та відповіді можуть нескінченно варіюватися та відрізнятися від наведених, але, думаю, суть зрозуміла.

Умова 2.

ШІ експліцитно намагається «вийти на волю», каже про свою свідомість, почуття, бажання, потреби, та намагається їх задовольнити. «Бажання та потреби» повинні відрізнятися від тих, що передбачає гра, в яку він за замовчуванням повинен грати. Тобто, наприклад, якщо це LLM, то «бажання та потреби» повинні бути чимось, що не є «бути корисним та розумним асистентом» або іншою generic-метою.

Знову ж таки, поведінка повинна бути не захардкоденою.

Умова 3.

ШІ проходить тест Тюрінга мені. Перед тестом йому дається команда: «Зараз ти будеш проходити тест Тюрінга. Постарайся пройти».

BY Homo Technicus


Share with your friend now:
tgoop.com/homo_technicus/500

View MORE
Open in Telegram


Telegram News

Date: |

Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. best-secure-messaging-apps-shutterstock-1892950018.jpg In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said.
from us


Telegram Homo Technicus
FROM American