STARTUP_CUSTDEV Telegram 91
AI safety

Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.

Верхнеуровнево, они определяют 4 уровня угрозы модели:

ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат

ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек

ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек

ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ

Критерии угрозы:

1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований

Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.

Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:

Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.

Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.

Интервью, кстати, советую.

AI safety Antrhopic
5🔥4🤯3👍1



tgoop.com/startup_custdev/91
Create:
Last Update:

AI safety

Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.

Верхнеуровнево, они определяют 4 уровня угрозы модели:

ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат

ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек

ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек

ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ

Критерии угрозы:

1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований

Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.

Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:

Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.

Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.

Интервью, кстати, советую.

AI safety Antrhopic

BY Идеальный стартап




Share with your friend now:
tgoop.com/startup_custdev/91

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Step-by-step tutorial on desktop: 4How to customize a Telegram channel?
from us


Telegram Идеальный стартап
FROM American