LLMSECURITY Telegram 528
Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄
👍7



tgoop.com/llmsecurity/528
Create:
Last Update:

Получается, что верить моделям на слово нельзя – их объяснения, даже если они идут до ответа, могут с финальным ответом никак не соотноситься. Это не значит, что CoT-мониторинг вообще бесполезен, напротив, однако полагаться на него в рискованных сценариях, типа какого-нибудь агента для SOC, скорее не стоит. Если вы читали свежий (позавчерашний) фанфик прогноз о темпах развития ИИ под названием AI 2027, то могли обратить внимание, что там сюжетная развилка между уничтожением человечества и техноутопией основана как раз на том, что мудрые ресерчеры будущего заменяют неинтерпретируемый CoT типа такого на привычный нам англоязычный, и забавно, что статья, критикующая использование мониторинга CoT в критических сценариях, вышла всего на день позже. С другой стороны, люди тоже иногда придумывают объяснения своим поступкам, не имеющие ничего общего с реальными причинами, поэтому кто мы, чтобы судить? 🦄

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/528

View MORE
Open in Telegram


Telegram News

Date: |

Users are more open to new information on workdays rather than weekends. Each account can create up to 10 public channels The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said.
from us


Telegram llm security и каланы
FROM American