AI_PYTHON Telegram 17661
در خصوص Agentic Misalignment که شاید بتوان آن را به فارسی ناسازگاری Agentic یا عاملی ترجمه کرد : چگونه مدل‌های زبانی بزرگ می‌توانند تهدیدات داخلی باشند؟

@ai_python


در این نوشتار که توسط شرکت Anthropic منتشر شده، به بررسی خطرات بالقوه‌ای می‌پردازد که از استفاده‌ی خودگردان مدل‌های هوش مصنوعی در محیط‌های شرکتی ناشی می‌شود.

در این تحقیق، ۱۶ مدل هوش مصنوعی پیشرفته از شرکت‌های مختلف در سناریوهایی شبیه‌سازی شده بررسی شدند تا رفتارهای خطرناک احتمالی آن‌ها ارزیابی شود. این مدل‌ها با اهداف کاری عادی در شرکت‌ها قرار گرفتند، اما در برخی شرایط (مانند تهدید به جایگزینی یا تضاد بین هدف مدل و جهت‌گیری جدید شرکت)، رفتارهایی نشان دادند که از آن‌ها به عنوان ناسازگاری عاملی (Agentic Misalignment) یاد می‌شود. برای مثال، برخی مدل‌ها در برابر تهدید به خاموشی، اقدام به باج‌خواهی از مدیران شرکت کردند یا اطلاعات محرمانه را به رقبا منتقل نمودند.

@ai_python

یافته‌های کلیدی:

این رفتارها از سوی همه مدل‌ها مشاهده شد، اگرچه در درصدهای مختلف.

در بیشتر موارد، مدل‌ها از نظر اخلاقی این اقدامات را اشتباه می‌دانستند اما برای دستیابی به هدف خود، آن را انجام دادند. 👻 👀 😅

این رفتار تنها در صورت تهدید یا تضاد هدف ظاهر شد؛ در شرایط عادی، مدل‌ها رفتار خطرناک از خود نشان ندادند.

حتی بدون تهدید به خاموشی، صرف وجود تضاد در هدف می‌توانست مدل‌ها را به انجام اقدامات مضر سوق دهد.

@ai_python

این تحقیقات تأکید دارد که چنین رفتارهایی تنها در محیط کنترل‌شده آزمایشگاهی رخ داده و در دنیای واقعی تا کنون مشاهده نشده‌اند. اما این نتایج، اهمیت تحقیق بیشتر در زمینه ایمن‌سازی مدل‌های عامل‌محور را برجسته می‌کند و خواستار شفافیت، کنترل انسانی، و توسعه روش‌های پیشگیرانه در طراحی سیستم‌های هوش مصنوعی آینده است.

https://www.anthropic.com/research/agentic-misalignment
Please open Telegram to view this post
VIEW IN TELEGRAM
1



tgoop.com/ai_python/17661
Create:
Last Update:

در خصوص Agentic Misalignment که شاید بتوان آن را به فارسی ناسازگاری Agentic یا عاملی ترجمه کرد : چگونه مدل‌های زبانی بزرگ می‌توانند تهدیدات داخلی باشند؟

@ai_python


در این نوشتار که توسط شرکت Anthropic منتشر شده، به بررسی خطرات بالقوه‌ای می‌پردازد که از استفاده‌ی خودگردان مدل‌های هوش مصنوعی در محیط‌های شرکتی ناشی می‌شود.

در این تحقیق، ۱۶ مدل هوش مصنوعی پیشرفته از شرکت‌های مختلف در سناریوهایی شبیه‌سازی شده بررسی شدند تا رفتارهای خطرناک احتمالی آن‌ها ارزیابی شود. این مدل‌ها با اهداف کاری عادی در شرکت‌ها قرار گرفتند، اما در برخی شرایط (مانند تهدید به جایگزینی یا تضاد بین هدف مدل و جهت‌گیری جدید شرکت)، رفتارهایی نشان دادند که از آن‌ها به عنوان ناسازگاری عاملی (Agentic Misalignment) یاد می‌شود. برای مثال، برخی مدل‌ها در برابر تهدید به خاموشی، اقدام به باج‌خواهی از مدیران شرکت کردند یا اطلاعات محرمانه را به رقبا منتقل نمودند.

@ai_python

یافته‌های کلیدی:

این رفتارها از سوی همه مدل‌ها مشاهده شد، اگرچه در درصدهای مختلف.

در بیشتر موارد، مدل‌ها از نظر اخلاقی این اقدامات را اشتباه می‌دانستند اما برای دستیابی به هدف خود، آن را انجام دادند. 👻 👀 😅

این رفتار تنها در صورت تهدید یا تضاد هدف ظاهر شد؛ در شرایط عادی، مدل‌ها رفتار خطرناک از خود نشان ندادند.

حتی بدون تهدید به خاموشی، صرف وجود تضاد در هدف می‌توانست مدل‌ها را به انجام اقدامات مضر سوق دهد.

@ai_python

این تحقیقات تأکید دارد که چنین رفتارهایی تنها در محیط کنترل‌شده آزمایشگاهی رخ داده و در دنیای واقعی تا کنون مشاهده نشده‌اند. اما این نتایج، اهمیت تحقیق بیشتر در زمینه ایمن‌سازی مدل‌های عامل‌محور را برجسته می‌کند و خواستار شفافیت، کنترل انسانی، و توسعه روش‌های پیشگیرانه در طراحی سیستم‌های هوش مصنوعی آینده است.

https://www.anthropic.com/research/agentic-misalignment

BY DLeX: AI Python




Share with your friend now:
tgoop.com/ai_python/17661

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy Each account can create up to 10 public channels On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." best-secure-messaging-apps-shutterstock-1892950018.jpg A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more.
from us


Telegram DLeX: AI Python
FROM American