تشویق مدل به فکر کردن بیشتر، تنها با اضافه کردن Wait به دستور!
محققان دانشگاه استنفورد یک روش جدید برای بهینهسازی مدلهای زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدلهای بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدلهای موفق در این حوزه مثل DeepSeek r1 از دادههای آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده میکنن.
محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (دادههای با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدلهای پایه نمیتونن حل کنن) و تنوع (پوشش حوزههای مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم دادههای آموزشی، مدل بتونه عملکرد خوبی داشته باشه.
تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل میکنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف میشه و مدل مجبور به ارائه پاسخ میشه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق میشه تا بیشتر روی مسئله تمرکز کنه.
در آزمونهای مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمونهای ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون میده این مدل میتونه با مدلهای بزرگتر رقابت کنه.
نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدلهای مشابه که نیاز به روزها و هفتهها آموزش دارن، بسیار کمتره. این نشون میده که با روشهای هوشمندانه میشه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.
محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخها بهبود پیدا میکنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون میده که حتی بعد از آموزش هم میشه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.
نسخه کامل این مقاله رو میتونید از اینجا مشاهده کنید.
@aipulse24
محققان دانشگاه استنفورد یک روش جدید برای بهینهسازی مدلهای زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدلهای بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدلهای موفق در این حوزه مثل DeepSeek r1 از دادههای آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده میکنن.
محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (دادههای با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدلهای پایه نمیتونن حل کنن) و تنوع (پوشش حوزههای مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم دادههای آموزشی، مدل بتونه عملکرد خوبی داشته باشه.
تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل میکنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف میشه و مدل مجبور به ارائه پاسخ میشه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق میشه تا بیشتر روی مسئله تمرکز کنه.
در آزمونهای مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمونهای ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون میده این مدل میتونه با مدلهای بزرگتر رقابت کنه.
نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدلهای مشابه که نیاز به روزها و هفتهها آموزش دارن، بسیار کمتره. این نشون میده که با روشهای هوشمندانه میشه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.
محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخها بهبود پیدا میکنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون میده که حتی بعد از آموزش هم میشه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.
نسخه کامل این مقاله رو میتونید از اینجا مشاهده کنید.
@aipulse24
گوگل دیپمایند امروز اعلام کرد که نسخه جدید هوش مصنوعی جمنای ۲.۰ رو برای همه کاربران عرضه کرده. این نسخه که شامل مدلهای Flash، Pro و Flash-Lite میشه، با قابلیتهای پیشرفتهتر و عملکرد بهتر نسبت به نسخههای قبلی طراحی شده و میتونه کارهای پیچیدهتری رو انجام بده.
جمنای ۲.۰ Flash، با قابلیت پشتیبانی از ۱ میلیون توکن context window طراحی شده و میتونه حجم زیادی از اطلاعات رو پردازش کنه. این مدل بهخصوص برای توسعهدهندگان مناسبه و قراره بهزودی قابلیتهای تولید تصویر و تبدیل متن به گفتار هم بهش اضافه بشه.
نسخه Pro این مجموعه که فعلاً در حالت آزمایشی قرار داره، قویترین عملکرد رو در زمینه کدنویسی داره و میتونه دستورات پیچیده رو بهتر درک کنه. این مدل با پشتیبانی از ۲ میلیون توکن، قابلیت جستجو در گوگل و اجرای کد رو هم داره که برای متخصصان و برنامهنویسها خیلی کاربردی خواهد بود.
گوگل همچنین یک مدل جدید به نام Flash-Lite رو معرفی کرده که مقرونبهصرفهترین گزینه این خانواده هست. این مدل با حفظ سرعت و هزینه پایین، کیفیت بهتری نسبت به نسخه ۱.۵ داره و میتونه برای کاربردهای عمومی مثل تولید توضیحات تصویر مورد استفاده قرار بگیره.
تیم توسعهدهنده تاکید کرده که در کنار افزایش قابلیتهای این مدلها، روی ایمنی و امنیت اونها هم سرمایهگذاری ویژهای انجام داده و از تکنیکهای یادگیری تقویتی جدید برای بهبود عملکرد و مقابله با تهدیدات امنیتی استفاده کرده.
🆓 این مدلها از حالا به صورت رایگان از Google AI Studio قابل استفاده هستن.
@aipulse24
جمنای ۲.۰ Flash، با قابلیت پشتیبانی از ۱ میلیون توکن context window طراحی شده و میتونه حجم زیادی از اطلاعات رو پردازش کنه. این مدل بهخصوص برای توسعهدهندگان مناسبه و قراره بهزودی قابلیتهای تولید تصویر و تبدیل متن به گفتار هم بهش اضافه بشه.
نسخه Pro این مجموعه که فعلاً در حالت آزمایشی قرار داره، قویترین عملکرد رو در زمینه کدنویسی داره و میتونه دستورات پیچیده رو بهتر درک کنه. این مدل با پشتیبانی از ۲ میلیون توکن، قابلیت جستجو در گوگل و اجرای کد رو هم داره که برای متخصصان و برنامهنویسها خیلی کاربردی خواهد بود.
گوگل همچنین یک مدل جدید به نام Flash-Lite رو معرفی کرده که مقرونبهصرفهترین گزینه این خانواده هست. این مدل با حفظ سرعت و هزینه پایین، کیفیت بهتری نسبت به نسخه ۱.۵ داره و میتونه برای کاربردهای عمومی مثل تولید توضیحات تصویر مورد استفاده قرار بگیره.
تیم توسعهدهنده تاکید کرده که در کنار افزایش قابلیتهای این مدلها، روی ایمنی و امنیت اونها هم سرمایهگذاری ویژهای انجام داده و از تکنیکهای یادگیری تقویتی جدید برای بهبود عملکرد و مقابله با تهدیدات امنیتی استفاده کرده.
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from TechTube 𝕏 تک توب
شرکت فرانسوی Mistral اپ موبایلش به نام Le Chat رو عرضه کرده که امکان چت با مدلهای بزرگ این شرکت، ساخت عکس با هوش مصنوعی Flux و همچنین اجرای کدها و انالیز داده هارو به صورت رایگان ولی محدود مهیا میکنه.
علاوه بر این، این شرکت قابلیتی به نام Flash Answers رو در سایتش اضافه کرده که با فعال کردن اون چت به مدلی سوییچ میکنه که جوابهارو با سرعت بالایی تا 1100 توکن بر ثانیه برای شما میفرسته که از رقبا بسیار سریعتر هست.
اپ جدید این شرکت از اینجا برای اندروید و از اینجا برای iOS قابل دانلود هست.
🔎 the-decoder
📍 @TechTube
علاوه بر این، این شرکت قابلیتی به نام Flash Answers رو در سایتش اضافه کرده که با فعال کردن اون چت به مدلی سوییچ میکنه که جوابهارو با سرعت بالایی تا 1100 توکن بر ثانیه برای شما میفرسته که از رقبا بسیار سریعتر هست.
اپ جدید این شرکت از اینجا برای اندروید و از اینجا برای iOS قابل دانلود هست.
🔎 the-decoder
📍 @TechTube
AI Pulse
Video
مثلا کل اعضای کانال از کانال تک تیوب نیومدن و ما یک کانال مستقل هستیم که از بقیه حمایت میکنیم😭 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت Clone Robotics از جدیدترین ربات خودش با نام Clone رونمایی کرده.
این ربات اولین ربات انسان نمای جهان با ساختار اسکلتی-عضلانی هست.
بیش از ۲۰۰ درجه قدرت مانور حرکت، بیش از ۲۰۰۰ رشته عضلانی و ۵۰۰ سنسور داره و در حال حاضر از سیستم پنوماتیک استفاده میکنه ولی در اینده به سیستم هیدرولیکی منتقل خواهد شد.
این کلیپ رو صفحه رسمی شرکت در اینستاگرام دقیقا با همین موسیقی روش منتشر کرده😳 😳
@aipulse24
این ربات اولین ربات انسان نمای جهان با ساختار اسکلتی-عضلانی هست.
بیش از ۲۰۰ درجه قدرت مانور حرکت، بیش از ۲۰۰۰ رشته عضلانی و ۵۰۰ سنسور داره و در حال حاضر از سیستم پنوماتیک استفاده میکنه ولی در اینده به سیستم هیدرولیکی منتقل خواهد شد.
این کلیپ رو صفحه رسمی شرکت در اینستاگرام دقیقا با همین موسیقی روش منتشر کرده
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
گوگل به تازگی از یک ابزار هوش مصنوعی جدید به نام "Career Dreamer" رونمایی کرده که به افراد کمک میکنه موقعیتهای شغلی بیشتری رو کشف کنن. این ابزار هوشمند با استفاده از تجربیات، تحصیلات، مهارتها و علایق شما، الگوهایی رو پیدا میکنه و شما رو با فرصتهای شغلی متناسب آشنا میکنه. با کمک Career Dreamer میتونید یک Career Identity بنویسید و اون رو به رزومهتون اضافه کنید یا در مصاحبههای شغلی ازش استفاده کنید.
این ابزار جدید به شما امکان میده تا با نمایش یک شبکه بصری از موقعیتهای شغلی مختلف، مشاغل متناسب با پیشینه و علایقتون رو ببینید. همچنین میتونید با کمک دستیار هوش مصنوعی Gemini، روی نوشتن کاور لتر و رزومه کار کنید و ایدههای شغلی بیشتری رو کشف کنید. لازم به ذکره که برخلاف سرویسهایی مثل Indeed و LinkedIn، این ابزار شما رو به آگهیهای شغلی واقعی متصل نمیکنه و هدفش فقط کمک به کشف سریع مسیرهای شغلی مختلفه.
در حال حاضر Career Dreamer به صورت آزمایشی فقط در ایالات متحده در دسترسه و هنوز مشخص نیست که آیا گوگل قصد داره این ابزار رو به کشورهای دیگه هم بیاره یا نه.
طبق گزارش مجمع جهانی اقتصاد، افراد به طور میانگین ۱۲ شغل مختلف رو در طول زندگیشون تجربه میکنن و پیشبینی میشه که نسل Z حدود ۱۸ شغل در ۶ مسیر شغلی متفاوت داشته باشه. گوگل امیدواره که این ابزار بتونه به همه افراد جویای کار، از دانشجویان گرفته تا تازهفارغالتحصیلان و افراد نظامی در حال انتقال به بخش غیرنظامی، کمک کنه تا مهارتهای موجودشون رو بهتر با فرصتهای شغلی تطبیق بدن.
@aipulse24
این ابزار جدید به شما امکان میده تا با نمایش یک شبکه بصری از موقعیتهای شغلی مختلف، مشاغل متناسب با پیشینه و علایقتون رو ببینید. همچنین میتونید با کمک دستیار هوش مصنوعی Gemini، روی نوشتن کاور لتر و رزومه کار کنید و ایدههای شغلی بیشتری رو کشف کنید. لازم به ذکره که برخلاف سرویسهایی مثل Indeed و LinkedIn، این ابزار شما رو به آگهیهای شغلی واقعی متصل نمیکنه و هدفش فقط کمک به کشف سریع مسیرهای شغلی مختلفه.
در حال حاضر Career Dreamer به صورت آزمایشی فقط در ایالات متحده در دسترسه و هنوز مشخص نیست که آیا گوگل قصد داره این ابزار رو به کشورهای دیگه هم بیاره یا نه.
طبق گزارش مجمع جهانی اقتصاد، افراد به طور میانگین ۱۲ شغل مختلف رو در طول زندگیشون تجربه میکنن و پیشبینی میشه که نسل Z حدود ۱۸ شغل در ۶ مسیر شغلی متفاوت داشته باشه. گوگل امیدواره که این ابزار بتونه به همه افراد جویای کار، از دانشجویان گرفته تا تازهفارغالتحصیلان و افراد نظامی در حال انتقال به بخش غیرنظامی، کمک کنه تا مهارتهای موجودشون رو بهتر با فرصتهای شغلی تطبیق بدن.
@aipulse24
شرکت چینی علی بابا چند ساعت پیش ورژن جدید مدل تولید ویدیوی خودش رو معرفی کرد.
مدل Wanx 2 که اولین بار در جولای ۲۰۲۳ معرفی شده بود حالا با یه پیشرفت فوق العاده در کیفیت خروجی با نام Wanx 2.1 معرفی شده.
به طور کلی مدل های چینی چند ماه بعد از معرفی Chat GPT برای رقابت با محصولات امریکایی وارد بازار شدن ولی صرفا بعد از موفقیت اخیر Deepseek که باعث ریزش بازار سهام توی آمریکا شد، توجه هارو به خودشون جلب کردن.
اغلب مدل های تولید فیلم توی ساخت ویدیوهای حرکات پیچیده انسانی مثل ژیمناستیک و پاتیناژ شدیدا مشکل دارن اما این مدل توی ویدیوی معرفی نشون میده که بدون مشکل میتونه این حرکات رو بازسازی کنه.
این توانایی های فوق العاده مدل به همراه بهبود کیفیت پیکسل کلیپ ها، رعایت قوانین فیزیک و بهبود پیروی از پرامپت باعث شده تا در رده بندی مدل های ویدیویی نمره ۸۴.۷ رو به دست بیاره
(هرچند که اخیرا خیلی بنچ مارک ها قابل اطمینان نیستن)
این مدل به زودی اوپن سورس خواهد بود ولی فعلا روی سایت چینی خودش و استادیو هوش مصنوعی علی بابا قابل دسترسی هست
لازم به ذکره که متاسفانه دوستان چینی کلا علاقه به اسم های ناجور دارن و اسم این مدل توی انگلیسی معنی بدی میده😭 🥺 😭
@aipulse24
مدل Wanx 2 که اولین بار در جولای ۲۰۲۳ معرفی شده بود حالا با یه پیشرفت فوق العاده در کیفیت خروجی با نام Wanx 2.1 معرفی شده.
به طور کلی مدل های چینی چند ماه بعد از معرفی Chat GPT برای رقابت با محصولات امریکایی وارد بازار شدن ولی صرفا بعد از موفقیت اخیر Deepseek که باعث ریزش بازار سهام توی آمریکا شد، توجه هارو به خودشون جلب کردن.
اغلب مدل های تولید فیلم توی ساخت ویدیوهای حرکات پیچیده انسانی مثل ژیمناستیک و پاتیناژ شدیدا مشکل دارن اما این مدل توی ویدیوی معرفی نشون میده که بدون مشکل میتونه این حرکات رو بازسازی کنه.
این توانایی های فوق العاده مدل به همراه بهبود کیفیت پیکسل کلیپ ها، رعایت قوانین فیزیک و بهبود پیروی از پرامپت باعث شده تا در رده بندی مدل های ویدیویی نمره ۸۴.۷ رو به دست بیاره
(هرچند که اخیرا خیلی بنچ مارک ها قابل اطمینان نیستن)
این مدل به زودی اوپن سورس خواهد بود ولی فعلا روی سایت چینی خودش و استادیو هوش مصنوعی علی بابا قابل دسترسی هست
لازم به ذکره که متاسفانه دوستان چینی کلا علاقه به اسم های ناجور دارن و اسم این مدل توی انگلیسی معنی بدی میده
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
استارتاپ مرکور (Mercor) که توسط سه جوان ۲۱ ساله تاسیس شده، موفق شده در دور سرمایهگذاری سری B خودش ۱۰۰ میلیون دلار جذب کنه و به ارزش ۲ میلیارد دلاری برسه.
این استارتاپ که در حوزه استخدام هوشمند فعالیت میکنه، با استفاده از هوش مصنوعی فرآیند استخدام رو سادهتر کرده. کارفرماها شرح شغل رو آپلود میکنن و سیستم مرکور بهترین کاندیداها رو پیشنهاد میده. متقاضیان کار هم یک مصاحبه ۲۰ دقیقهای با هوش مصنوعی انجام میدن که مهارتهاشون رو ارزیابی میکنه و یک پروفایل براشون میسازه.
جالبه بدونید که شرکتهای بزرگ تکنولوژی مثل OpenAI در حال حاضر از ابزارهای مرکور استفاده میکنن. این استارتاپ ادعا میکنه که سیستمش نه تنها استخدام رو سادهتر میکنه، بلکه تعصب و سوگیری رو هم از این فرآیند حذف میکنه. البته این ادعا که سیستمهای هوش مصنوعی کمتر از انسانها دچار سوگیری میشن، همیشه درست نبوده.
درآمد سالانه مرکور در حال حاضر به ۷۵ میلیون دلار رسیده. برندان فودی، مدیرعامل شرکت، معتقده که مرکور به جای جایگزین کردن نیروی انسانی، داره به شناسایی مشاغلی کمک میکنه که هوش مصنوعی نمیتونه انجام بده - مثل آموزش مدلهای هوش مصنوعی، مدیریت تصمیمگیریهای پیچیده یا نقشهای خلاقانه و استراتژیک.
@aipulse24
این استارتاپ که در حوزه استخدام هوشمند فعالیت میکنه، با استفاده از هوش مصنوعی فرآیند استخدام رو سادهتر کرده. کارفرماها شرح شغل رو آپلود میکنن و سیستم مرکور بهترین کاندیداها رو پیشنهاد میده. متقاضیان کار هم یک مصاحبه ۲۰ دقیقهای با هوش مصنوعی انجام میدن که مهارتهاشون رو ارزیابی میکنه و یک پروفایل براشون میسازه.
جالبه بدونید که شرکتهای بزرگ تکنولوژی مثل OpenAI در حال حاضر از ابزارهای مرکور استفاده میکنن. این استارتاپ ادعا میکنه که سیستمش نه تنها استخدام رو سادهتر میکنه، بلکه تعصب و سوگیری رو هم از این فرآیند حذف میکنه. البته این ادعا که سیستمهای هوش مصنوعی کمتر از انسانها دچار سوگیری میشن، همیشه درست نبوده.
درآمد سالانه مرکور در حال حاضر به ۷۵ میلیون دلار رسیده. برندان فودی، مدیرعامل شرکت، معتقده که مرکور به جای جایگزین کردن نیروی انسانی، داره به شناسایی مشاغلی کمک میکنه که هوش مصنوعی نمیتونه انجام بده - مثل آموزش مدلهای هوش مصنوعی، مدیریت تصمیمگیریهای پیچیده یا نقشهای خلاقانه و استراتژیک.
@aipulse24
آنتروپیک بالاخره از مدل جدیدش رونمایی کرد. کلاد ۳.۷ سانت (Claude 3.7 Sonnet) هوشمندترین مدل این شرکت تا به امروز و اولین مدل هیبریدی استدلالی در دنیا محسوب میشه. این مدل با رویکردی کاملاً متفاوت طراحی شده و میتونه مثل مغز انسان، هم پاسخهای سریع بده و هم با تفکر عمیق به حل مسائل پیچیده بپردازه.
نکته جالب اینجاست که کلاد ۳.۷ در واقع دو مدل در یک مدله. در حالت استاندارد، یک نسخه ارتقا یافته از کلود ۳.۵ هست و در حالت تفکر بسطیافته، با خودارزیابی قبل از پاسخ، عملکرد بهتری در ریاضیات، فیزیک، برنامهنویسی و وظایف پیچیده داره. کاربران API هم میتونن زمان تفکر مدل رو تا سقف ۱۲۸ هزار توکن تنظیم کنن.
در حوزه برنامهنویسی، نتایج تستهای اولیه نشون میده که کلاد در صدر قرار داره. شرکتهای معتبری مثل Cursor، Cognition و Vercel تأیید کردن که این مدل در انجام وظایف واقعی برنامهنویسی و مدیریت کدهای پیچیده، عملکرد فوقالعادهای داره.
همزمان با این بهروزرسانی، ابزار جدید "کلاد کد" هم معرفی شده که یک ایجنت فعال برای توسعهدهندگان محسوب میشه. این ابزار میتونه کد بخونه، فایلها رو ویرایش کنه، تست بنویسه و اجرا کنه، و حتی کد رو به گیتهاب push کنه - و در تمام این مراحل، شما رو در جریان کار قرار میده.
خوشبختانه این مدل روی تمام پلنهای کلاد - شامل رایگان، حرفهای، تیمی و سازمانی - و همینطور پلتفرمهای ابری معتبر مثل آمازون Bedrock و Google Cloud Vertex AI در دسترسه. از نظر قیمتگذاری هزینهها مثل قبل مونده: ۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی.
آنتروپیک تأکید کرده که این مدل با دقت زیادی تست شده و استانداردهای امنیتی، ایمنی و قابلیت اطمینان رو رعایت میکنه. حتی در تشخیص درخواستهای مضر و بیضرر هم ۴۵٪ بهتر از نسخه قبلی عمل میکنه.
@aipulse24
نکته جالب اینجاست که کلاد ۳.۷ در واقع دو مدل در یک مدله. در حالت استاندارد، یک نسخه ارتقا یافته از کلود ۳.۵ هست و در حالت تفکر بسطیافته، با خودارزیابی قبل از پاسخ، عملکرد بهتری در ریاضیات، فیزیک، برنامهنویسی و وظایف پیچیده داره. کاربران API هم میتونن زمان تفکر مدل رو تا سقف ۱۲۸ هزار توکن تنظیم کنن.
در حوزه برنامهنویسی، نتایج تستهای اولیه نشون میده که کلاد در صدر قرار داره. شرکتهای معتبری مثل Cursor، Cognition و Vercel تأیید کردن که این مدل در انجام وظایف واقعی برنامهنویسی و مدیریت کدهای پیچیده، عملکرد فوقالعادهای داره.
همزمان با این بهروزرسانی، ابزار جدید "کلاد کد" هم معرفی شده که یک ایجنت فعال برای توسعهدهندگان محسوب میشه. این ابزار میتونه کد بخونه، فایلها رو ویرایش کنه، تست بنویسه و اجرا کنه، و حتی کد رو به گیتهاب push کنه - و در تمام این مراحل، شما رو در جریان کار قرار میده.
خوشبختانه این مدل روی تمام پلنهای کلاد - شامل رایگان، حرفهای، تیمی و سازمانی - و همینطور پلتفرمهای ابری معتبر مثل آمازون Bedrock و Google Cloud Vertex AI در دسترسه. از نظر قیمتگذاری هزینهها مثل قبل مونده: ۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی.
آنتروپیک تأکید کرده که این مدل با دقت زیادی تست شده و استانداردهای امنیتی، ایمنی و قابلیت اطمینان رو رعایت میکنه. حتی در تشخیص درخواستهای مضر و بیضرر هم ۴۵٪ بهتر از نسخه قبلی عمل میکنه.
@aipulse24
OpenAI روز سهشنبه اعلام کرد که قابلیت Deep Research رو برای تمام کاربران پولی ChatGPT منتشر میکنه.
مشترکین ChatGPT Plus، Team، Enterprise و Edu ماهانه ۱۰ کردیت Deep Research دریافت میکنن. این قابلیت قبلاً فقط برای کاربران ChatGPT Pro، اشتراک ۲۰۰ دلاری این شرکت در دسترس بود؛ همچنین کاربران ChatGPT Pro الان ماهانه ۱۲۰ کردیت Deep Research میگیرن، که از ۱۰۰ کردیت در زمان راهاندازی بیشتر شده.
Google هم هفته گذشته قابلیت Deep Research خودش رو برای تمام کاربران Gemini Advanced منتشر کرده بود.
@aipulse24
مشترکین ChatGPT Plus، Team، Enterprise و Edu ماهانه ۱۰ کردیت Deep Research دریافت میکنن. این قابلیت قبلاً فقط برای کاربران ChatGPT Pro، اشتراک ۲۰۰ دلاری این شرکت در دسترس بود؛ همچنین کاربران ChatGPT Pro الان ماهانه ۱۲۰ کردیت Deep Research میگیرن، که از ۱۰۰ کردیت در زمان راهاندازی بیشتر شده.
Google هم هفته گذشته قابلیت Deep Research خودش رو برای تمام کاربران Gemini Advanced منتشر کرده بود.
@aipulse24
This media is not supported in your browser
VIEW IN TELEGRAM
توی این پست تصمیم دارم به بررسی ابزارهای مختلف هوش مصنوعی برای پژوهش بپردازم
قطعا ابزارهای خیلی زیادی وجود دارن و هر روز داره به تعدادشون هم اضافه میشه ولی همه شون خوب نیستن!
🌕 اول از همه پیدا کردن research gap هست برای این کار میتونین از پرپلکسیتی استفاده کنید فقط کافیه یه پرامپت ساده بهش بدید مثل این:
Analyze recent publications on [topic]. Identify research gaps or areas where further study is needed
🌕 یک ابزار دیگه برای پیدا کردن ارتباط مقالات و گپ ها connected papers هست که ارتباط بین مقالات رو شبیه شبکه Obsidian براتون میکشه
🌕 ابزار بعدی که تازه گوگل معرفی کرده و قراره به زودی در دسترس عموم قرار بگیره AI co-scientist هست. این ابزار فرای دیپ ریسرچ و قابلیت های reasoning مدل های مختلف میره و با دانش عمیقی که از مقالات داره فرضیه های تحقیق خلاقانه و مدرن ارائه میکنه. اینجا میتونید بیشتر راجع بهش بخونید
🌕 ابزار بعدی Semantic Scholar هست که یک پروژه اوپن سورس هست و با بررسی 8 میلیون مقاله به سوالات شما حوزه خاصی جواب میده. اینجا میتونید ازش استفاده کنید.
🌕 از سایت scite هم غافل نشید که یک دستیار تحقیق فوق العاده است و به سوالاتتون با رفرنس مقاله جواب میده.
🌕 ابزار بعدی papergen هست که دیگه خیلی کارو راحت کرده و از مرور ادبیات تا مقاله کلاسی یا مقاله برای مجلات علمی رو به طور کامل با تمام رفرنس هاش براتون مینویسه. اینجا میتونید ازش استفاده کنید .
🌕 یک ابزار دیگه outread هست که شبیه blinkist هست اما برای مقالات علمی و شما میتونید خلاصه های ساده 15 دقیقه ای از مقالات خیلی پیچیده علمی ازش دریافت کنید.
🌕 ابزار اخر یعنی Storm هم توسط دانشگاه استنفورد درست شده و براساس سرچ اینترنت برای هر موضوعی صفحات شبیه ویکیپیدیا با رفرنس درست میکنه این یکی بیشتر برای تحقیقات کلاسی مناسبی تا مقالات علمی.
یک سری از این سایت ها کاملا رایگان هستن و یک سریشون گزینه استفاده محدود رایگان به همراه اشتراک ماهانه رو دارن
@aipulse24
قطعا ابزارهای خیلی زیادی وجود دارن و هر روز داره به تعدادشون هم اضافه میشه ولی همه شون خوب نیستن!
Analyze recent publications on [topic]. Identify research gaps or areas where further study is needed
یک سری از این سایت ها کاملا رایگان هستن و یک سریشون گزینه استفاده محدود رایگان به همراه اشتراک ماهانه رو دارن
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM