LLM_HUGGINGFACE Telegram 13
🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)

جمع‌آوری بازخوردهای انسانی (Collecting human feedback)

آموزش مدل پاداش (Training the reward model)

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization)

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update)

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO))

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)

درک عمیق الگوریتم GRPO (Understanding GRPO)

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)

زنجیره افکار (COT)

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)


#مدل_زبانی_بزرگ
👍31



tgoop.com/llm_huggingface/13
Create:
Last Update:

🤖 فصل 5: RLHF، DPO و GRPO — فاین‌تیون با بازخورد انسانی
(بازخورد انسانی و الگوریتم‌های پیشرفته یادگیری تقویتی)

در این فصل وارد دنیای مدل‌هایی می‌شیم که با بازخورد انسانی تربیت می‌شن. الگوریتم‌هایی مثل RLHF، DPO و GRPO با پروژه‌های واقعی آموزش داده می‌شن.

سرفصل‌های این فصل:

    همراستایی مدل‌ها با بازخورد انسانی: مفهوم و اهمیت (Model Alignment with Human Feedback: Concept and Importance) 

مقدمه‌ای بر یادگیری تقویتی: مفاهیم پایه برای مدل‌های زبانی (Introduction to Reinforcement Learning: Core Concepts for LLMs)

جمع‌آوری بازخوردهای انسانی (Collecting human feedback)

آموزش مدل پاداش (Training the reward model)

آموزش Fine-tune کردن با یادگیری تقویتی با بازخورد انسانی (Fine-tuning with RLHF)

بهینه‌سازی خط‌مشی نزدیک (Proximal Policy Optimization)

مفهوم Policy Loss در PPO: قلب الگوریتم به‌روزرسانی خط‌مشی (Policy Loss in PPO: The Core of Policy Update)

درک Value Loss و Entropy Loss در RLHF (Understanding Value Loss and Entropy Loss in RLHF)

وقتی مدل زرنگ‌بازی درمیاره! بررسی Reward Hacking و کنترل با KL Divergence (When the Model Gets Sneaky: Reward Hacking and Control with KL Divergence)

آموزش RLHF با FLAN-T5 - بخش اول: آماده‌سازی داده و ساخت دیتاست برای خلاصه‌سازی دیالوگ (RLHF with FLAN-T5 – Part 1: Data Preparation and Prompting for Dialogue Summarization)

آموزش RLHF با FLAN-T5 – بخش دوم: بارگذاری مدل، اعمال LoRA و آماده‌سازی مدل مرجع و پاداش (RLHF with FLAN-T5 – Part 2: Loading the Model, Applying LoRA, and Setting Up the Reward and Reference Models)

آموزش RLHF با FLAN-T5- بخش سوم: آموزش مدل با PPO، ارزیابی سمیّت، و مقایسه نتایج قبل و بعد از RLHF (RLHF with FLAN-T5 – Part 3: Training with PPO, Toxicity Evaluation, and Comparison Before and After RLHF)

بهینه‌سازی مستقیم ترجیحات (Direct Preference Optimization (DPO))

آموزش DPO با Qwen - بخش اول: ساخت دیتاست ترجیحات برای عنوان‌گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 1: Preparing Preference Data for YouTube Video Title Generation)

آموزش DPO با Qwen - بخش دوم: آموزش مدل بر اساس ترجیحات برای عنوان گذاری ویدیوهای یوتیوب (DPO with Qwen – Part 2: Fine-Tuning on YouTube Title Preferences)

کد DPO با Phi-3 - آماده‌سازی دیتای ترجیحات برای پاسخ‌های دقیق محاسباتی (DPO with Phi-3 – Preparing a Preference Dataset for Concise Math Responses)

کد DPO با Phi-3 - آموزش مدل برای پاسخ دقیق به سوالات محاسباتی (DPO with Phi-3 – Fine-Tuning for Accurate Math Question Answering)

کد DPO با Phi-3 - تست مدل آموزش داده شده (DPO with Phi-3 – Inference)

بهینه‌سازی سیاست نسبی گروهی (Group Relative Policy Optimization (GRPO))

انتخاب بین PPO، DPO و GRPO (Choosing Between PPO, DPO, and GRPO)

درک عمیق الگوریتم GRPO (Understanding GRPO)

مثال ساده فاین‌تیون LLM با روش GRPO برای محدود کردن طول جمله (Basic Fine-tuning of LLM with GRPO to Restrict Output Length)

زنجیره افکار (COT)

فاین‌تیون مدل زبانی بزرگ با LoRA و Unsloth - آماده‌سازی داده و تنظیمات (قسمت اول) (Fine-tuning LLM with LoRA using Unsloth — Dataset Preparation & Setup (Part 1))

آموزش مدل زبانی بزرگ با روش GRPO در Unsloth - توابع پاداش و تولید متن (قسمت دوم) (Training LLM with GRPO Rewards in Unsloth — Reward Functions & Generation (Part 2))

مقیاس‌پذیر کردن بازخورد انسانی (Scaling human feedback)


#مدل_زبانی_بزرگ

BY آموزش LLM و VLM


Share with your friend now:
tgoop.com/llm_huggingface/13

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. More>> 5Telegram Channel avatar size/dimensions Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. To delete a channel with over 1,000 subscribers, you need to contact user support
from us


Telegram آموزش LLM و VLM
FROM American