💡جلسه سیزدهم باهمخوانی کتاب
“Hands-on Machine Learning”
موضوعاتی که در این جلسه بهشون میپردازیم:
▫️Ensemble Learning and Random Forests
▫️Voting Classifiers
▫️Bagging and Pasting
Bagging and Pasting in Scikit-Learn
Out-of-Bag Evaluation
Random Patches and Random Subspaces
▫️Random Forests
Extra-Trees
Feature Importance
▫️Boosting
AdaBoost
Gradient Boosting
Histogram-Based Gradient Boosting
▫️Stacking
🗓تاریخ: چهارشنبه، ۲۴ مرداد
⏰زمان: ۲۱:٠٠
🔗لینک بستر آنلاین در کانال ارسال میشود.
✨منتظر حضور گرمتان هستیم!
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTub
“Hands-on Machine Learning”
موضوعاتی که در این جلسه بهشون میپردازیم:
▫️Ensemble Learning and Random Forests
▫️Voting Classifiers
▫️Bagging and Pasting
Bagging and Pasting in Scikit-Learn
Out-of-Bag Evaluation
Random Patches and Random Subspaces
▫️Random Forests
Extra-Trees
Feature Importance
▫️Boosting
AdaBoost
Gradient Boosting
Histogram-Based Gradient Boosting
▫️Stacking
🗓تاریخ: چهارشنبه، ۲۴ مرداد
⏰زمان: ۲۱:٠٠
🔗لینک بستر آنلاین در کانال ارسال میشود.
✨منتظر حضور گرمتان هستیم!
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTub
🔸Linear SVM Classification
🔹 یک روش یادگیری نظارتشده برای مسائل طبقهبندی باینری است.
ایده اصلی این است که بهترین ابرصفحهای را پیدا کند که دادهها را به دو کلاس با بیشترین حاشیه جدا کند. این حاشیه فاصله بین ابرصفحه و نزدیکترین نقاط داده از هر کلاس است که به آنها بردارهای پشتیبان میگویند.
یک حاشیه بزرگتر به معنای تعمیم بهتر مدل به دادههای دیدهنشده است. SVM های خطی با دادههای خطی جداشدنی به خوبی کار میکنند اما میتوان آنها را برای مدیریت موارد پیچیدهتر با تکنیکهای مختلف
گسترش داد.
🔸NonLinear SVM Classification
🔹 به محدودیتهای SVMهای خطی با امکان طبقهبندی دادههایی که به صورت خطی قابل جداشدن نیستند، میپردازد. این امر با نگاشت فضای ورودی اصلی به یک فضای با بعد بالاتر با استفاده از یک تابع غیرخطی انجام میشود، جایی که جداسازی خطی ممکن میشود. این تکنیک به SVMها امکان میدهد تا طیف گستردهتری از مسائل طبقهبندی را مدیریت کنند و در عمل کاربرد بیشتری داشته باشند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹 یک روش یادگیری نظارتشده برای مسائل طبقهبندی باینری است.
ایده اصلی این است که بهترین ابرصفحهای را پیدا کند که دادهها را به دو کلاس با بیشترین حاشیه جدا کند. این حاشیه فاصله بین ابرصفحه و نزدیکترین نقاط داده از هر کلاس است که به آنها بردارهای پشتیبان میگویند.
یک حاشیه بزرگتر به معنای تعمیم بهتر مدل به دادههای دیدهنشده است. SVM های خطی با دادههای خطی جداشدنی به خوبی کار میکنند اما میتوان آنها را برای مدیریت موارد پیچیدهتر با تکنیکهای مختلف
گسترش داد.
🔸NonLinear SVM Classification
🔹 به محدودیتهای SVMهای خطی با امکان طبقهبندی دادههایی که به صورت خطی قابل جداشدن نیستند، میپردازد. این امر با نگاشت فضای ورودی اصلی به یک فضای با بعد بالاتر با استفاده از یک تابع غیرخطی انجام میشود، جایی که جداسازی خطی ممکن میشود. این تکنیک به SVMها امکان میدهد تا طیف گستردهتری از مسائل طبقهبندی را مدیریت کنند و در عمل کاربرد بیشتری داشته باشند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Soft margin Classification
🔹یک گسترش از SVMهای خطی است که امکان اشتباه در طبقهبندی دادهها را فراهم میکند.
این امر در مواجهه با دادههای نویزی یا غیرخطی جداشدنی بسیار مهم است. به جای نیاز به جداسازی سخت بین کلاسها، جریمهای برای نقاط اشتباه طبقهبندی شده معرفی میکند و سعی دارد این جریمه را به حداقل برساند در حالی که هنوز حاشیه را به حداکثر میرساند.
تعادل بین به حداکثر رساندن حاشیه و به حداقل رساندن خطاهای طبقهبندی توسط یک ابرپارامتر به نام C تنظیم میشود که تعادل بین این دو هدف را تنظیم میکند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹یک گسترش از SVMهای خطی است که امکان اشتباه در طبقهبندی دادهها را فراهم میکند.
این امر در مواجهه با دادههای نویزی یا غیرخطی جداشدنی بسیار مهم است. به جای نیاز به جداسازی سخت بین کلاسها، جریمهای برای نقاط اشتباه طبقهبندی شده معرفی میکند و سعی دارد این جریمه را به حداقل برساند در حالی که هنوز حاشیه را به حداکثر میرساند.
تعادل بین به حداکثر رساندن حاشیه و به حداقل رساندن خطاهای طبقهبندی توسط یک ابرپارامتر به نام C تنظیم میشود که تعادل بین این دو هدف را تنظیم میکند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Polynomial Kernel
🔹این هسته به مدل اجازه میدهد تا ترکیبات چندجملهای از ویژگیها را در نظر بگیرد و بدین ترتیب امکان طبقهبندی الگوهای پیچیدهتر در دادهها را فراهم کند.
درجه چندجملهای را میتوان برای بررسی سطوح مختلف پیچیدگی تنظیم کرد. این هسته بهویژه زمانی مفید است که مرز تصمیمگیری بهسادگی یک جداسازی خطی نیست و میتوان آن را با یک تابع چندجملهای توصیف کرد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹این هسته به مدل اجازه میدهد تا ترکیبات چندجملهای از ویژگیها را در نظر بگیرد و بدین ترتیب امکان طبقهبندی الگوهای پیچیدهتر در دادهها را فراهم کند.
درجه چندجملهای را میتوان برای بررسی سطوح مختلف پیچیدگی تنظیم کرد. این هسته بهویژه زمانی مفید است که مرز تصمیمگیری بهسادگی یک جداسازی خطی نیست و میتوان آن را با یک تابع چندجملهای توصیف کرد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Similarity Features
🔹به روشی برای تبدیل دادههای ورودی به فضایی اشاره دارد که در آن شباهت بین نقاط داده برجسته میشود.
این روش بهویژه در طبقهبندی SVM غیرخطی مفید است، جایی که هدف شناسایی الگوهایی است که به راحتی در فضای ویژگی اصلی قابل جدا شدن نیستند. با استفاده از اندازهگیریهای شباهت، مانند هسته Gaussian RBF، SVMها میتوانند بهطور مؤثر دادهها را بر اساس میزان شباهت نقاط به یکدیگر، بهجای ویژگیهای خام آنها، طبقهبندی کنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹به روشی برای تبدیل دادههای ورودی به فضایی اشاره دارد که در آن شباهت بین نقاط داده برجسته میشود.
این روش بهویژه در طبقهبندی SVM غیرخطی مفید است، جایی که هدف شناسایی الگوهایی است که به راحتی در فضای ویژگی اصلی قابل جدا شدن نیستند. با استفاده از اندازهگیریهای شباهت، مانند هسته Gaussian RBF، SVMها میتوانند بهطور مؤثر دادهها را بر اساس میزان شباهت نقاط به یکدیگر، بهجای ویژگیهای خام آنها، طبقهبندی کنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Gaussian RBF Kernel
🔹هسته Gaussian Radial Basis Function (RBF) یکی از رایجترین هستهها در SVMها است. این هسته دادهها را به یک فضای با بعد بینهایت نگاشت میکند، جایی که جداسازی خطی امکانپذیر میشود.
این هسته بهویژه قدرتمند است زیرا میتواند طیف گستردهای از مسائل طبقهبندی را حتی زمانی که مرز تصمیمگیری بسیار پیچیده و غیرخطی است، مدیریت کند.
عملکرد این هسته به پارامتر پهنای باند آن بستگی دارد که گسترش تابع Gaussian را کنترل میکند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹هسته Gaussian Radial Basis Function (RBF) یکی از رایجترین هستهها در SVMها است. این هسته دادهها را به یک فضای با بعد بینهایت نگاشت میکند، جایی که جداسازی خطی امکانپذیر میشود.
این هسته بهویژه قدرتمند است زیرا میتواند طیف گستردهای از مسائل طبقهبندی را حتی زمانی که مرز تصمیمگیری بسیار پیچیده و غیرخطی است، مدیریت کند.
عملکرد این هسته به پارامتر پهنای باند آن بستگی دارد که گسترش تابع Gaussian را کنترل میکند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸SVM Classes and Computational Complexity
🔹کلاسهای SVM به انواع مختلف مدلهای SVM مانند: SVM خطی، چندجملهای و مبتنی بر RBF اشاره دارد.
هر کلاس پیچیدگی محاسباتی متفاوتی دارد که به عواملی مانند انتخاب هسته و اندازه مجموعه دادهها بستگی دارد. SVMهای خطی معمولاً از نظر محاسباتی کمهزینهتر از همتایان غیرخطی خود هستند. با این حال، SVMهای غیرخطی، علیرغم نیازهای محاسباتی بیشتر، میتوانند برای مجموعه دادههای پیچیدهتر عملکرد بهتری ارائه دهند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹کلاسهای SVM به انواع مختلف مدلهای SVM مانند: SVM خطی، چندجملهای و مبتنی بر RBF اشاره دارد.
هر کلاس پیچیدگی محاسباتی متفاوتی دارد که به عواملی مانند انتخاب هسته و اندازه مجموعه دادهها بستگی دارد. SVMهای خطی معمولاً از نظر محاسباتی کمهزینهتر از همتایان غیرخطی خود هستند. با این حال، SVMهای غیرخطی، علیرغم نیازهای محاسباتی بیشتر، میتوانند برای مجموعه دادههای پیچیدهتر عملکرد بهتری ارائه دهند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸SVM Regression
🔹رگرسیون SVM (که به آن رگرسیون بردار پشتیبان یا SVR نیز گفته میشود.) اصول SVM را به مسائل رگرسیون گسترش میدهد.
به جای طبقهبندی دادهها، SVR هدفش یافتن تابعی است که رابطه بین ویژگیهای ورودی و یک متغیر هدف پیوسته را تقریب بزند. این روش از مفهومی مشابه حاشیه در طبقهبندی استفاده میکند، اما در اینجا هدف این است که اکثر نقاط دادهها در یک حاشیه مشخص در اطراف تابع پیشبینی شده قرار گیرند. SVR بهویژه برای ضبط روابط پیچیده در دادههایی که رگرسیون خطی سنتی ممکن است در آن شکست بخورد، مفید است.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹رگرسیون SVM (که به آن رگرسیون بردار پشتیبان یا SVR نیز گفته میشود.) اصول SVM را به مسائل رگرسیون گسترش میدهد.
به جای طبقهبندی دادهها، SVR هدفش یافتن تابعی است که رابطه بین ویژگیهای ورودی و یک متغیر هدف پیوسته را تقریب بزند. این روش از مفهومی مشابه حاشیه در طبقهبندی استفاده میکند، اما در اینجا هدف این است که اکثر نقاط دادهها در یک حاشیه مشخص در اطراف تابع پیشبینی شده قرار گیرند. SVR بهویژه برای ضبط روابط پیچیده در دادههایی که رگرسیون خطی سنتی ممکن است در آن شکست بخورد، مفید است.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Under the Hood of Linear SVM Classifiers
🔹این بخش به مبانی ریاضی و الگوریتمی طبقهبندی SVM خطی میپردازد. فرآیند بهینهسازی برای یافتن ابرصفحه با حاشیه حداکثر، نقش بردارهای پشتیبان و تأثیر ابرپارامترهای مختلف در اینجا بررسی میشود. درک این مکانیکهای زیرساختی برای تنظیم مؤثر SVMها و به دست آوردن بینشی از نحوه تصمیمگیری طبقهبند ضروری است.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹این بخش به مبانی ریاضی و الگوریتمی طبقهبندی SVM خطی میپردازد. فرآیند بهینهسازی برای یافتن ابرصفحه با حاشیه حداکثر، نقش بردارهای پشتیبان و تأثیر ابرپارامترهای مختلف در اینجا بررسی میشود. درک این مکانیکهای زیرساختی برای تنظیم مؤثر SVMها و به دست آوردن بینشی از نحوه تصمیمگیری طبقهبند ضروری است.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸The Dual Problem
🔹مسئله دوگانه در SVMها به فرمولبندی جایگزین مسئله بهینهسازی اشاره دارد که برای یافتن ابرصفحه بهینه استفاده میشود. به جای حل مسئله در فضای ویژگی اصلی، مسئله دوگانه آن را با استفاده از ضرایب لاگرانژ دوباره فرمولبندی میکند که این امر ترکیب توابع هستهای را آسانتر میکند. این روش بهویژه در طبقهبندی SVM غیرخطی مفید است، جایی که فضای ویژگی ممکن است دارای ابعاد بسیار بالا یا بینهایت باشد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹مسئله دوگانه در SVMها به فرمولبندی جایگزین مسئله بهینهسازی اشاره دارد که برای یافتن ابرصفحه بهینه استفاده میشود. به جای حل مسئله در فضای ویژگی اصلی، مسئله دوگانه آن را با استفاده از ضرایب لاگرانژ دوباره فرمولبندی میکند که این امر ترکیب توابع هستهای را آسانتر میکند. این روش بهویژه در طبقهبندی SVM غیرخطی مفید است، جایی که فضای ویژگی ممکن است دارای ابعاد بسیار بالا یا بینهایت باشد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Kernelized SVMs
🔹 چهارچوب اصلی SVM را با امکان کار در فضاهای ویژگی تبدیل شده با استفاده از توابع هستهای گسترش میدهند.
این هستهها بهطور ضمنی دادههای ورودی را به یک فضای با بعد بالاتر نگاشت میکنند، جایی که یک جداسازی خطی امکانپذیر است. این بخش به بررسی توابع هسته مختلف، مانند هستههای چندجملهای و RBF، و تأثیر آنها بر عملکرد مدل میپردازد. SVMهای هستهدار قدرتمند هستند زیرا انعطافپذیری مدلهای غیرخطی را با استحکام SVMهای خطی ترکیب میکنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔹 چهارچوب اصلی SVM را با امکان کار در فضاهای ویژگی تبدیل شده با استفاده از توابع هستهای گسترش میدهند.
این هستهها بهطور ضمنی دادههای ورودی را به یک فضای با بعد بالاتر نگاشت میکنند، جایی که یک جداسازی خطی امکانپذیر است. این بخش به بررسی توابع هسته مختلف، مانند هستههای چندجملهای و RBF، و تأثیر آنها بر عملکرد مدل میپردازد. SVMهای هستهدار قدرتمند هستند زیرا انعطافپذیری مدلهای غیرخطی را با استحکام SVMهای خطی ترکیب میکنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Training and Visualizing a Decision Tree
این فرآیند شامل تقسیم دادهها به مجموعههای کوچکتر بر اساس ویژگیها و مقادیر آنهاست.
همچنین، تجسم درخت تصمیم با استفاده از ابزارهایی مانند Graphviz توضیح داده میشود تا بتوان ساختار درخت را به صورت گرافیکی مشاهده کرد. این تجسم میتواند به فهم بهتر چگونگی تصمیمگیری مدل کمک کند.
🔸Making Predictions
چگونه یک درخت تصمیم برای پیشبینی خروجی یک نمونهی جدید استفاده میشود؟
درخت با توجه به مقادیر ویژگیهای نمونه، از ریشه به سمت برگها حرکت میکند تا به یک تصمیم نهایی برسد. این بخش بر روی مکانیزم تصمیمگیری در درخت و چگونگی استفاده از آن برای انجام پیشبینیها تمرکز دارد.
🔸 Estimating Class Probabilities
چگونه درختهای تصمیم میتوانند احتمالات کلاسها را به جای یک پیشبینی قطعی تولید کنند؟
هر برگ درخت، نسبت نمونههایی از هر کلاس را که به آن برگ منتهی شدهاند، ارائه میدهد و این نسبت به عنوان احتمال کلاس استفاده میشود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
این فرآیند شامل تقسیم دادهها به مجموعههای کوچکتر بر اساس ویژگیها و مقادیر آنهاست.
همچنین، تجسم درخت تصمیم با استفاده از ابزارهایی مانند Graphviz توضیح داده میشود تا بتوان ساختار درخت را به صورت گرافیکی مشاهده کرد. این تجسم میتواند به فهم بهتر چگونگی تصمیمگیری مدل کمک کند.
🔸Making Predictions
چگونه یک درخت تصمیم برای پیشبینی خروجی یک نمونهی جدید استفاده میشود؟
درخت با توجه به مقادیر ویژگیهای نمونه، از ریشه به سمت برگها حرکت میکند تا به یک تصمیم نهایی برسد. این بخش بر روی مکانیزم تصمیمگیری در درخت و چگونگی استفاده از آن برای انجام پیشبینیها تمرکز دارد.
🔸 Estimating Class Probabilities
چگونه درختهای تصمیم میتوانند احتمالات کلاسها را به جای یک پیشبینی قطعی تولید کنند؟
هر برگ درخت، نسبت نمونههایی از هر کلاس را که به آن برگ منتهی شدهاند، ارائه میدهد و این نسبت به عنوان احتمال کلاس استفاده میشود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸The CART(Classification And Regression Tree) Training Algorithm
این الگوریتم درختهای دودویی تولید میکند و هر گره را به دو زیر مجموعه تقسیم میکند. این بخش به جزئیات این الگوریتم، از جمله چگونگی انتخاب ویژگیهای تقسیم و مقادیر آستانهای که در هر گره استفاده میشوند، میپردازد.
🔸Computational Complexity
در این بخش، پیچیدگی محاسباتی ساخت و استفاده از درختهای تصمیم مورد بررسی قرار میگیرد. درختهای تصمیم به طور کلی از نظر محاسباتی کارآمد هستند، اما پیچیدگی آنها به تعداد گرهها و عمق درخت وابسته است. این بخش همچنین به زمان لازم برای آموزش و پیشبینی توسط درختهای تصمیم اشاره دارد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
این الگوریتم درختهای دودویی تولید میکند و هر گره را به دو زیر مجموعه تقسیم میکند. این بخش به جزئیات این الگوریتم، از جمله چگونگی انتخاب ویژگیهای تقسیم و مقادیر آستانهای که در هر گره استفاده میشوند، میپردازد.
🔸Computational Complexity
در این بخش، پیچیدگی محاسباتی ساخت و استفاده از درختهای تصمیم مورد بررسی قرار میگیرد. درختهای تصمیم به طور کلی از نظر محاسباتی کارآمد هستند، اما پیچیدگی آنها به تعداد گرهها و عمق درخت وابسته است. این بخش همچنین به زمان لازم برای آموزش و پیشبینی توسط درختهای تصمیم اشاره دارد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Gini Impurity or Entropy?
در این بخش دو معیار مهم برای ارزیابی کیفیت تقسیمات در درختهای تصمیم مقایسه میشوند: ناخالصی جینی و آنتروپی. هر دو معیار به ما میگویند که یک گره چقدر «خالص» است، یعنی چقدر از نمونهها به یک کلاس خاص تعلق دارند. این بخش به بررسی تفاوتها و شباهتهای این دو معیار و کاربردهای هر کدام میپردازد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
در این بخش دو معیار مهم برای ارزیابی کیفیت تقسیمات در درختهای تصمیم مقایسه میشوند: ناخالصی جینی و آنتروپی. هر دو معیار به ما میگویند که یک گره چقدر «خالص» است، یعنی چقدر از نمونهها به یک کلاس خاص تعلق دارند. این بخش به بررسی تفاوتها و شباهتهای این دو معیار و کاربردهای هر کدام میپردازد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
🔸Regularization Hyperparameters
در این بخش پارامترهایی که برای جلوگیری از بیشبرازش (overfitting) در درختهای تصمیم استفاده میشوند، مورد بحث قرار میگیرند. این پارامترها شامل حداکثر عمق درخت، حداقل تعداد نمونهها در یک گره برگ، و حداقل تعداد نمونهها برای تقسیم یک گره میشوند. تنظیم این پارامترها میتواند به بهبود عملکرد مدل و کاهش پیچیدگی آن کمک کند.
🔸Regression
در این بخش، استفاده از درختهای تصمیم برای مسائل رگرسیون مورد بررسی قرار میگیرد. در رگرسیون، هدف پیشبینی یک مقدار عددی به جای یک کلاس است. درختهای تصمیم میتوانند برای این نوع مسائل نیز استفاده شوند و خروجیهای آنها میانگین مقادیر نمونههای در هر برگ است.
🔸 Sensitivity to Axis Orientation
این بخش به بررسی این موضوع میپردازد که درختهای تصمیم چگونه به جهتگیری محورهای داده حساس هستند. درختهای تصمیم معمولاً محورهای دادهها را در نظر میگیرند و این باعث میشود که درختها در تقسیمبندی دادهها به جهتگیری محور وابسته باشند، که میتواند منجر به تقسیمهای ناکارآمد در صورت چرخش دادهها شود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
در این بخش پارامترهایی که برای جلوگیری از بیشبرازش (overfitting) در درختهای تصمیم استفاده میشوند، مورد بحث قرار میگیرند. این پارامترها شامل حداکثر عمق درخت، حداقل تعداد نمونهها در یک گره برگ، و حداقل تعداد نمونهها برای تقسیم یک گره میشوند. تنظیم این پارامترها میتواند به بهبود عملکرد مدل و کاهش پیچیدگی آن کمک کند.
🔸Regression
در این بخش، استفاده از درختهای تصمیم برای مسائل رگرسیون مورد بررسی قرار میگیرد. در رگرسیون، هدف پیشبینی یک مقدار عددی به جای یک کلاس است. درختهای تصمیم میتوانند برای این نوع مسائل نیز استفاده شوند و خروجیهای آنها میانگین مقادیر نمونههای در هر برگ است.
🔸 Sensitivity to Axis Orientation
این بخش به بررسی این موضوع میپردازد که درختهای تصمیم چگونه به جهتگیری محورهای داده حساس هستند. درختهای تصمیم معمولاً محورهای دادهها را در نظر میگیرند و این باعث میشود که درختها در تقسیمبندی دادهها به جهتگیری محور وابسته باشند، که میتواند منجر به تقسیمهای ناکارآمد در صورت چرخش دادهها شود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
This media is not supported in your browser
VIEW IN TELEGRAM
🔸Decision Trees Have a High Variance
چرا درختهای تصمیم تمایل دارند واریانس بالایی داشته باشند؟
به دلیل این که درختهای تصمیم بسیار حساس به تغییرات کوچک در دادههای آموزشی هستند، ممکن است مدلهای کاملاً متفاوتی در پاسخ به تغییرات کوچک در دادهها تولید کنند. این مسئله میتواند منجر به بیشبرازش مدل شود، اما با تکنیکهایی مانند bagging میتوان این مشکل را کاهش داد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
چرا درختهای تصمیم تمایل دارند واریانس بالایی داشته باشند؟
به دلیل این که درختهای تصمیم بسیار حساس به تغییرات کوچک در دادههای آموزشی هستند، ممکن است مدلهای کاملاً متفاوتی در پاسخ به تغییرات کوچک در دادهها تولید کنند. این مسئله میتواند منجر به بیشبرازش مدل شود، اما با تکنیکهایی مانند bagging میتوان این مشکل را کاهش داد.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube