🔸Out-of-Bag Evaluation
🔹روشی است که برای اندازهگیری عملکرد مدلهای bagging استفاده میشود. چون هر نمونهبرداری بوستراپ حدود یک سوم دادهها را شامل نمیشود، این نمونههای استفادهنشده میتوانند بهعنوان یک مجموعه اعتبارسنجی برای آن مدل عمل کنند.
🔺مثال:
🔹روشی است که برای اندازهگیری عملکرد مدلهای bagging استفاده میشود. چون هر نمونهبرداری بوستراپ حدود یک سوم دادهها را شامل نمیشود، این نمونههای استفادهنشده میتوانند بهعنوان یک مجموعه اعتبارسنجی برای آن مدل عمل کنند.
🔺مثال:
🔸Random Patches and Random Subspaces
🔹پچهای تصادفی: این تکنیک، bagging و انتخاب ویژگی تصادفی را ترکیب میکند.
در این روش، هم نمونهها و هم ویژگیها بهصورت تصادفی برای آموزش مدلهای فردی انتخاب میشوند.
🔹زیرفضاهای تصادفی: مشابه پچهای تصادفی است، اما تنها ویژگیها نمونهبرداری میشوند در حالی که از کل دادههای آموزشی استفاده میشود.
✨این روشها میتوانند تنوع میان مدلها را افزایش دهند و منجر به بهبود عملکرد شوند.
🔸Random Forests
🔹یک گسترش از bagging برای درختان تصمیم هستند.
در جنگلهای تصادفی:
- هر درخت با استفاده از یک نمونه بوستراپ از دادهها آموزش میبیند.
- هنگام تقسیم یک گره، یک زیرمجموعه تصادفی از ویژگیها انتخاب میشود.
✨این رویکرد همبستگی میان درختها را کاهش داده و به بهبود تعمیم کمک میکند.
🔺مثال:
🔹پچهای تصادفی: این تکنیک، bagging و انتخاب ویژگی تصادفی را ترکیب میکند.
در این روش، هم نمونهها و هم ویژگیها بهصورت تصادفی برای آموزش مدلهای فردی انتخاب میشوند.
🔹زیرفضاهای تصادفی: مشابه پچهای تصادفی است، اما تنها ویژگیها نمونهبرداری میشوند در حالی که از کل دادههای آموزشی استفاده میشود.
✨این روشها میتوانند تنوع میان مدلها را افزایش دهند و منجر به بهبود عملکرد شوند.
🔸Random Forests
🔹یک گسترش از bagging برای درختان تصمیم هستند.
در جنگلهای تصادفی:
- هر درخت با استفاده از یک نمونه بوستراپ از دادهها آموزش میبیند.
- هنگام تقسیم یک گره، یک زیرمجموعه تصادفی از ویژگیها انتخاب میشود.
✨این رویکرد همبستگی میان درختها را کاهش داده و به بهبود تعمیم کمک میکند.
🔺مثال:
🔸Extra-Trees
🔹یک مجموعهای از درختان تصمیم است اما با رویکردی بیشتر تصادفی. تقسیمات گره بهصورت تصادفی انتخاب میشوند به جای اینکه بهینهسازی شوند. این معمولاً منجر به محاسبات سریعتر و دقت بیشتر میشود.
🔺مثال:
🔹یک مجموعهای از درختان تصمیم است اما با رویکردی بیشتر تصادفی. تقسیمات گره بهصورت تصادفی انتخاب میشوند به جای اینکه بهینهسازی شوند. این معمولاً منجر به محاسبات سریعتر و دقت بیشتر میشود.
🔺مثال:
🔸Feature Importance
🔹جنگلهای تصادفی و Extra-Trees روشی برای ارزیابی اهمیت ویژگیها در مدل ارائه میدهند.
این براساس میزان تأثیر هر ویژگی در کاهش ناخالصی در تمام درختها محاسبه میشود.
✨این تصویرسازی، میتواند در درک اینکه کدام ویژگیها برای پیشبینیهای مدل بیشترین تأثیر را دارند، کمک کند.
🔺مثال:
🔹جنگلهای تصادفی و Extra-Trees روشی برای ارزیابی اهمیت ویژگیها در مدل ارائه میدهند.
این براساس میزان تأثیر هر ویژگی در کاهش ناخالصی در تمام درختها محاسبه میشود.
✨این تصویرسازی، میتواند در درک اینکه کدام ویژگیها برای پیشبینیهای مدل بیشترین تأثیر را دارند، کمک کند.
🔺مثال:
🔸Boosting
🔹یک روش دیگر تجمعی است که در آن مدلها بهصورت ترتیبی آموزش میبینند. هر مدل بعدی بر روی اشتباهات مدل قبلی تمرکز میکند.
این میتواند به تبدیل یادگیرندگان ضعیف (مدلهایی که کمی بهتر از حدس تصادفی هستند) به یک یادگیرنده قوی کمک کند.
🔸AdaBoost
🔹تقویت تطبیقی (AdaBoost) وزنهای نمونههای incorrectly classified را تنظیم میکند، که باعث میشود طبقهبند بعدی بیشتر بر روی مثالهای چالشبرانگیز تمرکز کند.
🔺مثال:
🔹یک روش دیگر تجمعی است که در آن مدلها بهصورت ترتیبی آموزش میبینند. هر مدل بعدی بر روی اشتباهات مدل قبلی تمرکز میکند.
این میتواند به تبدیل یادگیرندگان ضعیف (مدلهایی که کمی بهتر از حدس تصادفی هستند) به یک یادگیرنده قوی کمک کند.
🔸AdaBoost
🔹تقویت تطبیقی (AdaBoost) وزنهای نمونههای incorrectly classified را تنظیم میکند، که باعث میشود طبقهبند بعدی بیشتر بر روی مثالهای چالشبرانگیز تمرکز کند.
🔺مثال:
🔸Gradient Boosting
Gradient Boosting
🔹درختان را بهصورت ترتیبی میسازد و مدل را بر اساس گرادیان تابع هزینه بهینه میکند. این روش انعطافپذیرتر است و میتواند مدلهای قدرتمندتری ارائه دهد.
✨تقویت گرادیان مبتنی بر هیستوگرام نسخه بهینهشده از تقویت گرادیان است که از هیستوگرامها برای محاسبات سریعتر استفاده میکند.
این ویژگی در کتابخانههایی مانند XGBoost یا LightGBM در دسترس است.
🔺مثال:
Gradient Boosting
🔹درختان را بهصورت ترتیبی میسازد و مدل را بر اساس گرادیان تابع هزینه بهینه میکند. این روش انعطافپذیرتر است و میتواند مدلهای قدرتمندتری ارائه دهد.
✨تقویت گرادیان مبتنی بر هیستوگرام نسخه بهینهشده از تقویت گرادیان است که از هیستوگرامها برای محاسبات سریعتر استفاده میکند.
این ویژگی در کتابخانههایی مانند XGBoost یا LightGBM در دسترس است.
🔺مثال:
🔸Stacking
🔹انباشتهسازی یک روش تجمعی است که چندین مدل طبقهبندی یا رگرسیون را از طریق متا-مدل ترکیب میکند.
پیشبینیهای مدلهای پایه بهعنوان ورودی برای متا-مدل استفاده میشوند، که یاد میگیرد تا پیشبینی نهایی را بهبود بخشد.
🔺مثال:
🔹انباشتهسازی یک روش تجمعی است که چندین مدل طبقهبندی یا رگرسیون را از طریق متا-مدل ترکیب میکند.
پیشبینیهای مدلهای پایه بهعنوان ورودی برای متا-مدل استفاده میشوند، که یاد میگیرد تا پیشبینی نهایی را بهبود بخشد.
🔺مثال:
from sklearn.ensemble import StackingClassifier
base_models = [('gb', GradientBoostingClassifier()), ('rf', RandomForestClassifier())]
stacking_model = StackingClassifier(estimators=base_models, final_estimator=LogisticRegression())
stacking_model.fit(X_train, y_train)
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
سلام دوستان، روزتون بهخیر. ✨
باتوجه به پیامهای نامناسبی که از طرف عضو سابق ما در گروه ارائهدهندگان ارسال شده لازم دونستیم این مطلب رو توضیح بدیم تا سوءتفاهمات برطرف شوند.
به دلیل چالشهای بوجود آمده و رفتارهای نامتناسبی که دیده شده، خانم نگار عسگری دیگر در تیم ما حضور نخواهد داشت. و این تصمیم ابتدا از طرف شخص خودشان بوده و همه اعضاء نیز موافقت کردند.
از بابت حرکت نامتعارف ایشان در گروه، عذرخواهی میکنیم. 🙏
در ادامه، فعالیت تیم با روال سابق ادامه خواهد داشت و جای نگرانیای وجود ندارد.
لازم به ذکر است که هرگونه پیام و گروهی که توسط ایشان برای شما ارسال شود ارتباطی با تیم تنسورفیلیا نخواهد داشت.
ممنون از همراهی شما.🌱
- تنسورفیلیا
باتوجه به پیامهای نامناسبی که از طرف عضو سابق ما در گروه ارائهدهندگان ارسال شده لازم دونستیم این مطلب رو توضیح بدیم تا سوءتفاهمات برطرف شوند.
به دلیل چالشهای بوجود آمده و رفتارهای نامتناسبی که دیده شده، خانم نگار عسگری دیگر در تیم ما حضور نخواهد داشت. و این تصمیم ابتدا از طرف شخص خودشان بوده و همه اعضاء نیز موافقت کردند.
از بابت حرکت نامتعارف ایشان در گروه، عذرخواهی میکنیم. 🙏
در ادامه، فعالیت تیم با روال سابق ادامه خواهد داشت و جای نگرانیای وجود ندارد.
لازم به ذکر است که هرگونه پیام و گروهی که توسط ایشان برای شما ارسال شود ارتباطی با تیم تنسورفیلیا نخواهد داشت.
ممنون از همراهی شما.🌱
- تنسورفیلیا
▫️The Curse of Dimensionality
این موضوع به چالشهایی اشاره دارد که هنگام کار با دادههای با ابعاد( تعداد ویژگیهای موجود در یک مجموعه داده) بالا به وجود میآیند.
با افزایش تعداد ابعاد، حجم فضای داده به صورت نمایی افزایش مییابد که این امر منجر به پراکندگی دادهها و افزایش هزینه محاسباتی تحلیل دادهها میشود.
این پراکندگی بدین معناست که روشهای آماری برای تولید مدلهای قابل اعتماد به دادههای بیشتری نیاز دارند، که میتواند منجر به بیشبرازش (overfitting) و کاهش عملکرد شود.
🔻درک این مفهوم برای دانشمندان داده ضروری است تا از تفسیر نادرست و ناکارآمدیها در فضاهای با ابعاد بالا جلوگیری کنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
این موضوع به چالشهایی اشاره دارد که هنگام کار با دادههای با ابعاد( تعداد ویژگیهای موجود در یک مجموعه داده) بالا به وجود میآیند.
با افزایش تعداد ابعاد، حجم فضای داده به صورت نمایی افزایش مییابد که این امر منجر به پراکندگی دادهها و افزایش هزینه محاسباتی تحلیل دادهها میشود.
این پراکندگی بدین معناست که روشهای آماری برای تولید مدلهای قابل اعتماد به دادههای بیشتری نیاز دارند، که میتواند منجر به بیشبرازش (overfitting) و کاهش عملکرد شود.
🔻درک این مفهوم برای دانشمندان داده ضروری است تا از تفسیر نادرست و ناکارآمدیها در فضاهای با ابعاد بالا جلوگیری کنند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
▫️Main Approaches for Dimensionality Reduction
تکنیکهای کاهش ابعاد برای کاهش تعداد متغیرهای تصادفی مورد بررسی با به دست آوردن مجموعهای از متغیرهای اصلی استفاده میشوند.
این تکنیکها را میتوان به دو رویکرد اصلی دستهبندی کرد:
▫️پرتوسازی(Projection )
▫️ یادگیری مانفولد(Manifold Learning)
🔻روشهای پرتوسازی هدفشان این است که دادهها را از فضای با ابعاد بالا به فضای با ابعاد پایینتر پرتوسازی کنند و در عین حال تا حد ممکن واریانس را حفظ کنند.
🔻تکنیکهای یادگیری مانفولد فرض میکنند که دادهها بر روی یک مانفولد با ابعاد پایینتر درون فضای با ابعاد بالا قرار دارند و سعی در یادگیری ساختار آن مانفولد دارند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
تکنیکهای کاهش ابعاد برای کاهش تعداد متغیرهای تصادفی مورد بررسی با به دست آوردن مجموعهای از متغیرهای اصلی استفاده میشوند.
این تکنیکها را میتوان به دو رویکرد اصلی دستهبندی کرد:
▫️پرتوسازی(Projection )
▫️ یادگیری مانفولد(Manifold Learning)
🔻روشهای پرتوسازی هدفشان این است که دادهها را از فضای با ابعاد بالا به فضای با ابعاد پایینتر پرتوسازی کنند و در عین حال تا حد ممکن واریانس را حفظ کنند.
🔻تکنیکهای یادگیری مانفولد فرض میکنند که دادهها بر روی یک مانفولد با ابعاد پایینتر درون فضای با ابعاد بالا قرار دارند و سعی در یادگیری ساختار آن مانفولد دارند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
▫️Projection
کاهش ابعاد مبتنی بر پرتوسازی شامل تبدیل دادهها از فضای با ابعاد بالا به یک فضای با ابعاد پایینتر است.
🔻این فرآیند معمولاً به حفظ مهمترین ساختارها و روابط در دادهها کمک میکند.
تحلیل مؤلفههای اصلی (PCA) یک تکنیک رایج پرتوسازی است که جهتهایی (مؤلفههای اصلی) را شناسایی میکند که دادهها در آنها بیشترین تغییر را دارند و دادهها را بر روی این جهتها پرتوسازی میکند. این کار منجر به کاهش ابعاد میشود در حالی که تا حد ممکن واریانس حفظ میشود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
کاهش ابعاد مبتنی بر پرتوسازی شامل تبدیل دادهها از فضای با ابعاد بالا به یک فضای با ابعاد پایینتر است.
🔻این فرآیند معمولاً به حفظ مهمترین ساختارها و روابط در دادهها کمک میکند.
تحلیل مؤلفههای اصلی (PCA) یک تکنیک رایج پرتوسازی است که جهتهایی (مؤلفههای اصلی) را شناسایی میکند که دادهها در آنها بیشترین تغییر را دارند و دادهها را بر روی این جهتها پرتوسازی میکند. این کار منجر به کاهش ابعاد میشود در حالی که تا حد ممکن واریانس حفظ میشود.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
▫️Manifold Learning
یادگیری مانفولد یک نوع کاهش ابعاد غیرخطی است که فرض میکند نقاط داده بر روی یک مانفولد با ابعاد پایینتر درون فضای با ابعاد بالاتر قرار دارند.
🔻تکنیکهایی مانند Locally Linear Embedding (LLE) و Isomap روشهای محبوب یادگیری مانفولد هستند.
این تکنیکها سعی میکنند هندسه ذاتی دادهها را تا حد ممکن حفظ کنند در حالی که آنها را به فضای با ابعاد پایینتر نگاشت میکنند و برای کشف ساختارهای پیچیده در دادهها مفید هستند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube
یادگیری مانفولد یک نوع کاهش ابعاد غیرخطی است که فرض میکند نقاط داده بر روی یک مانفولد با ابعاد پایینتر درون فضای با ابعاد بالاتر قرار دارند.
🔻تکنیکهایی مانند Locally Linear Embedding (LLE) و Isomap روشهای محبوب یادگیری مانفولد هستند.
این تکنیکها سعی میکنند هندسه ذاتی دادهها را تا حد ممکن حفظ کنند در حالی که آنها را به فضای با ابعاد پایینتر نگاشت میکنند و برای کشف ساختارهای پیچیده در دادهها مفید هستند.
🤖➖➖➖➖➖➖➖➖➖➖
🆔 Telegram | LinkedIn | YouTube