🔺 علم داده به زبان ساده - یادگیری آماری
علم داده چیست؟ رابطه آن با آمار و یادگیری ماشین چیست؟
🔹 امروزه صحبت از علم داده و ضرورت استفاده از آن در تمامی ابعاد زندگی، تکرار مکررات است. مجموعه مقالاتی از Pradeep Menon تحت عنوان «علم داده به زبان ساده» در حال انتشار است که تا این تاریخ قسمت دهم آن هم تحت عنوان «Data Science Simplified Part 10: An Introduction to Classification Models» منتشر شده است. به دلیل سادگی و شیوایی این مطالب در انتقال مفاهیم پایه علم داده، تصمیم گرفتم به تدریج با ترجمه و بازنشر آن در سایت مهندسی داده، خدمتی هر چند کوچک به علاقه مندان این حوزه انجام بدهم.
💎 @datascienceexpert
علم داده چیست؟ رابطه آن با آمار و یادگیری ماشین چیست؟
🔹 امروزه صحبت از علم داده و ضرورت استفاده از آن در تمامی ابعاد زندگی، تکرار مکررات است. مجموعه مقالاتی از Pradeep Menon تحت عنوان «علم داده به زبان ساده» در حال انتشار است که تا این تاریخ قسمت دهم آن هم تحت عنوان «Data Science Simplified Part 10: An Introduction to Classification Models» منتشر شده است. به دلیل سادگی و شیوایی این مطالب در انتقال مفاهیم پایه علم داده، تصمیم گرفتم به تدریج با ترجمه و بازنشر آن در سایت مهندسی داده، خدمتی هر چند کوچک به علاقه مندان این حوزه انجام بدهم.
💎 @datascienceexpert
علم داده | Data Science
🔺 علم داده به زبان ساده - یادگیری آماری علم داده چیست؟ رابطه آن با آمار و یادگیری ماشین چیست؟ 🔹 امروزه صحبت از علم داده و ضرورت استفاده از آن در تمامی ابعاد زندگی، تکرار مکررات است. مجموعه مقالاتی از Pradeep Menon تحت عنوان «علم داده به زبان ساده» در حال…
🔺 مقدمهای بر علم داده
🔹 تنوع، حجم و سرعت داده های تولیدی امروزه علاوه بر اینکه محرک اصلی در توسعه فناوریهای کلان داده است، باعث رونق دانشی شده است که امروزه از آن به علم داده یاد می کنیم. علمی که در چند سال گذشته، جذاب ترین و بهترین شغل آمریکا به عنوان یک کشور پیشرو بوده است. سازمانها و شرکتها سعی میکنند برای کسب رضایت بیشتر مشتریان، بیش از پیش داده محور شوند و به کمک یادگیری ماشین و هوش مصنوعی، حوزه های نوینی را در خدمات خود ایجاد کنند. مطالب زیادی امروزه در این حوزه منتشر میشود که اکثر آنها تکنیکی و کمی پیچیده است. در این مجموعه مقالات، سعی خواهیم کرد با زبان ساده، مفاهیم پایه علم داده را آموزش دهم و آن را برای همگان قابل استفاده نماییم.
علم داده یک علم میان رشته ای ایست. علمی که نقطه اشتراک بین دامنه ها و علوم زیر است:
علم تجارت (کسب و کار) به عنوان محرک و نیازمند به علم داده.
یادگیری آماری یا همان یادگیری ماشین به عنوان ابزار کار
برنامه نویسی به عنوان ابزار تولید خروجی و سفارشی سازی الگوریتم ها برای هر مشتری و نیاز خاص
در این مقالات، بیشتر به جنبه یادگیری ماشین این علم که علمی ترین و تکنیکی ترین بخش آن هم خواهد بود، خواهیم پرداخت. ابتدا با یادگیری آماری و مفاهیم پایه آن شما را مستقیم به یادگیری ماشین هدایت خواهیم کرد و بعد از آشنایی با حال و هوای آن، با بازگشتی به عقب، فرآیند اصلی پردازش داده توسط دانشمندان داده را بررسی خواهیم کرد. (نویسنده اصلی به ترتیب عکس عمل کرده است)
💎 @datascienceexpert
🔹 تنوع، حجم و سرعت داده های تولیدی امروزه علاوه بر اینکه محرک اصلی در توسعه فناوریهای کلان داده است، باعث رونق دانشی شده است که امروزه از آن به علم داده یاد می کنیم. علمی که در چند سال گذشته، جذاب ترین و بهترین شغل آمریکا به عنوان یک کشور پیشرو بوده است. سازمانها و شرکتها سعی میکنند برای کسب رضایت بیشتر مشتریان، بیش از پیش داده محور شوند و به کمک یادگیری ماشین و هوش مصنوعی، حوزه های نوینی را در خدمات خود ایجاد کنند. مطالب زیادی امروزه در این حوزه منتشر میشود که اکثر آنها تکنیکی و کمی پیچیده است. در این مجموعه مقالات، سعی خواهیم کرد با زبان ساده، مفاهیم پایه علم داده را آموزش دهم و آن را برای همگان قابل استفاده نماییم.
علم داده یک علم میان رشته ای ایست. علمی که نقطه اشتراک بین دامنه ها و علوم زیر است:
علم تجارت (کسب و کار) به عنوان محرک و نیازمند به علم داده.
یادگیری آماری یا همان یادگیری ماشین به عنوان ابزار کار
برنامه نویسی به عنوان ابزار تولید خروجی و سفارشی سازی الگوریتم ها برای هر مشتری و نیاز خاص
در این مقالات، بیشتر به جنبه یادگیری ماشین این علم که علمی ترین و تکنیکی ترین بخش آن هم خواهد بود، خواهیم پرداخت. ابتدا با یادگیری آماری و مفاهیم پایه آن شما را مستقیم به یادگیری ماشین هدایت خواهیم کرد و بعد از آشنایی با حال و هوای آن، با بازگشتی به عقب، فرآیند اصلی پردازش داده توسط دانشمندان داده را بررسی خواهیم کرد. (نویسنده اصلی به ترتیب عکس عمل کرده است)
💎 @datascienceexpert
علم داده | Data Science
🔺 مقدمهای بر علم داده 🔹 تنوع، حجم و سرعت داده های تولیدی امروزه علاوه بر اینکه محرک اصلی در توسعه فناوریهای کلان داده است، باعث رونق دانشی شده است که امروزه از آن به علم داده یاد می کنیم. علمی که در چند سال گذشته، جذاب ترین و بهترین شغل آمریکا به عنوان یک…
🔺 یادگیری آماری
🔹 اصل و اساس علم داده، یادگیری براساس دادههای موجود است که از طریق علم یادگیری آماری صورت میگیرد. ویکی پدیا نظریه یادگیری آماری را چارچوبی برای یادگیری ماشین میداند که بر مبنای آمار و تحلیل تابعی بنا شده است. طبق این تعریف، یادگیری ماشین عبارتست از علم استفاده از تکنیکهای یادگیری آماری که توسط نرمافزارها و کتابخانههای گوناگون پیاده سازی شده است.
بنابراین در قدم اول در یادگیری ماشین، درک و آشنایی با مفاهیم یادگیری آماری است که در این نوشتار به مفاهیم مقدماتی آن خواهیم پرداخت.
یادگیری ماشین اشاره له ابزار و تکنیکهایی دارد که ما را قادر به درک بهتر دادهها میکند. اما درک بهتر دادهها به چه معناست؟ این موضوع هم نیاز به توضیح دارد. با موضوع نوع دادهها، بحث را شروع میکنیم. در حوزه یادگیری آماری، ما دو نوع داده داریم:
● دادههایی که میتواند مستقیما کنترل شود و مقدار آنها به متغیر دیگری وابسته نیست - دادههای مستقل
● دادههایی که تحت کنترل مستقیم ما نیستند و مقدار آنها وابسته به مقدار سایر دادههاست - دادههای وابسته
دادههایی که تحت کنترل ما نیستند و مقادیر آنها توسط سایر دادهها تعیین میشود نیاز به پیشبینی و تخمین دارند. کاری که یادگیری آماری برای انجام آن به کمک ما میآید.
درک بهتر دادهها، در حقیقت شناخت دادههای وابسته براساس دادههای مستقل است.
بهتر است مثالی بزنیم. فرض کنید که میخواهیم میزان فروش را براساس بودجهای که برای تبلیغات در نظر گرفتهایم، تخمین بزنیم. بودجه تبلیغات در اختیار ما است اما چیزی که نمیتوانیم کنترل کنیم تاثیر آن بر میزان فروش خواهد بود. بنابراین به دنبال راهی برای توصیف دادههایی هستیم که دست ما نیست (فروش) براساس تابعی از آنچه که در اختیار ما است (بودجه تبلیغات). در حقیقت به دنبال کشف رابطه پنهان بین این دو متغیر هستیم.
یادگیری آماری، روابط پنهان را آشکار میکند: روابط بین متغیرها و دادههای مستقل و وابسته
💎 @datascienceexpert
🔹 اصل و اساس علم داده، یادگیری براساس دادههای موجود است که از طریق علم یادگیری آماری صورت میگیرد. ویکی پدیا نظریه یادگیری آماری را چارچوبی برای یادگیری ماشین میداند که بر مبنای آمار و تحلیل تابعی بنا شده است. طبق این تعریف، یادگیری ماشین عبارتست از علم استفاده از تکنیکهای یادگیری آماری که توسط نرمافزارها و کتابخانههای گوناگون پیاده سازی شده است.
بنابراین در قدم اول در یادگیری ماشین، درک و آشنایی با مفاهیم یادگیری آماری است که در این نوشتار به مفاهیم مقدماتی آن خواهیم پرداخت.
یادگیری ماشین اشاره له ابزار و تکنیکهایی دارد که ما را قادر به درک بهتر دادهها میکند. اما درک بهتر دادهها به چه معناست؟ این موضوع هم نیاز به توضیح دارد. با موضوع نوع دادهها، بحث را شروع میکنیم. در حوزه یادگیری آماری، ما دو نوع داده داریم:
● دادههایی که میتواند مستقیما کنترل شود و مقدار آنها به متغیر دیگری وابسته نیست - دادههای مستقل
● دادههایی که تحت کنترل مستقیم ما نیستند و مقدار آنها وابسته به مقدار سایر دادههاست - دادههای وابسته
دادههایی که تحت کنترل ما نیستند و مقادیر آنها توسط سایر دادهها تعیین میشود نیاز به پیشبینی و تخمین دارند. کاری که یادگیری آماری برای انجام آن به کمک ما میآید.
درک بهتر دادهها، در حقیقت شناخت دادههای وابسته براساس دادههای مستقل است.
بهتر است مثالی بزنیم. فرض کنید که میخواهیم میزان فروش را براساس بودجهای که برای تبلیغات در نظر گرفتهایم، تخمین بزنیم. بودجه تبلیغات در اختیار ما است اما چیزی که نمیتوانیم کنترل کنیم تاثیر آن بر میزان فروش خواهد بود. بنابراین به دنبال راهی برای توصیف دادههایی هستیم که دست ما نیست (فروش) براساس تابعی از آنچه که در اختیار ما است (بودجه تبلیغات). در حقیقت به دنبال کشف رابطه پنهان بین این دو متغیر هستیم.
یادگیری آماری، روابط پنهان را آشکار میکند: روابط بین متغیرها و دادههای مستقل و وابسته
💎 @datascienceexpert