مدت زمان تقریبی مطالعه: 12 دقیقه
23 دی 1400
رگرسیون چیست؟ + معرفی انواع رگرسیون
برای واژهی رگرسیون (regression) میتوانید یک جمله را در ذهن خود برای همیشه ثبت کنید و آن هم، «تعیین رابطه بین متغیرهایی که به یکدیگر مرتبط هستند و متغیرهایی که ارتباطی به یکدیگر ندارند!» است که به متغیرهای گروه اول «پاسخ» و به گروه دوم «پیشگو» میگوییم.
در این مقاله، ما به بررسی تحلیل رگرسیون به عنوان یک ابزار آماری مهم پرداخته و نحوه استفاده از آن در تفسیر روابط بین متغیرها را بیان خواهیم کرد. همچنین، ما به بررسی انواع مختلف تحلیل رگرسیون و مراحل اجرای آن خواهیم پرداخت، پس در ادامه ی این مطلب نادین سافت همراه ما باشید.

رگرسیون چیست؟
رگرسیون یک تکنیک آماری است که برای بررسی و تحلیل رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار میرود. هدف اصلی رگرسیون، پیشبینی یا توصیف متغیر وابسته بر اساس متغیرهای مستقل میباشد. رگرسیون به ما این امکان را میدهد تا مدلهایی از روابط بین متغیرها ایجاد کنیم و از آن ها برای پیشبینی یا تحلیل دادههای جدید استفاده کنیم.
در رگرسیون، متغیرهای توضیحی معمولاً با X و متغیر وابسته با Y نشان داده می شوند. رگرسیون بر اساس دادههای مشاهدهشده، رابطهای ریاضی بین X و Y ایجاد میکند و بسته به مسئله ممکن است از یکی از انواع مختلف رگرسیون (مانند رگرسیون خطی، رگرسیون منطقی، رگرسیون غیرخطی و غیره) استفاده شود.
برای درک بهتر کاربرد آن، فرض کنید یک مدیر فروش هستید که سعی می کند فروش ماه آینده را پیش بینی کند. میدانید که دهها، حتی صدها عامل، از آب و هوا گرفته تا پیشرفت رقیب، شایعه ها و اخبار روز میتواند بر فروش شما تأثیر بگذارد. اما سوال اصلی این است که کدام عوامل بیشترین اهمیت را دارند؟ کدام را می توانیم نادیده بگیریم؟ این عوامل چگونه با یکدیگر تعامل دارند؟ و شاید مهمتر از همه، چقدر در مورد تاثیر همه ی این عوامل مطمئن هستیم؟
چرا استفاده از رگرسیون مهم است؟
رگرسیون در مسائل مختلف، کاربرد های زیادی دارد. تحلیل رگرسیون علاوه بر اینکه به شما می گوید چه رابطه معناداری بین دو یا چند متغیر وجود دارد، می تواند جزئیات خاصی را در مورد آن رابطه ارائه دهد. به طور مثال، می تواند قدرت تاثیری که چندین متغیر بر روی یک متغیر وابسته خواهند داشت را تخمین بزند. به عنوان مثال، اگر مقدار یک متغیر مستقل (مثلاً قیمت) را تغییر دهید، رگرسیون به شما می گوید که چه تأثیری بر متغیر وابسته (فروش) خواهد داشت.
مراحل تحلیل رگرسیون چگونه است؟
مراحل تحلیل رگرسیون به شکل زیر است:
- جمعآوری دادهها:
ابتدا باید دادههای مورد نیاز برای تحلیل رگرسیون را جمعآوری کنید. این دادهها شامل متغیرهای توضیحی (مستقل) و متغیر وابسته (واکنشی) میشوند. - ساخت مدل رگرسیون:
مدل رگرسیون بر اساس دادههای جمعآوری شده ایجاد می شود. این مدل به صورت یک تابع ریاضی نمایش داده میشود که متغیر وابسته را به متغیرهای توضیحی، مرتبط میکند. - تخمین پارامترها:
پس از ایجاد مدل، باید پارامترهای مدل را تخمین بزنید. این پارامترها معمولاً شامل ضرایب مدل (مانند b0 و b1 در مدل خطی) میشوند. برای تخمین این پارامترها از متغیرهای توضیحی و واکنشی دادهها، استفاده میشود. - ارزیابی مدل:
مدل رگرسیون باید ارزیابی شود تا مطمئن شوید که به درستی با دادهها، تطابق دارد. این ارزیابی با استفاده از معیارهای ارزیابی مناسبی مانند معیارهای خطا (مثل خطای میانگین مربعات) صورت می گیرد. هدف این مرحله بهبود مدل و تصمیمگیری در مورد انتخاب و یا بهینهسازی متغیرها میباشد. - استفاده از مدل:
پس از ارزیابی موفقیت مدل، میتوانید از آن برای پیشبینی یا تحلیل دادههای جدید استفاده کنید. با ورود مقادیر جدید متغیرهای توضیحی به مدل، میتوانید مقدار متغیر وابسته را تخمین بزنید.
عملکرد رگرسیون به نوع مدل و تنظیمات مختلف، بستگی دارد. انتخاب مناسب مدل رگرسیون و ترتیب مراحل متناسب با مسئله تحلیلی مورد نظر، به بهبود دقت و قدرت پیشبینی مدل کمک می کند.

انواع رگریسون
انواع مختلفی از رگرسیون وجود دارد که بر اساس شرایط و ویژگیهای مسئله، انتخاب می شوند. در پایین به تعدادی از کاربردی ترین مدل های رگرسیون اشاره می کنیم:
رگرسیون خطی
رگرسیون خطی (linear regression) را میتوان ساده ترین نوع regression در نظر گرفت. رگرسیون خطی به دو دستهی خطی ساده و خطی چندگانه تقسیم بندی میشود. در صورتی که داده ها شامل بیش از یک متغیر مستقل باشند، رگرسیون خطی را رگرسیون خطی چندگانه می نامند. این دو نوع، شامل یک ساختار کامل و وسیع هستند و نیازمندیهای تعداد زیادی از تحلیلها را پاسخ میدهند اما برای تحلیل داده های بزرگ (big data) مناسب نیست.
از معادله زیر برای نشان دادن مدل رگرسیون خطی استفاده می شود:
y=mx+c+e
که در آن m شیب خط، c نقطه شروع و e نشان دهنده خطا در مدل است.
نکته:مقادیر m و c باید به گونه ای انتخاب می شوند که حداقل خطای پیش بینی کننده را بدهند.

می توان از رگرسیون خطی ساده برای تحلیل موارد زیر استفاده کرد:
- برای یافتن شدت وابستگی بین دو متغیر، مانند رابطه میزان انتشار کربن دی اکسید و گرم شدن کره زمین.
- برای یافتن مقدار متغیر وابسته از روی مقدار صریح متغیر مستقل
و از رگرسیون خطی چندگانه برای موارد زیر استفاده می شود:
- تخمین اینکه دو یا چند متغیر مستقل تا چه حد بر متغیر وابسته تاثیر می گذارند. مانند بررسی تاثیر مکان، زمان، شرایط و مساحت بر قیمت ملک.
- برای یافتن مقدار متغیرهای وابسته در شرایط معینی از همه متغیرهای مستقل. به عنوان مثال، یافتن قیمت ملکی که در یک مکان خاص، با یک منطقه خاص و وضعیت آن قرار دارد.
همانطور که بررسی کردیم، کاربردهای رگرسیون خطی ساده و چندگانه از جهاتی با یکدیگر کاملا متفاوت هستند. در نوع خطی باید تنها یک متغیر تحت عنوان «پیش بینی کننده» داشته باشیم. اما در نوع چندگانه با توجه به ضرورت مسئله، بیش از یک متغیر ِپیش بینی کننده داریم.
رگرسیون لجستیک (Logistic Regression)
لجستیک یکی از انواع تکنیک های تحلیل رگرسیون است و زمانی استفاده می شود که متغیر وابسته، گسسته باشد. مثلا 0 یا 1، درست یا نادرست، و غیره باشد. این به این معناست که متغیر هدف فقط می تواند دو مقدار داشته باشد. در این مدل یک منحنی سیگموئید نشان دهنده رابطه بین متغیر هدف و متغیر مستقل است.
تابع Logit در این مدل برای اندازه گیری رابطه بین متغیر هدف و متغیرهای مستقل استفاده می شود. در زیر معادله ی آن آمده است.
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk
در این معادله، p احتمال وقوع ویژگی است.

نکته: باید توجه داشت که در این مدل اندازه داده ها بزرگ است و مقادیر تقریباً برابری در متغیرهای هدف وجود دارد.
رگرسیون ستیغی یا ریج (Ridge Regression)
این روش یکی دیگر از انواع رگرسیون در یادگیری ماشین (machine learning) است و معمولاً زمانی استفاده می شود، که همبستگی بالایی بین متغیرهای مستقل وجود داشته باشد. اینکار به این دلیل است که در مورد داده های چند خطی، حداقل مربعات تخمین ها مقادیر بی ارزشی را ارائه می کنند و در صورتی که همخطی بسیار زیاد باشد، ممکن است مقداری سوگیری وجود داشته باشد. بنابراین، یک ماتریس بایاس در معادله رگرسیون ریج معرفی شده است. این یک روش رگرسیون، یک روش قدرتمند است که در آن داده ها کمتر دچار overfitting می شوند.
معادله زیر که برای نشان دادن مدل ریج استفاده می شود:
β = (X^{T}X + λ*I)^{-1}X^{T}y

رگرسیون لاسو (Lasso Regression)
رگرسیون لاسو (Lasso Regression) یک روش در تحلیل آماری و یادگیری ماشین است، که برای مدلسازی و انتخاب ویژگیها در دادههای پیچیده مفید است. نام “لاسو” از عبارت Least Absolute Shrinkage and Selection Operator گرفته شده و به معنای ترکیب کردن دو مفهوم “کاهش مطلق مینیموم” و “انتخاب ویژگی” است.
لاسو با استفاده از تابع هدف خود، تلاش میکند تا علاوه بر مدلسازی دقیق متغیر وابسته، ویژگیهای مهم را در مدل انتخاب کند وآن ها را با تخصیص وزنهای غیر صفر به آنها شناسایی کند. این ویژگی انتخابی از لاسو میتواند به تسهیل تفسیر مدل و کاهش اهمیت ویژگیهای غیرضروری کمک کند.
تابع هدف لاسو به صورت زیر تعریف میشود:
J(β) = 1/2m * Σ(yᵢ – β₀ – Σ(βⱼ * xᵢⱼ))² + λ * Σ|βⱼ
در این تابع، m تعداد نمونهها، yᵢ مقدار واقعی متغیر وابسته برای نمونه i، متغیر βⱼ وزنهای تخمینی برای ویژگیهای مستقل xᵢⱼ است.
لاسو عمدتاً برای مقابله با مشکل “چند خطیتی” (Multicollinearity) در دادهها و انتخاب ویژگیها در مسائل با متغیرهای مستقل، بسیار مفید است. این مسئله اغلب در مدلهای رگرسیون با ویژگیهای مرتبط یکدیگر رخ میدهد و لاسو به عنوان یک روش انتخاب ویژگی کمک میکند تا ویژگیهای مهم انتخاب شوند و ویژگیهای متقابل حذف شوند.

کاربردهای رگرسیون
رگرسیون در مسائل مختلف، کاربرد های زیادی دارد. از پیش بینی بازار های مالی، پیش بینی فروش و پیش بینی آب و هوا گرفته تا تست خودروها، همگی از کاربرد های مختلف رگرسیون به حساب می آید. از کاربرد های دیگر رگرسیون می توان به موارد زیر اشاره کرد:
تجزیه و تحلیل در کسب و کار ها
رگرسیون در تحلیل کسب و کارها به عنوان یک ابزار تحلیلی و پیشبینی مفید است و در موارد مختلفی در دنیای تجارت و اقتصاد مورد استفاده قرار میگیرد. در زیر به برخی از کاربردهای رگرسیون در تحلیل کسب و کارها اشاره شده است:
- پیشبینی فروش و درآمد:
یکی از کاربردهای اصلی رگرسیون در تجارت، پیشبینی فروش و درآمد است. با استفاده از دادههای گذشته مثل تبلیغات، قیمت محصول، شرایط اقتصادی و متغیرهای مشابه، میتوانید مدلهای رگرسیون بسازید که به شما کمک میکنند تا فروش و درآمد آینده را تخمین بزنید. - تأثیر عوامل بازاریابی:
در تجارت و بازاریابی، میتوانید تأثیر عوامل بازاریابی مثل تبلیغات تلویزیونی، تبلیغات آنلاین، تخفیفها و اقدامات تبلیغاتی دیگر را روی فروش و انتخاب مصرف کنندگان تحلیل کنید. - پیشبینی موجودی و نیازمندی ها:
در صنایع تولیدی، توزیع و خرده فروشی، Regression میتواند به شما کمک کند تا نیازمندیها و میزان مواد مورد نیاز را بر اساس عواملی مانند تغییرات تقاضا، فصل و شرایط اقتصادی پیشبینی کنید. - تحلیل تأثیر متغیرهای محیطی:
در تجارت، عوامل مختلفی مثل تغییرات اقتصادی، تغییرات قوانین و مقررات، تغییرات جمعیتی و اجتماعی و غیره باعث ایجاد تغییرات می شود. با استفاده از رگرسیون، میتوانید تأثیر این متغیرها را بر روی کسب و کار خود بسنجید. - تحلیل عوامل مؤثر در موفقیت کسب و کار:
با استفاده از رگرسیون، میتوانید عوامل مختلفی مثل تجربه تیم مدیریتی، تأمین مالی، ساختار سازمانی و غیره را برای تحلیل تاثیر آن در موفقیت یا عدم موفقیت کسب و کار خود در نظر بگیرید.
یادگیری ماشین (machine learning)
رگرسیون در یادگیری ماشین، یکی از الگوریتمهای مهم و پرکاربرد است که برای مسائل پیشبینی و تحلیل دادهها استفاده میشود. در یادگیری ماشین، Regression به عنوان یک الگوریتم نظارتی (Supervised Learning) معرفی میشود و برای پیشبینی متغیر وابسته بر اساس متغیرهای مستقل استفاده میشود. در زیر تعدادی از کاربردهای رگرسیون در یادگیری ماشین را مشاهده میکنید:
- پیشبینی مقادیر عددی:
از رگرسیون برای پیشبینی مقادیر عددی متغیر وابسته مثل قیمت یک ملک بر اساس ویژگیهایی مانند مساحت، تعداد اتاقها و موقعیت جغرافیایی استفاده میشود. - بررسی تأثیر عوامل مختلف:
با استفاده از این الگوریتم، می توانیم تأثیر متغیرهای مستقل را بر روی متغیر وابسته مورد بررسی قرار دهیم. به عبارت دیگر، میتوانیم بفهمیم کدام متغیرها بیشترین تأثیر را بر روی نتایج دارند. - تحلیل روابط پیچیده:
در برخی موارد، روابط بین متغیرها پیچیده است و رگرسیون میتواند به تحلیل این روابط کمک کند. - پیشبینی مخاطرات و احتمالات:
انواع مختلف الگوریتم ها، به ما امکان میدهد تا مدلهای پیشبینی مخاطرات و احتمالات را برای مسائل مانند بیمه و مالیات بررسی کنیم. به عبارت دیگر، میتوانیم احتمال وقوع رویدادها را بر اساس متغیرهای مختلف پیشبینی کنیم.
در کل، رگرسیون یک ابزار قدرتمند در یادگیری ماشین و تحلیل دادهها است که به تجزیه و تحلیل روابط و پیشبینی مقادیر عددی بسیار کمک میکند.
بیشتر بخوانید:
کاربرد هوش مصنوعی در مدیریت کسب و کار ها
مفهوم clustering و 6 کاربرد آن
هوش مصنوعی و بیش از ۱۰ کاربرد آن
۱۰ ابزار برتر داده کاوی در سال 2023
سوالات متداول:
رگرسیون در آمار چیست؟
رگرسیون یک تکنیک آماری است که برای بررسی و تحلیل رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار میرود. هدف اصلی رگرسیون، پیشبینی یا توصیف متغیر وابسته بر اساس متغیرهای مستقل میباشد. رگرسیون به ما این امکان را میدهد تا مدلهایی از روابط بین متغیرها ایجاد کنیم و از آن ها برای پیشبینی یا تحلیل دادههای جدید استفاده کنیم.
انواع مدل های رگرسیون چیست؟
رگرسیون مدل های متفائتی دارد اما پرکاربرد ترین آن ها عبارتند از:رگرسیون خطی، رگرسیون لجستیک، رگرسیون ستیغی یا ریج و رگرسیون لاسو .