مدت زمان تقریبی مطالعه: 12 دقیقه

رگرسیون چیست؟ + معرفی انواع رگرسیون

برای واژه‌ی رگرسیون (regression) می‌توانید یک جمله را در ذهن خود برای همیشه ثبت کنید و آن هم، «تعیین رابطه بین متغیر‌هایی که به یکدیگر مرتبط هستند و متغیرهایی که ارتباطی به یکدیگر ندارند!» است که به متغیر‌های گروه اول «پاسخ» و به گروه دوم «پیشگو» می‌گوییم.

در این مقاله، ما به بررسی تحلیل رگرسیون به عنوان یک ابزار آماری مهم پرداخته و نحوه استفاده از آن در تفسیر روابط بین متغیرها را بیان خواهیم کرد. همچنین، ما به بررسی انواع مختلف تحلیل رگرسیون و مراحل اجرای آن خواهیم پرداخت، پس در ادامه ی این مطلب نادین سافت همراه ما باشید.

رگرسیون

رگرسیون چیست؟

رگرسیون یک تکنیک آماری است که برای بررسی و تحلیل رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار می‌رود. هدف اصلی رگرسیون، پیش‌بینی یا توصیف متغیر وابسته بر اساس متغیرهای مستقل می‌باشد. رگرسیون به ما این امکان را می‌دهد تا مدل‌هایی از روابط بین متغیرها ایجاد کنیم و از آن ها برای پیش‌بینی یا تحلیل داده‌های جدید استفاده کنیم.

در رگرسیون، متغیرهای توضیحی معمولاً با X و متغیر وابسته با Y نشان داده می شوند. رگرسیون بر اساس داده‌های مشاهده‌شده، رابطه‌ای ریاضی بین X و Y ایجاد میکند و بسته به مسئله ممکن است از یکی از انواع مختلف رگرسیون (مانند رگرسیون خطی، رگرسیون منطقی، رگرسیون غیرخطی و غیره) استفاده شود.

برای درک بهتر کاربرد آن، فرض کنید یک مدیر فروش هستید که سعی می کند فروش ماه آینده را پیش بینی کند. می‌دانید که ده‌ها، حتی صدها عامل، از آب و هوا گرفته تا پیشرفت رقیب، شایعه ها و اخبار روز می‌تواند بر فروش شما تأثیر بگذارد. اما سوال اصلی این است که کدام عوامل بیشترین اهمیت را دارند؟ کدام را می توانیم نادیده بگیریم؟ این عوامل چگونه با یکدیگر تعامل دارند؟ و شاید مهمتر از همه، چقدر در مورد تاثیر همه ی این عوامل مطمئن هستیم؟

چرا استفاده از رگرسیون مهم است؟

رگرسیون در مسائل مختلف، کاربرد های زیادی دارد. تحلیل رگرسیون علاوه بر اینکه به شما می گوید چه رابطه معناداری بین دو یا چند متغیر وجود دارد، می تواند جزئیات خاصی را در مورد آن رابطه ارائه دهد. به طور مثال، می تواند قدرت تاثیری که چندین متغیر بر روی یک متغیر وابسته خواهند داشت را تخمین بزند. به عنوان مثال، اگر مقدار یک متغیر مستقل (مثلاً قیمت) را تغییر دهید، رگرسیون به شما می گوید که چه تأثیری بر متغیر وابسته (فروش) خواهد داشت.

مراحل تحلیل رگرسیون چگونه است؟

مراحل تحلیل رگرسیون به شکل زیر است:

  1. جمع‌آوری داده‌ها:
    ابتدا باید داده‌های مورد نیاز برای تحلیل رگرسیون را جمع‌آوری کنید. این داده‌ها شامل متغیرهای توضیحی (مستقل) و متغیر وابسته (واکنشی) می‌شوند.
  2. ساخت مدل رگرسیون:
    مدل رگرسیون بر اساس داده‌های جمع‌آوری شده ایجاد می شود. این مدل به صورت یک تابع ریاضی نمایش داده می‌شود که متغیر وابسته را به متغیرهای توضیحی، مرتبط می‌کند.
  3. تخمین پارامترها:
    پس از ایجاد مدل، باید پارامترهای مدل را تخمین بزنید. این پارامترها معمولاً شامل ضرایب مدل (مانند b0 و b1 در مدل خطی) می‌شوند. برای تخمین این پارامترها از متغیرهای توضیحی و واکنشی داده‌ها، استفاده می‌شود.
  4. ارزیابی مدل:
    مدل رگرسیون باید ارزیابی شود تا مطمئن شوید که به درستی با داده‌ها، تطابق دارد. این ارزیابی با استفاده از معیارهای ارزیابی مناسبی مانند معیارهای خطا (مثل خطای میانگین مربعات) صورت می گیرد. هدف این مرحله بهبود مدل و تصمیم‌گیری در مورد انتخاب و یا بهینه‌سازی متغیرها می‌باشد.
  5. استفاده از مدل:
    پس از ارزیابی موفقیت مدل، می‌توانید از آن برای پیش‌بینی یا تحلیل داده‌های جدید استفاده کنید. با ورود مقادیر جدید متغیرهای توضیحی به مدل، می‌توانید مقدار متغیر وابسته را تخمین بزنید.

عملکرد رگرسیون به نوع مدل و تنظیمات مختلف، بستگی دارد. انتخاب مناسب مدل رگرسیون و ترتیب مراحل متناسب با مسئله تحلیلی مورد نظر، به بهبود دقت و قدرت پیش‌بینی مدل کمک می کند.

رگرسیون چیست؟

انواع رگریسون

انواع مختلفی از رگرسیون وجود دارد که بر اساس شرایط و ویژگی‌های مسئله، انتخاب می شوند. در پایین به تعدادی از کاربردی ترین مدل های رگرسیون اشاره می کنیم:

رگرسیون خطی

رگرسیون خطی (linear regression) را می‌توان ساده ­ترین نوع regression در نظر گرفت. رگرسیون خطی به دو دسته‌ی خطی ساده و خطی چندگانه تقسیم بندی می‌شود. در صورتی که داده ها شامل بیش از یک متغیر مستقل باشند، رگرسیون خطی را رگرسیون خطی چندگانه می نامند. این دو نوع، شامل یک ساختار کامل و وسیع هستند و نیازمندی‌های تعداد زیادی از تحلیل‌ها را پاسخ می‌دهند اما برای تحلیل داده های بزرگ (big data) مناسب نیست.

از معادله زیر برای نشان دادن مدل رگرسیون خطی استفاده می شود:

y=mx+c+e

که در آن m شیب خط، c نقطه شروع و e نشان دهنده خطا در مدل است.

نکته:مقادیر m و c باید به گونه ای انتخاب می شوند که حداقل خطای پیش بینی کننده را بدهند.

مدل رگرسیون خطی
نمودار رگرسیون خطی

می توان از رگرسیون خطی ساده برای تحلیل موارد زیر استفاده کرد:

  • برای یافتن شدت وابستگی بین دو متغیر، مانند رابطه میزان انتشار کربن دی اکسید و گرم شدن کره زمین.
  • برای یافتن مقدار متغیر وابسته از روی مقدار صریح متغیر مستقل

و از رگرسیون خطی چندگانه برای موارد زیر استفاده می شود:

  • تخمین اینکه دو یا چند متغیر مستقل تا چه حد بر متغیر وابسته تاثیر می گذارند. مانند بررسی تاثیر مکان، زمان، شرایط و مساحت بر قیمت ملک.
  • برای یافتن مقدار متغیرهای وابسته در شرایط معینی از همه متغیرهای مستقل. به عنوان مثال، یافتن قیمت ملکی که در یک مکان خاص، با یک منطقه خاص و وضعیت آن قرار دارد.

همانطور که بررسی کردیم، کاربرد‌های رگرسیون خطی ساده و چندگانه از جهاتی با یکدیگر کاملا متفاوت هستند. در نوع خطی باید تنها یک متغیر تحت عنوان «پیش بینی کننده» داشته باشیم. اما در نوع چندگانه با توجه به ضرورت مسئله، بیش از یک متغیر ِپیش بینی کننده داریم.

رگرسیون لجستیک (Logistic Regression)

لجستیک یکی از انواع تکنیک های تحلیل رگرسیون است و زمانی استفاده می شود که متغیر وابسته، گسسته باشد. مثلا 0 یا 1، درست یا نادرست، و غیره باشد. این به این معناست که متغیر هدف فقط می تواند دو مقدار داشته باشد. در این مدل یک منحنی سیگموئید نشان دهنده رابطه بین متغیر هدف و متغیر مستقل است.

تابع Logit در این مدل برای اندازه گیری رابطه بین متغیر هدف و متغیرهای مستقل استفاده می شود. در زیر معادله ی آن آمده است.

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk

در این معادله، p احتمال وقوع ویژگی است.

مدل رگرسیون لجستیک
رگرسیون لجستیک

نکته: باید توجه داشت که در این مدل اندازه داده ها بزرگ است و مقادیر تقریباً برابری در متغیرهای هدف وجود دارد.

رگرسیون ستیغی یا ریج (Ridge Regression)

این روش یکی دیگر از انواع رگرسیون در یادگیری ماشین (machine learning) است و معمولاً زمانی استفاده می شود، که همبستگی بالایی بین متغیرهای مستقل وجود داشته باشد. اینکار به این دلیل است که در مورد داده های چند خطی، حداقل مربعات تخمین ها مقادیر بی ارزشی را ارائه می کنند و در صورتی که همخطی بسیار زیاد باشد، ممکن است مقداری سوگیری وجود داشته باشد. بنابراین، یک ماتریس بایاس در معادله رگرسیون ریج معرفی شده است. این یک روش رگرسیون، یک روش قدرتمند است که در آن داده ها کمتر دچار overfitting می شوند.

معادله زیر که برای نشان دادن مدل ریج استفاده می شود:

β = (X^{T}X + λ*I)^{-1}X^{T}y

ریج رگرسیون
نمودار روش ستیغی یا ریج

رگرسیون لاسو (Lasso Regression)

رگرسیون لاسو (Lasso Regression) یک روش در تحلیل آماری و یادگیری ماشین است، که برای مدل‌سازی و انتخاب ویژگی‌ها در داده‌های پیچیده مفید است. نام “لاسو” از عبارت Least Absolute Shrinkage and Selection Operator گرفته شده و به معنای ترکیب کردن دو مفهوم “کاهش مطلق مینیموم” و “انتخاب ویژگی” است.

لاسو با استفاده از تابع هدف خود، تلاش می‌کند تا علاوه بر مدل‌سازی دقیق متغیر وابسته، ویژگی‌های مهم را در مدل انتخاب کند وآن ها را با تخصیص وزن‌های غیر صفر به آن‌ها شناسایی کند. این ویژگی انتخابی از لاسو می‌تواند به تسهیل تفسیر مدل و کاهش اهمیت ویژگی‌های غیرضروری کمک کند.

تابع هدف لاسو به صورت زیر تعریف می‌شود:

J(β) = 1/2m * Σ(yᵢ – β₀ – Σ(βⱼ * xᵢⱼ))² + λ * Σ|βⱼ

در این تابع، m تعداد نمونه‌ها، yᵢ مقدار واقعی متغیر وابسته برای نمونه i، متغیر βⱼ وزن‌های تخمینی برای ویژگی‌های مستقل xᵢⱼ است.

لاسو عمدتاً برای مقابله با مشکل “چند خطیتی” (Multicollinearity) در داده‌ها و انتخاب ویژگی‌ها در مسائل با متغیرهای مستقل، بسیار مفید است. این مسئله اغلب در مدل‌های رگرسیون با ویژگی‌های مرتبط یکدیگر رخ می‌دهد و لاسو به عنوان یک روش انتخاب ویژگی کمک می‌کند تا ویژگی‌های مهم انتخاب شوند و ویژگی‌های متقابل حذف شوند.

کاربردهای رگرسیون

رگرسیون در مسائل مختلف، کاربرد های زیادی دارد. از پیش بینی بازار های مالی، پیش بینی فروش و پیش بینی آب و هوا گرفته تا تست خودروها، همگی از کاربرد های مختلف رگرسیون به حساب می آید. از کاربرد های دیگر رگرسیون می توان به موارد زیر اشاره کرد:

تجزیه و تحلیل­ در کسب و کار ها

رگرسیون در تحلیل کسب و کار‌ها به عنوان یک ابزار تحلیلی و پیش‌بینی مفید است و در موارد مختلفی در دنیای تجارت و اقتصاد مورد استفاده قرار می‌گیرد. در زیر به برخی از کاربردهای رگرسیون در تحلیل کسب و کار‌ها اشاره شده است:

  1. پیش‌بینی فروش و درآمد:
    یکی از کاربردهای اصلی رگرسیون در تجارت، پیش‌بینی فروش و درآمد است. با استفاده از داده‌های گذشته مثل تبلیغات، قیمت محصول، شرایط اقتصادی و متغیرهای مشابه، می‌توانید مدل‌های رگرسیون بسازید که به شما کمک می‌کنند تا فروش و درآمد آینده را تخمین بزنید.
  2. تأثیر عوامل بازاریابی:
    در تجارت و بازاریابی، می‌توانید تأثیر عوامل بازاریابی مثل تبلیغات تلویزیونی، تبلیغات آنلاین، تخفیف‌ها و اقدامات تبلیغاتی دیگر را روی فروش و انتخاب مصرف کنندگان تحلیل کنید.
  3. پیش‌بینی موجودی و نیازمندی ها:
    در صنایع تولیدی، توزیع و خرده فروشی، Regression می‌تواند به شما کمک کند تا نیازمندی‌ها و میزان مواد مورد نیاز را بر اساس عواملی مانند تغییرات تقاضا، فصل‌ و شرایط اقتصادی پیش‌بینی کنید.
  4. تحلیل تأثیر متغیرهای محیطی:
    در تجارت، عوامل مختلفی مثل تغییرات اقتصادی، تغییرات قوانین و مقررات، تغییرات جمعیتی و اجتماعی و غیره باعث ایجاد تغییرات می شود. با استفاده از رگرسیون، می‌توانید تأثیر این متغیرها را بر روی کسب و کار خود بسنجید.
  5. تحلیل عوامل مؤثر در موفقیت کسب و کار:
    با استفاده از رگرسیون، می‌توانید عوامل مختلفی مثل تجربه تیم مدیریتی، تأمین مالی، ساختار سازمانی و غیره را برای تحلیل تاثیر آن در موفقیت یا عدم موفقیت کسب و کار خود در نظر بگیرید.

یادگیری ماشین (machine learning)

رگرسیون در یادگیری ماشین، یکی از الگوریتم‌های مهم و پرکاربرد است که برای مسائل پیش‌بینی و تحلیل داده‌ها استفاده می‌شود. در یادگیری ماشین، Regression به عنوان یک الگوریتم نظارتی (Supervised Learning) معرفی می‌شود و برای پیش‌بینی متغیر وابسته بر اساس متغیرهای مستقل استفاده می‌شود. در زیر تعدادی از کاربردهای رگرسیون در یادگیری ماشین را مشاهده می‌کنید:

  • پیش‌بینی مقادیر عددی:
    از رگرسیون برای پیش‌بینی مقادیر عددی متغیر وابسته مثل قیمت یک ملک بر اساس ویژگی‌هایی مانند مساحت، تعداد اتاق‌ها و موقعیت جغرافیایی استفاده می‌شود.
  • بررسی تأثیر عوامل مختلف:
    با استفاده از این الگوریتم، می توانیم تأثیر متغیرهای مستقل را بر روی متغیر وابسته مورد بررسی قرار دهیم. به عبارت دیگر، می‌توانیم بفهمیم کدام متغیرها بیشترین تأثیر را بر روی نتایج دارند.
  • تحلیل روابط پیچیده:
    در برخی موارد، روابط بین متغیرها پیچیده است و رگرسیون می‌تواند به تحلیل این روابط کمک کند.
  • پیش‌بینی مخاطرات و احتمالات:
    انواع مختلف الگوریتم ها، به ما امکان می‌دهد تا مدل‌های پیش‌بینی مخاطرات و احتمالات را برای مسائل مانند بیمه و مالیات بررسی کنیم. به عبارت دیگر، می‌توانیم احتمال وقوع رویدادها را بر اساس متغیرهای مختلف پیش‌بینی کنیم.

در کل، رگرسیون یک ابزار قدرتمند در یادگیری ماشین و تحلیل داده‌ها است که به تجزیه و تحلیل روابط و پیش‌بینی مقادیر عددی بسیار کمک می‌کند.

بیشتر بخوانید:

کاربرد هوش مصنوعی در مدیریت کسب و کار ها

مفهوم clustering و 6 کاربرد آن

هوش مصنوعی و بیش از ۱۰ کاربرد آن

۱۰ ابزار برتر داده کاوی در سال 2023

سوالات متداول:

رگرسیون در آمار چیست؟

رگرسیون یک تکنیک آماری است که برای بررسی و تحلیل رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار می‌رود. هدف اصلی رگرسیون، پیش‌بینی یا توصیف متغیر وابسته بر اساس متغیرهای مستقل می‌باشد. رگرسیون به ما این امکان را می‌دهد تا مدل‌هایی از روابط بین متغیرها ایجاد کنیم و از آن ها برای پیش‌بینی یا تحلیل داده‌های جدید استفاده کنیم.

انواع مدل های رگرسیون چیست؟

رگرسیون مدل های متفائتی دارد اما پرکاربرد ترین آن ها عبارتند از:رگرسیون خطی، رگرسیون لجستیک، رگرسیون ستیغی یا ریج و رگرسیون لاسو .

مقالات پیشنهادی