مدت زمان تقریبی مطالعه: 5 دقیقه

مفهوم clustering و 6 کاربرد آن

Clustering یا کلاسترینگ یا خوشه بندی به تقسیم داده‌ها – اشیاء – در گروه‌هایی گفته می‌شود که تشابهات ِبین داده‌ها داخل هر دسته نسبت به دسته یا گروه دیگر بیشتر است. به این هر گروه یک کلاستر گفته می‌شود. بنابراین به طور اساسی، گروهی از اشیاء طبق تشابه و یا عدم تشابهی که نسبت به یکدیگر دارند گروه بندی می‌شوند. برای مثال داده‌ها در نمودار زیر که با هم خوشه‌ بندی شده‌اند را مشاهده می­کنید. همان­طور که می­بینید 3 خوشه وجود دارد.

clustering
clustering

اما در عین حال لزومی هم ندارد که خوشه‌ها دارای شکل خاصی – مانند مثال بالا – باشند، مانند دایره، بیضی یا … . مثلا به تصویر زیر نگاه کنید:

clustering
خوشه بندی

انواع ِClustering چیست؟

  • Hard Clustering: داده‌ها در این حالت می‌توانند به صورت کامل داخل یک خوشه باشند یا خیر، مثل حالت صفر و یک، یا بودن و نبودن.
  • Soft Clustering: در عوض ِقرار گرفتن هر نقطه داده در یک کلاستر به صورت مجزا (مانند Clustering سخت)، وجودِ آن نقطه در داخل یک دسته از کلاستر‌ها بدیهی است.

متد‌های Clustering

  • روش‌های مبتنی بر تراکم | Density-Based Methods: این روش‌ها، خوشه‌ها را به‌عنوان ناحیه متراکم در نظر می‌گیرند که دارای شباهت‌ها و تفاوت‌هایی با ناحیه متراکم هستند.
  • روش‌های مبتنی بر سلسله مراتب | Hierarchical Based Methods: خوشه‌های تشکیل شده در این روش ساختار درختی ِ سلسله مراتبی دارند و به دو شکل هستند: Agglomerative (رویکرد از پایین به بالا)، Divisive (رویکرد از بالا به پایین).
  • روش‌های پارتیشن بندی | Partitioning Methods: این روش اشیا را به k خوشه تقسیم می‌کند و هر پارتیشن یک خوشه را تشکیل می‌دهد.
  • روش‌های مبتنی بر گرید | Grid-based Methods: در این روش، فضای داده به تعداد محدودی سلول فرموله می‌شود که ساختار شبکه‌ای را تشکیل می‌دهد.

Clustering در یادگیری ماشین و هوش مصنوعی چیست؟

یکی از روش‌های یادگیری ماشین را روش یادگیری بدون ناظر یا بدون نظارت می‌دانیم. این روش، بدین شکل است که مجموعه‌ای از داده‌های فاقد برچسب خوشه بندی یا تجزیه و تحلیل می‌شوند،  در این روش انسان به عنوان ناظر دخالتی ندارد و الگوهای نهان به واسطه‌ی گروه‌های موجود در داده‌ها کشف می‌شوند. به طور کلی، از این روش (یا تکنیک) به عنوان فرآیندی برای پیدا کردن ساختار معنادار، توجیه فرآیندهای زیربنایی، ویژگی‌های مولد و گروه بندی‌های ذاتی در مجموعه‌ای از نمونه‌ها استفاده می‌شود.

توصیه می‌شود حتما برای کسب اطلاعات بیشتر در مورد یادگیری ماشین و هوش مصنوعی به وبلاگ نادین سافت مراجعه نمایید.

clustering
کاربردهای خوشه بندی

چرا Clustering؟

خوشه بندی اهمیت بسیار زیادی دارد زیرا گروه بندی بنیادین را برای داده‌های فاقد برچسب ممکن می‌کند. هیچ معیاری برای خوشه بندی خوب یا بد وجود ندارد. این به کاربر بستگی دارد که چه معیار‌هایی ممکن است به کار گرفته شود و نیاز او را برآورده کند. مثلا ما – به عنوان کاربر – می‌توانیم به یافتن نمایندگانی برای گروه‌های همگن در یافت خوشه‌های طبیعی و توصیف ویژگی‌های ناشناخته‌ی آنها (انواع داده‌های طبیعی) برای یافتن گروه‌های مفید (کلاسی از داده‌های مفید) علاقه داشته باشیم. یا در پیدا کردن اشیاء غیر عادی (تشخیص پرت). این الگوریتم باید فرضیه‌هایی را ایجاد کند که دارای پوینت یا هدف مشابه هستند و هر فرضیه، خوشه‌های متفاوت و معتبری را تولید نماید.

تفاوت clustering و classification در چیست؟

لازم به ذکر است که تفاوت clustering و classification در این است که classification یا دسته بندی برای ساخت یک مدل به کار برده می‌شود تا امکان پیش بینی یک داده جدید ممکن شود. اما در خوشه بندی داده ها به زیر مجموعه هایی تقسیم می‌شوند که با هم شباهت بیشتری دارند. خوشه بندی مخصوص بادگیری بدون ناظر و رده بندی (classification) مخصوص یادگیری با ناظر است. در تعلیم بدون ناظر، داده ها از قبل بدون برچسب هستند؛ درحالی که در یادگیری باناظر، این قضیه کاملا برعکس است.

clustering
تفاوت clustering و classification

کاربردهای خوشه بندی یا Clustering در زمینه‌های مختلف

  • بازاریابی: می‌توان از Clustering برای اهداف بازاریابی استفاده کرد.
  • زیست شناسی: برای طبقه بندی گونه‌های مختلف گیاهی و جانوری
  • کتابخانه‌ها: خوشه بندی کتاب‌های مختلف بر اساس موضوعات
  • بیمه: شناسایی مشتریان، سیاست‌های آنها و شناسایی کلاهبرداری‌ها
  • برنامه ریزی شهری: گروه بندی خانه‌ها و بررسی ارزش آنها بر اساس موقعیت جغرافیایی و سایر عوامل موجود
  • مطالعات زلزله: بررسی و تعیین مناطق زلزله زده برای اجتناب از سکونت در نزدیک آن مناطق جهت کاهش ریسک

سخن آخر

کاربرد‌های گسترده‌ی Clustering (برای گروه بندی کردن داده‌ها به عنوان فرآیندی برای پیدا کردن ساختار معنادار در یادگیری ماشین و هوش مصنوعی) مانند استفاده در موتور جستجو گوگل، فشرده کردن و کم کردن حجم داده‌ها، حریم خصوصی و نگهداری آن در سایت‌های پخش فیلم مانند یوتیوب و .. از جمله آشنا ترین شیوه‌ها به حساب می‌آیند.

منابع:

[1] https://itbaz.net/9523/what-is-clustering/

[2] https://www.geeksforgeeks.org/clustering-in-machine-learning/

[3] http://cafetadris.com/blog/یادگیری-بدون-ناظر-unsupervised-learning/

[4] https://virgool.io/@mostafa.amiri.62/دسته-بندیclassification-و-خوشه-بندیclustering-مفاهیم-و-تفاوت-ها-moyiwkk4tb2u

مقالات پیشنهادی